JP5826582B2 - Sound source direction estimation method, sound source direction estimation device, and sound source estimation image creation device - Google Patents

Sound source direction estimation method, sound source direction estimation device, and sound source estimation image creation device Download PDF

Info

Publication number
JP5826582B2
JP5826582B2 JP2011226020A JP2011226020A JP5826582B2 JP 5826582 B2 JP5826582 B2 JP 5826582B2 JP 2011226020 A JP2011226020 A JP 2011226020A JP 2011226020 A JP2011226020 A JP 2011226020A JP 5826582 B2 JP5826582 B2 JP 5826582B2
Authority
JP
Japan
Prior art keywords
sound
microphone
sound source
microphones
cross spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011226020A
Other languages
Japanese (ja)
Other versions
JP2013088141A (en
Inventor
大脇 雅直
雅直 大脇
財満 健史
健史 財満
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kumagai Gumi Co Ltd
Original Assignee
Kumagai Gumi Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kumagai Gumi Co Ltd filed Critical Kumagai Gumi Co Ltd
Priority to JP2011226020A priority Critical patent/JP5826582B2/en
Publication of JP2013088141A publication Critical patent/JP2013088141A/en
Application granted granted Critical
Publication of JP5826582B2 publication Critical patent/JP5826582B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Description

本発明は、複数のマイクロフォンで採取した音の情報から音源方向を推定する方法とその装置、及び、マイクロフォンで採取した音の情報と撮影手段で撮影した映像の情報とを用いて、音源を推定するための画像を作成する装置に関するものである。   The present invention relates to a method and apparatus for estimating a sound source direction from sound information collected by a plurality of microphones, and to estimate a sound source using sound information collected by a microphone and video information photographed by a photographing means. The present invention relates to an apparatus for creating an image to be used.

従来、音の到来方向である音源方向を推定する方法としては、多数のマイクロフォンを等間隔に配置したマイクロフォンアレーを構成し、基準となるマイクロフォンで採取された音圧信号と各マイクロフォンで採取された音圧信号との位相差から音源方向を推定する、いわゆる音響学的手法が考案されている(例えば、非特許文献1参照)。
一方、マイクロフォンアレーを構成する複数のマイクロフォンの出力信号の位相差からではなく、複数のマイクロフォンにより互いに交わる直線状に配置された複数のマイクロフォン対を構成し、対となる2つのマイクロフォン間の位相差に相当する到達時間差と、他の対となる2つのマイクロフォン間の到達時間差との比から音源の方向を推定する方法が提案されている(例えば、特許文献1〜3参照)。
Conventionally, as a method of estimating the sound source direction that is the direction of sound arrival, a microphone array in which a large number of microphones are arranged at equal intervals is configured, and a sound pressure signal collected by a reference microphone and each microphone are collected. A so-called acoustic technique has been devised that estimates the sound source direction from the phase difference with the sound pressure signal (see, for example, Non-Patent Document 1).
On the other hand, not a phase difference between output signals of a plurality of microphones constituting a microphone array, but a plurality of microphone pairs arranged in a straight line intersecting each other by a plurality of microphones, and a phase difference between two paired microphones There has been proposed a method for estimating the direction of a sound source from the ratio of the arrival time difference corresponding to the above and the arrival time difference between two other paired microphones (see, for example, Patent Documents 1 to 3).

具体的には、図6に示すように、4個のマイクロフォンM1〜M4を、互いに直交する2直線上にそれぞれ所定の間隔で配置された2組のマイクロフォン対(M1,M3)及びマイクロフォン対(M2,M4)を構成するように配置し、前記マイクロフォン対(M1,M3)を構成するマイクロフォンM1,M3に入力する音の到達時間差D13と、前記マイクロフォン対(M2,M4)を構成するマイクロフォンM2,M4に入力する音の到達時間差D24との比から、計測点と音源の位置との水平角θを推定するとともに、前記マイクロフォンM1〜M4の作る平面上にない位置に第5のマイクロフォンM5を配置して4組のマイクロフォン対(M5, M1),(M5, M2),(M5, M3),(M5, M4)を構成し、前記各マイクロフォン対を構成するマイクロフォンで採取した音の到達時間差D13,D24及びD5j(j=1〜4)から、計測点と音源の位置との成す仰角φを推定する。
なお、前記到達時間差Dijは、2つのマイクロフォン対(M,M)に入力される信号をA/D変換した音圧波形データをそれぞれ高速フーリエ変換し、この高速フーリエ変換された音圧波形データのクロススペクトルを求め、更に、対象とする周波数fの位相角情報を用いて算出される。
また、計測点から測った音源方向は、前記水平角θと前記仰角φとにより表わせる。
Specifically, as shown in FIG. 6, two microphone pairs (M1, M3) and microphone pairs (four microphones M1 to M4) are arranged at predetermined intervals on two straight lines orthogonal to each other. M2, M4) arranged so as to constitute a microphone constituting the arrival time difference D 13 of the sound input to the microphone M1, M3 constituting the microphone pair (M1, M3), said microphone pairs (M2, M4) The horizontal angle θ between the measurement point and the position of the sound source is estimated from the ratio with the arrival time difference D 24 of the sound input to M2 and M4, and the fifth microphone is located at a position not on the plane formed by the microphones M1 to M4. M5 is arranged to constitute four pairs of microphones (M5, M1), (M5, M2), (M5, M3), (M5, M4). The elevation angle φ formed by the measurement point and the position of the sound source is estimated from the arrival time differences D 13 , D 24 and D 5j (j = 1 to 4) of the sounds collected by the microphones constituting the pair.
The arrival time difference D ij is obtained by subjecting sound pressure waveform data obtained by A / D conversion of signals input to the two microphone pairs (M i , M j ) to fast Fourier transform, respectively. The cross spectrum of the waveform data is obtained and further calculated using the phase angle information of the target frequency f.
The sound source direction measured from the measurement point can be expressed by the horizontal angle θ and the elevation angle φ.

これにより、マイクロフォンアレーを用いて音源方向を推定する場合に比較して、少ないマイクロフォン数で音源方向を正確に推定することができる。
また、このとき、CCDカメラ等の映像採取手段を設けて前記推定された音源方向の画像を撮影し、この画像データと音源方向のデータとを合成して、画像中に前記推定した音源方向(θ,φ)と音圧レベルとを図形で表示した音源推定用画像をディスプレイ等の表示画面に表示するようにすれば、音源を視覚的に把握することができる。
また、音の採取と同時に映像採取手段にて映像を連続的に撮影し、音の情報である音圧波形データと映像の情報である画像データとをコンピュータのハードディスクに保存しておき、音の情報と映像の情報との採取後に、ハードディスクから音圧波形データを取出して音源方向を推定するとともに、この音源方向の推定計算に使用した音圧波形データに対応する画像データをハードディスクから取出し、この画像データと音源方向のデータとを合成して音源推定用画像を表示する方法も行われている。
Thereby, compared with the case where the sound source direction is estimated using the microphone array, the sound source direction can be accurately estimated with a small number of microphones.
Further, at this time, a video sampling means such as a CCD camera is provided to take an image of the estimated sound source direction, and the image data and the sound source direction data are combined to generate the estimated sound source direction ( If the sound source estimation image in which θ, φ) and the sound pressure level are graphically displayed is displayed on a display screen such as a display, the sound source can be visually grasped.
Simultaneously with the sound collection, the image collection means continuously shoots the image, and the sound pressure waveform data that is the sound information and the image data that is the image information are stored in the hard disk of the computer. After collecting information and video information, the sound pressure waveform data is extracted from the hard disk to estimate the sound source direction, and the image data corresponding to the sound pressure waveform data used for the calculation of the sound source direction is extracted from the hard disk. A method of displaying a sound source estimation image by combining image data and sound source direction data is also performed.

特開2002−181913号公報Japanese Patent Laid-Open No. 2002-181913 特開2006−324895号公報JP 2006-324895 A 特開2008−224259号公報JP 2008-224259 A

大賀寿郎,山崎芳男,金田豊;音響システムとディジタル処理,コロナ社,1995Toshiro Oga, Yoshio Yamazaki, Yutaka Kaneda; Acoustic system and digital processing, Corona, 1995

前記従来の方法では、音源の方向と到来した音の大きさを周波数毎に計測できるので、音源の情報を確実に把握することができるものの、反射音の大きい場においては、直接音と反射音とを区別するための演算処理が必要であった。
また、音源方向の解析区間が0.1〜1.0sec.と長いため、周期の短い衝撃音を的確に捉えることが困難であった。
In the conventional method, the direction of the sound source and the magnitude of the incoming sound can be measured for each frequency, so that the information on the sound source can be reliably grasped. It is necessary to perform arithmetic processing to distinguish the
Also, the sound source direction analysis interval is 0.1 to 1.0 sec. For this reason, it was difficult to accurately capture impact sounds with a short period.

本発明は、従来の問題点に鑑みてなされたもので、反射音の大きい場であっても直接音の音源方向を容易にかつ精度よく推定することができるとともに、衝撃音についても的確に抽出することのできる方法とその装置を提供することを目的とする。   The present invention has been made in view of the conventional problems, and can easily and accurately estimate the direction of the sound source of a direct sound even when the reflected sound is large, and can accurately extract the impact sound. It is an object of the present invention to provide a method and an apparatus that can be used.

本願発明者らは、鋭意検討の結果、クロススペクトルを求める際に、解析区間の長さ(入力信号に掛けられる窓関数の窓の幅)を短くして周波数分解能を低くした極短時間高速フーリエ変換を多数回行ってそれぞれクロススペクトルを求め、これら求められた多数回のクロススペクトルを加重平均した加重平均クロススペクトルから重心的な位相差(到達時間差)を算出するようにすれば、直接音の音源方向を精度良く推定することができることを見出し、本発明に到ったものである。
すなわち、本願の請求項1に記載の発明は、複数のマイクロフォンで採取した音の音圧信号から音源の方向を推定する方法であって、互いに交わる2つの直線上にそれぞれ所定の間隔で配置された第1及び第2のマイクロフォン対を用いて到来した音の音圧信号を採取するステップと、前記第1のマイクロフォン対を構成するマイクロフォンM1,M3で採取された音圧信号と第2のマイクロフォン対を構成するマイクロフォンM2,M4で採取された音圧信号とをそれぞれA/D変換して前記4つのマイクロフォンM1〜M4で採取された音の音圧波形データをそれぞれ求めるステップと、前記各音圧波形データを高速フーリエ変換するステップと、前記高速フーリエ変換された前記マイクロフォンM1,M3の音圧波形データのクロススペクトルと前記マイクロフォンM2,M4の音圧波形データのクロススペクトルとを求めてマイクロフォンM1,M3間の音の到達時間差D13と前記マイクロフォンM2,M4間の音の到達時間差D24をそれぞれ算出するステップと、前記算出された第1のマイクロフォン対における到達時間差D13と第2のマイクロフォン対における到達時間差D24とから前記到来した音の音源方向を推定するステップと、を備え、前記高速フーリエ変換するステップでは、解析区間の長さが0.1msec.〜10msec.である極短時間高速フーリエ変換を連続して多数回行うか、もしくは、前記解析区間の一部を重複させて多数回行い、前記到達時間差を算出するステップは、前記極短時間高速フーリエ変換の操作毎にそれぞれ求められたクロススペクトルの振幅値を求めるステップと、前記極短時間高速フーリエ変換の操作毎にそれぞれ求められたクロススペクトルを、前記振幅値より加重平均した加重平均クロススペクトルを求めるステップと、前記加重平均クロススペクトルから前記各マイクロフォン間の音の到達時間差D13,D24を算出するステップと、を備えることを特徴とする。
このように、極短時間解析を多数回行い、これら多数回のクロススペクトルの平均を振幅値による加重平均により求めて到達時間差を算出することにより、反射音やノイズ成分を低減するようにしたので、反射が大きい場においても、衝撃音などの直接音を確実に捉えることができるとともに、連続音についても音源方向を精度よく推定することができる。
As a result of intensive studies, the inventors of the present application have obtained a very short time fast Fourier in which the frequency resolution is reduced by shortening the length of the analysis section (the width of the window of the window function applied to the input signal) when obtaining the cross spectrum. If the cross spectrum is obtained by performing the conversion many times, and the centroidal phase difference (arrival time difference) is calculated from the weighted average cross spectrum obtained by weighted averaging of the obtained multiple cross spectra, the direct sound The present inventors have found that the direction of a sound source can be estimated with high accuracy and have arrived at the present invention.
That is, the invention according to claim 1 of the present application is a method for estimating the direction of a sound source from sound pressure signals of sounds collected by a plurality of microphones, and is arranged on each of two straight lines intersecting each other at predetermined intervals. A step of collecting the sound pressure signal of the incoming sound using the first and second microphone pairs, and the sound pressure signal and the second microphone collected by the microphones M1 and M3 constituting the first microphone pair. A / D conversion is performed on the sound pressure signals collected by the microphones M2 and M4 constituting the pair to obtain sound pressure waveform data of the sounds collected by the four microphones M1 to M4, respectively, A step of fast Fourier transforming the pressure waveform data; and a cross-slice of the sound pressure waveform data of the microphones M1 and M3 subjected to the fast Fourier transform. Step wherein a vector seeking cross spectrum of the sound pressure waveform data of the microphone M2, M4 calculates microphones M1, M3 between the arrival time difference D 13 sounds the microphone M2, M4 between the arrival time difference D 24 sounds respectively And estimating the sound source direction of the incoming sound from the calculated arrival time difference D 13 in the first microphone pair and the arrival time difference D 24 in the second microphone pair, and performing the fast Fourier transform In the step, the length of the analysis section is 0.1 msec. -10 msec. The step of calculating the arrival time difference by performing the very short time fast Fourier transform a number of times in succession or performing a number of times by overlapping a part of the analysis section, A step of obtaining an amplitude value of a cross spectrum obtained for each operation, and a step of obtaining a weighted average cross spectrum obtained by performing a weighted average of the cross spectrum obtained for each operation of the ultrashort-time fast Fourier transform from the amplitude value. And calculating the sound arrival time differences D 13 and D 24 between the microphones from the weighted average cross spectrum.
As described above, the analysis of the short time analysis was performed many times, and the average of these multiple cross spectra was obtained by the weighted average based on the amplitude value to calculate the arrival time difference, thereby reducing the reflected sound and noise components. Even in a highly reflective field, a direct sound such as an impact sound can be reliably captured, and a sound source direction can be accurately estimated for a continuous sound.

請求項2に記載の発明は、請求項1に記載の音源方向推定方法であって、前記4つのマイクロフォンM1〜M4に加えて、前記2組のマイクロフォン対の作る平面上にない第5のマイクロフォンM5を設けて到来した音の音圧信号を採取するとともに、前記到達時間差を算出するステップは、前記2組のマイクロフォン対を構成するマイクロフォンM1,M3間及びマイクロフォンM2,M4間の到達時間差D13,D24と、前記第5のマイクロフォンM5と前記4つのマイクロフォンM1〜M4のそれぞれとで構成される4組のマイクロフォン対を構成するマイクロフォン間の到達時間差D51〜D54を算出し、前記音源方向を推定するステップでは、前記算出された到達時間差D13,D24,D51〜D54を用いて前記到来した音の音源方向を推定することを特徴とする。
これにより、計測点から見た音源方向の水平角θに加えて、仰角φについても推定できるので、音源方向の推定精度を向上させることができる。
The invention according to claim 2 is the sound source direction estimating method according to claim 1, wherein, in addition to the four microphones M1 to M4, a fifth microphone that is not on a plane formed by the two pairs of microphones. The step of collecting the sound pressure signal of the incoming sound by providing M5 and calculating the arrival time difference includes the arrival time difference D 13 between the microphones M1, M3 and the microphones M2, M4 constituting the two pairs of microphones. , and D 24, and calculates an arrival time difference D 51 to D 54 between microphones constituting the four sets of microphones pair composed of the respective said fifth microphone M5 of the four microphones M1 to M4, the sound source in the step of estimating a direction, a sound source direction of the incoming sound with the calculated arrival time difference D 13, D 24, D 51 ~D 54 Characterized in that it estimated.
Thus, since the elevation angle φ can be estimated in addition to the horizontal angle θ of the sound source direction viewed from the measurement point, the estimation accuracy of the sound source direction can be improved.

請求項3に記載の発明は、互いに交わる2つの直線上にそれぞれ所定の間隔で配置された第1及び第2のマイクロフォン対と前記2組のマイクロフォン対の作る平面上にない第5のマイクロフォンとを有する音採取手段を備え、前記音採取手段で採取した音の音圧信号から、音源の方向を推定する音源方向推定装置であって、前記各マイクロフォンで採取した音圧信号をそれぞれデジタル信号に変換するA/D変換器と、前記デジタル信号に変換された音圧信号である音圧波形データを高速フーリエ変換する高速フーリエ変換器と、
前記高速フーリエ変換された音圧波形データのうちの前記第1のマイクロフォン対を構成する2つのマイクロフォンで採取された音の音圧波形データのクロススペクトルと、前記第2のマイクロフォン対を構成する2つのマイクロフォンで採取された音の音圧波形データのクロススペクトルと、前記第5のマイクロフォンと前記第1及び第2のマイクロフォン対を構成する4つのマイクロフォンのそれぞれで採取された音の音圧波形データとのクロススペクトルとを演算するクロススペクトル演算手段と、前記クロススペクトルから前記第1及び第2のマイクロフォン対をそれぞれ構成するマイクロフォン間の音の到達時間差D13,D24と前記第5のマイクロフォンと前記2組のマイクロフォン対を構成する4個のマイクロフォン間の音の到達時間差D51〜D54とを算出する到達時間差算出手段と、前記算出された到達時間差D13,D24,D51〜D54を用いて音源方向を推定する音源方向推定手段とを備え、前記高速フーリエ変換器は、解析区間の長さが0.1msec.〜10msec.である極短時間高速フーリエ変換を連続して多数回行うか、もしくは、前記解析区間の一部を重複させて多数回行い、前記クロススペクトル演算手段は、前記極短時間高速フーリエ変換の操作毎にそれぞれ求められたクロススペクトルの振幅値を求めるとともに、前記極短時間高速フーリエ変換の操作毎にそれぞれ求められたクロススペクトルを、前記振幅値より加重平均した加重平均クロススペクトルを求め、前記到達時間差算出手段は、前記加重平均クロススペクトルから前記各マイクロフォン間の音の到達時間差D13,D24,D51〜D54を算出することを特徴とする。
このような構成を採ることにより、短時間高速フーリエ変換した音圧波形データの加重平均クロススペクトルを確実に求めることができるので、直接音の音源方向を精度良く推定することができる音源方向推定装置を得ることができる。
According to a third aspect of the present invention, there are provided a first microphone pair and a second microphone pair disposed at predetermined intervals on two straight lines that intersect with each other, and a fifth microphone that is not on a plane formed by the two microphone pairs. A sound source direction estimating device for estimating the direction of the sound source from the sound pressure signal of the sound collected by the sound collecting means, wherein each sound pressure signal collected by each microphone is converted into a digital signal. An A / D converter for converting, a fast Fourier transformer for fast Fourier transforming sound pressure waveform data, which is a sound pressure signal converted into the digital signal,
Among the sound pressure waveform data subjected to the fast Fourier transform, a cross spectrum of sound pressure waveform data of sound collected by two microphones constituting the first microphone pair and 2 constituting the second microphone pair Cross spectrum of sound pressure waveform data of sound collected by one microphone, and sound pressure waveform data of sound collected by each of the fifth microphone and the four microphones constituting the first and second microphone pairs cross spectrum and the cross-spectrum calculation means for calculating a time of arrival difference D 13, D 24 of the sound between the microphones respectively constituting the first and second microphone pair from the cross-spectral and the fifth microphone and The arrival of sound between the four microphones constituting the two microphone pairs And the arrival time difference calculating means for calculating a reach time difference D 51 to D 54, and a sound source direction estimating means for estimating the sound source direction using the arrival time the calculated difference D 13, D 24, D 51 ~D 54, The fast Fourier transformer has an analysis section length of 0.1 msec. -10 msec. The ultra-short-time fast Fourier transform is continuously performed many times, or a part of the analysis section is overlapped many times, and the cross spectrum calculation means is operated for each operation of the ultra-short-time fast Fourier transform. And calculating a weighted average cross spectrum obtained by weighted averaging the cross spectrum obtained for each operation of the extremely short time fast Fourier transform from the amplitude value. The calculating means calculates the arrival time differences D 13 , D 24 , D 51 to D 54 between the microphones from the weighted average cross spectrum.
By adopting such a configuration, a weighted average cross spectrum of sound pressure waveform data subjected to short-time fast Fourier transform can be obtained reliably, so that a sound source direction estimating device that can accurately estimate the sound source direction of a direct sound Can be obtained.

また、請求項4に記載の発明は、互いに交わる2つの直線上にそれぞれ所定の間隔で配置された第1及び第2のマイクロフォン対と前記2組のマイクロフォン対の作る平面上にない第5のマイクロフォンとを備えた音採取手段と音源方向の映像を撮影する撮影手段とを備え、前記音採取手段で採取した音源から伝播される音の音圧信号と前記音圧信号と前記撮影手段で撮影された音源の方向の映像信号とから、音源の方向を示す図形が描画された画像である音源推定用画像を作成する音源推定用画像の作成装置であって、前記各マイクロフォンで採取した音圧信号と撮影手段で撮影した映像信号とをそれぞれデジタル信号に変換するA/D変換器と、前記デジタル信号に変換された音圧信号である音圧波形データをそれぞれ高速フーリエ変換する高速フーリエ変換器と、前記高速フーリエ変換された音圧波形データのうちの前記第1のマイクロフォン対を構成する2つのマイクロフォンで採取された音の音圧波形データのクロススペクトルと、前記第2のマイクロフォン対を構成する2つのマイクロフォンで採取された音の音圧波形データのクロススペクトルと、前記第5のマイクロフォンと前記第1及び第2のマイクロフォン対を構成する4つのマイクロフォンのそれぞれで採取された音の音圧波形データとのクロススペクトルとを演算するクロススペクトル演算手段と、前記クロススペクトルから前記第1及び第2のマイクロフォン対をそれぞれ構成するマイクロフォン間の音の到達時間差D13,D24と前記第5のマイクロフォンと前記2組のマイクロフォン対を構成する4個のマイクロフォン間の音の到達時間差D51〜D54とを算出する到達時間差算出手段と、前記算出された到達時間差D13,D24,D51〜D54を用いて音源方向を推定する音源方向推定手段と、前記推定された音源方向のデータと前記デジタル信号に変換された映像信号である画像データとを合成して、前記推定された音源方向を示す図形が描画された画像である音源推定用画像を作成する音源推定用画像作成手段とを備え、前記高速フーリエ変換器は、解析区間の長さが0.1msec.〜10msec.である極短時間高速フーリエ変換を連続して多数回行うか、もしくは、前記解析区間の一部を重複させて多数回行い、前記クロススペクトル演算手段は、前記極短時間高速フーリエ変換の操作毎にそれぞれ求められたクロススペクトルの振幅値を求めるとともに、前記極短時間高速フーリエ変換の操作毎にそれぞれ求められたクロススペクトルを、前記振幅値より加重平均した加重平均クロススペクトルを求め、前記到達時間差算出手段は、前記加重平均クロススペクトルから前記各マイクロフォン間の音の到達時間差D13,D24,D51〜D54を算出することを特徴とする。
このような構成を採ることにより、直接音の音源方向を精度良く推定することができるとともに、音源を推定するための音源推定用画像を容易に作成することができる。
また、請求項5に記載の発明は、請求項4に記載の音源推定用画像の作成装置において、前記作成された音源推定用画像を表示する表示画面を有する表示手段を備えたことを特徴とする。
これにより、表示手段の表示画面状に音源推定用画像を表示できるので、作業者が音源を容易に視認することができる。
According to a fourth aspect of the present invention, there is provided a fifth embodiment in which the first and second microphone pairs disposed at predetermined intervals on two straight lines that intersect with each other and the plane formed by the two microphone pairs are not on the fifth plane. A sound collecting means including a microphone and a photographing means for photographing a sound source direction image, and a sound pressure signal of the sound propagated from the sound source collected by the sound collecting means, the sound pressure signal, and the photographing means. A sound source estimation image creating apparatus that creates a sound source estimation image that is an image in which a graphic showing a direction of a sound source is drawn from a video signal in a direction of the sound source, and the sound pressure collected by each microphone An A / D converter that converts a signal and a video signal captured by a photographing means into digital signals, and a fast Fourier transform of sound pressure waveform data that is a sound pressure signal converted into the digital signals, respectively A fast Fourier transformer, a cross spectrum of sound pressure waveform data of sound collected by two microphones constituting the first microphone pair of the sound pressure waveform data subjected to the fast Fourier transform, and the second Of the sound pressure waveform data of the sound collected by the two microphones constituting the microphone pair, and each of the four microphones constituting the fifth microphone and the first and second microphone pairs. The cross spectrum calculation means for calculating the cross spectrum of the sound pressure waveform data of the sound and the sound arrival time differences D 13 and D 24 between the microphones constituting the first and second microphone pairs from the cross spectrum, respectively. And the fifth microphone and the four microphones constituting the two pairs of microphones And the arrival time difference calculating means for calculating an arrival time difference D 51 to D 54 of the sound between the microphones, the sound source direction estimation for estimating the sound source direction using the arrival time the calculated difference D 13, D 24, D 51 ~D 54 Means for synthesizing the estimated sound source direction data and the image data which is the video signal converted into the digital signal, and is a sound source estimation image which is an image in which a figure showing the estimated sound source direction is drawn Sound source estimation image creating means for creating an image, wherein the fast Fourier transformer has an analysis section length of 0.1 msec. -10 msec. The ultra-short-time fast Fourier transform is continuously performed many times, or a part of the analysis section is overlapped many times, and the cross spectrum calculation means is operated for each operation of the ultra-short-time fast Fourier transform. And calculating a weighted average cross spectrum obtained by weighted averaging the cross spectrum obtained for each operation of the extremely short time fast Fourier transform from the amplitude value. The calculating means calculates the arrival time differences D 13 , D 24 , D 51 to D 54 between the microphones from the weighted average cross spectrum.
By adopting such a configuration, the sound source direction of the direct sound can be estimated with high accuracy, and a sound source estimation image for estimating the sound source can be easily created.
Further, the invention described in claim 5 is the sound source estimation image creating apparatus according to claim 4, further comprising display means having a display screen for displaying the created sound source estimation image. To do.
Thereby, since the sound source estimation image can be displayed on the display screen of the display means, the operator can easily visually recognize the sound source.

なお、前記発明の概要は、本発明の必要な全ての特徴を列挙したものではなく、これらの特徴群のサブコンビネーションもまた、発明となり得る。   The summary of the invention does not list all necessary features of the present invention, and sub-combinations of these feature groups can also be the invention.

本発明の実施の形態に係る音源推定用画像表示システムの構成を示す機能ブロック図である。It is a functional block diagram which shows the structure of the image display system for sound source estimation which concerns on embodiment of this invention. 本実施の形態に係る音源推定用画像表示システムを用いた音源推定用画像の表示方法を示すフローチャートである。It is a flowchart which shows the display method of the image for sound source estimation using the image display system for sound source estimation which concerns on this Embodiment. 極短時間高速フーリエ変換を説明するための図である。It is a figure for demonstrating very short time fast Fourier transform. 本発明による音源推定用画像の一例を示す図である。It is a figure which shows an example of the image for sound source estimation by this invention. 従来の音源推定用画像の一例を示す図である。It is a figure which shows an example of the conventional image for sound source estimation. 従来のマイクロフォン対を用いた音源探査方法におけるマイクロフォンの配列を示す図である。It is a figure which shows the arrangement | sequence of the microphone in the sound source search method using the conventional microphone pair.

以下、実施の形態を通じて本発明を詳説するが、以下の実施の形態は特許請求の範囲に係る発明を限定するものでなく、また、実施の形態の中で説明される特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。   Hereinafter, the present invention will be described in detail through embodiments, but the following embodiments do not limit the invention according to the claims, and all combinations of features described in the embodiments are included. It is not necessarily essential for the solution of the invention.

図1は音源推定用画像表示システムの構成を示す機能ブロック図である。
音源推定用画像表示システムは、音・映像採取ユニット10とデータ処理装置20と演算置30と表示装置40と記憶装置50とを備える。
データ処理装置20は、増幅器21と、A/D変換器22と、映像入出力手段23とを備える。
演算装置30は、バッファ31と、音圧波形データ抽出手段32と、クロススペクトル演算手段33と、到達時間差算出手段34と、音源方向推定手段35と、画像データ抽出手段36と、音源推定用画像作成手段37とを備える。この演算装置30は、例えば、パーソナルコンピュータのソフトウェアにより構成される。
表示装置40は、後述する音源位置を推定するための画像である音源位置推定画像を表示する表示画面40Mを備える。
記憶装置50は、例えば、パーソナルコンピュータのハードディスクなどから構成されるメモリーである。
FIG. 1 is a functional block diagram showing a configuration of a sound source estimation image display system.
The sound source estimation image display system includes a sound / video sampling unit 10, a data processing device 20, a calculation device 30, a display device 40, and a storage device 50.
The data processing device 20 includes an amplifier 21, an A / D converter 22, and a video input / output unit 23.
The calculation device 30 includes a buffer 31, sound pressure waveform data extraction means 32, cross spectrum calculation means 33, arrival time difference calculation means 34, sound source direction estimation means 35, image data extraction means 36, and sound source estimation image. Creating means 37. The arithmetic device 30 is configured by software of a personal computer, for example.
The display device 40 includes a display screen 40M that displays a sound source position estimation image that is an image for estimating a sound source position, which will be described later.
The storage device 50 is a memory composed of, for example, a hard disk of a personal computer.

音・映像採取ユニット10は、音採取手段11と、映像採取手段としてのCCDカメラ(以下、カメラという)12と、マイクロフォン固定部13と、カメラ支持台14と、支柱15と、基台16とを備える。
音採取手段11は複数のマイクロフォンM1〜M5を備える。
マイクロフォンM1〜M5の配置は、図6に示したものと同様で、4個のマイクロフォンM1〜M4を、互いに直交する2直線上にそれぞれ所定の間隔で配置された2組のマイクロフォン対(M1,M3)及びマイクロフォン対(M2,M4)を構成するように配置するとともに、第5のマイクロフォンM5を前記マイクロフォンM1〜M4の作る平面上にない位置、詳細には、マイクロフォンM1〜M4の作る正方形を底面とする四角錐の頂点の位置に配置する。これにより、更に4組のマイクロフォン対(M5, M1)〜(M5, M4)が構成される。
本例では、カメラ12の撮影方向を、前記直交する2直線の交点を通り前記2直線とほぼ45°をなす方向に設定している。したがって、音・映像採取ユニット10の向きは、図1の白抜きの矢印Dの方向となる。カメラ12は、音・映像採取ユニット10の向きに応じた映像を採取する。
The sound / video collection unit 10 includes a sound collection unit 11, a CCD camera (hereinafter referred to as a camera) 12, a microphone fixing unit 13, a camera support base 14, a support column 15, and a base 16 as a video collection unit. Is provided.
The sound collection means 11 includes a plurality of microphones M1 to M5.
The arrangement of the microphones M1 to M5 is the same as that shown in FIG. 6, and two microphone pairs (M1, M1) are arranged with four microphones M1 to M4 arranged at predetermined intervals on two straight lines orthogonal to each other. M5) and the microphone pair (M2, M4) are arranged so that the fifth microphone M5 is not on the plane formed by the microphones M1 to M4. Specifically, a square formed by the microphones M1 to M4 is formed. It arranges at the position of the apex of the quadrangular pyramid as the bottom. Thereby, four pairs of microphones (M5, M1) to (M5, M4) are further configured.
In this example, the shooting direction of the camera 12 is set to a direction that passes through the intersection of the two orthogonal lines and forms approximately 45 ° with the two lines. Therefore, the direction of the sound / image collection unit 10 is the direction of the white arrow D in FIG. The camera 12 collects an image corresponding to the direction of the sound / image collection unit 10.

マイクロフォン固定部13にはマイクロフォンM1〜M5が設置され、カメラ支持台14にはカメラ12が設置され、マイクロフォン固定部13とカメラ支持台14とは、3本の支柱15によって連結されている。つまり、音採取手段11とカメラ12とは一体化されている。なお、マイクロフォンM1〜M5は、カメラ12の上部に配置される。
基台16は、回転支柱16aとこの回転支柱16aを回転させる図示しない回転機構を備えた支持台16bとを備えており、カメラ支持台14は回転支柱16a上に搭載されている。したがって、回転支柱16aを回転させることにより、音採取手段11とカメラ12とを一体に回転させることができる。なお、回転機構を省略し、作業者が基台16を回転させることで、音・映像採取ユニット10の向きを変更するようにしてもよい。
マイクロフォンM1〜M5は、図示しない音源から到来する音の音圧信号の大きさである音圧レベルをそれぞれ測定する。
The microphones M1 to M5 are installed on the microphone fixing unit 13, the camera 12 is installed on the camera support base 14, and the microphone fixing unit 13 and the camera support base 14 are connected by three support columns 15. That is, the sound collection means 11 and the camera 12 are integrated. The microphones M1 to M5 are disposed on the upper part of the camera 12.
The base 16 includes a rotary support 16a and a support 16b including a rotation mechanism (not shown) that rotates the rotary support 16a, and the camera support 14 is mounted on the rotary support 16a. Therefore, the sound collection means 11 and the camera 12 can be rotated together by rotating the rotary support 16a. The rotation mechanism may be omitted, and the operator may change the direction of the sound / video sampling unit 10 by rotating the base 16.
The microphones M1 to M5 each measure a sound pressure level that is a magnitude of a sound pressure signal of sound coming from a sound source (not shown).

増幅器21はローパスフィルタを備え、マイクロフォンM1〜M5で採取した音の音圧信号から高周波ノイズ成分を除去するとともに、前記各音圧信号を増幅してA/D変換器22に出力する。
A/D変換器22は、前記音圧信号をA/D変換した音圧波形データを作成し、これを、バッファ31の音圧波形データ保存領域31aに送る。この音圧波形データ保存領域31aは小領域311〜315に区切られ、各小領域311〜315にそれぞれマイクロフォンM1〜M5の音圧波形データが保存される。
映像入出力手段23は、カメラ12で連続的に撮影された映像信号を入力し、予め設定された画面切換時間Tp(例えば、Tp=1/30秒)毎に撮影方向の画像データをバッファ31の画像データ保存領域31bに送る。
前記所定時間Tp毎に出力される画像データは、表示装置40の表示画面40Mに表示される一つの画面、いわゆる動画の「一コマ」分の画像を構成する画像データである。
The amplifier 21 includes a low-pass filter, removes high frequency noise components from the sound pressure signals of the sounds collected by the microphones M1 to M5, amplifies the sound pressure signals, and outputs them to the A / D converter 22.
The A / D converter 22 generates sound pressure waveform data obtained by A / D converting the sound pressure signal, and sends the sound pressure waveform data to the sound pressure waveform data storage area 31 a of the buffer 31. The sound pressure waveform data storage area 31a is divided into small areas 311 to 315, and the sound pressure waveform data of the microphones M1 to M5 are stored in the small areas 311 to 315, respectively.
The video input / output means 23 inputs video signals continuously shot by the camera 12 and outputs image data in the shooting direction every preset screen switching time T p (eg, T p = 1/30 seconds). The data is sent to the image data storage area 31b of the buffer 31.
The image data output at each predetermined time T p is image data that constitutes one screen displayed on the display screen 40M of the display device 40, that is, an image for “one frame” of a so-called moving image.

音圧波形データ抽出手段32は、バッファ31の音圧波形データ保存領域31aから、予め設定された高速フーリエ変換(以下、FFTという)の解析区間の長さTFの音圧波形データを順次取出して、クロススペクトル演算手段33の高速フーリエ変換器331〜335に順次出力する。詳細には、小領域311〜315から取出されたマイクロフォンM1〜M5の音圧波形データは、高速フーリエ変換器33kに出力される。
なお、音圧波形データをA/D変換器22から直接高速フーリエ変換器33kに出力してもよい。また、音圧波形データをA/D変換器22から記憶装置50に保存して、記憶装置50から高速フーリエ変換器33kに出力してもよいが、処理速度を考慮すると、音圧波形データは、A/D変換器22から直接、もしくは、バッファ31を介して高速フーリエ変換器33kに出力することが好ましい。
The sound pressure waveform data extraction means 32 sequentially extracts sound pressure waveform data of the length TF of the analysis section of a preset fast Fourier transform (hereinafter referred to as FFT) from the sound pressure waveform data storage area 31a of the buffer 31. And sequentially output to the fast Fourier transformers 331 to 335 of the cross spectrum calculation means 33. Specifically, the sound pressure waveform data of the microphones M1 to M5 extracted from the small regions 311 to 315 is output to the fast Fourier transformer 33k.
The sound pressure waveform data may be output directly from the A / D converter 22 to the fast Fourier transformer 33k. The sound pressure waveform data may be stored in the storage device 50 from the A / D converter 22 and output from the storage device 50 to the fast Fourier transformer 33k. However, considering the processing speed, the sound pressure waveform data is It is preferable to output the data directly from the A / D converter 22 or through the buffer 31 to the fast Fourier transformer 33k.

クロススペクトル演算手段33は、高速フーリエ変換器33kと、クロススペクトル演算器33mと、加重平均クロススペクトル生成器33Mとを備える。
高速フーリエ変換器33kは、5台の高速フーリエ変換器331〜335を備え、それぞれ、マイクロフォンMk(k=1〜5)の音圧波形データに対して、解析区間の長さTFが、例えば、2msec.と極端に短い極短時間高速フーリエ変換を予め設定された計測時間Tc内にN回行ない、その結果を、順次、クロススペクトル演算器33mに出力する。
なお、極短時間高速フーリエ変換は、長さが解析区間の長さに等しい窓関数を用いて連続して行うが、本例では、解析区間の長さが短いことから、時間的に前後する解析区間の一部を重複させることが好ましい。
The cross spectrum calculation means 33 includes a fast Fourier transformer 33k, a cross spectrum calculator 33m, and a weighted average cross spectrum generator 33M.
The fast Fourier transformer 33k includes five fast Fourier transformers 331 to 335, and for each of the sound pressure waveform data of the microphone Mk (k = 1 to 5), the length TF of the analysis section is, for example, 2 msec. The extremely short time fast Fourier transform is performed N times within a preset measurement time Tc , and the results are sequentially output to the cross spectrum calculator 33m.
Note that the extremely short-time fast Fourier transform is continuously performed using a window function whose length is equal to the length of the analysis section. However, in this example, since the length of the analysis section is short, the time is around. It is preferable to overlap a part of the analysis interval.

クロススペクトル演算器33mは、6台のクロススペクトル演算器33x,33y,33a〜33dを備え、極短時間FFTの処理毎に、高速フーリエ変換器331〜335から出力される予め設定された6組のマイクロフォン対のクロススペクトルpn(f)とその振幅wn(f)とを順次求める(n=1〜N)。
具体的には、クロススペクトル演算器33xは、高速フーリエ変換器331,333から出力されるマイクロフォン対(M1,M3)を構成するマイクロフォンM1,M3の音圧波形データであるXn1(f)とXn3(f)とのクロススペクトルpn13(f)とその振幅wn13(f)とを、極短時間FFTの処理毎に順次求める。
クロススペクトル演算器33yは、高速フーリエ変換器332,334から出力されるマイクロフォン対(M2,M4)を構成するマイクロフォンM2,M4の音圧波形データであるXn2(f)とXn4(f)とのクロススペクトルpn24(f)とその振幅wn24(f)とを求める。
クロススペクトル演算器33a〜33dは、それぞれ、高速フーリエ変換器335から出力されるマイクロフォンM5の音圧波形データであるXn5(f)と高速フーリエ変換器331〜334から出力されるマイクロフォンM1〜M4の音圧波形データであるXni(f)とのクロススペクトルpn5j(f)とその振幅wn5j(f)(j=1〜4)とをそれぞれ求める。
なお、クロススペクトルpn(f)は周波数f毎に演算する。
The cross spectrum calculator 33m includes six cross spectrum calculators 33x, 33y, and 33a to 33d, and six preset groups output from the fast Fourier transformers 331 to 335 for each extremely short time FFT processing. The cross spectrum p n (f) and the amplitude w n (f) of the microphone pair are sequentially obtained (n = 1 to N).
Specifically, the cross spectrum calculator 33x and X n1 (f) which are sound pressure waveform data of the microphones M1 and M3 constituting the microphone pair (M1, M3) output from the fast Fourier transformers 331 and 333, and A cross spectrum p n13 (f) with X n3 (f) and its amplitude w n13 (f) are sequentially obtained for each extremely short time FFT processing.
Cross-spectral calculator 33y includes a microphone pair outputted from the fast Fourier transformer 332, 334 (M2, M4) is a sound pressure waveform data of the microphone M2, M4 constituting the X n2 (f) and X n4 (f) The cross spectrum p n24 (f) and its amplitude w n24 (f) are obtained.
The cross spectrum calculators 33a to 33d are X n5 (f) which is the sound pressure waveform data of the microphone M5 output from the fast Fourier transformer 335 and the microphones M1 to M4 output from the fast Fourier transformers 331 to 334, respectively. The cross spectrum p n5j (f) with the sound pressure waveform data X ni (f) and the amplitude w n5j (f) (j = 1 to 4) are respectively obtained.
The cross spectrum p n (f) is calculated for each frequency f.

加重平均クロススペクトル生成器33Mは、6台の加重平均クロススペクトル生成器33X,33Y,33A〜33Dを備え、各クロススペクトル演算器33x,33y,33a〜33dでそれぞれ求めたN個のクロススペクトルpn(f)の加重平均クロススペクトルを求める。
加重平均クロススペクトル生成器33Xは、クロススペクトル演算器33xから順次出力されるn=1〜N個のクロススペクトルpn13(f)とその振幅wn13(f)を図示しないメモリーに一時記憶するとともに、クロススペクトルpn13(f)をその振幅wn13(f)によって加重平均して、マイクロフォンM1で採取した音圧信号とマイクロフォンM3で採取した音圧信号との加重平均クロススペクトルP13(f)を求める。
加重平均クロススペクトル生成器33Yは、クロススペクトル演算器33yで求めたクロススペクトルpn24(f)をその振幅wn24(f)とを用いてマイクロフォンM2で採取した音圧信号とマイクロフォンM4で採取した音圧信号との加重平均クロススペクトルP24(f)を求める。
加重平均クロススペクトル生成器33A〜33Dは、クロススペクトル演算器33a〜33dでそれぞれ求めたクロススペクトルpn5j(f)をその振幅wn5j(f)によって加重平均して、マイクロフォンM5で採取した音圧信号とマイクロフォンMjで採取した音圧信号との加重平均クロススペクトルP5j(f)をそれぞれ求める(j=1〜4)。
The weighted average cross spectrum generator 33M includes six weighted average cross spectrum generators 33X, 33Y, and 33A to 33D, and N cross spectra p obtained by the cross spectrum calculators 33x, 33y, and 33a to 33d, respectively. n Find the weighted average cross spectrum of (f).
The weighted average cross spectrum generator 33X temporarily stores n = 1 to N cross spectra p n13 (f) and their amplitudes w n13 (f) sequentially output from the cross spectrum calculator 33x in a memory (not shown). The cross spectrum p n13 (f) is weighted and averaged by the amplitude w n13 (f), and the weighted average cross spectrum P 13 (f) between the sound pressure signal sampled by the microphone M1 and the sound pressure signal sampled by the microphone M3. Ask for.
The weighted average cross spectral generator 33Y were harvested cross spectral p n24 determined by cross-spectral calculator 33y to (f) in its amplitude w n24 (f) and the sound pressure signals collected by a microphone M2 with microphone M4 A weighted average cross spectrum P 24 (f) with the sound pressure signal is obtained.
The weighted average cross spectrum generators 33A to 33D perform the weighted average of the cross spectra p n5j (f) obtained by the cross spectrum calculators 33a to 33d, respectively, using the amplitude w n5j (f), and the sound pressure collected by the microphone M5. A weighted average cross spectrum P 5j (f) between the signal and the sound pressure signal collected by the microphone Mj is obtained (j = 1 to 4).

到達時間差算出手段34は、加重平均クロススペクトル生成器33Mで求められた加重平均クロススペクトルPij(f)から、以下の式(1)を用いて各マイクロフォン対(Mi,Mj)を構成するマイクロフォンMi,Mj間の音の到達時間差Dijを算出する。

Figure 0005826582
13はマイクロフォン対(M1,M3)を構成するマイクロフォンM1,M3に入力する音の到達時間差、D24はマイクロフォン対(M2,M4)を構成するマイクロフォンM2,M4に入力する音の到達時間差、D5j(j=1〜4)は第5のマイクロフォンM5に入力する音圧信号とマイクロフォンM1〜M4のそれぞれに入力する音圧信号との到達時間差である。
到達時間差Dijは周波数f毎に算出する。
音源方向推定手段35では、前記求められた到達時間差D13,D24及び到達時間差D5j(j=1〜4)から、下記の式(2),(3)を用いて、計測点から見た到来した音の方向である水平角θと仰角φとを算出することで、音源方向を推定する。
Figure 0005826582
The arrival time difference calculation means 34 configures each microphone pair (M i , M j ) using the following equation (1) from the weighted average cross spectrum P ij (f) obtained by the weighted average cross spectrum generator 33M. A sound arrival time difference D ij between the microphones M i and M j is calculated.
Figure 0005826582
D 13 is a difference in arrival time of sounds input to the microphones M 1 and M 3 constituting the microphone pair (M 1, M 3), D 24 is a difference in arrival time of sounds input to the microphones M 2 and M 4 constituting the microphone pair (M 2, M 4), D 5j (j = 1 to 4) is a difference in arrival time between the sound pressure signal input to the fifth microphone M5 and the sound pressure signal input to each of the microphones M1 to M4.
The arrival time difference D ij is calculated for each frequency f.
The sound source direction estimating means 35 uses the following expressions (2) and (3) from the obtained arrival time differences D 13 and D 24 and the arrival time difference D 5j (j = 1 to 4) to see from the measurement point. The sound source direction is estimated by calculating the horizontal angle θ and the elevation angle φ, which are directions of the incoming sound.
Figure 0005826582

画像データ抽出手段36は、バッファ31の画像データ保存領域31bから、N/2回目極短時間FFTの処理を行った時間、すなわち、前述した計測時間Tcの中心に相当する時間に最も近い時間に撮影した画像データを抽出し、これを音源推定用画像作成手段37に出力する。
音源推定用画像作成手段37は、音源方向推定手段35で推定された水平角θと仰角φのデータと画像データ抽出手段36で抽出された画像データとを合成し、画像中に音源の方向と大きさとを示す図形が描画された音源方向推定画像を作成して表示装置40に出力する。
記憶装置50は、水平角θと仰角φのデータと音源方向推定画像に使用した画像データとを計測時刻とともに記憶する。なお、計測時刻は音源方向推定画像に使用した画像データの撮影時刻である。
The image data extracting means 36 is the time closest to the time corresponding to the center of the measurement time T c described above, that is, the time when the N / 2th extremely short time FFT processing is performed from the image data storage area 31b of the buffer 31. Then, the image data taken is extracted and output to the sound source estimation image creating means 37.
The sound source estimation image creating means 37 synthesizes the horizontal angle θ and elevation angle φ data estimated by the sound source direction estimating means 35 and the image data extracted by the image data extracting means 36, and the direction of the sound source in the image. A sound source direction estimation image in which a graphic indicating the size is drawn is created and output to the display device 40.
The storage device 50 stores the horizontal angle θ and elevation angle φ data and the image data used for the sound source direction estimation image together with the measurement time. The measurement time is the shooting time of the image data used for the sound source direction estimation image.

次に、本例の音源推定用画像表示システムを用いた音源方向の推定方法と、音源推定用画像の表示方法について、図2のフローチャートを参照して説明する。
まず、音・映像採取ユニット10とデータ処理装置20と演算装置30と表示装置40とを接続した後、音・映像採取ユニット10を計測点にセットする(ステップS10)。
作業者は、カメラ12の撮影方向を測定予定場所に向け、表示画面40Mを見てカメラ12が計測予定場所を撮影していることを確認した後、マイクロフォンM1〜M5にて音を採取すると同時に、カメラ12にて計測予定場所の映像を採取する(ステップS11)。
次に、マイクロフォンM1〜M5で採取した音の音圧信号を増幅してA/D変換しこのA/D変換したデジタル信号(以下、音圧波形データという)をバッファ31の音ファイル保存領域31aに保存するととともに、カメラ12の映像信号をA/D変換、このA/D変換したデジタル信号(以下、画像データという)をバッファ31の動画ファイル保存領域31bに保存する(ステップS12)。
Next, a sound source direction estimation method and a sound source estimation image display method using the sound source estimation image display system of this example will be described with reference to the flowchart of FIG.
First, after connecting the sound / video sampling unit 10, the data processing device 20, the arithmetic device 30, and the display device 40, the sound / video sampling unit 10 is set at a measurement point (step S10).
The operator directs the shooting direction of the camera 12 to the planned measurement location, sees the display screen 40M and confirms that the camera 12 is shooting the planned measurement location, and then simultaneously collects sound with the microphones M1 to M5. Then, an image of the measurement planned place is collected by the camera 12 (step S11).
Next, the sound pressure signal of the sound collected by the microphones M1 to M5 is amplified and A / D converted, and this A / D converted digital signal (hereinafter referred to as sound pressure waveform data) is stored in the sound file storage area 31a of the buffer 31. In addition, the video signal of the camera 12 is A / D converted, and the A / D converted digital signal (hereinafter referred to as image data) is stored in the moving image file storage area 31b of the buffer 31 (step S12).

次に、バッファ31の音圧波形データ保存領域31aから、予め設定された長さTFの音圧波形データを順次取出して極短時間高速フーリエ変換を行い(ステップS13)、しかる後に、これら極短時間高速フーリエ変換した音圧波形データから、予め設定しておいたマイクロフォン対(Mi,Mj)を構成するマイクロフォンMiの音圧波形データとマイクロフォンMjの音圧波形データとを取出してクロススペクトルpnij求めるとともにクロススペクトルの振幅の大きさ(振幅値)wnijを算出する(ステップS14)。なお、pnijは、n回目(n=1〜N)に極短時間高速フーリエ変換したマイクロフォンMiの音圧波形デーとマイクロフォンMjの音圧波形デーとのクロススペクトルである。
クロススペクトルpnijとその振幅値wnijの算出は、解析区間の長さTFとサンプリング周期と応じて決定される周波数帯域毎に行う。本例では、周波数帯域が10〜500Hz,500〜1000Hz,1000〜7500Hzの3つの周波数帯域に分けてそれぞれクロススペクトルpij(f)を求めた。
極短時間高速フーリエ変換は、前述したように、解析区間の長さTFが、例えば、2msec.と極端に短い高速フーリエ変換で、本例では、この極短時間高速フーリエ変換を予め設定された計測時間Tc内に多数回行なう。
具体的には、図3(a)に示すように、従来のFFTの解析区間T0の長さ(約1.0sec.)に対して、本例では、図3(b)に示すように、FFTの解析区間の長さTFを極端に短くするとともに、極短時間高速フーリエ変換を解析区間T0の長さに亘って連続してN回(N≧100)行っている。なお、解析区間の長さTFとしては、0.1msec.〜10msec.の範囲とすることが好ましく、1msec.〜2msec.とすると更に好ましい。
なお、極短時間高速フーリエ変換は、長さが解析区間の長さに等しい窓関数を用いて連続して行ってもよいが、解析区間の長さが短いことから、図3(b)に示すように、時間的に前後する解析区間の一部を重複させて行うことが好ましい。
Next, sound pressure waveform data having a preset length TF is sequentially extracted from the sound pressure waveform data storage area 31a of the buffer 31 and subjected to extremely short-time fast Fourier transform (step S13). The sound pressure waveform data of the microphone Mi and the sound pressure waveform data of the microphone Mj constituting the microphone pair (Mi, Mj) set in advance are extracted from the sound pressure waveform data subjected to the fast Fourier transform for a short time, and the cross spectrum p is obtained. Nij is calculated and the amplitude (amplitude value) w nij of the cross spectrum is calculated (step S14). Note that p nij is a cross spectrum of the sound pressure waveform data of the microphone Mi and the sound pressure waveform data of the microphone Mj that have been subjected to the fast Fourier transform for the n-th time (n = 1 to N).
The calculation of the cross spectrum p nij and the amplitude value w nij is performed for each frequency band determined according to the length T F of the analysis section and the sampling period. In this example, the cross spectrum p ij (f) is obtained by dividing the frequency band into three frequency bands of 10 to 500 Hz, 500 to 1000 Hz, and 1000 to 7500 Hz.
As described above, the extremely short time fast Fourier transform has an analysis interval length TF of 2 msec. In this example, this extremely short-time fast Fourier transform is performed many times within a preset measurement time Tc .
Specifically, as shown in FIG. 3A, in contrast to the length (about 1.0 sec.) Of the conventional FFT analysis section T 0 , in this example, as shown in FIG. The length TF of the FFT analysis interval is extremely shortened, and the extremely short time fast Fourier transform is performed N times (N ≧ 100) continuously over the length of the analysis interval T 0 . The analysis section length TF is 0.1 msec. -10 msec. Is preferably in the range of 1 msec. ~ 2 msec. More preferably.
Note that the extremely short-time fast Fourier transform may be continuously performed using a window function whose length is equal to the length of the analysis section. However, since the length of the analysis section is short, FIG. As shown, it is preferable to carry out by overlapping a part of analysis sections that are temporally mixed.

ステップS15では、クロススペクトルの演算が終了したか否かを判定する。
クロススペクトルの演算が終了していない場合には、前記ステップS13に戻って、音圧波形データ保存領域31aから、次に解析する音圧波形データを取出して極短時間高速フーリエ変換を行いクロススペクトルを演算するという操作を繰り返す。クロススペクトルの演算が終了した場合には、ステップS16に進んで、N回の操作で得られたN個のクロススペクトルpn(f)とその振幅wn(n=1〜N)から、加重平均クロススペクトルP(f)を求める。
加重平均クロススペクトルP13(f)は以下の式で表わせる。
13(f)={Σwn13(f)・pn13(f)}/{Σwn13}……Σはn=1〜Nの和。
次に、加重平均クロススペクトルPij(f)から、マイクロフォンMi,Mj間の音の到達時間差Dijを算出し(ステップS17)、これら到達時間差Dijから前述した式(2),(3)を用いて水平角θと仰角φとを算出して、到来した音の音源方向を推定する(ステップS18)。
加重平均クロススペクトルPij(f)は、クロススペクトルpn(f)をその振幅wnで加重平均しているので、直接音よりも振幅が小さくかつ振幅のバラつきの大きな反射音の成分は従来のクロススペクトルPij(f)から求めた反射音の成分よりもかなり小さくなるので、前述の式(1)を用いてマイクロフォンMi,Mj間の音の到達時間差Dijを算出することで、直接音の到達時間差Dijのみを抽出することができる。
また、従来のFFTにおいては、衝撃音が発生した場合には、衝撃音が周期的な音でなくかつ持続時間が短いため、衝撃音の音源を精度よく把握することができなかったが、本例では、極短時間高速フーリエ変換した音圧波形データのクロススペクトルpn(f)をその振幅wnで加重平均しているので、衝撃音の継続時間が短い場合でも、衝撃音を的確に把握することができる。
In step S15, it is determined whether or not the calculation of the cross spectrum has been completed.
If the calculation of the cross spectrum has not been completed, the process returns to step S13, the sound pressure waveform data to be analyzed next is taken out from the sound pressure waveform data storage area 31a, and the extremely short time fast Fourier transform is performed to perform the cross spectrum. The operation of calculating is repeated. When the calculation of the cross spectrum is completed, the process proceeds to step S16, and weighting is performed from the N cross spectra p n (f) and the amplitudes w n (n = 1 to N) obtained by N operations. An average cross spectrum P (f) is obtained.
The weighted average cross spectrum P 13 (f) can be expressed by the following equation.
P 13 (f) = {Σw n13 (f) · p n13 (f)} / {Σw n13 } …… Σ is the sum of n = 1 to N.
Then, weighted average from the cross spectrum P ij (f), calculates the microphone M i, the arrival time difference D ij sound between M j (step S17), the formula (2) described above from these arrival time differences D ij, ( The horizontal angle θ and the elevation angle φ are calculated using 3), and the sound source direction of the incoming sound is estimated (step S18).
The weighted average cross spectrum P ij (f), since by using the weighted averages of the cross-spectrum p n (f) in its amplitude w n, components of large reflection sound amplitude is small and the amplitude of variation than direct sound conventional Therefore, the sound arrival time difference D ij between the microphones M i and M j is calculated by using the above-described equation (1) because it is much smaller than the reflected sound component obtained from the cross spectrum P ij (f). Only the arrival time difference D ij of the direct sound can be extracted.
In addition, in the conventional FFT, when an impact sound is generated, the impact sound is not a periodic sound and the duration is short, so the sound source of the impact sound cannot be accurately grasped. In the example, since the cross spectrum p n (f) of the sound pressure waveform data subjected to extremely short-time fast Fourier transform is weighted and averaged with the amplitude w n , the impact sound is accurately obtained even when the duration of the impact sound is short. I can grasp it.

音源方向の推定が終了した後には、音源方向を撮影した画像データと推定された水平角θと仰角φのデータとを合成し、画像中に、例えば、半径が到達音の大きさを示し模様が周波数を示す円などの、音源の方向と音の大きさを示す図形が描画された音源方向推定画像を作成し、これを表示手段40の表示画面40Mに表示する(ステップS18)。
図4は、音源方向推定画像の一例としての車室内における音源方向推定画像を示す図、図5は従来の音源推定方法を用いて作成した音源方向推定画像を示す図で、横軸は水平角θ、縦軸は仰角φである。
図4において、左下がりの斜線を施した円が周波数帯域が10〜500Hzの音源、右下がりの斜線を施した円が周波数帯域が500〜1000Hzの音源、網目を施した円が周波数帯域が1000〜1500Hzの音源である。
一方、図5においては、音源方向を、図3(a)に示す方法で高速フーリエ変換して求めたものである。比較のため、31.5〜500Hzのバンドを全て左下がりの斜線を施した円とし、500〜1000Hzのバンドを全て右下がりの斜線を施した円とし、1000〜7500Hzのバンドを全て網目を施した円とした。
図4と図5とを比較して明らかなように、従来の方法では、反射音が大きいだけなく、直接音も反射音も周波数でばらついているのに対し、本実施の形態の方法では、周波数帯域についての情報については精度が低いものの、反射音もなく、音源の位置のバラツキも少ない。したがって、本実施の形態の方法を用いることにより、反射音の大きい場であっても直接音の音源方向を容易にかつ精度よく推定することができることが確認された。
After the estimation of the sound source direction is completed, the image data obtained by photographing the sound source direction and the estimated horizontal angle θ and elevation angle φ data are combined, and for example, the radius indicates the size of the arrival sound. A sound source direction estimation image in which a graphic indicating the direction of the sound source and the size of the sound, such as a circle indicating the frequency, is created and displayed on the display screen 40M of the display means 40 (step S18).
4 is a diagram showing a sound source direction estimation image in a vehicle interior as an example of a sound source direction estimation image, FIG. 5 is a diagram showing a sound source direction estimation image created using a conventional sound source estimation method, and the horizontal axis is a horizontal angle. θ, the vertical axis is the elevation angle φ.
In FIG. 4, a circle with a left-slanted diagonal line indicates a sound source with a frequency band of 10 to 500 Hz, a circle with a diagonally downward-sloping line indicates a sound source with a frequency band of 500 to 1000 Hz, and a circle with a mesh has a frequency band of 1000 It is a sound source of ˜1500 Hz.
On the other hand, in FIG. 5, the sound source direction is obtained by fast Fourier transform by the method shown in FIG. For comparison, all the bands from 31.5 to 500 Hz are circles with a slanting left slope, all the bands from 500 to 1000 Hz are circles with a slanting right slope, and all the bands from 1000 to 7500 Hz are meshed. It was made a circle.
As is clear from comparison between FIG. 4 and FIG. 5, in the conventional method, not only the reflected sound is large, but also the direct sound and the reflected sound vary in frequency, whereas in the method of the present embodiment, Although the accuracy of the information about the frequency band is low, there is no reflected sound and there is little variation in the position of the sound source. Therefore, by using the method of the present embodiment, it was confirmed that the sound source direction of the direct sound can be estimated easily and accurately even in a field where the reflected sound is large.

なお、前記実施の形態では、互いに交わる2つの直線上にそれぞれ所定の間隔で配置された第1及び第2のマイクロフォン対で採取した音圧信号から到来した音の音源方向を推定したが、本発明はこれに限るものではなく、従来、マイクロフォンアレーを用いた音源推定方向にも適用可能である。
また、前記例では、N個のクロススペクトルを振幅値により加重平均して加重平均クロススペクトルを求めたが、振幅値の二乗で加重平均してもよい。
また、前記例では、5本のマイクロフォンM1〜M5を用いて、計測点と音源位置とのなす水平角θと仰角φとを推定したが、音源位置が水平角θだけで十分な場合には、マイクロフォンM5を省略して、互いに交わる2つの直線上にそれぞれ所定の間隔で配置された2組のマイクロフォン対(M1,M3),(M2,M4)のみを用いればよい。
In the above-described embodiment, the sound source direction of the incoming sound is estimated from the sound pressure signals collected by the first and second microphone pairs arranged at predetermined intervals on two straight lines intersecting each other. The invention is not limited to this, and can be applied to a sound source estimation direction using a microphone array.
In the above example, the weighted average cross spectrum is obtained by weighting and averaging the N cross spectra with the amplitude value. However, the weighted average may be obtained by the square of the amplitude value.
In the above example, the horizontal angle θ and the elevation angle φ formed by the measurement point and the sound source position are estimated using the five microphones M1 to M5. However, when the sound source position is sufficient, the horizontal angle θ is sufficient. The microphone M5 may be omitted, and only two pairs of microphones (M1, M3) and (M2, M4) arranged at predetermined intervals on two straight lines that intersect with each other may be used.

以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は前記実施の形態に記載の範囲には限定されない。前記実施の形態に、多様な変更または改良を加えることが可能であることが当業者にも明らかである。そのような変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲から明らかである。   As mentioned above, although this invention was demonstrated using embodiment, the technical scope of this invention is not limited to the range as described in the said embodiment. It will be apparent to those skilled in the art that various modifications or improvements can be added to the embodiment. It is apparent from the claims that the embodiments added with such changes or improvements can be included in the technical scope of the present invention.

以上説明したように、本発明によれば、反射音がある場合にも直接音の音源方向のみを容易にかつ精度よく推定できるとともに、衝撃音についても的確に抽出できるので、簡単な構成で推定精度の高い音源方向推定装置を提供することができる。   As described above, according to the present invention, even when there is a reflected sound, only the sound source direction of the direct sound can be estimated easily and accurately, and the impact sound can also be accurately extracted. A highly accurate sound source direction estimating apparatus can be provided.

10 音・映像採取ユニット、11 音採取手段、12 CCDカメラ、
13 マイクロフォン固定部、14 カメラ支持台、15 支柱、16 基台、
20 データ処理装置、21 増幅器、22 A/D変換器、23 映像入出力手段、
30 演算装置、31、バッファ、31a 音データ保存領域、
31b 画像データ保存領域、32 音圧波形データ抽出手段、
33 クロススペクトル演算手段、33k 高速フーリエ変換器、
33m クロススペクトル演算器、33M 加重平均クロススペクトル生成器、
34 到達時間差算出手段、35 音源方向推定手段、36 画像データ抽出手段、
37 音源推定用画像作成手段、
40 表示装置、40M 表示画面、50 記憶装置、
M1〜M5 マイクロフォン。
10 sound / video sampling unit, 11 sound sampling means, 12 CCD camera,
13 microphone fixing part, 14 camera support base, 15 struts, 16 base,
20 data processing devices, 21 amplifiers, 22 A / D converters, 23 video input / output means,
30 arithmetic unit 31, buffer, 31a sound data storage area,
31b Image data storage area, 32 sound pressure waveform data extraction means,
33 cross spectrum calculation means, 33k fast Fourier transform,
33m cross spectrum calculator, 33M weighted average cross spectrum generator,
34 arrival time difference calculating means, 35 sound source direction estimating means, 36 image data extracting means,
37 sound source estimation image creation means,
40 display device, 40M display screen, 50 storage device,
M1-M5 microphones.

Claims (5)

複数のマイクロフォンで採取した音の音圧信号から音源の方向を推定する方法であって、
互いに交わる2つの直線上にそれぞれ所定の間隔で配置された第1及び第2のマイクロフォン対を用いて到来した音の音圧信号を採取するステップと、
前記第1のマイクロフォン対を構成するマイクロフォンM1,M3で採取された音圧信号と第2のマイクロフォン対を構成するマイクロフォンM2,M4で採取された音圧信号とをそれぞれA/D変換して前記4つのマイクロフォンM1〜M4で採取された音の音圧波形データをそれぞれ求めるステップと、
前記各音圧波形データを高速フーリエ変換するステップと、
前記高速フーリエ変換された前記マイクロフォンM1,M3の音圧波形データのクロススペクトルと前記マイクロフォンM2,M4の音圧波形データのクロススペクトルとを求めてマイクロフォンM1,M3間の音の到達時間差D13と前記マイクロフォンM2,M4間の音の到達時間差D24をそれぞれ算出するステップと、
前記算出された第1のマイクロフォン対における到達時間差D13と第2のマイクロフォン対における到達時間差D24とから前記到来した音の音源方向を推定するステップと、
を備え、
前記高速フーリエ変換するステップでは、解析区間の長さが0.1msec.〜10msec.である極短時間高速フーリエ変換を連続して多数回行うか、もしくは、前記解析区間の一部を重複させて多数回行い、
前記到達時間差を算出するステップは、
前記極短時間高速フーリエ変換の操作毎にそれぞれ求められたクロススペクトルの振幅値を求めるステップと、
前記極短時間高速フーリエ変換の操作毎にそれぞれ求められたクロススペクトルを、前記振幅値より加重平均した加重平均クロススペクトルを求めるステップと、
前記加重平均クロススペクトルから前記各マイクロフォン間の音の到達時間差D13,D24を算出するステップと、
を備えることを特徴とする音源方向推定方法。
A method for estimating the direction of a sound source from sound pressure signals of sounds collected by a plurality of microphones,
Collecting a sound pressure signal of an incoming sound using first and second microphone pairs disposed at predetermined intervals on two straight lines intersecting each other;
The sound pressure signals collected by the microphones M1 and M3 constituting the first microphone pair and the sound pressure signals collected by the microphones M2 and M4 constituting the second microphone pair are A / D converted, respectively. Obtaining respective sound pressure waveform data of sounds collected by the four microphones M1 to M4;
Fast Fourier transform each sound pressure waveform data;
And the fast Fourier transformed the microphone M1, M3 arrival time difference D 13 of the sound between the microphones M1, M3 and a cross spectrum of the sound pressure waveform data determined and a cross spectrum of the sound pressure waveform data of the microphone M2, M4 of Calculating a sound arrival time difference D 24 between the microphones M2 and M4;
Estimating the sound source direction of the incoming sound from the calculated arrival time difference D 13 in the first microphone pair and the arrival time difference D 24 in the second microphone pair;
With
In the fast Fourier transform step, the length of the analysis section is 0.1 msec. -10 msec. Or performing a very short time fast Fourier transform a number of times continuously, or a number of times by overlapping a part of the analysis interval,
The step of calculating the arrival time difference includes:
Obtaining an amplitude value of a cross spectrum obtained for each operation of the ultrashort-time fast Fourier transform;
Obtaining a weighted average cross spectrum obtained by performing a weighted average of the cross spectrum obtained for each operation of the very short time fast Fourier transform from the amplitude value;
Calculating sound arrival time differences D 13 and D 24 between the microphones from the weighted average cross spectrum;
A sound source direction estimation method comprising:
前記4つのマイクロフォンM1〜M4に加えて、前記2組のマイクロフォン対の作る平面上にない第5のマイクロフォンM5を設けて到来した音の音圧信号を採取するとともに、前記到達時間差を算出するステップでは、
前記2組のマイクロフォン対を構成するマイクロフォンM1,M3間及びマイクロフォンM2,M4間の到達時間差D13,D24と、前記第5のマイクロフォンM5と前記4つのマイクロフォンM1〜M4のそれぞれとで構成される4組のマイクロフォン対を構成するマイクロフォン間の到達時間差D51〜D54を算出し、
前記音源方向を推定するステップでは、
前記算出された到達時間差D13,D24,D51〜D54を用いて前記到来した音の音源方向を推定することを特徴とする請求項1に記載の音源方向推定方法。
In addition to the four microphones M1 to M4, a fifth microphone M5 that is not on the plane formed by the two pairs of microphones is provided to collect a sound pressure signal of the incoming sound and calculate the arrival time difference Then
It is composed of arrival time differences D 13 and D 24 between the microphones M1 and M3 and the microphones M2 and M4 constituting the two pairs of microphones, the fifth microphone M5, and the four microphones M1 to M4. Calculating arrival time differences D 51 to D 54 between the microphones constituting the four microphone pairs;
In the step of estimating the sound source direction,
DOA estimation method according to claim 1, characterized in that for estimating the sound source direction of the incoming sound with the calculated arrival time difference D 13, D 24, D 51 ~D 54.
互いに交わる2つの直線上にそれぞれ所定の間隔で配置された第1及び第2のマイクロフォン対と前記2組のマイクロフォン対の作る平面上にない第5のマイクロフォンとを有する音採取手段を備え、前記音採取手段で採取した音の音圧信号から、音源の方向を推定する音源方向推定装置であって、
前記各マイクロフォンで採取した音圧信号をそれぞれデジタル信号に変換するA/D変換器と、
前記デジタル信号に変換された音圧信号である音圧波形データを高速フーリエ変換する高速フーリエ変換器と、
前記高速フーリエ変換された音圧波形データのうちの前記第1のマイクロフォン対を構成する2つのマイクロフォンで採取された音の音圧波形データのクロススペクトルと、前記第2のマイクロフォン対を構成する2つのマイクロフォンで採取された音の音圧波形データのクロススペクトルと、前記第5のマイクロフォンと前記第1及び第2のマイクロフォン対を構成する4つのマイクロフォンのそれぞれで採取された音の音圧波形データとのクロススペクトルとを演算するクロススペクトル演算手段と、
前記クロススペクトルから前記第1及び第2のマイクロフォン対をそれぞれ構成するマイクロフォン間の音の到達時間差D13,D24と前記第5のマイクロフォンと前記2組のマイクロフォン対を構成する4個のマイクロフォン間の音の到達時間差D51〜D54とを算出する到達時間差算出手段と、
前記算出された到達時間差D13,D24,D51〜D54を用いて音源方向を推定する音源方向推定手段とを備え、
前記高速フーリエ変換器は、解析区間の長さが0.1msec.〜10msec.である極短時間高速フーリエ変換を連続して多数回行うか、もしくは、前記解析区間の一部を重複させて多数回行い、
前記クロススペクトル演算手段は、前記極短時間高速フーリエ変換の操作毎にそれぞれ求められたクロススペクトルの振幅値を求めるとともに、前記極短時間高速フーリエ変換の操作毎にそれぞれ求められたクロススペクトルを、前記振幅値より加重平均した加重平均クロススペクトルを求め、
前記到達時間差算出手段は、前記加重平均クロススペクトルから前記各マイクロフォン間の音の到達時間差D13,D24,D51〜D54を算出することを特徴とする音源方向推定装置。
Sound collecting means comprising first and second microphone pairs disposed on two straight lines intersecting each other at a predetermined interval and a fifth microphone not on a plane formed by the two microphone pairs; A sound source direction estimating device for estimating the direction of a sound source from the sound pressure signal of the sound collected by the sound collecting means,
An A / D converter that converts a sound pressure signal collected by each microphone into a digital signal;
A fast Fourier transformer for fast Fourier transforming sound pressure waveform data that is a sound pressure signal converted into the digital signal;
Among the sound pressure waveform data subjected to the fast Fourier transform, a cross spectrum of sound pressure waveform data of sound collected by two microphones constituting the first microphone pair and 2 constituting the second microphone pair Cross spectrum of sound pressure waveform data of sound collected by one microphone, and sound pressure waveform data of sound collected by each of the fifth microphone and the four microphones constituting the first and second microphone pairs Cross spectrum calculation means for calculating the cross spectrum with
Differences in sound arrival times D 13 and D 24 between the microphones constituting the first and second microphone pairs from the cross spectrum, and between the fifth microphone and the four microphones constituting the two microphone pairs. Arrival time difference calculating means for calculating the arrival time differences D 51 to D 54 of the sound of
Sound source direction estimating means for estimating a sound source direction using the calculated arrival time differences D 13 , D 24 , D 51 to D 54 ,
The fast Fourier transformer has an analysis section length of 0.1 msec. -10 msec. Or performing a very short time fast Fourier transform a number of times continuously, or a number of times by overlapping a part of the analysis interval,
The cross spectrum calculation means obtains the amplitude value of the cross spectrum obtained for each operation of the extremely short time fast Fourier transform, and obtains the cross spectrum obtained for each operation of the extremely short time fast Fourier transform, Obtain a weighted average cross spectrum that is weighted average from the amplitude value,
The arrival time difference calculating means calculates a sound arrival time difference D 13 , D 24 , D 51 to D 54 between the microphones from the weighted average cross spectrum.
互いに交わる2つの直線上にそれぞれ所定の間隔で配置された第1及び第2のマイクロフォン対と前記2組のマイクロフォン対の作る平面上にない第5のマイクロフォンとを備えた音採取手段と音源方向の映像を撮影する撮影手段とを備え、前記音採取手段で採取した音源から伝播される音の音圧信号と前記音圧信号と前記撮影手段で撮影された音源の方向の映像信号とから、音源の方向を示す図形が描画された画像である音源推定用画像を作成する音源推定用画像の作成装置であって、
前記各マイクロフォンで採取した音圧信号と撮影手段で撮影した映像信号とをそれぞれデジタル信号に変換するA/D変換器と、
前記デジタル信号に変換された音圧信号である音圧波形データをそれぞれ高速フーリエ変換する高速フーリエ変換器と、
前記高速フーリエ変換された音圧波形データのうちの前記第1のマイクロフォン対を構成する2つのマイクロフォンで採取された音の音圧波形データのクロススペクトルと、前記第2のマイクロフォン対を構成する2つのマイクロフォンで採取された音の音圧波形データのクロススペクトルと、前記第5のマイクロフォンと前記第1及び第2のマイクロフォン対を構成する4つのマイクロフォンのそれぞれで採取された音の音圧波形データとのクロススペクトルとを演算するクロススペクトル演算手段と、
前記クロススペクトルから前記第1及び第2のマイクロフォン対をそれぞれ構成するマイクロフォン間の音の到達時間差D13,D24と前記第5のマイクロフォンと前記2組のマイクロフォン対を構成する4個のマイクロフォン間の音の到達時間差D51〜D54とを算出する到達時間差算出手段と、
前記算出された到達時間差D13,D24,D51〜D54を用いて音源方向を推定する音源方向推定手段と、
前記推定された音源方向のデータと前記デジタル信号に変換された映像信号である画像データとを合成して、前記推定された音源方向を示す図形が描画された画像である音源推定用画像を作成する音源推定用画像作成手段とを備え、
前記高速フーリエ変換器は、解析区間の長さが0.1msec.〜10msec.である極短時間高速フーリエ変換を連続して多数回行うか、もしくは、前記解析区間の一部を重複させて多数回行い、
前記クロススペクトル演算手段は、前記極短時間高速フーリエ変換の操作毎にそれぞれ求められたクロススペクトルの振幅値を求めるとともに、前記極短時間高速フーリエ変換の操作毎にそれぞれ求められたクロススペクトルを、前記振幅値より加重平均した加重平均クロススペクトルを求め、
前記到達時間差算出手段は、前記加重平均クロススペクトルから前記各マイクロフォン間の音の到達時間差D13,D24,D51〜D54を算出することを特徴とする音源推定用画像の作成装置。
Sound collecting means comprising first and second microphone pairs arranged at predetermined intervals on two intersecting straight lines and a fifth microphone not on a plane formed by the two microphone pairs, and a sound source direction A photographing means for photographing the image of, and from the sound pressure signal of the sound propagated from the sound source collected by the sound collecting means, the sound pressure signal, and the video signal in the direction of the sound source photographed by the photographing means, A sound source estimation image creating apparatus that creates a sound source estimation image that is an image in which a graphic showing a direction of a sound source is drawn,
An A / D converter that converts the sound pressure signal collected by each microphone and the video signal photographed by the photographing means into digital signals,
A fast Fourier transformer that performs fast Fourier transform on the sound pressure waveform data that is the sound pressure signal converted into the digital signal;
Among the sound pressure waveform data subjected to the fast Fourier transform, a cross spectrum of sound pressure waveform data of sound collected by two microphones constituting the first microphone pair and 2 constituting the second microphone pair Cross spectrum of sound pressure waveform data of sound collected by one microphone, and sound pressure waveform data of sound collected by each of the fifth microphone and the four microphones constituting the first and second microphone pairs Cross spectrum calculation means for calculating the cross spectrum with
Differences in sound arrival times D 13 and D 24 between the microphones constituting the first and second microphone pairs from the cross spectrum, and between the fifth microphone and the four microphones constituting the two microphone pairs. Arrival time difference calculating means for calculating the arrival time differences D 51 to D 54 of the sound of
Sound source direction estimating means for estimating a sound source direction using the calculated arrival time differences D 13 , D 24 , D 51 to D 54 ;
The estimated sound source direction data and the image data that is the video signal converted into the digital signal are combined to create a sound source estimation image that is an image in which a figure showing the estimated sound source direction is drawn. Sound source estimation image creation means for
The fast Fourier transformer has an analysis section length of 0.1 msec. -10 msec. Or performing a very short time fast Fourier transform a number of times continuously, or a number of times by overlapping a part of the analysis interval,
The cross spectrum calculation means obtains the amplitude value of the cross spectrum obtained for each operation of the extremely short time fast Fourier transform, and obtains the cross spectrum obtained for each operation of the extremely short time fast Fourier transform, Obtain a weighted average cross spectrum that is weighted average from the amplitude value,
The arrival time difference calculating means calculates a sound arrival time difference D 13 , D 24 , D 51 to D 54 between the microphones from the weighted average cross spectrum.
前記作成された音源推定用画像を表示する表示画面を有する表示手段を備えたことを特徴とする請求項4に記載の音源推定用画像の作成装置。   5. The sound source estimation image creating apparatus according to claim 4, further comprising display means having a display screen for displaying the created sound source estimation image.
JP2011226020A 2011-10-13 2011-10-13 Sound source direction estimation method, sound source direction estimation device, and sound source estimation image creation device Active JP5826582B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011226020A JP5826582B2 (en) 2011-10-13 2011-10-13 Sound source direction estimation method, sound source direction estimation device, and sound source estimation image creation device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011226020A JP5826582B2 (en) 2011-10-13 2011-10-13 Sound source direction estimation method, sound source direction estimation device, and sound source estimation image creation device

Publications (2)

Publication Number Publication Date
JP2013088141A JP2013088141A (en) 2013-05-13
JP5826582B2 true JP5826582B2 (en) 2015-12-02

Family

ID=48532216

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011226020A Active JP5826582B2 (en) 2011-10-13 2011-10-13 Sound source direction estimation method, sound source direction estimation device, and sound source estimation image creation device

Country Status (1)

Country Link
JP (1) JP5826582B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6527368B2 (en) * 2015-03-31 2019-06-05 国立大学法人名古屋大学 Deterioration diagnosis method of joint member for road bridge
CN109683128B (en) * 2019-02-01 2022-04-29 哈尔滨工程大学 Single-snapshot direction finding method under impact noise environment
CN109975743B (en) * 2019-04-12 2020-11-03 哈尔滨工程大学 Cross-spectrum direction finding method for line spectrum target through co-prime array

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5166862A (en) * 1974-12-06 1976-06-09 Boeicho Gijutsu Kenkyu Honbuch HOISOKUTEIHOSHIKI
JP4868671B2 (en) * 2001-09-27 2012-02-01 中部電力株式会社 Sound source exploration system
JP4247195B2 (en) * 2005-03-23 2009-04-02 株式会社東芝 Acoustic signal processing apparatus, acoustic signal processing method, acoustic signal processing program, and recording medium recording the acoustic signal processing program
JP4476870B2 (en) * 2005-05-18 2010-06-09 中部電力株式会社 Correction method of microphone output for sound source search, low frequency generator, sound source search system, and microphone frame
JP5098176B2 (en) * 2006-01-10 2012-12-12 カシオ計算機株式会社 Sound source direction determination method and apparatus
JP5089198B2 (en) * 2007-03-09 2012-12-05 中部電力株式会社 Sound source position estimation system

Also Published As

Publication number Publication date
JP2013088141A (en) 2013-05-13

Similar Documents

Publication Publication Date Title
JP5089198B2 (en) Sound source position estimation system
JP5693201B2 (en) Method and apparatus for reproducing propagation sound from specified area
JP5702160B2 (en) Sound source estimation method and sound source estimation apparatus
JP5294925B2 (en) Sound source estimation method and apparatus
Thomas et al. Real-time near-field acoustic holography for continuously visualizing nonstationary acoustic fields
US20100220552A1 (en) Method and apparatus for estimating sound source
EP3073766A1 (en) Sound field re-creation device, method, and program
CN110068388A (en) A kind of method for detecting vibration of view-based access control model and blind source separating
Poozesh et al. Modal parameter estimation from optically-measured data using a hybrid output-only system identification method
JP5456563B2 (en) Method and apparatus for displaying sound source estimation image
JP5826582B2 (en) Sound source direction estimation method, sound source direction estimation device, and sound source estimation image creation device
JP2010212818A (en) Method of processing multi-channel signals received by a plurality of microphones
JP2011071686A (en) Video sound processor, and video sound processing method, and program
JP2018170717A (en) Sound pickup device, program, and method
JP4652191B2 (en) Multiple sound source separation method
JP6392656B2 (en) Sound source direction estimation method
JP2010236939A (en) Method and apparatus for estimating sound source
JPWO2018003158A1 (en) Correlation function generation device, correlation function generation method, correlation function generation program and wave source direction estimation device
JP5242452B2 (en) Sound source estimation method and apparatus
JP5462667B2 (en) Surveillance camera device with sound source direction estimation function
Torres et al. Room acoustics analysis using circular arrays: An experimental study based on sound field plane-wave decomposition
JP5534870B2 (en) Sound source estimation image creation device
JP2020150490A (en) Sound source localization apparatus, sound source localization method, and program
JP6323901B2 (en) Sound collection device, sound collection method, and program
JP5242450B2 (en) Sound source estimation method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140918

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150617

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150623

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151006

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151014

R150 Certificate of patent or registration of utility model

Ref document number: 5826582

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350