JP2010175431A - Device, method and program for estimating sound source direction - Google Patents
Device, method and program for estimating sound source direction Download PDFInfo
- Publication number
- JP2010175431A JP2010175431A JP2009019355A JP2009019355A JP2010175431A JP 2010175431 A JP2010175431 A JP 2010175431A JP 2009019355 A JP2009019355 A JP 2009019355A JP 2009019355 A JP2009019355 A JP 2009019355A JP 2010175431 A JP2010175431 A JP 2010175431A
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- arrival time
- time difference
- source direction
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Circuit For Audible Band Transducer (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Abstract
Description
この発明は、テレビ電話や音声会議等において用いられる発話者の方向を検出する音源方向推定装置とその方法と、そのプログラムに関する。 The present invention relates to a sound source direction estimating apparatus and method for detecting the direction of a speaker used in a videophone or audio conference, and a program thereof.
従来の音声会議等に用いられる音源方向推定方法は、例えば非特許文献1に開示されている。その方法は、図13に示すように正三角形の頂点に配置された3つのマイクロホン1,2,3からなるマイクロホンアレーを用いて、N個(N≧2)の異なる音源の方向Snを推定するものである。図14に、その音源方向推定装置300の機能構成例を示して動作を説明する。
A sound source direction estimation method used in a conventional audio conference or the like is disclosed in Non-Patent
音源方向推定装置300は、正三角形の頂点に配置された3つのマイクロホン1,2,3と、周波数変換部11,12,13と、到達時間差算出部21,22,23と、音源方向推定部150とを具備する。マイクロホン1,2,3で受信された時間サンプルnにおける信号xi(n)は、周波数変換部11,12,13に入力され、複数の時間サンプルの集合であるフレーム毎に求めた周波数領域の信号Xi(ω,m)に変換される。ここでmとωは、それぞれ周波数変換を行った信号フレームの番号と、変換後の信号の周波数を示している。周波数変換されたマイク受音信号は、到達時間差算出部21,22,23に入力される。到達時間差算出部21,22,23は、異なる3つのマイクロホン対の組み合わせのそれぞれに対して式(1)の計算を行い、それぞれのマイクロホン対における到達時間差τij(ω,m)(i,j≦3,i≠j)を出力する。iとjはマイクロホンの番号を示す。
The sound source
到達時間差τijは音源方向推定部150に入力され、推定された音源方向θn^が出力される。なお、^は図中の表記が正しい。図15に音源方向推定部150の機能構成例を示してその動作を説明する。音源方向推定部150は、ベクトル化部151、音源方向算出部152、ヒストグラム演算部153を備える。ベクトル化部151は、到達時間差算出部21,22,23が出力する到達時間差τ12(ω,m)、τ23(ω,m)、τ31(ω,m)を入力として、式(2)に示す到達時間差ベクトルt(ω,m)を出力する。ベクトル化部151は、入力される到達時間差τij(ω,m)を単に並べてベクトル化するものである。
The arrival time difference τ ij is input to the sound source
音源方向算出部32は、入力された到達時間差ベクトルt(ω,m)に対して式(3)のように、式(4)で与えられる座標変換行列Dを左から掛け、その出力の第一要素と第二要素から式(5)の計算によって音源方向候補θ′(ω,m)を求める。 The sound source direction calculation unit 32 multiplies the input arrival time difference vector t (ω, m) by the coordinate transformation matrix D given by the equation (4) from the left as in the equation (3), and outputs the output The sound source direction candidate θ ′ (ω, m) is obtained from the one element and the second element by the calculation of Expression (5).
ヒストグラム演算部153は、入力された音源方向候補θ′(ω,m)からヒストグラムを求め、ヒストグラムのピークを与える方向を音源方向推定値θa^(a=1,…,A′)として出力する。A′は予め与えられる最大同時発生音源数である。
The
ここでヒストグラムは、連続する複数のフレームのそれぞれの周波数ビンにおいて求められた全ての音源方向候補θ′(ω,m)を、予め決められた角度幅毎に分類することで算出される。ヒストグラムを求める際に用いるフレームの数は、音源が移動しない程度の時間長に対応するフレーム数が選ばれる。例えばフレーム長が16msであり、約0.5秒間は音源が移動しないと考えられる場合、例えば30個のフレームのそれぞれにおいて求められた音源方向候補θ′(ω,m)を用いてヒストグラムは求められる。音源方向候補θ′(ω,m)の数は、信号のサンプリング周波数が16kHzとして、周波数変換方法を例えば256点のデータを用いた短時間フーリエ変換とすると、3840個(128×30)ある周波数ビンの数と等しい。 Here, the histogram is calculated by classifying all the sound source direction candidates θ ′ (ω, m) obtained in the respective frequency bins of a plurality of consecutive frames for each predetermined angle width. As the number of frames used for obtaining the histogram, the number of frames corresponding to a length of time that does not move the sound source is selected. For example, if the frame length is 16 ms and the sound source is considered not to move for about 0.5 seconds, the histogram is obtained using the sound source direction candidate θ ′ (ω, m) obtained in each of 30 frames, for example. It is done. The number of sound source direction candidates θ ′ (ω, m) is 3840 (128 × 30) frequencies when the signal sampling frequency is 16 kHz and the frequency conversion method is short-time Fourier transform using, for example, 256 points of data. Equal to the number of bins.
従来の方法では、音源信号が音声のように非定常で特定の周波数に成分が集中する信号であるとき、任意の時刻における任意の周波数ビンは複数の音源の内どれか一つの音源の成分のみが存在するという、時間周波数領域におけるスパース性と呼ばれる仮定の下で処理を行っている。 In the conventional method, when the sound source signal is a non-stationary signal such as voice and the components are concentrated at a specific frequency, an arbitrary frequency bin at an arbitrary time is only the component of one of the multiple sound sources. The processing is performed under the assumption called sparseness in the time-frequency domain.
〔スパース性とは〕
ここでスパース性とは、対象とする信号のエネルギーがある領域(多くの場合、時間周波数領域)で一部の領域に集中し、その他の多くの領域で0であるような性質がある場合、それを信号のスパース性と呼ぶ。
[What is sparsity?]
Here, sparsity is a characteristic in which the energy of the signal of interest is concentrated in some areas in a certain area (in many cases, the time frequency area) and is zero in many other areas. This is called signal sparsity.
しかしながら一般に音源数が増えると信号のスパース性の仮定は崩れるため、従来技術では十分な精度で音源方向が推定できない。例えば、違う方向に位置する発話者が同時に発言したような場合には、それらの音源方向の推定精度が劣化する。また、実際の環境では音声以外の音が発生することが多く、それらの音の多くは、例えばエアコンやパソコンのファンの音のように定常で広い周波数に音の成分が広がる信号である。これらの音はスパース性が仮定できないので、これが音源の音に重畳すると、更に音源方向の推定精度を劣化させる原因になる。 However, since the assumption of signal sparsity generally breaks as the number of sound sources increases, the conventional technology cannot estimate the sound source direction with sufficient accuracy. For example, when a speaker located in a different direction speaks at the same time, the estimation accuracy of the sound source direction deteriorates. Further, in an actual environment, sounds other than voice are often generated, and most of these sounds are signals in which sound components spread in a steady and wide frequency, such as the sound of an air conditioner or a fan of a personal computer. Since these sounds cannot be assumed to be sparse, when they are superimposed on the sound of the sound source, the sound source direction estimation accuracy is further deteriorated.
この発明はこの点に鑑みてなされたものであり、違う方向に位置する発話者が同時に発言しても、それらの方向が精度良く推定できるようにした音源方向推定装置とその方法と、そのプログラムを提供することを目的とする。 The present invention has been made in view of this point, and even if a speaker located in a different direction speaks at the same time, a sound source direction estimating apparatus, a method thereof, and a program thereof that can accurately estimate those directions. The purpose is to provide.
この発明の音源方向推定装置は、正三角形の頂点に配置された3つのマイクロホンからなるマイクロホンアレーと、マイクロホンアレーの各マイクロホンで受信された信号を周波数領域の信号に変換する周波数変換部と、異なるマイクロホンのマイクロホン対の組み合わせのそれぞれに対して到達時間差を計算する到達時間差算出部と、到達時間差から音源候補を求め、音源方向候補を分類する音源方向推定部と、を具備する。そして、音源方向推定部は、到達時間差の周波数ビン毎にスパース性が仮定できるか否かを判定するスパース性判定部を備え、スパース性が仮定できる周波数ビンの到達時間差から音源候補を求め、音源方向候補を分類する。 The sound source direction estimating device of the present invention is different from a microphone array composed of three microphones arranged at the vertices of an equilateral triangle, and a frequency conversion unit that converts signals received by the microphones of the microphone array into signals in the frequency domain. An arrival time difference calculating unit that calculates an arrival time difference for each combination of microphone pairs of a microphone, and a sound source direction estimating unit that obtains a sound source candidate from the arrival time difference and classifies the sound source direction candidate. The sound source direction estimation unit includes a sparsity determination unit that determines whether sparsity can be assumed for each frequency bin of arrival time differences, obtains sound source candidates from the arrival time differences of frequency bins that can assume sparsity, Classify direction candidates.
この発明によれば、スパース性判定部が音源のスパース性が仮定できない周波数ビンの到達時間差を取り除き、残ったスパース性が仮定できる周波数ビンの到達時間差から音源候補を求める。よって、この発明の音源方向推定装置は、異なる位置の発話者が同時に発言しても両者の声が混ざった周波数ビンの到達時間差を除外し、単一の音源から成る到達時間差に基づいてそれぞれの方向を推定する。したがって、音源方向推定を精度良く行うことができる。 According to this invention, the sparsity determination unit removes the arrival time difference between frequency bins where the sparsity of the sound source cannot be assumed, and obtains the sound source candidate from the arrival time difference between the frequency bins where the remaining sparsity can be assumed. Therefore, the sound source direction estimating apparatus of the present invention excludes the arrival time difference of frequency bins where both voices are mixed even if speakers at different positions speak at the same time, and based on the arrival time difference consisting of a single sound source, Estimate the direction. Therefore, sound source direction estimation can be performed with high accuracy.
以下に、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は省略する。 Embodiments of the present invention will be described below with reference to the drawings. The same components in the drawings are denoted by the same reference numerals, and the description thereof is omitted.
図1にこの発明の音源方向推定装置100の機能構成例を示す。音源方向推定装置100は、3つのマイクロホンからなるマイクロホンアレーと、周波数変換部11,12,13と、到達時間差算出部21,22,23と、音源方向推定部30と、を具備する。音源方向推定装置100は、音源方向推定部30がスパース性判定部34を備える点と、その判定結果を利用した処理手順のみが、従来技術で説明した音源方向推定装置300と異なる。
FIG. 1 shows a functional configuration example of a sound source direction estimating apparatus 100 of the present invention. The sound source direction estimation apparatus 100 includes a microphone array including three microphones,
従来技術の音源方向推定装置300の動作と同じ部分について、図2の動作フローも参照して簡単に説明する。周波数変換部11,12,13は、各マイクロホン1,2,3で受信された信号を周波数領域の信号に変換する(ステップS11)。到達時間差算出部21,22,23は、異なるマイクロホン1,2,3のマイクロホン対の組み合わせのそれぞれに対して到達時間差τij(ω,m)(τ12(ω,m)、τ23(ω,m)、τ31(ω,m))を計算する(ステップS21)。音源方向推定部30は、到達時間差τij(ω,m)から音源候補θ′(ω,m)を求め、その音源候補θ′(ω,m)を分類する(ステップS30)。
The same part as the operation of the sound source
この発明の音源方向推定装置100は、音源方向推定部30が到達時間差τij(ω,m)の周波数ビン毎にスパース性が仮定できるか仮定できないかを判定するスパース性判定部34を備える点で新しい。音源方向推定部30は、スパース性判定部34が出力するスパース性が仮定できる周波数ビンの到達時間差τij(ω,m)から音源候補を求め、音源候補を分類する(ステップS30)。このスパース性の判定は、フレームm毎、周波数ビンω毎に行われる。よって、異なる位置の発話者が同時に発言しても両者の声が混ざった周波数ビンの到達時間差τij(ω,m)は除外されるので、それぞれの音源方向の推定を精度良く行うことができる。
The sound source direction estimating apparatus 100 of the present invention includes a
図3に音源方向推定部30の機能構成例を示す。音源方向推定部30は、ベクトル化部151、スパース性判定部34、音源方向算出部152′、ヒストグラム演算部153を備える。従来技術の音源方向推定装置300の機能構成例(図15)と比較すると明らかなように、音源方向推定部30は、ベクトル化部151と音源方向算出部152との間にスパース性判定部34を備える点と、音源方向算出部152′がその判定結果を参照して音源方向を計算する点とが、従来の音源方向推定部150と異なる。
FIG. 3 shows a functional configuration example of the sound source
この実施例のスパース性判定部34の機能構成例を図4に、その動作フローを図5に示して動作を説明する。スパース性判定部34は、直交行列算出部35、ベクトル直交度算出部36、直交性判定部38、を備える。直交行列算出部35は、ベクトル化部151が出力する到達時間差ベクトルt(ω,m)を入力として、その到達時間差ベクトルt(ω,m)に直交する2つの到達時間差正規直交ベクトルt⊥1(ω,m)とt⊥2(ω,m)を出力する(ステップS35)。この正規直交ベクトルは、例えばグラムシュミットの正規直交化で求めることが可能である。(参考文献「G.ストラング著“線形代数とその応用”産業図書、141〜143頁」)
An example of the functional configuration of the
到達時間差正規直交ベクトルt⊥1(ω,m)とt⊥2(ω,m)は、ベクトル直交度算出部36に入力され、到達時間差ベクトルの理論値te(θ)に対する直交度が求められる(ステップS36)。到達時間差ベクトルの理論値te(θ)とは、式(6)で計算できる値である。
Arrival time difference orthonormal vector t ⊥1 (ω, m) and t ⊥2 (ω, m) are input to the vector
ここでdは、三角形の頂点に配置されるマイクロホン1,2,3が成す三角形の一辺の長
さである(図13参照)。cは音速である。このようにte(θ)は、実測値とは無関係
に計算できる理論上の値である。この到達時間差ベクトルの理論値te(θ)は、図4に
示すように記録部37に記録されているものを逐次読み出しても良いし、ベクトル直交度
算出部36内に予め記録した値を用いるようにしても良い。
Here, d is the length of one side of the triangle formed by the
ここで到達時間差ベクトルt(ω,m)に直交する2つの到達時間差正規直交ベクトルt⊥1(ω,m),t⊥2(ω,m)を求める意味を説明する。図6に、任意の到達時間差ベクトルt(ω,m)に対する到達時間差正規直交ベクトルt⊥1(ω,m)とt⊥2(ω,m)を示す。この到達時間差ベクトルt(ω,m)の方向を知るためには、方向が既知のベクトルと、その到達時間差正規直交ベクトルt⊥1(ω,m),t⊥2(ω,m)とが直交するか否かを見れば良い。直交すれば到達時間差ベクトルt(ω,m)の方向は、既知のベクトルの方向と同じである。 Here, the meaning of obtaining two arrival time difference normal orthogonal vectors t ⊥1 (ω, m) and t ⊥2 (ω, m) orthogonal to the arrival time difference vector t (ω, m) will be described. FIG. 6 shows arrival time difference normal orthogonal vectors t ⊥1 (ω, m) and t ⊥2 (ω, m) with respect to an arbitrary arrival time difference vector t (ω, m). In order to know the direction of this arrival time difference vector t (ω, m), a vector whose direction is known and its arrival time difference orthonormal vector t ⊥1 (ω, m), t ⊥2 (ω, m) What is necessary is just to see whether it is orthogonal. If they are orthogonal, the direction of the arrival time difference vector t (ω, m) is the same as the direction of the known vector.
ベクトル直交度算出部36は、それらの到達時間差正規直交ベクトルt⊥1(ω,m),t⊥2(ω,m)と、理論値の到達時間差ベクトルte(θ)との直交度P(θ)を式(7)で算出する(ステップS36)。
The vector
式(7)は、個々の到達時間差ベクトルt(ω,m)に対応する到達時間差正規直交ベク
トルt⊥1(ω,m),t⊥2(ω,m)に対して、全ての方向0〜359度の理論値の到達時間差ベクトルte(θ)について計算される。式(7)で計算する理論値の到達時間差ベクトルte(θ)の方向は既知であるので、その理論値と到達時間差正規直交ベクトルt⊥1(ω,m),t⊥2(ω,m)とが直交すると、式(7)の分母の第1項と第2項は、それぞれ0となる。よって直交度P(θ)が大きな値を持つ。逆に、理論値と異なる角度の場合は、式(7)の分母第1項と第2項がある大きさの値を持つので直交度P(θ)の値は小さな値となる。
Expression (7) is obtained by calculating all
このように到達時間差ベクトルt(ω,m)に直交する到達時間差正規直交ベクトルt⊥1(ω,m),t⊥2(ω,m)を求め、それらと、理論値の到達時間差ベクトルte(θ)とが直交するか否かを評価することで、到達時間差ベクトルt(ω,m)が、1個の音源によりできたベクトルなのか、他の音源の信号が混ざって出来たベクトルなのかを判別することができる。 In this way, the arrival time difference normal orthogonal vectors t ⊥1 (ω, m), t ⊥2 (ω, m) orthogonal to the arrival time difference vector t (ω, m) are obtained, and these and the theoretical arrival time difference vector t e (theta) and that evaluates whether orthogonal, arrival time difference vector t (ω, m) is, whether a vector made by a single sound source, could mixed signals of other excitation vector Can be determined.
式(7)で計算された直交度P(θ)の具体例を図7と図8に示す。横軸は信号の到来
方向を[度]、縦軸は最大ベクトル直交度maxP(θ)である。ここで0度方向は、マイクロホンアレーを机上に置いた時に、マイクロホンアレーの中心から見たマイクロホン1の方向である(図13)。図7は、10度の角度に位置する音源1と、別の音源2の角度を0度から360度まで変えた時のそれぞれの角度における最大ベクトル直交度maxP(θ)を求めたものである。音源1と音源2の角度が一致したときだけ最大ベクトル直交度maxP(θ)が約32と大きな値を示し、それ以外の方向では約12以下の小さな値を示している。
Specific examples of the orthogonality P (θ) calculated by the equation (7) are shown in FIGS. The horizontal axis represents the arrival direction of the signal [degree], and the vertical axis represents the maximum vector orthogonality maxP (θ). Here, the 0 degree direction is the direction of the
図8は、音源が一つしかないときに、その音源の角度を0度から360度まで変えたときの最大ベクトル直交度P(θ)を示す。信号到来方向の全方向の最大ベクトル直交度maxP(θ)が図7の角度10度と同じ(約32)大きさを示している。 FIG. 8 shows the maximum vector orthogonality P (θ) when the angle of the sound source is changed from 0 degrees to 360 degrees when there is only one sound source. The maximum vector orthogonality maxP (θ) in all directions of the signal arrival direction shows the same magnitude (about 32) as the angle of 10 degrees in FIG.
直交性判定部38は、その直交度P(θ)と、閾値Thとを比較して到達時間差ベクトルt(ω,m)の直交性を判定する(ステップS38)。直交性が高い到達時間差ベクトルt(ω,m)は、1個の固定された位置の音源からのベクトル、つまりスパース性が仮定できる到達時間差ベクトルt(ω,m)である。逆に直交度P(θ)の小さな到達時間差ベクトルt(ω,m)は、スパース性が仮定できない。
The
このスパース性が仮定できるか否かを式(8)に示すように、閾値Thを例えば15として判定する(ステップS380)。 Whether or not this sparsity can be assumed is determined by setting the threshold Th to 15, for example, as shown in Expression (8) (step S380).
直交度P(θ)がTh=15よりも大きければ、スパース性判定結果NJ(ω,m)を1(ステップS382)、小さければNJ(ω,m)を0(ステップS381)として全ての到達時間差ベクトルt(ω,m)についての判定が終了(ステップS383のY)するまで、到達時間差ベクトルt(ω,m)が更新される(ステップS384)。したがって、全てのフレームm、周波数ビンωの到達時間差ベクトルt(ω,m)についてのスパース性が判定される。 If the orthogonality P (θ) is larger than Th = 15, the sparsity determination result N J (ω, m) is 1 (step S382), and if it is smaller, N J (ω, m) is 0 (step S381). The arrival time difference vector t (ω, m) is updated until the determination on the arrival time difference vector t (ω, m) is completed (Y in step S383) (step S384). Therefore, the sparsity of the arrival time difference vectors t (ω, m) of all frames m and frequency bins ω is determined.
音源方向算出部152′は、スパース性判定結果NJ(ω,m)を参照し、NJ(ω,m)=1の到達時間差ベクトルt(ω,m)についてのみ式(5)に示した音源方向候補θ′(ω,m)を計算してヒストグラム演算部153に出力する。この音源方向候補θ′(ω,m)の計算と、ヒストグラム演算部153でヒストグラムを求め、そのピーク値を与える角度を音源方向とする動作は、従来技術と同じである。
The sound source
以上述べたように音源方向推定装置100は、スパース性が仮定できる周波数ビンの到達時間差ベクトルt(ω,m)を用いて音源方向を推定するので、異なる位置の発話者が同時に発言するような場合があっても、それぞれの音源方向を正確に推定することができる。なお、スパース性の判定を、到達時間差ベクトルに対する正規化直交ベクトルを求める方法で説明したが、この発明はこの方法に限定されない。スパース性の判定方法の他の実施例を次に説明する。 As described above, the sound source direction estimating apparatus 100 estimates the sound source direction using the arrival time difference vector t (ω, m) of frequency bins that can be assumed to be sparsity, so that speakers at different positions speak at the same time. Even in some cases, the direction of each sound source can be accurately estimated. Note that the sparsity has been determined by a method for obtaining a normalized orthogonal vector with respect to the arrival time difference vector, but the present invention is not limited to this method. Another embodiment of the sparsity determination method will be described next.
実施例2のスパース性の判定方法は、到達時間差ベクトルt(ω,m)と理論値の到達時間差ベクトルte(θ)の向きの違いを評価してスパース性を判定する方法である。図9に実施例2のスパース性判定部34′の機能構成例を示す。スパース性判定部34′は、ベクトル間距離算出部90、ベクトル一致性判定部91、を備える。
The sparsity determination method according to the second embodiment is a method for determining sparsity by evaluating the difference in direction between the arrival time difference vector t (ω, m) and the theoretical arrival time difference vector t e (θ). FIG. 9 shows a functional configuration example of the
ベクトル間距離算出部90は、到達時間差ベクトルt(ω,m)を入力としてその到達時間差ベクトル自身の大きさで正規化した正規化実測値から、到達時間差ベクトルの理論値te(θ)自身の大きさで正規化した正規化理論値を減算した値の絶対値である距離P′(θ)を、式(9)で算出する。
The inter-vector
ここでte(θ)は、式(6)で計算される到達時間差ベクトルの理論値の大きさである。この到達時間差ベクトルの理論値te(θ)は、図9に示すように記録部37′に記録されているものを逐次読み出しても良いし、ベクトル間距離算出部90内に記録した値を用いるようにしても良い。
Here, t e (θ) is the magnitude of the theoretical value of the arrival time difference vector calculated by Expression (6). The theoretical value t e (θ) of the arrival time difference vector may be sequentially read from the recording unit 37 ′ as shown in FIG. 9, or the value recorded in the inter-vector
距離P′(θ)は、到達時間差ベクトルt(ω,m)の方向と、到達時間差ベクトルの理論値te(θ)の方向が一致すると0になる値である。よって、その値の大きさによって到達時間差ベクトルt(ω,m)が、1個の音源からのベクトルなのか、他の音源の影響を受けたベクトルなのかを判定することができる。つまりスパース性が仮定できる到達時間差ベクトルt(ω,m)であるのか否かを、距離P′(θ)の大きさで判定することができる。 The distance P ′ (θ) is a value that becomes 0 when the direction of the arrival time difference vector t (ω, m) coincides with the direction of the theoretical value t e (θ) of the arrival time difference vector. Therefore, it is possible to determine whether the arrival time difference vector t (ω, m) is a vector from one sound source or a vector influenced by another sound source according to the magnitude of the value. That is, whether or not the arrival time difference vector t (ω, m) can be assumed as sparsity can be determined based on the magnitude of the distance P ′ (θ).
実施例2の場合は、距離P′(θ)の大きさをベクトル一致性判定部91で判定する(ステップS91)。実施例1とは逆に、距離P′(θ)の値が小さい方がスパース性を仮定できる到達時間差ベクトルt(ω,m)である。他の処理は実施例1と同じである。このようにして到達時間差ベクトルt(ω,m)のスパース性の有無を判定することも可能である。 In the case of the second embodiment, the magnitude of the distance P ′ (θ) is determined by the vector matching determination unit 91 (step S91). Contrary to the first embodiment, the smaller the value of the distance P ′ (θ) is the arrival time difference vector t (ω, m) that can assume the sparsity. Other processes are the same as those in the first embodiment. In this way, it is possible to determine whether or not the arrival time difference vector t (ω, m) has sparsity.
〔シミュレーション結果〕
この発明の効果を確認する目的で、従来の音源方向推定装置300と、この発明の音源方向推定装置100の音源方向推定性能の比較を行った。シミュレーションは、音源を角度10度の方向に位置する男性、角度20度の方向に位置する女性とし、その両者が同時に発話する声に、スパース性の無い白色雑音が10dBのSN比で重畳される条件で行った。
〔simulation result〕
In order to confirm the effect of the present invention, the sound source direction estimation performance of the conventional sound source
その結果、得られたヒストグラムを図11と図12に示す。横軸は信号の到来方向を[度]で、縦軸は[度数]である。図11が従来の音源方向推定装置300で得られたヒストグラムである。ヒストグラムの頂点は、5度と15度の方向にずれている。図12がこの発明の音源方向推定装置100で得られたヒストグラムである。2つの異なるピークが10度と20度の方向に正しく生じており、図11と比較するとピークが際立って現れている。このように、この発明の音源方向推定装置100の音源方向推定精度が高いことが確認できた。
As a result, the obtained histograms are shown in FIGS. The horizontal axis represents the arrival direction of the signal in [degrees], and the vertical axis represents [frequency]. FIG. 11 is a histogram obtained by the conventional sound source
以上説明したこの発明の音源方向推定装置とその方法は、上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能である。例えば、上記した装置及び方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。 The sound source direction estimation apparatus and method of the present invention described above are not limited to the above-described embodiment, and can be appropriately changed without departing from the spirit of the present invention. For example, the processes described in the above-described apparatus and method are not only executed in time series in the order described, but are also executed in parallel or individually as required by the processing capability of the apparatus that executes the processes. Also good.
また、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。 Further, when the processing means in the above apparatus is realized by a computer, the processing contents of functions that each apparatus should have are described by a program. Then, by executing this program on the computer, the processing means in each apparatus is realized on the computer.
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM
(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R
(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてフラッシュメモリー等を用いることができる。
The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used. Specifically, for example, as a magnetic recording device, a hard disk device, a flexible disk, a magnetic tape, or the like, and as an optical disk, a DVD (Digital Versatile Disc), a DVD-RAM
(Random Access Memory), CD-ROM (Compact Disc Read Only Memory), CD-R
(Recordable) / RW (ReWritable) or the like can be used as a magneto-optical recording medium, MO (Magneto Optical disc) or the like as a semiconductor memory, and flash memory or the like as a semiconductor memory.
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。 The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Further, the program may be distributed by storing the program in a recording device of a server computer and transferring the program from the server computer to another computer via a network.
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。 Each means may be configured by executing a predetermined program on a computer, or at least a part of these processing contents may be realized by hardware.
Claims (7)
上記マイクロホンアレーの各マイクロホンで受信された信号を周波数領域の信号に変換する周波数変換部と、
上記異なるマイクロホンのマイクロホン対の組み合わせのそれぞれに対して到達時間差を計算する到達時間差算出部と、
上記到達時間差から音源候補を求め、上記音源方向候補を分類する音源方向推定部と、を具備する音源方向推定装置において、
上記音源方向推定部は、上記到達時間差の周波数ビン毎にスパース性が仮定できるか仮定できないかを判定するスパース性判定部を備え、スパース性が仮定できる周波数ビンの到達時間差から音源候補を求め、上記音源方向候補を分類することを特徴とする音源方向推定装置。 A microphone array consisting of three microphones arranged at the apex of an equilateral triangle;
A frequency converter that converts signals received by the microphones of the microphone array into signals in the frequency domain;
An arrival time difference calculation unit for calculating an arrival time difference for each combination of microphone pairs of the different microphones;
In a sound source direction estimating device comprising a sound source direction estimating unit that obtains sound source candidates from the arrival time difference and classifies the sound source direction candidates,
The sound source direction estimation unit includes a sparsity determination unit that determines whether sparsity can be assumed for each frequency bin of the arrival time difference, and obtains a sound source candidate from the arrival time difference of the frequency bins that can assume the sparsity, A sound source direction estimating apparatus for classifying the sound source direction candidates.
上記スパース性判定部は、
到達時間差ベクトルを入力としてその到達時間差ベクトルの周波数ビン毎に直交する2つの到達時間差正規直交ベクトルを算出する直交行列算出部と、
上記2つの到達時間差正規直交ベクトルを入力として、上記到達時間差ベクトルの理論値に対する上記2つの到達時間差正規直交ベクトルの直交度を算出するベクトル直交度算出部と、
上記直交度を、閾値と比較して上記到達時間差ベクトルの上記スパース性を判定する直交性判定部と、を備えることを特徴とする音源方向推定装置。 In the sound source direction estimating apparatus according to claim 1,
The sparsity determination unit
An orthogonal matrix calculation unit for calculating two arrival time difference normal orthogonal vectors orthogonal to each frequency bin of the arrival time difference vector by using the arrival time difference vector;
A vector orthogonality calculating unit that calculates the orthogonality of the two arrival time difference normal orthogonal vectors with respect to a theoretical value of the arrival time difference vector, using the two arrival time difference normal orthogonal vectors as inputs;
A sound source direction estimation apparatus comprising: an orthogonality determination unit that compares the orthogonality with a threshold value and determines the sparsity of the arrival time difference vector.
上記スパース性判定部は、
到達時間差ベクトルを入力としてその到達時間差ベクトル自身の大きさで正規化した正規化実測値から、上記到達時間差ベクトルの理論値自身の大きさで正規化した正規化理論値を、減算した値の絶対値である距離を周波数ビン毎に算出するベクトル間距離算出部と、
上記距離を、閾値と比較して上記到達時間差ベクトルの上記スパース性を判定するベクトル一致性判定部と、を備えることを特徴とする音源方向推定装置。 In the sound source direction estimating apparatus according to claim 1,
The sparsity determination unit
The absolute value of the value obtained by subtracting the normalized theoretical value normalized by the magnitude of the theoretical value of the arrival time difference vector from the normalized measured value normalized by the magnitude of the arrival time difference vector itself. A distance calculation unit between vectors for calculating a distance as a value for each frequency bin;
A sound source direction estimation apparatus comprising: a vector matching determination unit that determines the sparsity of the arrival time difference vector by comparing the distance with a threshold value.
到達時間差算出部が、上記異なるマイクロホンのマイクロホン対の組み合わせのそれぞれに対して到達時間差を算出する到達時間差算出過程と、
音源方向推定部が、上記到達時間差から音源候補を求め、上記音源方向候補を分類する音源方向推定過程と、を含む音源方向推定方法において、
上記音源方向推定過程は、スパース性判定部が上記到達時間差の周波数ビン毎にスパース性が仮定できるか仮定できないかを判定するスパース性判定過程を含み、スパース性が仮定できる周波数ビンの到達時間差から音源候補を求め、上記音源方向候補を分類する過程であることを特徴とする音源方向推定方法。 A frequency conversion process in which the frequency conversion unit converts a signal received by each microphone of a microphone array including three microphones into a signal in the frequency domain;
An arrival time difference calculating unit for calculating an arrival time difference for each combination of microphone pairs of the different microphones; and
In a sound source direction estimation method, including a sound source direction estimation unit, wherein a sound source direction estimation unit obtains sound source candidates from the arrival time difference and classifies the sound source direction candidates.
The sound source direction estimation process includes a sparsity determination process in which the sparsity determination unit determines whether or not the sparsity can be assumed for each frequency bin of the arrival time difference. From the arrival time difference of the frequency bins where the sparsity can be assumed. A method of estimating a sound source direction, which is a process of obtaining sound source candidates and classifying the sound source direction candidates.
上記スパース性判定過程は、
直交行列算出部が、到達時間差ベクトルを入力としてその到達時間差ベクトルの周波数ビン毎に直交する2つの到達時間差正規直交ベクトルを算出する直交行列算出過程と、
ベクトル直交度算出部が、上記2つの到達時間差正規直交ベクトルを入力として、理論的な到達時間差ベクトルに対する上記2つの到達時間差正規直交ベクトルの直交度を算出するベクトル直交度算出過程と、
直交性判定部が、上記直交度を、閾値と比較して上記到達時間差ベクトルの上記スパース性を判定する直交性判定過程と、を含むことを特徴とする音源方向推定方法。 In the sound source direction estimation method according to claim 4,
The sparseness determination process is as follows:
An orthogonal matrix calculation process in which an orthogonal matrix calculation unit calculates two arrival time difference normal orthogonal vectors orthogonal to each frequency bin of the arrival time difference vector with the arrival time difference vector as an input;
A vector orthogonality calculating unit that receives the two arrival time difference normal orthogonal vectors as input and calculates the orthogonality of the two arrival time difference normal orthogonal vectors with respect to the theoretical arrival time difference vector;
A sound source direction estimation method, wherein the orthogonality determination unit includes an orthogonality determination step of determining the sparsity of the arrival time difference vector by comparing the orthogonality with a threshold value.
上記スパース性判定過程は、
ベクトル間距離算出部が、到達時間差ベクトルを入力としてその到達時間差ベクトル自身の大きさで正規化した正規化実測値から、上記到達時間差ベクトルの理論値自身の大きさで正規化した正規化理論値を減算した値の絶対値で表せる距離を周波数ビン毎に算出するベクトル間距離算出過程と、
ベクトル一致性判定部が、上記距離を、閾値と比較して上記到達時間差ベクトルの上記スパース性を判定するベクトル一致性判定過程と、を含むことを特徴とする音源方向推定方法。 In the sound source direction estimation method according to claim 4,
The sparseness determination process is as follows:
Normalized theoretical value normalized by the magnitude of the theoretical value of the arrival time difference vector from the actual measurement value normalized by the magnitude of the arrival time difference vector itself, with the inter-vector distance calculation unit receiving the arrival time difference vector as an input The inter-vector distance calculation process for calculating the distance that can be expressed by the absolute value of the value obtained by subtracting for each frequency bin,
A sound source direction estimation method, comprising: a vector matching determination step in which the vector matching determination unit determines the sparsity of the arrival time difference vector by comparing the distance with a threshold.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009019355A JP2010175431A (en) | 2009-01-30 | 2009-01-30 | Device, method and program for estimating sound source direction |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009019355A JP2010175431A (en) | 2009-01-30 | 2009-01-30 | Device, method and program for estimating sound source direction |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010175431A true JP2010175431A (en) | 2010-08-12 |
Family
ID=42706547
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009019355A Pending JP2010175431A (en) | 2009-01-30 | 2009-01-30 | Device, method and program for estimating sound source direction |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010175431A (en) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012098844A1 (en) * | 2011-01-18 | 2012-07-26 | パナソニック株式会社 | Vehicle-direction identification device, vehicle-direction identification method, and program therefor |
JP2015021966A (en) * | 2013-07-22 | 2015-02-02 | 三菱電機株式会社 | Method and system for detecting target in scene behind wall |
US9361576B2 (en) | 2012-06-08 | 2016-06-07 | Samsung Electronics Co., Ltd. | Neuromorphic signal processing device and method for locating sound source using a plurality of neuron circuits |
KR20180008159A (en) * | 2016-07-15 | 2018-01-24 | 국방과학연구소 | A Method for Target Localization by Stochastic Selection of Collected Information for Pulse Signal |
JP2019124570A (en) * | 2018-01-16 | 2019-07-25 | 株式会社ユピテル | Sound source direction specification device |
JP2019203817A (en) * | 2018-05-24 | 2019-11-28 | 株式会社デンソー | Signal processor |
WO2020003342A1 (en) * | 2018-06-25 | 2020-01-02 | 日本電気株式会社 | Wave-source-direction estimation device, wave-source-direction estimation method, and program storage medium |
WO2020003343A1 (en) * | 2018-06-25 | 2020-01-02 | 日本電気株式会社 | Wave-source-direction estimation device, wave-source-direction estimation method, and program storage medium |
-
2009
- 2009-01-30 JP JP2009019355A patent/JP2010175431A/en active Pending
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5079934B2 (en) * | 2011-01-18 | 2012-11-21 | パナソニック株式会社 | Vehicle direction identification device, vehicle direction identification method, and program thereof |
US9147347B2 (en) | 2011-01-18 | 2015-09-29 | Panasonic Intellectual Property Management Co., Ltd. | Vehicle direction identification device, vehicle direction identification method and program therefor |
WO2012098844A1 (en) * | 2011-01-18 | 2012-07-26 | パナソニック株式会社 | Vehicle-direction identification device, vehicle-direction identification method, and program therefor |
US9361576B2 (en) | 2012-06-08 | 2016-06-07 | Samsung Electronics Co., Ltd. | Neuromorphic signal processing device and method for locating sound source using a plurality of neuron circuits |
JP2015021966A (en) * | 2013-07-22 | 2015-02-02 | 三菱電機株式会社 | Method and system for detecting target in scene behind wall |
KR20180008159A (en) * | 2016-07-15 | 2018-01-24 | 국방과학연구소 | A Method for Target Localization by Stochastic Selection of Collected Information for Pulse Signal |
KR101881868B1 (en) * | 2016-07-15 | 2018-07-25 | 국방과학연구소 | A Method for Target Localization by Stochastic Selection of Collected Information for Pulse Signal |
JP7154530B2 (en) | 2018-01-16 | 2022-10-18 | 株式会社ユピテル | Sound source direction identification device |
JP2019124570A (en) * | 2018-01-16 | 2019-07-25 | 株式会社ユピテル | Sound source direction specification device |
JP2019203817A (en) * | 2018-05-24 | 2019-11-28 | 株式会社デンソー | Signal processor |
JP7031495B2 (en) | 2018-05-24 | 2022-03-08 | 株式会社デンソー | Signal processing equipment |
WO2020003343A1 (en) * | 2018-06-25 | 2020-01-02 | 日本電気株式会社 | Wave-source-direction estimation device, wave-source-direction estimation method, and program storage medium |
JPWO2020003342A1 (en) * | 2018-06-25 | 2021-06-24 | 日本電気株式会社 | Wave source direction estimator, wave source direction estimation method, and program |
JPWO2020003343A1 (en) * | 2018-06-25 | 2021-06-24 | 日本電気株式会社 | Wave source direction estimator, wave source direction estimation method, and program |
JP7056739B2 (en) | 2018-06-25 | 2022-04-19 | 日本電気株式会社 | Wave source direction estimator, wave source direction estimation method, and program |
US11408963B2 (en) | 2018-06-25 | 2022-08-09 | Nec Corporation | Wave-source-direction estimation device, wave-source-direction estimation method, and program storage medium |
WO2020003342A1 (en) * | 2018-06-25 | 2020-01-02 | 日本電気株式会社 | Wave-source-direction estimation device, wave-source-direction estimation method, and program storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Erdogan et al. | Improved mvdr beamforming using single-channel mask prediction networks. | |
JP2010175431A (en) | Device, method and program for estimating sound source direction | |
JP6289936B2 (en) | Sound source direction estimating apparatus, sound source direction estimating method and program | |
EP2530484B1 (en) | Sound source localization apparatus and method | |
US10535361B2 (en) | Speech enhancement using clustering of cues | |
JP4875656B2 (en) | Signal section estimation device and method, program, and recording medium | |
JP6594839B2 (en) | Speaker number estimation device, speaker number estimation method, and program | |
JP2008079256A (en) | Acoustic signal processing apparatus, acoustic signal processing method, and program | |
US20210020190A1 (en) | Sound source direction estimation device, sound source direction estimation method, and program | |
US11922965B2 (en) | Direction of arrival estimation apparatus, model learning apparatus, direction of arrival estimation method, model learning method, and program | |
JP2019095551A (en) | Generation device, generation method, and generation program | |
JP2009053349A (en) | Signal separation device, signal separation method, program, and recording medium | |
JP5994639B2 (en) | Sound section detection device, sound section detection method, and sound section detection program | |
JP4871191B2 (en) | Target signal section estimation device, target signal section estimation method, target signal section estimation program, and recording medium | |
JP2017067948A (en) | Voice processor and voice processing method | |
Krause et al. | Data diversity for improving DNN-based localization of concurrent sound events | |
JP2017151216A (en) | Sound source direction estimation device, sound source direction estimation method, and program | |
JP5784075B2 (en) | Signal section classification device, signal section classification method, and program | |
EP3557576A1 (en) | Target sound emphasis device, noise estimation parameter learning device, method for emphasizing target sound, method for learning noise estimation parameter, and program | |
Sledevič et al. | An evaluation of hardware-software design for sound source localization based on SoC | |
JP5044581B2 (en) | Multiple signal emphasis apparatus, method and program | |
JP5147012B2 (en) | Target signal section estimation device, target signal section estimation method, target signal section estimation program, and recording medium | |
Zaken et al. | Neural-Network-Based Direction-of-Arrival Estimation for Reverberant Speech-the Importance of Energetic, Temporal and Spatial Information | |
Chen et al. | Sound source DOA estimation and localization in noisy reverberant environments using least-squares support vector machines | |
Nogueira et al. | Robust localization of multiple sound sources based on BSS algorithms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110118 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110715 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120501 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120619 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20121106 |