JP5815435B2 - Sound source position determination apparatus, sound source position determination method, program - Google Patents
Sound source position determination apparatus, sound source position determination method, program Download PDFInfo
- Publication number
- JP5815435B2 JP5815435B2 JP2012035131A JP2012035131A JP5815435B2 JP 5815435 B2 JP5815435 B2 JP 5815435B2 JP 2012035131 A JP2012035131 A JP 2012035131A JP 2012035131 A JP2012035131 A JP 2012035131A JP 5815435 B2 JP5815435 B2 JP 5815435B2
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- power spectrum
- signal
- source position
- microphone
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Description
本発明は、音源がマイクロホンの近くにあるか、遠くにあるかを判定する音源位置判定装置、音源位置判定方法、プログラムに関する。 The present invention relates to a sound source position determination device, a sound source position determination method, and a program for determining whether a sound source is near or far from a microphone.
音源とマイクロホン間の距離を測定する方法として、例えば、特許文献1に示される方法がある。この方法では、複数のマイクロホンからなるマイクロホンアレーを用いて、入力信号に含まれる直接音と間接音(残響音)との比である直間比を求める。直間比はマイクロホンと音源の距離が大きくなるほど、単調に減少する特性を持つため、直間比を求めることで、マイクロホンと音源の距離を測定することができる。
As a method for measuring the distance between a sound source and a microphone, for example, there is a method disclosed in
しかしながら、特許文献1では、複数のマイクロホンからなるマイクロホンアレーを用いて、音源とマイクロホン間の距離を測定するため、複数マイクロホンデバイスのコスト、ディジタル信号に変換するためのA/D変換器のコスト、複数チャネル信号を処理するための演算量コスト等の装置コストが大きくなってしまうことが問題であった。そこで、本発明では、1チャネルマイクロホン入力信号のみを用いて、音源がマイクロホンの近くにあるか、遠くにあるかを判定することができる音源位置判定装置、音源位置判定方法、プログラムを提供することを目的とする。
However, in
本発明の音源位置判定装置は、フレーム分割部と、特徴量計算部と、第1遠近判定部とを備える。フレーム分割部は、入力信号をフレーム毎に分割する。特徴量計算部は、入力信号に含まれる音源信号の直接音と間接音の到達時間差に基づく特徴量を計算する。第1遠近判定部は、計算された特徴量と予め定めたしきい値を比較して音源とマイクロホンの遠近を判定する。 The sound source position determination apparatus of the present invention includes a frame division unit, a feature amount calculation unit, and a first perspective determination unit. The frame dividing unit divides the input signal for each frame. The feature amount calculation unit calculates a feature amount based on the arrival time difference between the direct sound and the indirect sound of the sound source signal included in the input signal. The first perspective determination unit determines the perspective of the sound source and the microphone by comparing the calculated feature amount with a predetermined threshold.
本発明の音源位置判定装置によれば、1チャネルマイクロホン入力信号のみを用いて、音源がマイクロホンの近くにあるか、遠くにあるかを判定することができる。 According to the sound source position determination apparatus of the present invention, it is possible to determine whether the sound source is near or far from the microphone using only the 1-channel microphone input signal.
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
<本発明のポイント>
マイクロホンの近くで音が発生した場合、直接音と間接音の到達時間差が生じるため、音発生直後においては、マイクロホン入力信号のほとんどの成分は直接音であり、間接音(残響音)は少ない。一方、マイクロホンの遠くで音が発生した場合、直接音と間接音の到達時間差が少ないため、音発生直後においてもマイクロホン入力信号は直接音と間接音の混合信号となる。本発明では、この差を利用して、音が発生した直後の信号を分析することで、直接音と間接音の特徴から、音がマイクロホンの近くで発生しているか、遠くで発生しているかを判定する。
Hereinafter, embodiments of the present invention will be described in detail. In addition, the same number is attached | subjected to the structure part which has the same function, and duplication description is abbreviate | omitted.
<Points of the present invention>
When a sound is generated near the microphone, a difference in arrival time between the direct sound and the indirect sound occurs. Therefore, immediately after the sound is generated, most components of the microphone input signal are direct sounds, and there are few indirect sounds (reverberation sounds). On the other hand, when a sound is generated far away from the microphone, the difference in arrival time between the direct sound and the indirect sound is small, so that the microphone input signal is a mixed signal of the direct sound and the indirect sound even immediately after the sound is generated. In the present invention, by using this difference and analyzing the signal immediately after the sound is generated, whether the sound is generated near the microphone or far away from the characteristics of the direct sound and the indirect sound. Determine.
図1、図2、図3、図4を参照して、実施例1の音源位置判定装置について詳細に説明する。図1は本実施例の音源位置判定装置1の構成を示すブロック図である。図2は本実施例の音源位置判定装置1の動作を示すフローチャートである。図3はマイクロホンの近くで発生する衝撃音の時間波形及びパワースペクトル時間変化量を示す図である。図4はマイクロホンの遠くで発生する衝撃音の時間波形及びパワースペクトル時間変化量を示す図である。
The sound source position determination apparatus according to the first embodiment will be described in detail with reference to FIGS. 1, 2, 3, and 4. FIG. 1 is a block diagram illustrating a configuration of a sound source
本実施例の音源位置判定装置1は、マイクロホン10と、フレーム分割部20と、特徴量計算部30と、遠近判定部40と、しきい値記憶部50とを備える。特徴量計算部30は、周波数領域変換手段31と、パワースペクトル計算手段32と、パワースペクトル記憶手段33と、パワースペクトル変化計算手段34とを備える。
The sound source
本実施例では、物をたたく音や、ぶつかる音といった衝撃音を対象として、発生した音がマイクロホンの近くで発生しているか、遠くで発生しているかを判別する例について説明する。 In the present embodiment, an example will be described in which it is determined whether the generated sound is generated near the microphone or in the distance for impact sounds such as a hitting sound and a hitting sound.
マイクロホン10は音を収音する(S10)。例えばマイクロホン入力信号は、サンプリング周波数16kHz、量子化ビット数16bitのディジタル信号とすることができる。マイクロホン入力信号x(n)は、フレーム分割部20に入力される。ここで、nは離散時間を表す。フレーム分割部20は、マイクロホン入力信号をフレーム毎に分割し、フレーム分割信号xt(n)とする(S20)。
The
ここで、tはフレーム番号を表す。フレーム長は例えば256サンプル(16ms)とすることができる。フレームシフト幅は例えば10サンプル(0.625ms)とする。後段では、あるフレーム内で求めた特徴量と、次フレーム内で求めた特徴量を比較し判定を行うため、フレーム長とフレームシフト幅は、判定精度に大きく寄与する。衝撃音を対象とする時、1フレーム内に衝撃音が収まる長さ以上に設定した方が、精度が高い。しかし、フレーム長が長い場合、処理遅延も大きくなり、問題となる。また、フレーム長を必要以上に長くすると、フレーム内に対象とする音以外の音が混入し、精度低下の要因となる。例えば、衝撃音の長さを10msと仮定して、フレーム長を16msとすることができる。本方法では対象音が微細な時間に変化するか否かについて着目する。よって、フレームシフト幅は短くし、細かく分析した方が望ましい。しかし、フレームシフト幅を短くすることは、処理量の増加につながる。判別精度を保ち、短すぎないフレームシフト幅として、例えば10サンプル程度を選択すればよい。フレーム分割部20で分割された信号xt(n)は、周波数領域変換手段31に送られる。周波数領域変換手段31は、マイクロホン入力信号を周波数領域信号Xt(k)に変換する(S31)。ここで、kは周波数を表す。周波数領域への変換方法として例えば、フレーム分割信号xt(n)にハニング窓wを乗じ、FFT(Fast_Fourier_Transform:高速フーリエ変換)を行えばよい。周波数領域信号Xt(k)は、パワースペクトル計算手段32に送られる。パワースペクトル計算手段32は、周波数領域信号からパワースペクトル信号を計算する(S32)。具体的には、次式によりパワースペクトル信号Pt(k)が計算される。パワースペクトルを計算することで、フレーム間における信号の位相変化を無視できる利点がある。
Here, t represents a frame number. The frame length can be, for example, 256 samples (16 ms). The frame shift width is, for example, 10 samples (0.625 ms). In the subsequent stage, since the determination is performed by comparing the feature value obtained in a certain frame with the feature value obtained in the next frame, the frame length and the frame shift width greatly contribute to the determination accuracy. When the impact sound is targeted, it is more accurate to set the length to be longer than the impact sound can be contained in one frame. However, when the frame length is long, the processing delay becomes large, which causes a problem. Further, if the frame length is made longer than necessary, sounds other than the target sound are mixed in the frame, causing a reduction in accuracy. For example, assuming that the length of the impact sound is 10 ms, the frame length can be 16 ms. This method focuses on whether or not the target sound changes in a minute time. Therefore, it is desirable to make the frame shift width short and to analyze in detail. However, reducing the frame shift width leads to an increase in processing amount. For example, about 10 samples may be selected as the frame shift width that maintains the discrimination accuracy and is not too short. The signal x t (n) divided by the
パワースペクトル信号Pt(k)はパワースペクトル記憶手段33に送られる。パワースペクトル記憶手段33は、予め定めた時間区間ごとにパワースペクトル信号Pt(k)を記憶し、所定時間前の時間区間のパワースペクトル信号を出力する(S33)。ここでは、1フレーム分のパワースペクトル信号を記憶することとし、現処理フレーム番号がtの時、1フレーム前のパワースペクトル信号Pt−1(k)を出力する。次に、パワースペクトル変化計算手段34は、現在のパワースペクトル信号と、所定時間前の時間区間のパワースペクトル信号とからパワースペクトル時間変化量を計算する(S34)。ここでは現処理フレームのパワースペクトル信号Pt(k)と1フレーム前のパワースペクトル信号Pt−1(k)を入力し、パワースペクトル時間変化量Stを出力する。次式に示す計算式で、パワースペクトルの時間変化を求める。ここで、Nはkの最大値であり、ナイキスト周波数に相当する値とする。 The power spectrum signal P t (k) is sent to the power spectrum storage means 33. The power spectrum storage means 33 stores the power spectrum signal P t (k) for each predetermined time interval, and outputs the power spectrum signal of the time interval before a predetermined time (S33). Here, the power spectrum signal for one frame is stored, and when the current processing frame number is t, the power spectrum signal P t-1 (k) of the previous frame is output. Next, the power spectrum change calculation means 34 calculates the power spectrum time change amount from the current power spectrum signal and the power spectrum signal in the time interval of a predetermined time (S34). Here, the power spectrum signal P t (k) of the current processing frame and the power spectrum signal P t−1 (k) of the previous frame are input, and the power spectrum time change amount St is output. The time change of the power spectrum is obtained by the calculation formula shown below. Here, N is the maximum value of k and is a value corresponding to the Nyquist frequency.
遠近判定部40は、パワースペクトル時間変化量Stを入力とし、当該パワースペクトル時間変化量Stと予め定めたしきい値を比較して音源とマイクロホンの遠近を判定する(S40)。図3に示すように、マイクロホンの近くで発生する衝撃音では、音が発生した瞬間、パワースペクトル時間変化量Stが急激に大きくなり、その後、急激に小さくなる。さらに、音が消える瞬間に再度急激に大きくなる。音が発生した直後の、パワースペクトル時間変化量が急激に小さくなるところに着目する。図4に示すように、マイクロホンの遠くで発生する衝撃音では、パワースペクトル時間変化量が急激に小さくなることはない。
Distance determining
定常雑音のみがある場合、パワースペクトル時間変化量はほぼ一定の値となるため、この値Scを基準として、しきい値係数Tcを乗じて、遠近判定のためのしきい値Tを決定する。パワースペクトル時間変化量がしきい値Tを下回る時、音はマイクロホンの近くで発生していると判定し、それ以外では、音はマイクロホンの遠くで発生していると判定し、結果を出力する。ここでは、定常雑音のみがある場合のパワースペクトル時間変化量平均値に0.7を乗じた値をしきい値Tとして設定する。これにより、マイクロホンからの距離が1m以内で発生した音かどうかを判別可能とする。 If there is only stationary noise, the power spectrum time change amount for substantially a constant value, based on the value S c, is multiplied by the threshold value coefficient T c, determines the threshold T for the distance determination To do. When the power spectrum time change amount is below the threshold value T, it is determined that the sound is generated near the microphone. Otherwise, it is determined that the sound is generated far from the microphone, and the result is output. . Here, a value obtained by multiplying the average value of power spectrum time variation when there is only stationary noise by 0.7 is set as the threshold value T. Thereby, it is possible to determine whether the sound is generated within a distance of 1 m from the microphone.
しきい値はあらかじめ決めた固定値としてもよい。この場合は計算コストを削減することができる。また、パワースペクトル時間変化量Stが急激に大きくなるところを捉え、その直後の信号をしきい値で判定しても良い。これにより、判定の精度を高めることができる。 The threshold value may be a fixed value determined in advance. In this case, calculation cost can be reduced. Further, it is also possible to catch the place where the power spectrum time change amount St suddenly increases and determine the signal immediately after that with the threshold value. Thereby, the accuracy of determination can be improved.
このように、本実施例の音源位置判定装置1によれば、1チャネルマイクロホン入力信号のみを用いて、発生する音がマイクロホンの近くで発生しているか、遠くで発生しているかを判定することができる。これにより、マイクロホンアレーを用いる方法と比較して、装置コストを削減できる。汎用端末である携帯電話機やパソコンなどのマイクロホンを有する機器のほとんどは、単一マイクロホンを搭載しているため、本発明をこれらの機器に用いることで、内蔵の単一マイクロホンを用いた処理が可能となるため、マイクロホンアレーを外部機器とした接続が不要となり、導入コストを大幅に下げることができる。
As described above, according to the sound source
次に、図5、図6、図7、図8を参照して、実施例2の音源位置判定装置について詳細に説明する。図5は本実施例の音源位置判定装置2の構成を示すブロック図である。図6は本実施例の音源位置判定装置2の動作を示すフローチャートである。図7は音源とマイクロホンと壁面の配置について例示する図である。図8は直接・間接音の到達時間差と音源−マイクロホン間距離との関係を示す図である。
Next, the sound source position determination apparatus according to the second embodiment will be described in detail with reference to FIGS. 5, 6, 7, and 8. FIG. 5 is a block diagram showing the configuration of the sound source
本実施例の音源位置判定装置2は、マイクロホン10と、フレーム分割部20と、周波数特徴量計算部230と、遠近判定部40と、しきい値記憶部50とを備える。周波数特徴量計算部230以外の構成は、実施例1の音源位置判定装置1において同一番号を付した各構成部と同じ動作をするため説明を割愛する。
本実施例の音源位置判定装置2は、直接音と間接音の到達時間差を利用して、直接音の成分が支配的な信号を捉えることで、音源の遠近を判定する。直接音と間接音の到達時間差はマイクロホンと音源が存在する部屋の特性に依存する。ここで、図7に示す配置を考える。音源とマイクロホンの直線距離はa[m]とし、一番近い壁との法線距離をb[m]とする。音速をc[m/s]とする。直接音と、最初の間接音の到達時間差Ts[s]は、次式で求められる。
The sound source
The sound source
ここで、b=1[m]とし、c=340[m/s]としたときの、直接音と間接音の到達時間差Ts[s]と音源とマイクロホンの距離a[m]の関係を図8に示す。音源とマイクロホンの距離が0.5mの時、直接音と間接音の到達時間差は5msとなる。この5msの間、マイクロホン入力信号は直接音のみであり、5ms以降は直接音と間接音の混合音となる。この到達時間差はわずかであり、時間方向の微細な分析が必要となる。よって、フレーム分割ではシフト幅を小さくすることで、時間方向の微細な分析を行う。 Here, when b = 1 [m] and c = 340 [m / s], the relationship between the arrival time difference T s [s] between the direct sound and the indirect sound and the distance a [m] between the sound source and the microphone is shown. As shown in FIG. When the distance between the sound source and the microphone is 0.5 m, the arrival time difference between the direct sound and the indirect sound is 5 ms. During this 5 ms, the microphone input signal is only a direct sound, and after 5 ms, it is a mixed sound of the direct sound and the indirect sound. This difference in arrival time is slight, and fine analysis in the time direction is required. Therefore, in frame division, a fine analysis in the time direction is performed by reducing the shift width.
周波数特徴量計算部230は、入力信号の全帯域パワーに対する高帯域のパワーの割合を特徴量として計算する(S230)。本実施例の音源位置判定装置2は、音源からの信号が到達した直後のマイクロホン入力信号の先頭または先頭に近いフレームにおいて、直接音のみか、直接音と間接音の混合信号かによって、音源の遠近判定を行うことを特徴とする。本実施例では直接音と間接音の特徴の差を利用している。ここでは、周波数特性の差に着目する。直接音と間接音の混合信号では、インパルス応答の周波数特性により、高域が減衰する。このことから、周波数特徴量計算部230は、例えばフーリエ変換により、周波数特性を求め、周波数全体に対する2kHz以上の高域のパワーの割合を特徴量として計算すればよい。周波数特性を求める計算としては、他に参考非特許文献1記載の音声スペクトル分析法を用いてもよい。
The frequency
次に、遠近判定部40では、実施例1と同様に、周波数特徴量計算部230で計算された特徴量に対して、定められたしきい値と比較を行うことで、遠近の判定を行う(S40)。しきい値は、あらかじめ実験的に求める。
(参考非特許文献1)古井貞熙著、「ディジタル音声処理」、東海大学出版会、1985年、P.39
Next, in the
(Reference Non-Patent Document 1) Sadaaki Furui, “Digital Audio Processing”, Tokai University Press, 1985, P.A. 39
このように、本実施例の音源位置判定装置2によれば、入力信号の全帯域パワーに対する高帯域のパワーの割合を特徴量として、当該特徴量をしきい値と比較することにより、実施例1と同様の効果を得ることができる。
As described above, according to the sound source
次に、図9、図10、図11を参照して、実施例3の音源位置判定装置について詳細に説明する。図9は本実施例の音源位置判定装置3の構成を示すブロック図である。図10は本実施例のパワー比特徴量計算部330の構成を示すブロック図である。図11は本実施例の音源位置判定装置3の動作を示すフローチャートである。
Next, the sound source position determination apparatus according to the third embodiment will be described in detail with reference to FIGS. 9, 10, and 11. FIG. 9 is a block diagram showing the configuration of the sound source
本実施例の音源位置判定装置3は、マイクロホン10と、フレーム分割部20と、パワー比特徴量計算部330と、遠近判定部40と、しきい値記憶部50とを備える。パワー比特徴量計算部330は、入力信号切り出し手段331と、離散フーリエ変換手段332と、パワー計算手段333と、基本周波数推定手段334と、周波数成分パワー計算手段335と、非周期成分パワー計算手段336と、除算手段337とを備える。パワー比特徴量計算部330以外の構成は、実施例1の音源位置判定装置1において同一番号を付した各構成部と同じ動作をするため説明を割愛する。
The sound source
本実施例では、直接音と間接音の特徴の差として、直接音のみの時は、音の調波性、スパース性がよく表れるが、直接音と間接音の混合信号では信号の重なり合いから、音の調波性、スパース性が表れなくなるといった知見を利用する。本実施例では、入力信号に含まれる調波成分の割合を特徴量として用いる。信号に含まれる調波成分の割合を表す値として、参考特許文献1に記載の周期性成分パワーと非周期性成分パワーとのパワー比を用いる。パワー比特徴量計算部330は、入力信号を周期性成分パワーと非周期性成分パワーとのパワー比に変換する(S330)。
In this embodiment, as a difference in characteristics between the direct sound and the indirect sound, when only the direct sound is present, the harmonics and sparsity of the sound are well expressed, but in the mixed signal of the direct sound and the indirect sound, Use the knowledge that the harmonic and sparseness of the sound does not appear. In this embodiment, the ratio of the harmonic component included in the input signal is used as the feature amount. As a value representing the ratio of the harmonic component included in the signal, the power ratio between the periodic component power and the aperiodic component power described in
詳細には、ステップS20におけるフレーム分割の後、入力信号切り出し手段331は、入力信号の一部区間を切り出す(SS331)。離散フーリエ変換手段332は、切り出された入力信号を離散フーリエ変換して、周波数スペクトルを求める(SS332)。パワー計算手段333は、切り出された入力信号のパワーを計算する(SS333)。基本周波数推定手段334は、切り出された入力信号の基本周波数を推定する(SS334)。周期性成分パワー計算手段335は、切り出された入力信号の周波数スペクトル、パワー、推定した基本周波数から周期性成分パワーを求める(SS335)。非周期性成分パワー計算手段336は、切り出された入力信号のパワーから周期性成分パワーを減算して、非周期成分パワーを求める(SS336)。除算手段337は、周期性成分パワーと非周期成分パワーを除算することで、周期性成分パワーと非周期性成分パワーとのパワー比を求める(SS337)。
Specifically, after the frame division in step S20, the input
次に、遠近判定部40では、実施例2と同様に、パワー比特徴量計算部330で計算された特徴量に対して、定められたしきい値と比較を行うことで、遠近の判定を行う(S40)。しきい値は、あらかじめ実験的に求める。
Next, the
このように、本実施例の音源位置判定装置3によれば、入力信号に含まれる調波成分の割合を特徴量として、当該特徴量をしきい値と比較することにより、実施例1、2と同様の効果を得ることができる。
As described above, according to the sound source
次に、図12、図13を参照して、実施例4の音源位置判定装置について詳細に説明する。図12は本実施例の音源位置判定装置4の構成を示すブロック図である。図13は本実施例の音源位置判定装置4の動作を示すフローチャートである。
Next, a sound source position determination apparatus according to the fourth embodiment will be described in detail with reference to FIGS. FIG. 12 is a block diagram showing the configuration of the sound source
本実施例の音源位置判定装置4は、マイクロホン10と、フレーム分割部20と、周波数特徴量計算部230と、特徴量記憶部433と、特徴量変化計算部434と、遠近判定部440と、しきい値記憶部50とを備える。特徴量記憶部433と、特徴量変化計算部434と、遠近判定部440以外の構成は、実施例1の音源位置判定装置1、実施例2の音源位置判定装置2において同一番号を付した各構成部と同じ動作をするため説明を割愛する。本実施例では、特徴量の時間変化に着目する。本実施例では、特徴量を時間の関数として表し、その関数の傾きを特徴量変化として計算する。計算された特徴量は特徴量記憶部433に記憶される(S433)。特徴量変化計算部434では、特徴量記憶部433に記憶された過去の特徴量の値と現在の特徴量を比較し、特徴量変化を計算する(S434)。実施例2、3で挙げた特徴量である高域のパワーの割合、周期性成分パワーと非周期性成分パワーとのパワー比は、いずれも音が発生した後に減少する。本実施例では、減少の傾きを特徴量変化として計算する。遠近判定部440では、特徴量変化計算部434で計算された特徴量変化に対して、定められたしきい値と比較を行うことで、遠近の判定を行う(S440)。前述の減少の傾きに対しては、傾きが大きい時に、音はマイクロホンの近くで発生していると判定する。しきい値は、あらかじめ実験的に求める。
The sound source
[変形例1]
次に、引き続き図12、図13を参照して、実施例4の変形例の音源位置判定装置について詳細に説明する。本変形例の音源位置判定装置4’は、実施例4における周波数特徴量計算部230を、実施例3におけるパワー比特徴量計算部330に置き換えたものである。前述したように、実施例3で挙げた特徴量である周期性成分パワーと非周期性成分パワーとのパワー比は、音が発生した後に減少するため、この減少の傾きを特徴量変化として、本変形例のように、周波数特徴量計算部230を、パワー比特徴量計算部330に置き換えても、同様の効果を達成できる。
[Modification 1]
Next, a sound source position determination apparatus according to a modification of the fourth embodiment will be described in detail with reference to FIGS. The sound source
このように、本実施例(本変形例)の音源位置判定装置4(4’)によれば、入力信号から得た特徴量の時間変化に着目して、当該特徴量変化をしきい値と比較することにより、実施例1、2、3と同様の効果を得ることができる。 Thus, according to the sound source position determination device 4 (4 ′) of this embodiment (this modification), paying attention to the temporal change of the feature quantity obtained from the input signal, the feature quantity change is used as the threshold value. By comparing, the same effects as those of Examples 1, 2, and 3 can be obtained.
次に、図14、図15、図16を参照して、実施例5の音源位置判定装置について詳細に説明する。図14は本実施例の音源位置判定装置5の構成を示すブロック図である。図15は本実施例の音源位置判定装置5の動作を示すフローチャートである。図16は本実施例の特徴量データベース550の例を示す図である。
Next, a sound source position determination apparatus according to the fifth embodiment will be described in detail with reference to FIGS. 14, 15, and 16. FIG. 14 is a block diagram showing the configuration of the sound source
本実施例の音源位置判定装置5は、マイクロホン10と、フレーム分割部20と、特徴量計算部30と、距離判定部540と、特徴量データベース550とを備える。特徴量計算部30は、周波数領域変換手段31と、パワースペクトル計算手段32と、パワースペクトル記憶手段33と、パワースペクトル変化計算手段34とを備える。距離判定部540と、特徴量データベース550以外の構成は、実施例1の音源位置判定装置1において同一番号を付した各構成部と同じ動作をするため説明を割愛する。
The sound source
本実施例では、実施例1の構成を拡張し、遠近の判定だけでなく、マイクロホンと音源の距離を判定する。距離判定部540は、パワースペクトル時間変化量Stを入力とし、定常雑音のみがある場合はパワースペクトル時間変化量Scを計算し、あらかじめ様々なパワースペクトル時間変化量Stとマイクロホンと音源の距離の関係を対応させて記憶した特徴量データベース550と照合する。特徴量データベース550の例を図16に示す。距離判定部540は、パワースペクトル時間変化量Stと特徴量データベース550との照合により、測定されたパワースペクトル時間変化量Stと最も近いデータベース上のパワースペクトル時間変化量データと対応する距離値を、マイクロホンと音源の距離の推定値として出力する(S540)。
In the present embodiment, the configuration of the first embodiment is expanded to determine not only the distance determination but also the distance between the microphone and the sound source. The
なお、本実施例では、パワースペクトル時間変化量Stを特徴量として、当該特徴量と距離の関係をデータベース化して予め記憶しておき、当該データベースを参照することで、音源とマイクロホンの距離を推定することとしたが、上述の特徴量はパワースペクトル時間変化量Stに限定されない。例えば、実施例2のように入力信号の全帯域パワーに対する高帯域のパワーの割合を特徴量としても良い。実施例3のように周期性成分パワーと非周期性成分パワーとのパワー比を特徴量としても良い。実施例4のように特徴量変化を用いることとし、特徴量変化とマイクロホン−音源間距離とを対応させてデータベース化しておくこととしても良い。 In this embodiment, as the feature amount power spectrum time variation S t, a database of relationships of the features and the distance is stored in advance, by referring to the database, the distance of the sound source and the microphone It was decided to estimate feature amounts described above is not limited to the power spectrum time variation S t. For example, as in the second embodiment, the ratio of the high band power to the total band power of the input signal may be used as the feature amount. As in the third embodiment, the power ratio between the periodic component power and the non-periodic component power may be used as the feature amount. The feature amount change may be used as in the fourth embodiment, and the feature amount change and the distance between the microphone and the sound source may be associated with each other in a database.
なお、実施例1〜5において、マイクロホン入力を例に説明したが、本発明の入力信号としては、これに限られず、マイクロホン入力の替わりに、あらかじめ録音された音声ファイルを入力としてもよい。また、入力信号に対して、ハイパス、ローパス、バンドパスフィルタフィルタを適用した信号を用いても良い。 In the first to fifth embodiments, the microphone input has been described as an example. However, the input signal of the present invention is not limited to this, and a voice file recorded in advance may be input instead of the microphone input. Further, a signal obtained by applying a high-pass, low-pass, or band-pass filter to the input signal may be used.
このように、本実施例の音源位置判定装置5によれば、入力信号とマイクロホン−音源間距離の関係を予めデータベース化しておくことでマイクロホンと音源との距離を測定することができる。
As described above, according to the sound source
また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。 In addition, the various processes described above are not only executed in time series according to the description, but may be executed in parallel or individually according to the processing capability of the apparatus that executes the processes or as necessary. Needless to say, other modifications are possible without departing from the spirit of the present invention.
また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。 Further, when the above-described configuration is realized by a computer, processing contents of functions that each device should have are described by a program. The processing functions are realized on the computer by executing the program on the computer.
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。 The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used.
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。 The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。 A computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. When executing the process, the computer reads a program stored in its own recording medium and executes a process according to the read program. As another execution form of the program, the computer may directly read the program from a portable recording medium and execute processing according to the program, and the program is transferred from the server computer to the computer. Each time, the processing according to the received program may be executed sequentially. Also, the program is not transferred from the server computer to the computer, and the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition. It is good.
なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。 Note that the program in this embodiment includes information that is used for processing by an electronic computer and that conforms to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer). In this embodiment, the present apparatus is configured by executing a predetermined program on a computer. However, at least a part of these processing contents may be realized by hardware.
Claims (4)
前記計算されたパワースペクトル時間変化量と予め定めたしきい値を比較して音源とマイクロホンの遠近を判定する遠近判定部と、
を備えることを特徴とする音源位置判定装置。 A frequency domain converting means for converting an input signal into a frequency domain signal; a power spectrum calculating means for calculating a power spectrum signal from the frequency domain signal; and storing a power spectrum signal for each predetermined time interval, a power spectrum memory means for outputting a power spectrum signal in a time interval, and the current of the power spectrum signal, and the power spectral change calculation means for calculating a power spectrum signal Toka Lapa word spectrum time change amount of the predetermined time before the time interval A feature amount calculation unit comprising:
And the far proximal determination unit determine distance of the sound source and the microphone by comparing a predetermined threshold with the calculated power spectrum time change amount,
A sound source position determination apparatus comprising:
予め音源−マイクロホン間距離と特徴量との関係を記憶する特徴量データベースをさらに備え、
前記遠近判定部に代えて、前記特徴量データベースと、前記入力信号の特徴量とを比較して音源とマイクロホンの間の距離を判定する距離判定部を備えることを特徴とする音源位置判定装置。 The sound source position determination device according to claim 1,
A feature database for storing the relationship between the distance between the sound source and the microphone and the feature in advance;
Instead of the front Kito near determination unit, and the feature quantity database, determines the sound source position, characterized in that it comprises a distance determination unit the distance between the features and compared to the sound source and the microphone of the input signal apparatus.
前記計算されたパワースペクトル時間変化量と予め定めたしきい値を比較して音源とマイクロホンの遠近を判定する遠近判定ステップと、
を有することを特徴とする音源位置判定方法。 A frequency domain conversion sub-step for converting an input signal into a frequency domain signal; a power spectrum calculation sub-step for calculating a power spectrum signal from the frequency domain signal; and storing a power spectrum signal for each predetermined time interval; a power spectrum storage substep of outputting the power spectrum signal in the previous time interval, and the current of the power spectrum signal, the power spectral change to calculate the power spectrum signal Toka Lapa word spectrum time change amount of the predetermined time before the time interval A feature sub-step comprising: a feature amount calculating step;
A perspective determination step of determining the perspective of the sound source and the microphone by comparing the calculated power spectrum time variation with a predetermined threshold value;
A sound source position determination method characterized by comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012035131A JP5815435B2 (en) | 2012-02-21 | 2012-02-21 | Sound source position determination apparatus, sound source position determination method, program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012035131A JP5815435B2 (en) | 2012-02-21 | 2012-02-21 | Sound source position determination apparatus, sound source position determination method, program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013170936A JP2013170936A (en) | 2013-09-02 |
JP5815435B2 true JP5815435B2 (en) | 2015-11-17 |
Family
ID=49264964
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012035131A Active JP5815435B2 (en) | 2012-02-21 | 2012-02-21 | Sound source position determination apparatus, sound source position determination method, program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5815435B2 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103928025B (en) | 2014-04-08 | 2017-06-27 | 华为技术有限公司 | The method and mobile terminal of a kind of speech recognition |
JP6828804B2 (en) | 2017-03-24 | 2021-02-10 | ヤマハ株式会社 | Sound collecting device and sound collecting method |
JP7021019B2 (en) * | 2018-07-13 | 2022-02-16 | 株式会社東芝 | Detection system, detection device, and detection method |
CN113497995B (en) * | 2020-04-08 | 2023-04-04 | 华为技术有限公司 | Microphone array control method and device, electronic equipment and computer storage medium |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4612468B2 (en) * | 2005-05-19 | 2011-01-12 | 日本電信電話株式会社 | Signal extraction device |
JP5079761B2 (en) * | 2009-09-01 | 2012-11-21 | 日本電信電話株式会社 | Direct ratio estimation device, sound source distance measurement device, noise removal device, method of each device, and device program |
-
2012
- 2012-02-21 JP JP2012035131A patent/JP5815435B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2013170936A (en) | 2013-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110265064B (en) | Audio frequency crackle detection method, device and storage medium | |
JP6177253B2 (en) | Harmonicity-based single channel speech quality assessment | |
EP2828856B1 (en) | Audio classification using harmonicity estimation | |
JP4520732B2 (en) | Noise reduction apparatus and reduction method | |
JP4568733B2 (en) | Noise suppression device, noise suppression method, noise suppression program, and computer-readable recording medium | |
JP5387459B2 (en) | Noise estimation device, noise reduction system, noise estimation method, and program | |
JP5598552B2 (en) | Voice control device, voice control method, voice control program, and portable terminal device | |
CN105118522B (en) | Noise detection method and device | |
JP2009251134A (en) | Device, method and program for determining voice/nonvoice | |
JP6174856B2 (en) | Noise suppression device, control method thereof, and program | |
JP2012027186A (en) | Sound signal processing apparatus, sound signal processing method and program | |
JP6182895B2 (en) | Processing apparatus, processing method, program, and processing system | |
JP5815435B2 (en) | Sound source position determination apparatus, sound source position determination method, program | |
JP2020204772A (en) | Method, storage media and apparatus for suppressing noise from harmonic noise source | |
JP4454591B2 (en) | Noise spectrum estimation method, noise suppression method, and noise suppression device | |
WO2009150894A1 (en) | Speech recognition system, speech recognition method, and storage medium where speech recognition program is stored | |
CN113593604B (en) | Method, device and storage medium for detecting audio quality | |
CN106847299B (en) | Time delay estimation method and device | |
JP4630183B2 (en) | Audio signal analysis apparatus, audio signal analysis method, and audio signal analysis program | |
JP2014194437A (en) | Voice processing device, voice processing method and voice processing program | |
JP5772591B2 (en) | Audio signal processing device | |
JP5609157B2 (en) | Coefficient setting device and noise suppression device | |
JP6724290B2 (en) | Sound processing device, sound processing method, and program | |
JP7158583B2 (en) | Method and device for flattening power of musical sound signal, and method and device for detecting beat timing of music | |
EP3291228B1 (en) | Audio processing method, audio processing device, and audio processing program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140122 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140821 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140826 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141015 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150303 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150410 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150915 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150924 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5815435 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |