JP4119328B2 - Sound collection method, apparatus thereof, program thereof, and recording medium thereof. - Google Patents

Sound collection method, apparatus thereof, program thereof, and recording medium thereof. Download PDF

Info

Publication number
JP4119328B2
JP4119328B2 JP2003293785A JP2003293785A JP4119328B2 JP 4119328 B2 JP4119328 B2 JP 4119328B2 JP 2003293785 A JP2003293785 A JP 2003293785A JP 2003293785 A JP2003293785 A JP 2003293785A JP 4119328 B2 JP4119328 B2 JP 4119328B2
Authority
JP
Japan
Prior art keywords
sound
covariance matrix
filter coefficient
sound collection
received
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2003293785A
Other languages
Japanese (ja)
Other versions
JP2005064968A (en
Inventor
和則 小林
賢一 古家
陽一 羽田
澄宇 阪内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2003293785A priority Critical patent/JP4119328B2/en
Publication of JP2005064968A publication Critical patent/JP2005064968A/en
Application granted granted Critical
Publication of JP4119328B2 publication Critical patent/JP4119328B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Description

本発明は、TV会議や音声会議、電話、遠隔講義などの収音方法および装置に関する。   The present invention relates to a sound collection method and apparatus for TV conferences, audio conferences, telephone calls, remote lectures, and the like.

図6は従来技術の収音装置の構成図である。この従来技術の収音装置はマイクロホン111〜11Mと適応フィルタ13B1〜13BMと学習フィルタ13A1〜13AMと空間特性フィルタ181,1〜18J,Mと信号発生器171〜17Jと遅延器191〜19Jと収音範囲設定部30と仮想目的音源位置設定部26と空間特性推定部27と適応期間検出部20と適応アルゴリズム部16と加算器121〜12M、14A、14B、15、511〜51M、52とで構成される。 FIG. 6 is a block diagram of a conventional sound collecting device. This prior art sound collecting device includes microphones 11 1 to 11 M , adaptive filters 13 B 1 to 13 B M , learning filters 13 A 1 to 13 A M , spatial characteristic filters 18 1, 1 to 18 J, M, and signal generator 17 1 to 17 J , delay units 19 1 to 19 J , sound collection range setting unit 30, virtual target sound source position setting unit 26, spatial characteristic estimation unit 27, adaptation period detection unit 20, adaptation algorithm unit 16, and adders 12 1 to 12 M , 14A, 14B, 15, 51 1 to 51 M , 52.

図6の従来技術の収音装置は雑音を抑圧し目的音を高品質に収音する装置であり、あらかじめ設定した収音範囲内にある音源の音を収音し、収音範囲外にる雑音源の音を抑圧する。ただし、雑音源と目的音の判別は、音源が時間的に定常信号であるか非定常信号であるかで行っており、目的音は音声などの非定常信号を仮定し、雑音源は空調音などの定常信号を仮定している。したがって、非定常な雑音を抑圧することはできない。   The prior art sound collecting device in FIG. 6 is a device that suppresses noise and picks up the target sound with high quality, picks up the sound of the sound source within the preset sound collecting range, and falls outside the sound collecting range. Suppresses the noise source. However, the noise source and the target sound are discriminated based on whether the sound source is a stationary signal or an unsteady signal in terms of time. The target sound is assumed to be an unsteady signal such as speech, and the noise source is the air conditioning sound. Is assumed to be a stationary signal. Therefore, non-stationary noise cannot be suppressed.

マイクロホン111〜11Mで収音された信号は、それぞれ適応フィルタ13B1〜13BMでフィルタリングされた後、加算器14Bで加算されて出力される。適応フィルタ13B1〜13BMは、収音範囲設定部30で設定された収音範囲に対して感度が高く、収音範囲外にある雑音源位置に対して感度が低くなるように学習されたものであり、加算器14Bの出力は、目的音対雑音比(SN比)の高い高品質な音となる。ただし、従来技術の収音装置では、収音範囲全てに対して、常に感度拘束をしているので、収音範囲が広くなるほど、雑音抑圧性能が低くなるという問題がある。 The signals collected by the microphones 11 1 to 11 M are respectively filtered by the adaptive filters 13B 1 to 13B M , and then added by the adder 14B and output. The adaptive filters 13B 1 to 13B M are learned so that the sensitivity is high with respect to the sound collection range set by the sound collection range setting unit 30, and the sensitivity is low with respect to the noise source position outside the sound collection range. Therefore, the output of the adder 14B is a high-quality sound with a high target sound-to-noise ratio (SN ratio). However, since the sound collection device of the prior art always restricts sensitivity to the entire sound collection range, there is a problem that the noise suppression performance becomes lower as the sound collection range becomes wider.

次に、適応フィルタ13B1〜13BMの学習について具体的に説明する。学習は、実際に収音した雑音と、仮想目的音源を用いて合成した仮想的な収音信号と、学習フィルタを用いて行う。このように仮想目的音源を用いるのは、実際の目的音源を観測する場合、必ず雑音が混入した信号として観測されるので、目的音と雑音を区別した処理ができないためである。 Next, learning of the adaptive filters 13B 1 to 13B M will be specifically described. Learning is performed using the noise actually collected, the virtual collected sound signal synthesized using the virtual target sound source, and the learning filter. The reason why the virtual target sound source is used in this way is that when the actual target sound source is observed, it is always observed as a signal in which noise is mixed, and therefore processing that distinguishes the target sound from the noise cannot be performed.

まず、仮想目的音源を用いた仮想的な収音信号を合成する部分を説明する。収音範囲設定部30は、収音する範囲(音源の移動範囲、音源位置計測誤差の範囲など)を設定し、仮想目的音源位置設定部26は、設定範囲内に一様に仮想目的音源位置を設ける。仮想目的音源位置の間隔は十分に狭い必要があり、ある仮想目的音源位置から隣り合う仮想目的音源位置に音源が移動したときに、マイクロホン間の相対遅延時間の変動がサンプリング周期より小さくなるように間隔を設定する。空間特性推定部27は、設定された仮想目的音源位置からマイクロホン位置までのインパルス応答を推定し、空間特性フィルタ181, 1〜18J, Mの係数に設定する。信号発生器171〜17Jにより発生された互いに無相関で定常な信号は、空間特性フィルタ181, 1〜18J, Mによりフィルタリングされマイクロホンごとに加算器511〜51Mで加算される。このように、信号を空間特性フィルタ181,1 〜18J, Mでフィルタリングすることにより、目的音収音信号を仮想的に合成できる。 First, a portion for synthesizing a virtual sound pickup signal using a virtual target sound source will be described. The sound collection range setting unit 30 sets a sound collection range (sound source movement range, sound source position measurement error range, etc.), and the virtual target sound source position setting unit 26 uniformly sets the virtual target sound source position within the set range. Is provided. The interval between virtual target sound source positions must be sufficiently narrow so that when the sound source moves from one virtual target sound source position to an adjacent virtual target sound source position, the relative delay time variation between microphones becomes smaller than the sampling period. Set the interval. The spatial characteristic estimation unit 27 estimates an impulse response from the set virtual target sound source position to the microphone position , and sets the coefficients of the spatial characteristic filters 18 1, 1 to 18 J, M. The uncorrelated and stationary signals generated by the signal generators 17 1 to 17 J are filtered by the spatial characteristic filters 18 1, 1 to 18 J, M and added by adders 51 1 to 51 M for each microphone. . Thus, by filtering the signal with the spatial characteristic filters 18 1 , 1 to 18 J, M , the target sound collection signal can be virtually synthesized.

次に、仮想的に合成された目的音収音信号と実際に収音された雑音信号を加算器121〜12Mで加算し、これを学習フィルタ13A1〜13AMでフィルタリングした後、加算器14Aで加算する。この加算器14Aの出力が仮想的に合成された収音信号の出力となる。この出力の雑音成分が小さく、仮想目的音成分の劣化が小さければ、高品質に収音できているということになるので、加算器15で出力から仮想目的音の原音を減算し、この加算器15の出力を誤差信号として、学習フィルタ13A1〜13AMの更新を行う。ただし、学習フィルタ13A1〜13AMの非因果部分を有効にするために、遅延器191〜19Jで仮想目的音の原音に遅延を付加してから、加算器52で加算したものを減算している。 Then, actually adding the collected noise signal by the adder 12 1 to 12 M and virtually synthesized target sound collected sound signal, and filtering the learning filter 13A 1 ~13A M this, adding Adder 14A adds. The output of the adder 14A is an output of a virtually collected sound signal. If the noise component of the output is small and the degradation of the virtual target sound component is small, it means that the sound is collected with high quality. Therefore, the adder 15 subtracts the original sound of the virtual target sound from the output. The learning filters 13A 1 to 13A M are updated using the output of 15 as an error signal. However, subtraction to enable non-causal portion of the learning filter 13A 1 ~13A M, after adding a delay to the original sound of the virtual target sound by the delaying unit 19 1 ~ 19 J, those added by the adder 52 is doing.

適応アルゴリズム部16は、加算器15出力の誤差信号と学習フィルタ13A1〜13AMへの入力信号から、誤差信号の二乗平均誤差が最小となるように学習フィルタ13A1〜13AMの更新ベクトルを求める。適応フィルタ13B1〜13BMには、学習フィルタ13A1〜13AMと同じフィルタ係数がセットされ、設定された収音範囲内の目的音源の音を収音し、雑音を抑圧する。また、マイクロホン111〜11Mの収音信号に実際の目的音が含まれる場合、実際の目的音源に対して感度を低くするように学習されてしまうので、実際の目的音が存在する場合には、フィルタの更新を停止する必要がある。適応期間検出部20は、マイクロホン111〜11Mで収音された信号のパワーを監視することで、実際の目的音の存在を検出し、適応動作を停止する。 Adaptive algorithm unit 16, the input signal of the adder 15 error signal output to the learning filter 13A 1 ~13A M, the update vector of the learning filter 13A 1 ~13A M as mean square error of the error signal is minimized Ask. The same filter coefficients as the learning filters 13A 1 to 13A M are set in the adaptive filters 13B 1 to 13B M , the sound of the target sound source within the set sound collection range is collected, and the noise is suppressed. Further, when the actual target sound is included in the collected sound signals of the microphones 11 1 to 11 M , learning is performed so as to reduce the sensitivity with respect to the actual target sound source, so that there is an actual target sound. Need to stop updating the filter. The adaptation period detection unit 20 detects the presence of the actual target sound by monitoring the power of the signals collected by the microphones 11 1 to 11 M , and stops the adaptation operation.

次に、適応アルゴリズム部16について詳細に説明する。適応アルゴリズムとしては、LMSアルゴリズム、NLMSアルゴリズム、射影アルゴリズムなどがある。本明細書では、NLMS法を例にとって、以下にフィルタの収束解と修正式の導出を行う。まず、数式で使用する記号について説明する。サンプリング周期により離散化された時刻をn、マイクロホン数をM、仮想目的音源数をJ、時刻nにi番目マイクロホン11iで収音された信号をx i (n)とし、Lサンプル分を取り出して行列で表したものを

Figure 0004119328
Next, the adaptive algorithm unit 16 will be described in detail. Examples of adaptive algorithms include LMS algorithm, NLMS algorithm, and projection algorithm. In this specification, the NLMS method is taken as an example, and a filter convergence solution and a correction formula are derived below. First, symbols used in mathematical expressions will be described. The time sampled by the sampling period is n, the number of microphones is M, the number of virtual target sound sources is J, the signal picked up by the i-th microphone 11 i at time n is x i (n), and L samples are extracted. What the matrix represents
Figure 0004119328

とする。j番目の信号発生器17jの出力信号はvj (n)、j番目の信号発生器17jとi番目のマイクロホン11iに対する空間特性フィルタはg i,j (n)で表し、空間特性フィルタ出力をu i,,j (n)=gi,j (n)*vj (n)として、Lサンプル分を取り出して行列で表したものを

Figure 0004119328
And The output signal of the j-th signal generator 17 j is represented by v j (n), and the spatial characteristic filter for the j-th signal generator 17 j and the i-th microphone 11 i is represented by g i , j (n). Filter output is u i ,, j (n) = g i, j (n) * v j (n)
Figure 0004119328

とする。ただし*は畳み込み演算を表している。学習フィルタ13A1〜13AM、適応フィルタ13B1〜13BMはLタップのFIRフィルタとし、フィルタ係数

Figure 0004119328
And However, * represents a convolution operation. The learning filters 13A 1 to 13A M and the adaptive filters 13B 1 to 13B M are L-tap FIR filters, and the filter coefficients
Figure 0004119328

として行列で表す。h i (n −l−1)は、時刻nにおけるi番目マイクロホンに対するフィルタのlタップ目のフィルタ係数を表し、学習フィルタ13A1〜13AMと適応フィルタ13B1〜13BMには同一のフィルタ係数が用いられる。加算器14Aの出力をy′(n)、加算器14Bの出力をy (n)、加算器15の出力を誤差e (n)とし、遅延器191〜19Jでの遅延量は全て等しいとしτ0で表す(通常、τ0は学習フィルタ13A1〜13AMのタップ長の半分の長さである)。 As a matrix. h i (n −l−1) represents the filter coefficient of the l-th tap of the filter for the i-th microphone at time n, and the same filter coefficient is used for the learning filters 13A 1 to 13A M and the adaptive filters 13B 1 to 13B M. Is used. The output of the adder 14A is y '(n), the output of the adder 14B is y (n), the output of the adder 15 is error e (n), and the delay amounts in the delay units 19 1 to 19 J are all equal. and it was expressed in tau 0 (typically, tau 0 is the length of half of the tap length of the learning filter 13A 1 ~13A M).

まず、加算器15の出力である誤差e (n) の二乗平均を求める。この二乗平均誤差を最小とするフィルタが最適なフィルタとなる。   First, the mean square of the error e (n) that is the output of the adder 15 is obtained. The filter that minimizes the mean square error is the optimum filter.

Figure 0004119328
Figure 0004119328

ただし、 ̄は時間平均を意味する。仮想目的信号vj (n)は互いに無相関であり、仮想目的信号と雑音は無相関であるので、式(1)は式(2)のように変形される。 However,  ̄ means time average. Since the virtual target signal v j (n) is uncorrelated with each other and the virtual target signal and noise are uncorrelated, Equation (1) is transformed into Equation (2).

Figure 0004119328
Figure 0004119328

適応フィルタ

Figure 0004119328
Adaptive filter
Figure 0004119328

をLタップのFIRフィルタとして、式(2)をベクトル表記すれば、式(3)のようになる。 If L is a L-tap FIR filter and equation (2) is expressed as a vector, equation (3) is obtained.

Figure 0004119328
Figure 0004119328

式(3)を最小化するフィルタが最適なフィルタであるので、式(3)を

Figure 0004119328
Since the filter that minimizes Equation (3) is the optimal filter, Equation (3)
Figure 0004119328

で偏微分し、0とおいて、極小点を求める。 To obtain a local minimum point.

Figure 0004119328
Figure 0004119328

式(4)を

Figure 0004119328
Equation (4)
Figure 0004119328

について解けば、式(3)を最小化する最適フィルタ

Figure 0004119328
Solving for, the optimal filter that minimizes Equation (3)
Figure 0004119328

が求められる。 Is required.

Figure 0004119328
Figure 0004119328

式(5)の最適フィルタを求める方法として、LMSアルゴリズム、NLMSアルゴリズム、射影アルゴリズムなどの適応アルゴリズムがある。本明細書ではNLMSアルゴリズムを例にとって説明することとし、修正式は式(6)で表される。   There are adaptive algorithms such as an LMS algorithm, an NLMS algorithm, and a projection algorithm as a method for obtaining the optimum filter of Expression (5). In this specification, the NLMS algorithm will be described as an example, and the correction formula is expressed by Formula (6).

Figure 0004119328
Figure 0004119328

ただし、

Figure 0004119328
However,
Figure 0004119328

は式(7)で表される。 Is represented by equation (7).

Figure 0004119328
Figure 0004119328

ここまでで、式(6)の修正式を用いて、式(5)の最適フィルタが求められることを示した。
特開平14―062895号公報
Up to this point, it has been shown that the optimum filter of equation (5) is obtained using the modified equation of equation (6).
JP-A-14-062895

しかし、上記の従来技術の収音方法では、非定常な雑音信号(例えば収音したくない話者音声など)を抑圧不可能であるという問題、収音範囲を広げることにより雑音の抑圧性能が低下するという問題がある。   However, the above-described conventional sound collection methods have a problem that non-stationary noise signals (for example, speaker voices that are not desired to be collected) cannot be suppressed, and noise suppression performance is improved by widening the sound collection range. There is a problem of lowering.

本発明の目的は、非定常な雑音信号を抑圧した収音を実現するとともに収音範囲の広さによらず高い抑圧性能を実現する収音方法、装置、プログラム、および記録媒体を提供することである。   An object of the present invention is to provide a sound collection method, apparatus, program, and recording medium that realizes sound collection with suppressed non-stationary noise signals and achieves high suppression performance regardless of the range of the sound collection range. It is.

上記目的を達成するために、本発明の収音方法は、収音範囲を設定する収音範囲設定段階と、複数の収音手段の各々で受音された受音信号から話者位置を検出する話者位置検出段階と、検出された話者位置が収音範囲内である場合には話者音声を収音し、収音範囲外である場合には話者音声を抑圧する条件で、受信信号を用いてフィルタ係数を設定するフィルタ係数設定段階と、複数の収音手段の各々で受音された受音信号を、前記フィルタ係数で各々フィルタリングするフィルタ段階と、各フィルタ段階の出力信号を加算する加算段階を有する。   To achieve the above object, the sound collection method of the present invention detects a speaker position from a sound collection range setting stage for setting a sound collection range and a sound reception signal received by each of a plurality of sound collection means. The speaker position detection stage, and if the detected speaker position is within the sound collection range, the speaker voice is collected, and if the detected speaker position is outside the sound collection range, the speaker voice is suppressed. A filter coefficient setting stage for setting a filter coefficient using the received signal; a filter stage for filtering each received sound signal received by each of the plurality of sound collecting means with the filter coefficient; and an output signal of each filter stage There is an addition stage for adding.

これにより、設定された収音範囲の音声のみを収音し、それ以外の音を抑圧することが可能となる。
本発明の実施態様によれば、フィルタ係数設定段階は、複数の収音手段の各々で受音された受音信号を周波数領域に変換するFFT段階と、FFT段階の出力信号の各々を周波数成分ごとに乗算し、共分散行列を求める共分散行列計算段階と、検出された話者位置ごとに前記共分散行列を加算平均して、記憶する共分散行列記憶段階と、記憶された共分散行列、および検出された話者位置と前記収音範囲を用いてフィルタ係数を計算するフィルタ係数計算段階を含む。
本発明の実施態様によれば、フィルタ係数設定段階は、複数の収音手段の各々で受音された受音信号を周波数領域に変換するFFT段階と、FFT段階の出力信号の各々を周波数成分ごとに乗算し、共分散行列を求める共分散行列計算段階と、検出された話者位置ごとに共分散行列を加算平均して、記憶する共分散行列記憶段階と、記憶された共分散行列のうち対角成分で最もパワーの大きい成分、または記憶された共分散行列の対角成分の加算値の周波数特性を平滑化するゲインを、記憶された共分散行列に乗算する白色化段階と、白色化された共分散化行列、および検出された話者位置と前記収音範囲を用いてフィルタ係数を計算するフィルタ係数計算段階を含む。
As a result, it is possible to collect only the sound within the set sound collection range and suppress other sounds.
According to the embodiment of the present invention, the filter coefficient setting stage includes an FFT stage for converting the received signal received by each of the plurality of sound collecting means into the frequency domain, and each of the output signals of the FFT stage as frequency components. A covariance matrix calculation stage to obtain a covariance matrix by multiplying each, a covariance matrix storage stage for averaging the covariance matrix for each detected speaker position, and storing, and a stored covariance matrix And a filter coefficient calculation step of calculating a filter coefficient using the detected speaker position and the sound collection range.
According to the embodiment of the present invention, the filter coefficient setting stage includes an FFT stage for converting the received signal received by each of the plurality of sound collecting means into the frequency domain, and each of the output signals of the FFT stage as frequency components. A covariance matrix calculation stage to obtain a covariance matrix, a covariance matrix storage stage for averaging the covariance matrix for each detected speaker position, and a stored covariance matrix A whitening stage that multiplies the stored covariance matrix by a gain that smoothes the frequency characteristic of the diagonal component with the highest power or the added value of the diagonal component of the stored covariance matrix, and white And a filter coefficient calculation step of calculating a filter coefficient using the detected covariance matrix and the detected speaker position and the sound collection range.

上記課題を解決するために、本発明の他の収音方法は、収音範囲と音量範囲を設定する収音範囲・音量範囲設定段階と、複数の収音手段の各々で受音された受音信号から話者位置を検出する話者位置検出段階と、複数の収音手段の各々で受音された受音信号から話者音量を推定する話者音量推定段階と、検出された話者位置が前記収音範囲内であり、かつ推定された話者音量が前記音量範囲内である場合は収音し、それ以外の場合には話者音声抑圧する条件で、フィルタ係数設定段階は、前記受音信号を用いてフィルタ係数を設定するフィルタ係数設定段階と、前記複数の収音手段の各々で受音された受音信号を前記フィルタ係数で各々フィルタリングするフィルタ段階と、各フィルタ段階の出力信号を加算する加算段階を有する。   In order to solve the above-described problems, another sound collection method of the present invention includes a sound collection range / volume range setting stage for setting a sound collection range and a sound volume range, and a sound reception received by each of a plurality of sound collection means. A speaker position detecting stage for detecting a speaker position from a sound signal; a speaker volume estimating stage for estimating a speaker volume from a received sound signal received by each of a plurality of sound collecting means; and a detected speaker If the position is within the sound collection range and the estimated speaker volume is within the volume range, sound is collected; otherwise, the speaker sound suppression is performed. A filter coefficient setting step for setting a filter coefficient using the received sound signal; a filter step for filtering the received sound signal received by each of the plurality of sound collecting means with the filter coefficient; and An adding stage for adding the output signals;

収音範囲の条件に加え、音量範囲の条件を加えることで、収音手段から離れた話者の不要音声だけを抑圧することが可能となる。   By adding the condition of the volume range in addition to the condition of the sound collection range, it is possible to suppress only the unnecessary speech of the speaker away from the sound collection means.

本発明の実施態様によれば、フィルタ系数設定段階は、複数の収音手段の各々で受音された受音信号を周波数領域に変換するFFT段階と、FFT段階の出力信号の各々を周波数成分ごとに乗算し、共分散行列を求める共分散行列計算段階と、検出された話者位置ごとに前記共分散行列を加算平均して、記憶する共分散行列記憶段階と、記憶された共分散行列、検出された話者位置と前記収音範囲、および推定された話者音量と前記音量範囲を用いてフィル係数を計算するフィルタ係数計算段階を含む。   According to the embodiment of the present invention, the filter system number setting stage includes an FFT stage for converting the received signal received by each of the plurality of sound collecting means into a frequency domain, and each of the output signals of the FFT stage as frequency components. A covariance matrix calculation stage to obtain a covariance matrix by multiplying each, a covariance matrix storage stage for averaging the covariance matrix for each detected speaker position, and storing, and a stored covariance matrix And a filter coefficient calculation step of calculating a fill coefficient using the detected speaker position and the sound collection range, and the estimated speaker volume and the sound volume range.

本発明の実施態様によれば、フィルタ係数設定段階は、複数の収音手段の各々で受音された受音信号を周波数領域に変換するFFT段階と、FFT段階の出力信号の各々を周波数成分ごとに乗算し、共分散行列を求める共分散行列計算段階と、検出された話者位置ごとに共分散行列を加算平均して、記憶する共分散行列記憶段階と、記憶された共分散行列のうち対角成分で最もパワーの大きい成分、または記憶された共分散行列の対角成分の加算値の周波数特性を平滑化するゲインを、記憶された共分散行列に乗算する白色化段階と、白色化された共分散化行列、検出された話者位置と前記収音範囲、および推定された話者音量と前記音量範囲を用いてフィルタ係数を計算するフィルタ係数計算段階を含む。   According to the embodiment of the present invention, the filter coefficient setting stage includes an FFT stage for converting the received signal received by each of the plurality of sound collection means into the frequency domain, and each of the output signals of the FFT stage as frequency components. A covariance matrix calculation stage to obtain a covariance matrix, a covariance matrix storage stage for averaging the covariance matrix for each detected speaker position, and a stored covariance matrix A whitening stage that multiplies the stored covariance matrix by a gain that smoothes the frequency characteristic of the diagonal component with the highest power or the added value of the diagonal component of the stored covariance matrix, and white A filter coefficient calculating step of calculating a filter coefficient using the normalized covariance matrix, the detected speaker position and the sound collection range, and the estimated speaker volume and the sound volume range.

共分散行列の白色化により、音源の周波数特性に依存しないフィルタを求めることができる。これにより、音源の周波数特性が変化しても、フィルタの変化がなく、本発明の処理による音声の変化を防ぐことができる。   By whitening the covariance matrix, a filter that does not depend on the frequency characteristics of the sound source can be obtained. Thereby, even if the frequency characteristic of the sound source changes, there is no change in the filter, and it is possible to prevent a change in sound due to the processing of the present invention.

本発明は、上記のように収音範囲を設定し、検出した話者位置が収音範囲内にある場合にその音声を収音し、範囲外の音声は抑圧する。定常/非定常に関係なく範囲外の音を抑圧するので、収音したくない音声を抑圧することができる。また、実際に発音している音源位置に対する感度のみを制御するので、収音範囲の広さによって、抑圧性能が低下することもない。   The present invention sets the sound collection range as described above, collects the sound when the detected speaker position is within the sound collection range, and suppresses the sound outside the range. Since the sound outside the range is suppressed regardless of whether it is stationary or non-stationary, it is possible to suppress the voice that is not desired to be collected. In addition, since only the sensitivity to the sound source position where the sound is actually generated is controlled, the suppression performance does not deteriorate depending on the width of the sound collection range.

[第1の実施形態]
図1は本発明の第1の実施形態の収音装置のブロック図である。
[First Embodiment]
FIG. 1 is a block diagram of a sound collecting apparatus according to a first embodiment of the present invention.

第1の実施形態の収音装置はマイクロホン111〜11Mと話者位置検出部23と収音範囲設定部25とフィルタ係数設定部24とフィルタ部211〜21Mと加算器22により構成される。 The sound collection device according to the first embodiment includes microphones 11 1 to 11 M , a speaker position detection unit 23, a sound collection range setting unit 25, a filter coefficient setting unit 24, filter units 21 1 to 21 M, and an adder 22. Is done.

収音範囲設定部25は、収音する範囲を設定する。収音範囲は、ユーザがボタンやリモコンなどにより設定したり、事前に固定的に設定されたりする。話者位置検出部23は、マイクロホン111〜11Mで受音された信号と、マイクロホン111〜11Mの位置から話者位置を検出する。フィルタ係数設定部24は、検出された話者位置が、収音範囲設定部24で設定された収音範囲内であれば収音し、範囲外であれば抑圧するようにフィルタ係数を計算する。計算されたフィルタ係数はフィルタ部211〜21Mにコピーされる。フィルタ部211〜21Mは、マイクロホン111〜11Mにより受音された信号を各々フィルタリングする。フィルタ部211〜21Mの出力信号は加算器22で加算され、出力信号となる。以上により、収音範囲内の音のみを収音し、収音範囲外の不要な音は抑圧した出力信号が得られる。 The sound collection range setting unit 25 sets a sound collection range. The sound collection range is set by the user with a button or a remote control, or is fixedly set in advance. Speaker position detection unit 23 includes a sound receiving the signal by the microphone 11 1 to 11 M, detects the speaker position from the position of the microphone 11 1 to 11 M. The filter coefficient setting unit 24 calculates a filter coefficient so that sound is collected if the detected speaker position is within the sound collection range set by the sound collection range setting unit 24, and is suppressed if the speaker position is out of the range. . The calculated filter coefficient is copied to the filter units 21 1 to 21 M. The filter units 21 1 to 21 M respectively filter the signals received by the microphones 11 1 to 11 M. The output signals of the filter units 21 1 to 21 M are added by the adder 22 to become an output signal. As described above, it is possible to obtain an output signal that collects only the sound within the sound collection range and suppresses unnecessary sound outside the sound collection range.

以下に話者位置検出部23とフィルタ係数設定部24について詳細に説明する。   The speaker position detection unit 23 and the filter coefficient setting unit 24 will be described in detail below.

話者位置検出部23は、たとえば以下の方法で実現される。   The speaker position detection unit 23 is realized by the following method, for example.

マイクロホン111〜11Mから共分散行列を計算し、共分散行列に走査位置ごとに設定されたステアリングベクトルを乗じることで走査位置ごとの音声パワーを推定する。推定された走査位置ごとの音声パワーから最大パワーを持つ走査位置を話者位置として検出する。 The covariance matrix is calculated from the microphones 11 1 to 11 M, and the sound power for each scanning position is estimated by multiplying the covariance matrix by the steering vector set for each scanning position. The scanning position having the maximum power is detected as the speaker position from the estimated voice power for each scanning position.

以下に数式を用いて説明する。   This will be described below using mathematical formulas.

まず、i番目のマイクロホン 11iで受音された信号をx i (t)とし、それを周波数領域に変換したものをX i (ω)とし、入力信号ベクトル

Figure 0004119328
First, let x i (t) be the signal received by the i-th microphone 11 i , and let X i (ω) be the converted signal in the frequency domain, and input signal vector
Figure 0004119328

を式(8)で定義する。 Is defined by equation (8).

Figure 0004119328
Figure 0004119328

ただし、Tは行列の転置を表す。 Where T is the transpose of the matrix.

次に、共分散行列

Figure 0004119328
Next, the covariance matrix
Figure 0004119328

は式(9)で表わされる。 Is represented by equation (9).

Figure 0004119328
Figure 0004119328

ただし、Hは行列の共役転置を表す。 Where H is the conjugate transpose of the matrix.

次に、音声パワー推定で用いるステアリングベクトルについて述べる。ステアリングベクトルは走査位置から到来した音が同位相となるように設定する。このようなステアリングベクトルを用いることで、同位相になった信号(走査位置で発生した音)のみが強調され、走査位置に鋭い指向性が形成される。   Next, a steering vector used for speech power estimation will be described. The steering vector is set so that the sound coming from the scanning position has the same phase. By using such a steering vector, only a signal having the same phase (sound generated at the scanning position) is emphasized, and a sharp directivity is formed at the scanning position.

まず、走査位置(x, y, z)の場合に、i番目のマイクロホン11iに与える遅延量d i (x, y, z)は、走査位置(x, y, z)から発せられた音が同位相となるように、走査位置(x, y, z)とi番目のマイクロホン位置(xi, yi, zi)と音速cより、式(10)および式(11)を用いて求められる。 First, in the case of the scanning position (x, y, z), the delay amount d i (x, y, z) given to the i-th microphone 11 i is the sound emitted from the scanning position (x, y, z). From the scanning position (x, y, z), the i-th microphone position (x i , y i, z i ), and the sound velocity c, using the equations (10) and (11). Desired.

Figure 0004119328
Figure 0004119328

ただし、Dは固定遅延量であり、事前に定数として与えられる。 However, D is a fixed delay amount and is given as a constant in advance.

式(10)を周波数領域に変換した式が式(12)となり、これをベクトルとしたものがステアリングベクトルであり、式(13)となる。   An expression obtained by converting Expression (10) into the frequency domain is Expression (12). A vector obtained by converting the expression into a vector is a steering vector, which is Expression (13).

Figure 0004119328
Figure 0004119328

このステアリングベクトル

Figure 0004119328
This steering vector
Figure 0004119328

を共分散行列に乗じ、周波数について積分すれば、各走査位置に対応する音声パワーの推定値

Figure 0004119328
Multiplied by the covariance matrix and integrated over the frequency, the estimated audio power corresponding to each scan position
Figure 0004119328

が求められる。これは式(14)で表される。 Is required. This is expressed by equation (14).

Figure 0004119328
Figure 0004119328

ステアリングベクトル

Figure 0004119328
Steering vector
Figure 0004119328

は、走査位置(x, y, z)で発生した音のみを同位相にして強調しているので音声パワーの推定値

Figure 0004119328
Shows the estimated sound power because only the sound generated at the scanning position (x, y, z) is emphasized with the same phase.
Figure 0004119328

は、走査位置に音源があった場合のみ大きな値をとる。したがって、音声パワーの推定値

Figure 0004119328
Takes a large value only when there is a sound source at the scanning position. Therefore, the estimated voice power
Figure 0004119328

のうち最大パワーの走査位置(xm, ym, zm),を検出すれば、話者位置を推定可能である。 If the scanning position (x m , y m , z m ) with the maximum power is detected, the speaker position can be estimated.

次に、フィルタ係数設定部24について詳細に説明する。   Next, the filter coefficient setting unit 24 will be described in detail.

フィルタ係数設定部24では、話者位置検出部23で検出された話者位置が収音範囲内にあるかどうかを判定する。収音範囲内にある場合には収音対象とし、それ以外を抑圧対象とする。   The filter coefficient setting unit 24 determines whether or not the speaker position detected by the speaker position detection unit 23 is within the sound collection range. When the sound is within the sound collection range, the sound is to be collected, and the others are the suppression targets.

収音範囲内の音声だけ収音し、それ以外の音を抑圧するフィルタは、収音対象の入力信号ベクトル

Figure 0004119328
The filter that collects only the sound within the sound collection range and suppresses other sounds is the input signal vector to be collected.
Figure 0004119328

をフィルタ

Figure 0004119328
Filter
Figure 0004119328

でフィルタリングし加算した信号が、収音対象の入力信号をミキシングベルト

Figure 0004119328
The signal that has been filtered and added in the mixing belt is the input signal to be collected.
Figure 0004119328

でミキシングしただけとなり、抑圧対象の入力信号ベクトル

Figure 0004119328
The input signal vector to be suppressed.
Figure 0004119328

をフィルタ

Figure 0004119328
Filter
Figure 0004119328

でフィルタリングし加算した信号が0となっていればよい。したがって、フィルタは以下の式(15)、(16)、(17)を満たす場合に最適となる。 It is only necessary that the signal filtered and added at 0 is 0. Therefore, the filter is optimal when the following expressions (15), (16), and (17) are satisfied.

Figure 0004119328
Figure 0004119328

式(15)〜(17)を最小二乗解でフィルタ

Figure 0004119328
Filter equations (15)-(17) with least squares solution
Figure 0004119328

について解けば、式(18)となる。 If it solves about, it will become a formula (18).

Figure 0004119328
Figure 0004119328

ただし、CSjとCNkは、それぞれ話者音声収音の重みと抑圧の重みであり、CNkを大きくすれば不要音声の抑圧量が増加し、CSjを大きくすれば収音する音声の劣化が減少する。 However, C Sj and C Nk are the weights of speaker voice collection and suppression weights, respectively. If C Nk is increased, the amount of suppression of unnecessary voices increases, and if C Sj is increased, the voices to be collected are collected. Deterioration is reduced.

式(18)より、フィルタ係数を求めるには、入力信号の共分散行列を話者位置ごとに求める必要がある。本発明では、式(9)により求められる共分散行列

Figure 0004119328
In order to obtain the filter coefficient from equation (18), it is necessary to obtain the covariance matrix of the input signal for each speaker position. In the present invention, the covariance matrix obtained by equation (9)
Figure 0004119328

を話者ごとに時間平均、保存する。このとき、収音対象の話者位置に対する共分散行列は

Figure 0004119328
Save the time average for each speaker. At this time, the covariance matrix for the target speaker position is
Figure 0004119328

とし、抑圧対象の話者位置に対する共分散行列は

Figure 0004119328
And the covariance matrix for the speaker position to be suppressed is
Figure 0004119328

とする。 And

以上求めた共分散行列から式(18)によりフィルタ係数を求めることができる。   The filter coefficient can be obtained from the covariance matrix obtained as described above by Equation (18).

以上示したように本実施形態では、設定された収音範囲の音声のみを収音し、それ以外の音を抑圧することが可能である。   As described above, in the present embodiment, it is possible to collect only the sound within the set sound collection range and suppress other sounds.

図5は本発明の利用例を説明する図である。本発明を用いた収音装置がテーブルに置いてあり、その周りに話者がいる場合を想定している。装置には、範囲別のミュートボタンがついており、そのミュートボタンを押すことで、そのボタンに対応した範囲の音だけミュート(収音しない)することができる。本発明では、音の定常性、非定常性にかかわらず、収音しない範囲を設定可能であるので、このような利用方法も可能となる。   FIG. 5 is a diagram illustrating an example of use of the present invention. It is assumed that the sound collection device using the present invention is placed on a table and a speaker is around it. The device has a mute button for each range. By pressing the mute button, only the sound in the range corresponding to the button can be muted (no sound is collected). In the present invention, a range in which sound is not collected can be set regardless of the steadiness or non-stationarity of the sound, and thus such a utilization method is also possible.

[第2の実施形態]
図2は本発明の第2の実施形態の収音装置のブロック図である。
[Second Embodiment]
FIG. 2 is a block diagram of a sound collecting apparatus according to the second embodiment of the present invention.

第2の実施形態の収音装置は、第1の実施形態の収音装置に、収音範囲・音量範囲設定部31と話者音量推定部32を追加した例である。   The sound collection device of the second embodiment is an example in which a sound collection range / volume range setting unit 31 and a speaker volume estimation unit 32 are added to the sound collection device of the first embodiment.

収音範囲・音量範囲設定部31は、収音範囲の設定と音量範囲を設定する。設定はユーザがボタンやリモコンなどにより行ったり、事前に固定的に与えたりする。話者音量推定部32は、マイクロホン111〜11Mで受音した信号から音声信号のパワーを推定する。話者位置検出部23で検出された話者位置が収音範囲内であり、かつ推定した話者音量が音量範囲内である場合は収音し、それ以外の場合には話者音声を抑圧する。これにより、たとえばマイクロホン111〜11Mに近くい受音パワーの大きい音声だけを収音し、マイクロホン111〜11Mから離れた話者の音声を抑圧することが可能となる。 The sound collection range / volume range setting unit 31 sets a sound collection range and a volume range. The setting is performed by the user with a button or a remote controller, or given in advance. The speaker volume estimation unit 32 estimates the power of the audio signal from the signals received by the microphones 11 1 to 11 M. If the speaker position detected by the speaker position detection unit 23 is within the sound collection range and the estimated speaker volume is within the volume range, the sound is collected, otherwise the speaker sound is suppressed. To do. Thus, for example, only the sound pickup great voice nearby have received sound power to the microphone 11 1 to 11 M, it is possible to suppress the voice of the speaker away from the microphone 11 1 to 11 M.

以下に、話者音量の推定方法について説明する。話者音量

Figure 0004119328
The speaker volume estimation method will be described below. Speaker volume
Figure 0004119328

は、入力信号ベクトル

Figure 0004119328
Is the input signal vector
Figure 0004119328

にミキシングベクトル

Figure 0004119328
Mixing vector
Figure 0004119328

を乗じたものを周波数低域W内で平均したものであるので、式(19)で求められる。 Is obtained by averaging in the frequency low band W, and is obtained by the equation (19).

Figure 0004119328
Figure 0004119328

式(19)から、共分散行列から話者音量を推定できることが分かる。したがって、式(9)により共分散行列を求め、式(19)により話者音量を求めることができる。   From equation (19), it can be seen that the speaker volume can be estimated from the covariance matrix. Therefore, the covariance matrix can be obtained from equation (9), and the speaker volume can be obtained from equation (19).

第2の実施形態では、第1の実施形態の収音範囲の条件に加え、音量範囲の条件を加えることで、マイクロホン111〜11Mから離れた話者の不要音声だけを抑圧することも可能となる。 In the second embodiment, in addition to the sound collection range condition of the first embodiment, by adding the sound volume range condition, it is also possible to suppress only the unnecessary speech of the speaker away from the microphones 11 1 to 11 M. It becomes possible.

これら以外の部分に関しては、第2の実施形態と同じであるので、説明を省略する。   Since other parts are the same as those in the second embodiment, description thereof is omitted.

[第3の実施形態]
図3は本発明の第3の実施形態の収音装置のブロック図である。第3の実施形態の収音装置は、第1の実施形態または第2の実施形態の収音装置において、フィルタ係数設定部12がFFT部411〜41Mと共分散行列計算部42と共分散行列記憶部43とフィルタ係数計算部44とにより実現された例である。
[Third Embodiment]
FIG. 3 is a block diagram of a sound collecting apparatus according to the third embodiment of the present invention. The sound collection device according to the third embodiment is the same as the sound collection device according to the first embodiment or the second embodiment, except that the filter coefficient setting unit 12 includes the FFT units 41 1 to 41 M and the covariance matrix calculation unit 42. This is an example realized by the dispersion matrix storage unit 43 and the filter coefficient calculation unit 44.

FFT部411〜41Mは、マイクロホン111〜11Mにより受音された信号を各々周波数領域に変換する。共分散行列計算部42では、FFT出力信号をチャネル間で乗算し、式(9)により共分散行列を求める。共分散行列記憶部43は、話者位置ごとに共分散行列を時間平均し、保存する。フィルタ係数計算部44は、式(18)により、フィルタ係数を算出する。 The FFT units 41 1 to 41 M respectively convert the signals received by the microphones 11 1 to 11 M into the frequency domain. The covariance matrix calculation unit 42 multiplies the FFT output signal between the channels, and obtains a covariance matrix by Expression (9). The covariance matrix storage unit 43 averages and stores the covariance matrix for each speaker position. The filter coefficient calculation unit 44 calculates the filter coefficient according to the equation (18).

これ以外の部分に関しては、第1の実施形態または第2の実施形態と同じであるので、説明を省略する。   Since other parts are the same as those in the first embodiment or the second embodiment, description thereof will be omitted.

[第4の実施形態]
図4は本発明の第4の実施形態の話者位置検出装置のブロック図である。第4の実施形態の収音装置は、第1の実施形態または第2の実施形態の収音装置において、共分散行列計算部12がFFT部411〜41Mと共分散行列計算部42と共分散行列記憶部43と白色化部45とフィルタ係数計算部44とにより実現された例である。
[Fourth Embodiment]
FIG. 4 is a block diagram of a speaker position detecting apparatus according to a fourth embodiment of the present invention. In the sound collection device of the fourth embodiment, in the sound collection device of the first embodiment or the second embodiment, the covariance matrix calculation unit 12 includes FFT units 41 1 to 41 M , a covariance matrix calculation unit 42, and the like. This is an example realized by the covariance matrix storage unit 43, the whitening unit 45, and the filter coefficient calculation unit 44.

FFT部411〜41Mと共分散行列計算部42と共分散行列記憶部43フィルタ係数算出部44に関しては、第3の実施形態と同様の処理を行うので、説明を省略する。 The FFT units 41 1 to 41 M , the covariance matrix calculation unit 42, the covariance matrix storage unit 43, and the filter coefficient calculation unit 44 perform the same processing as in the third embodiment, and thus description thereof is omitted.

白色化部45は、共分散行列

Figure 0004119328
The whitening unit 45 is a covariance matrix.
Figure 0004119328

を周波数領域で白色化(平坦な周波数特性に)する。白色化は、共分散行列の対角成分のうち最もパワーの大きい

Figure 0004119328
Is whitened (to a flat frequency characteristic) in the frequency domain. Whitening is the most powerful of the diagonal components of the covariance matrix
Figure 0004119328

を平滑化する白色化ゲイン

Figure 0004119328
Whitening gain to smooth
Figure 0004119328

を乗算するか、共分散行列の対角成分の平均パワーを平滑化する白色化ゲイン

Figure 0004119328
Or a whitening gain that smoothes the mean power of the diagonal components of the covariance matrix
Figure 0004119328

を乗算することで行なう。これらはそれぞれ式(20)と式(21)により表される。 This is done by multiplying These are represented by the equations (20) and (21), respectively.

Figure 0004119328
Figure 0004119328

ただし、βは白色化の度合いを調整する係数であり、1となれば完全な白色化となり、0となれば白色化は行われなくなる。   However, β is a coefficient for adjusting the degree of whitening. When it is 1, it becomes complete whitening, and when it becomes 0, whitening is not performed.

第4の実施形態では、共分散行列の白色化により、音源の周波数特性に依存しないフィルタを求めることができる。これにより、音源の周波数特性が変化しても、フィルタの変化がなく、本発明の処理による音色の変化を防ぐことができる。   In the fourth embodiment, it is possible to obtain a filter that does not depend on the frequency characteristics of the sound source by whitening the covariance matrix. Thereby, even if the frequency characteristic of the sound source changes, there is no change in the filter, and a change in timbre due to the processing of the present invention can be prevented.

これら以外の部分に関しては、第1の実施形態または第2の実施形態と同じであるので、説明を省略する。   Since other parts are the same as those in the first embodiment or the second embodiment, description thereof will be omitted.

なお、本発明の収音方法は専用のハードウェアにより実現されるもの以外に、その機能を実現するためのプログラムを、コンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行するものであってもよい。コンピュータ読み取り可能な記録媒体とは、フロッピーディスク、光磁気ディスク、CD―ROM等の記録媒体、コンピュータシステムに内蔵されるハードディスク装置等の記憶装置を指す。さらに、コンピュータ読み取り可能な記録媒体は、インターネットを介してプログラムを送信する場合のように、短時間の間、動的にプログラムを保持するもの(伝送媒体もしくは伝送波)、その場合のサーバとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含む。   The sound collecting method of the present invention is not only realized by dedicated hardware, but a program for realizing the function is recorded on a computer-readable recording medium, and the program recorded on the recording medium is recorded. May be read by a computer system and executed. The computer-readable recording medium refers to a recording medium such as a floppy disk, a magneto-optical disk, a CD-ROM, or a storage device such as a hard disk device built in the computer system. Furthermore, a computer-readable recording medium is a server that dynamically holds a program (transmission medium or transmission wave) for a short period of time, as in the case of transmitting a program via the Internet, and a server in that case. Some of them hold programs for a certain period of time, such as volatile memory inside computer systems.

本発明の第1の実施形態の話者位置検出装置を示すブロック図である。It is a block diagram which shows the speaker position detection apparatus of the 1st Embodiment of this invention. 本発明の第2の実施形態の話者位置検出装置を示すブロック図である。It is a block diagram which shows the speaker position detection apparatus of the 2nd Embodiment of this invention. 本発明の第3の実施形態の話者位置検出装置を示すブロック図である。It is a block diagram which shows the speaker position detection apparatus of the 3rd Embodiment of this invention. 本発明の第4の実施形態の話者位置検出装置を示すブロック図である。It is a block diagram which shows the speaker position detection apparatus of the 4th Embodiment of this invention. 本発明の利用例を説明する図である。It is a figure explaining the usage example of this invention. 従来の話者位置検出装置の例を示すブロック図である。It is a block diagram which shows the example of the conventional speaker position detection apparatus.

符号の説明Explanation of symbols

111〜11M マイクロホン
211〜21M フィルタ部
22 加算器
23 話者位置検出部
24 フィルタ係数設定部
25 収音範囲設定部
31 収音範囲・音量範囲設定部
32 話者音量推定部
411〜41M FFT部
42 共分散行列計算部
43 共分散行列記憶部
44 フィルタ係数計算部
45 白色化部
121〜12M 加算器
13A1〜13AM 学習フィルタ
13B1〜13BM 適応フィルタ
14A 加算器
14B 加算器
15 加算器
16 適応アルゴリズム部
171〜17J 信号発生器
181,1〜18J,M 空間特性フィルタ
191〜19J 遅延器
20 適応期間検出器
511〜51M 加算器
52 加算器
26 仮想音源位置設定部
27 空間特性推定部
30 収音範囲設定部
11 1 to 11 M microphones 21 1 to 21 M filter unit 22 adder 23 speaker position detection unit 24 filter coefficient setting unit 25 sound collection range setting unit 31 sound collection range / volume range setting unit 32 speaker volume estimation unit 41 1 ˜41 M FFT unit 42 covariance matrix calculation unit 43 covariance matrix storage unit 44 filter coefficient calculation unit 45 whitening unit 12 1 to 12 M adder 13A 1 to 13A M learning filter 13B 1 to 13B M adaptive filter 14A adder 14B adder 15 adder 16 adaptive algorithm unit 17 1 to 17 J signal generator 18 1, 1 to 18 J, M spatial characteristic filter 19 1 to 19 J delay unit 20 adaptive period detector 51 1 to 51 M adder 52 Adder 26 Virtual sound source position setting unit 27 Spatial characteristic estimation unit 30 Sound collection range setting unit

Claims (14)

収音方法であって、
収音範囲を設定する収音範囲設定段階と、
複数の収音手段の各々で受音された受音信号から話者位置を検出する話者位置検出段階と、
前記検出された話者位置が前記収音範囲内である場合には話者音声を収音し、前記収音範囲外である場合には話者音声を抑圧する条件で、前記受音信号を用いてフィルタ係数を設定するフィルタ係数設定段階と、
前記複数の収音手段の各々で受音された受音信号を、前記フィルタ係数で各々フィルタリングするフィルタ段階と、
前記フィルタ段階の各出力信号を加算する加算段階を有する収音方法。
A sound collection method,
A sound collection range setting stage for setting the sound collection range;
A speaker position detection stage for detecting a speaker position from a received sound signal received by each of a plurality of sound pickup means;
When the detected speaker position is within the sound collection range, the voice signal is collected, and when the detected speaker position is outside the sound collection range, the sound reception signal is A filter coefficient setting stage to set the filter coefficient using,
A filter stage for filtering each received signal received by each of the plurality of sound collecting means with the filter coefficient;
A sound collection method comprising an addition step of adding the output signals of the filter step.
収音方法であって、
収音範囲と音量範囲を設定する収音範囲・音量範囲設定段階と、
複数の収音手段の各々で受音された受音信号から話者位置を検出する話者位置検出段階と、
複数の収音手段の各々で受音された受音信号から話者音量を推定する話者音量推定段階と、
前記検出された話者位置が前記収音範囲内であり、かつ前記推定された話者音量が前記音量範囲内である場合は収音し、それ以外の場合には話者音声抑圧する条件で、前記受音信号を用いてフィルタ係数を設定するフィルタ係数設定段階と、
前記複数の収音手段の各々で受音された受音信号を、前記フィルタ係数で各々フィルタリングするフィルタ段階と、
前記フィルタ段階の各出力信号を加算する加算段階とを有する収音方法。
A sound collection method,
Sound collection range / volume range setting stage to set the sound collection range and volume range,
A speaker position detection stage for detecting a speaker position from a received sound signal received by each of a plurality of sound pickup means;
A speaker volume estimation stage for estimating a speaker volume from a received signal received by each of a plurality of sound collection means;
If the detected speaker position is within the sound collection range and the estimated speaker volume is within the volume range, sound is collected; otherwise, the speaker sound is suppressed. A filter coefficient setting step for setting a filter coefficient using the received sound signal;
A filter stage for filtering each received signal received by each of the plurality of sound collecting means with the filter coefficient;
And a summing step of summing the output signals of the filter step.
前記フィルタ係数設定段階は、
前記複数の収音手段の各々で受音された受音信号を周波数領域に変換するFFT段階と、
前記FFT段階の出力信号の各々を周波数成分ごとに乗算し、共分散行列を求める共分散行列計算段階と、
前記検出された話者位置ごとに前記共分散行列を加算平均して、記憶する共分散行列記憶段階と、
前記記憶された共分散行列、前記検出された話者位置と前記収音範囲、および前記推定された話者音量と前記音量範囲を用いてフィルタ係数を計算するフィルタ係数計算段階とを含む、請求項に記載の収音方法。
The filter coefficient setting step includes:
An FFT stage for converting a received sound signal received by each of the plurality of sound collecting means into a frequency domain;
A covariance matrix calculating step of multiplying each of the output signals of the FFT step for each frequency component to obtain a covariance matrix;
A covariance matrix storage step of averaging and storing the covariance matrix for each detected speaker position;
And a filter coefficient calculating step of calculating a filter coefficient using the stored covariance matrix, the detected speaker position and the sound collection range, and the estimated speaker volume and the volume range. Item 3. The sound collection method according to Item 2 .
前記フィルタ係数設定段階は、
前記複数の収音手段の各々で受音された受音信号を周波数領域に変換するFFT段階と、
前記FFT段階の出力信号の各々を周波数成分ごとに乗算し、共分散量列を求める共分散行列計算段階と、
前記検出された話者位置ごとに前記共分散行列を加算平均して、記憶する共分散行列記憶段階と、
前記記憶された共分散行列のうち対角成分で最もパワーの大きい成分、または前記記憶された共分散行列の対角成分の加算値の周波数特性を平滑化するゲインを、前記記憶された共分散行列に乗算する白色化段階と、
前記白色化された共分散行列、前記検出された話者位置と前記収音範囲、および前記推定された話者音量と前記音量範囲を用いてフィルタ係数を計算するフィルタ係数計算段階を含む、請求項に記載の収音方法。
The filter coefficient setting step includes:
An FFT stage for converting a received sound signal received by each of the plurality of sound collecting means into a frequency domain;
A covariance matrix calculating step of multiplying each of the output signals of the FFT step for each frequency component to obtain a covariance sequence;
A covariance matrix storage step of averaging and storing the covariance matrix for each detected speaker position;
The stored covariance is a gain for smoothing the frequency characteristic of the diagonal component of the stored covariance matrix having the highest power or the sum of the diagonal components of the stored covariance matrix. A whitening stage to multiply the matrix;
And a filter coefficient calculation step of calculating a filter coefficient using the whitened covariance matrix, the detected speaker position and the sound collection range, and the estimated speaker volume and the volume range. Item 3. The sound collection method according to Item 2 .
前記フィルタ係数設定段階は、  The filter coefficient setting step includes:
前記複数の収音手段の各々で受音された受音信号を周波数領域に変換するFFT段階と、  An FFT stage for converting a received sound signal received by each of the plurality of sound collecting means into a frequency domain;
前記FFT段階の出力信号の各々を周波数成分ごとに乗算し、共分散行列を求める共分散行列計算段階と、  A covariance matrix calculating step of multiplying each of the output signals of the FFT step for each frequency component to obtain a covariance matrix;
前記検出された話者位置ごとに前記共分散行列を加算平均して、記憶する共分散行列記憶段階と、  A covariance matrix storage step of averaging and storing the covariance matrix for each detected speaker position;
前記記憶された共分散行列、および前記検出された話者位置と前記収音範囲を用いてフィルタ係数を計算するフィルタ係数計算段階とを含む、請求項1に記載の収音方法。  The sound collection method according to claim 1, comprising: a filter coefficient calculation step of calculating a filter coefficient using the stored covariance matrix, the detected speaker position, and the sound collection range.
前記フィルタ係数設定段階は、  The filter coefficient setting step includes:
前記複数の収音手段の各々で受音された受音信号を周波数領域に変換するFFT段階と、  An FFT stage for converting a received sound signal received by each of the plurality of sound collecting means into a frequency domain;
前記FFT段階の出力信号の各々を周波数成分ごとに乗算し、共分散量列を求める共分散行列計算段階と、  A covariance matrix calculating step of multiplying each of the output signals of the FFT step for each frequency component to obtain a covariance sequence;
前記検出された話者位置ごとに前記共分散行列を加算平均して、記憶する共分散行列記憶段階と、  A covariance matrix storage step of averaging and storing the covariance matrix for each detected speaker position;
前記記憶された共分散行列のうち対角成分で最もパワーの大きい成分、または前記記憶された共分散行列の対角成分の加算値の周波数特性を平滑化するゲインを、前記記憶された共分散行列に乗算する白色化段階と、  The stored covariance is a gain for smoothing the frequency characteristic of the diagonal component of the stored covariance matrix having the highest power or the added value of the diagonal components of the stored covariance matrix. A whitening stage to multiply the matrix;
前記白色化された共分散行列、および前記検出された話者位置と前記収音範囲を用いてフィルタ係数を計算するフィルタ係数計算段階を含む、請求項1に記載の収音方法。  The sound collection method according to claim 1, further comprising a filter coefficient calculation step of calculating a filter coefficient using the whitened covariance matrix and the detected speaker position and the sound collection range.
収音装置であって、
収音範囲を設定する収音範囲設定手段と、
複数の収音手段の各々で受音された受音信号から話者位置を検出する話者位置検出手段と、
前記検出された話者位置が前記収音範囲内である場合には話者音声を収音し、前記収音範囲外である場合には話者音声を抑圧する条件で、前記受信信号を用いてフィルタ係数を設定するフィルタ係数設定手段と、
前記複数の収音手段の各々で受音された受音信号を、前記フィルタ係数で各々フィルタリングするフィルタ手段と、
前記各フィルタ手段の出力信号を加算する加算手段を有する収音装置。
A sound collecting device,
A sound collection range setting means for setting a sound collection range;
Speaker position detecting means for detecting a speaker position from a received sound signal received by each of a plurality of sound collecting means;
When the detected speaker position is within the sound collection range, the voice signal is collected, and when the detected speaker position is outside the sound collection range, the received signal is used under the condition of suppressing the speaker voice. Filter coefficient setting means for setting the filter coefficient
Filter means for filtering received sound signals received by each of the plurality of sound collecting means, respectively, with the filter coefficients;
A sound collection device having addition means for adding the output signals of the filter means.
収音装置であって、
収音範囲と音量範囲を設定する収音範囲・音量範囲設定手段と、
複数の収音手段の各々で受音された受音信号から話者位置を検出する話者位置検出手段と、
複数の収音手段の各々で受音された受音信号から話者音量を推定する話者音量推定手段と、
前記検出された話者位置が前記収音範囲内であり、かつ前記推定された話者音量が前記音量範囲内である場合は収音し、それ以外の場合には話者音声抑圧する条件で、前記受音信号を用いてフィルタ係数を設定するフィルタ係数設定手段と、
前記複数の収音手段の各々で受音された受音信号を、前記フィルタ係数で各々フィルタリングするフィルタ手段と、
前記各フィルタ手段の出力信号を加算する加算手段を有する収音装置。
A sound collecting device,
A sound collection range / volume range setting means for setting a sound collection range and a volume range;
Speaker position detecting means for detecting a speaker position from a received sound signal received by each of a plurality of sound collecting means;
Speaker volume estimation means for estimating speaker volume from a received sound signal received by each of a plurality of sound collection means;
If the detected speaker position is within the sound collection range and the estimated speaker volume is within the volume range, sound is collected; otherwise, the speaker sound is suppressed. Filter coefficient setting means for setting a filter coefficient using the received sound signal;
Filter means for filtering received sound signals received by each of the plurality of sound collecting means, respectively, with the filter coefficients;
A sound collection device having addition means for adding the output signals of the filter means.
前記フィルタ係数設定手段は、
前記複数の収音手段の各々で受音された受音信号を周波数領域に変換するFFT手段と、
前記FFT手段の出力信号の各々を周波数成分ごとに乗算し、共分散行列を求める共分散行列計算手段と、
前記検出された話者位置ごとに前記共分散行列を加算平均して、記憶する共分散行列記憶手段と、
前記記憶された共分散行列、前記検出された話者位置と前記収音範囲、および前記推定された話者音量と前記音量範囲を用いてフィル係数を計算するフィルタ係数計算手段を含む、請求項に記載の収音装置。
The filter coefficient setting means includes
FFT means for converting the received sound signal received by each of the plurality of sound collecting means into a frequency domain;
A covariance matrix calculating means for multiplying each output signal of the FFT means for each frequency component to obtain a covariance matrix;
Covariance matrix storage means for averaging the covariance matrix for each detected speaker position and storing the covariance matrix;
And a filter coefficient calculation means for calculating a fill coefficient using the stored covariance matrix, the detected speaker position and the sound collection range, and the estimated speaker volume and the volume range. 8. The sound collecting device according to 8 .
前記フィルタ係数設定手段は、
前記複数の収音手段の各々で受音された受音信号を周波数領域に変換するFFT手段と、
前記FFT手段の出力信号の各々を周波数成分ごとに乗算し、共分散行列を求める共分散行列計算手段と、
前記検出された話者位置ごとに前記共分散行列を加算平均して、記憶する共分散行列記憶手段と、
前記記憶された共分散行列のうち対角成分で最もパワーの大きい成分、または前記記憶された共分散行列の対角成分の加算値の周波数特性を平滑化するゲインを、前記記憶された共分散行列に乗算する白色化手段と、
前記白色化された共分散化行列、前記検出された話者位置と前記収音範囲、および前記推定された話者音量と前記音量範囲を用いてフィルタ係数を計算するフィルタ係数計算手段を含む、請求項に記載の収音装置。
The filter coefficient setting means includes
FFT means for converting the received sound signal received by each of the plurality of sound collecting means into a frequency domain;
A covariance matrix calculating means for multiplying each output signal of the FFT means for each frequency component to obtain a covariance matrix;
Covariance matrix storage means for averaging the covariance matrix for each detected speaker position and storing the covariance matrix;
The stored covariance is a gain for smoothing the frequency characteristic of the diagonal component of the stored covariance matrix having the highest power or the sum of the diagonal components of the stored covariance matrix. Whitening means for multiplying the matrix;
Filter coefficient calculating means for calculating a filter coefficient using the whitened covariance matrix, the detected speaker position and the sound collection range, and the estimated speaker volume and the sound volume range; The sound collection device according to claim 8 .
前記フィルタ係数設定手段は、  The filter coefficient setting means includes
前記複数の収音手段の各々で受音された受音信号を周波数領域に変換するFFT手段と、  FFT means for converting the received sound signal received by each of the plurality of sound collecting means into a frequency domain;
前記FFT手段の出力信号の各々を周波数成分ごとに乗算し、共分散行列を求める共分散行列計算手段と、  A covariance matrix calculating means for multiplying each output signal of the FFT means for each frequency component to obtain a covariance matrix;
前記検出された話者位置ごとに前記共分散行列を加算平均して、記憶する共分散行列記憶手段と、  Covariance matrix storage means for averaging the covariance matrix for each detected speaker position and storing the covariance matrix;
前記記憶された共分散行列、および前記検出された話者位置と前記収音範囲を用いてフィルタ係数を計算するフィルタ係数計算手段を含む、請求項7に記載の収音装置。  The sound collection device according to claim 7, further comprising: a filter coefficient calculation unit that calculates a filter coefficient using the stored covariance matrix, the detected speaker position, and the sound collection range.
前記フィルタ係数設定手段は、  The filter coefficient setting means includes
前記複数の収音手段の各々で受音された受音信号を周波数領域に変換するFFT手段と、  FFT means for converting the received sound signal received by each of the plurality of sound collecting means into a frequency domain;
前記FFT手段の出力信号の各々を周波数成分ごとに乗算し、共分散行列を求める共分散行列計算手段と、  A covariance matrix calculating means for multiplying each output signal of the FFT means for each frequency component to obtain a covariance matrix;
前記検出された話者位置ごとに前記共分散行列を加算平均して、記憶する共分散行列記憶手段と、  Covariance matrix storage means for averaging the covariance matrix for each detected speaker position and storing the covariance matrix;
前記記憶された共分散行列のうち対角成分で最もパワーの大きい成分、または前記記憶された共分散行列の対角成分の加算値の周波数特性を平滑化するゲインを、前記記憶された共分散行列に乗算する白色化手段と、  The stored covariance is a gain for smoothing the frequency characteristic of the diagonal component of the stored covariance matrix having the highest power or the added value of the diagonal components of the stored covariance matrix. Whitening means for multiplying the matrix;
前記白色化された共分散化行列、および前記検出された話者位置と前記収音範囲を用いてフィルタ係数を計算するフィルタ係数計算手段を含む、請求項7に記載の収音装置。  The sound collection device according to claim 7, further comprising filter coefficient calculation means for calculating a filter coefficient using the whitened covariance matrix, the detected speaker position, and the sound collection range.
請求項1から6のいずれかに記載の話者位置検出方法をコンピュータに実行させるための収音プログラム。 A sound collection program for causing a computer to execute the speaker position detection method according to claim 1 . 請求項13に記載の収音プログラムを記録した、コンピュータ読み取り可能な記録媒体。 A computer-readable recording medium on which the sound collecting program according to claim 13 is recorded.
JP2003293785A 2003-08-15 2003-08-15 Sound collection method, apparatus thereof, program thereof, and recording medium thereof. Expired - Lifetime JP4119328B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003293785A JP4119328B2 (en) 2003-08-15 2003-08-15 Sound collection method, apparatus thereof, program thereof, and recording medium thereof.

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003293785A JP4119328B2 (en) 2003-08-15 2003-08-15 Sound collection method, apparatus thereof, program thereof, and recording medium thereof.

Publications (2)

Publication Number Publication Date
JP2005064968A JP2005064968A (en) 2005-03-10
JP4119328B2 true JP4119328B2 (en) 2008-07-16

Family

ID=34370576

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003293785A Expired - Lifetime JP4119328B2 (en) 2003-08-15 2003-08-15 Sound collection method, apparatus thereof, program thereof, and recording medium thereof.

Country Status (1)

Country Link
JP (1) JP4119328B2 (en)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4298466B2 (en) * 2003-10-30 2009-07-22 日本電信電話株式会社 Sound collection method, apparatus, program, and recording medium
JP4787727B2 (en) * 2006-12-04 2011-10-05 日本電信電話株式会社 Audio recording apparatus, method thereof, program thereof, and recording medium thereof
JP2011033369A (en) * 2009-07-30 2011-02-17 Ricoh Co Ltd Conference device
JP5175262B2 (en) * 2009-12-02 2013-04-03 日本電信電話株式会社 Voice acquisition device
JP5672739B2 (en) * 2010-03-29 2015-02-18 ヤマハ株式会社 Sound processor
US20130325458A1 (en) * 2010-11-29 2013-12-05 Markus Buck Dynamic microphone signal mixer
JP5817366B2 (en) * 2011-09-12 2015-11-18 沖電気工業株式会社 Audio signal processing apparatus, method and program
JP5512741B2 (en) * 2012-05-17 2014-06-04 日本電信電話株式会社 Voice acquisition device
KR101673464B1 (en) * 2015-03-13 2016-11-17 한화시스템 주식회사 Apparatus and method for detecting multi-target in non-homogeneous clutter using modified iterative pre-whitening projection statistics
KR101673458B1 (en) * 2015-11-30 2016-11-07 한화시스템 주식회사 Method for detecting multi-target in non-homogeneous clutter using modified iterative pre-whitening projection statistics
JP7437650B2 (en) 2019-11-21 2024-02-26 パナソニックIpマネジメント株式会社 Acoustic crosstalk suppression device and acoustic crosstalk suppression method

Also Published As

Publication number Publication date
JP2005064968A (en) 2005-03-10

Similar Documents

Publication Publication Date Title
Van Waterschoot et al. Fifty years of acoustic feedback control: State of the art and future challenges
JP4702372B2 (en) Echo suppression method and apparatus
US9210504B2 (en) Processing audio signals
US8238569B2 (en) Method, medium, and apparatus for extracting target sound from mixed sound
US7092529B2 (en) Adaptive control system for noise cancellation
US6917688B2 (en) Adaptive noise cancelling microphone system
US6717991B1 (en) System and method for dual microphone signal noise reduction using spectral subtraction
KR101449433B1 (en) Noise cancelling method and apparatus from the sound signal through the microphone
US8811627B2 (en) Echo suppressing method and apparatus
JP4286637B2 (en) Microphone device and playback device
JP2003534570A (en) How to suppress noise in adaptive beamformers
JP4119328B2 (en) Sound collection method, apparatus thereof, program thereof, and recording medium thereof.
JP2001309483A (en) Sound pickup method and sound pickup device
WO2007123047A1 (en) Adaptive array control device, method, and program, and its applied adaptive array processing device, method, and program
JP2004349806A (en) Multichannel acoustic echo canceling method, apparatus thereof, program thereof, and recording medium thereof
JP5662232B2 (en) Echo canceling apparatus, method and program
WO2007123048A1 (en) Adaptive array control device, method, and program, and its applied adaptive array processing device, method, and program
US8804981B2 (en) Processing audio signals
JP2021193807A (en) Signal processing device, teleconferencing device, and signal processing method
JP3756828B2 (en) Reverberation elimination method, apparatus for implementing this method, program, and recording medium therefor
JP2003188776A (en) Acoustic echo erasing method and device, and acoustic echo erasure program
JP3514714B2 (en) Sound collection method and device
JP6143702B2 (en) Echo canceling apparatus, method and program
JP3381731B2 (en) Noise reduction device
JP3616341B2 (en) Multi-channel echo cancellation method, apparatus thereof, program thereof, and recording medium

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20050621

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050714

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20050714

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20070201

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071031

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071116

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080416

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080424

R150 Certificate of patent or registration of utility model

Ref document number: 4119328

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110502

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120502

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130502

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140502

Year of fee payment: 6

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term