JP4119328B2 - Sound collection method, apparatus thereof, program thereof, and recording medium thereof. - Google Patents
Sound collection method, apparatus thereof, program thereof, and recording medium thereof. Download PDFInfo
- Publication number
- JP4119328B2 JP4119328B2 JP2003293785A JP2003293785A JP4119328B2 JP 4119328 B2 JP4119328 B2 JP 4119328B2 JP 2003293785 A JP2003293785 A JP 2003293785A JP 2003293785 A JP2003293785 A JP 2003293785A JP 4119328 B2 JP4119328 B2 JP 4119328B2
- Authority
- JP
- Japan
- Prior art keywords
- sound
- covariance matrix
- filter coefficient
- sound collection
- received
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 19
- 239000011159 matrix material Substances 0.000 claims description 113
- 230000005236 sound signal Effects 0.000 claims description 27
- 238000004364 calculation method Methods 0.000 claims description 24
- 238000001514 detection method Methods 0.000 claims description 18
- 230000002087 whitening effect Effects 0.000 claims description 17
- 238000012935 Averaging Methods 0.000 claims description 13
- 238000001914 filtration Methods 0.000 claims description 8
- 238000009499 grossing Methods 0.000 claims 4
- 230000003044 adaptive effect Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 11
- 230000014509 gene expression Effects 0.000 description 9
- 230000001629 suppression Effects 0.000 description 8
- 230000035945 sensitivity Effects 0.000 description 5
- 230000006978 adaptation Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000004378 air conditioning Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Landscapes
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Circuit For Audible Band Transducer (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Description
本発明は、TV会議や音声会議、電話、遠隔講義などの収音方法および装置に関する。 The present invention relates to a sound collection method and apparatus for TV conferences, audio conferences, telephone calls, remote lectures, and the like.
図6は従来技術の収音装置の構成図である。この従来技術の収音装置はマイクロホン111〜11Mと適応フィルタ13B1〜13BMと学習フィルタ13A1〜13AMと空間特性フィルタ181,1〜18J,Mと信号発生器171〜17Jと遅延器191〜19Jと収音範囲設定部30と仮想目的音源位置設定部26と空間特性推定部27と適応期間検出部20と適応アルゴリズム部16と加算器121〜12M、14A、14B、15、511〜51M、52とで構成される。
FIG. 6 is a block diagram of a conventional sound collecting device. This prior art sound collecting device includes
図6の従来技術の収音装置は雑音を抑圧し目的音を高品質に収音する装置であり、あらかじめ設定した収音範囲内にある音源の音を収音し、収音範囲外にる雑音源の音を抑圧する。ただし、雑音源と目的音の判別は、音源が時間的に定常信号であるか非定常信号であるかで行っており、目的音は音声などの非定常信号を仮定し、雑音源は空調音などの定常信号を仮定している。したがって、非定常な雑音を抑圧することはできない。 The prior art sound collecting device in FIG. 6 is a device that suppresses noise and picks up the target sound with high quality, picks up the sound of the sound source within the preset sound collecting range, and falls outside the sound collecting range. Suppresses the noise source. However, the noise source and the target sound are discriminated based on whether the sound source is a stationary signal or an unsteady signal in terms of time. The target sound is assumed to be an unsteady signal such as speech, and the noise source is the air conditioning sound. Is assumed to be a stationary signal. Therefore, non-stationary noise cannot be suppressed.
マイクロホン111〜11Mで収音された信号は、それぞれ適応フィルタ13B1〜13BMでフィルタリングされた後、加算器14Bで加算されて出力される。適応フィルタ13B1〜13BMは、収音範囲設定部30で設定された収音範囲に対して感度が高く、収音範囲外にある雑音源位置に対して感度が低くなるように学習されたものであり、加算器14Bの出力は、目的音対雑音比(SN比)の高い高品質な音となる。ただし、従来技術の収音装置では、収音範囲全てに対して、常に感度拘束をしているので、収音範囲が広くなるほど、雑音抑圧性能が低くなるという問題がある。
The signals collected by the
次に、適応フィルタ13B1〜13BMの学習について具体的に説明する。学習は、実際に収音した雑音と、仮想目的音源を用いて合成した仮想的な収音信号と、学習フィルタを用いて行う。このように仮想目的音源を用いるのは、実際の目的音源を観測する場合、必ず雑音が混入した信号として観測されるので、目的音と雑音を区別した処理ができないためである。
Next, learning of the
まず、仮想目的音源を用いた仮想的な収音信号を合成する部分を説明する。収音範囲設定部30は、収音する範囲(音源の移動範囲、音源位置計測誤差の範囲など)を設定し、仮想目的音源位置設定部26は、設定範囲内に一様に仮想目的音源位置を設ける。仮想目的音源位置の間隔は十分に狭い必要があり、ある仮想目的音源位置から隣り合う仮想目的音源位置に音源が移動したときに、マイクロホン間の相対遅延時間の変動がサンプリング周期より小さくなるように間隔を設定する。空間特性推定部27は、設定された仮想目的音源位置からマイクロホン位置までのインパルス応答を推定し、空間特性フィルタ181, 1〜18J, Mの係数に設定する。信号発生器171〜17Jにより発生された互いに無相関で定常な信号は、空間特性フィルタ181, 1〜18J, Mによりフィルタリングされマイクロホンごとに加算器511〜51Mで加算される。このように、信号を空間特性フィルタ181,1 〜18J, Mでフィルタリングすることにより、目的音収音信号を仮想的に合成できる。
First, a portion for synthesizing a virtual sound pickup signal using a virtual target sound source will be described. The sound collection
次に、仮想的に合成された目的音収音信号と実際に収音された雑音信号を加算器121〜12Mで加算し、これを学習フィルタ13A1〜13AMでフィルタリングした後、加算器14Aで加算する。この加算器14Aの出力が仮想的に合成された収音信号の出力となる。この出力の雑音成分が小さく、仮想目的音成分の劣化が小さければ、高品質に収音できているということになるので、加算器15で出力から仮想目的音の原音を減算し、この加算器15の出力を誤差信号として、学習フィルタ13A1〜13AMの更新を行う。ただし、学習フィルタ13A1〜13AMの非因果部分を有効にするために、遅延器191〜19Jで仮想目的音の原音に遅延を付加してから、加算器52で加算したものを減算している。
Then, actually adding the collected noise signal by the
適応アルゴリズム部16は、加算器15出力の誤差信号と学習フィルタ13A1〜13AMへの入力信号から、誤差信号の二乗平均誤差が最小となるように学習フィルタ13A1〜13AMの更新ベクトルを求める。適応フィルタ13B1〜13BMには、学習フィルタ13A1〜13AMと同じフィルタ係数がセットされ、設定された収音範囲内の目的音源の音を収音し、雑音を抑圧する。また、マイクロホン111〜11Mの収音信号に実際の目的音が含まれる場合、実際の目的音源に対して感度を低くするように学習されてしまうので、実際の目的音が存在する場合には、フィルタの更新を停止する必要がある。適応期間検出部20は、マイクロホン111〜11Mで収音された信号のパワーを監視することで、実際の目的音の存在を検出し、適応動作を停止する。
Adaptive algorithm unit 16, the input signal of the
次に、適応アルゴリズム部16について詳細に説明する。適応アルゴリズムとしては、LMSアルゴリズム、NLMSアルゴリズム、射影アルゴリズムなどがある。本明細書では、NLMS法を例にとって、以下にフィルタの収束解と修正式の導出を行う。まず、数式で使用する記号について説明する。サンプリング周期により離散化された時刻をn、マイクロホン数をM、仮想目的音源数をJ、時刻nにi番目マイクロホン11iで収音された信号をx i (n)とし、Lサンプル分を取り出して行列で表したものを
とする。j番目の信号発生器17jの出力信号はvj (n)、j番目の信号発生器17jとi番目のマイクロホン11iに対する空間特性フィルタはg i,j (n)で表し、空間特性フィルタ出力をu i,,j (n)=gi,j (n)*vj (n)として、Lサンプル分を取り出して行列で表したものを
とする。ただし*は畳み込み演算を表している。学習フィルタ13A1〜13AM、適応フィルタ13B1〜13BMはLタップのFIRフィルタとし、フィルタ係数
として行列で表す。h i (n −l−1)は、時刻nにおけるi番目マイクロホンに対するフィルタのlタップ目のフィルタ係数を表し、学習フィルタ13A1〜13AMと適応フィルタ13B1〜13BMには同一のフィルタ係数が用いられる。加算器14Aの出力をy′(n)、加算器14Bの出力をy (n)、加算器15の出力を誤差e (n)とし、遅延器191〜19Jでの遅延量は全て等しいとしτ0で表す(通常、τ0は学習フィルタ13A1〜13AMのタップ長の半分の長さである)。
As a matrix. h i (n −l−1) represents the filter coefficient of the l-th tap of the filter for the i-th microphone at time n, and the same filter coefficient is used for the
まず、加算器15の出力である誤差e (n) の二乗平均を求める。この二乗平均誤差を最小とするフィルタが最適なフィルタとなる。
First, the mean square of the error e (n) that is the output of the
ただし、 ̄は時間平均を意味する。仮想目的信号vj (n)は互いに無相関であり、仮想目的信号と雑音は無相関であるので、式(1)は式(2)のように変形される。 However,  ̄ means time average. Since the virtual target signal v j (n) is uncorrelated with each other and the virtual target signal and noise are uncorrelated, Equation (1) is transformed into Equation (2).
適応フィルタ
をLタップのFIRフィルタとして、式(2)をベクトル表記すれば、式(3)のようになる。 If L is a L-tap FIR filter and equation (2) is expressed as a vector, equation (3) is obtained.
式(3)を最小化するフィルタが最適なフィルタであるので、式(3)を
で偏微分し、0とおいて、極小点を求める。 To obtain a local minimum point.
式(4)を
について解けば、式(3)を最小化する最適フィルタ
が求められる。 Is required.
式(5)の最適フィルタを求める方法として、LMSアルゴリズム、NLMSアルゴリズム、射影アルゴリズムなどの適応アルゴリズムがある。本明細書ではNLMSアルゴリズムを例にとって説明することとし、修正式は式(6)で表される。 There are adaptive algorithms such as an LMS algorithm, an NLMS algorithm, and a projection algorithm as a method for obtaining the optimum filter of Expression (5). In this specification, the NLMS algorithm will be described as an example, and the correction formula is expressed by Formula (6).
ただし、
は式(7)で表される。 Is represented by equation (7).
ここまでで、式(6)の修正式を用いて、式(5)の最適フィルタが求められることを示した。
しかし、上記の従来技術の収音方法では、非定常な雑音信号(例えば収音したくない話者音声など)を抑圧不可能であるという問題、収音範囲を広げることにより雑音の抑圧性能が低下するという問題がある。 However, the above-described conventional sound collection methods have a problem that non-stationary noise signals (for example, speaker voices that are not desired to be collected) cannot be suppressed, and noise suppression performance is improved by widening the sound collection range. There is a problem of lowering.
本発明の目的は、非定常な雑音信号を抑圧した収音を実現するとともに収音範囲の広さによらず高い抑圧性能を実現する収音方法、装置、プログラム、および記録媒体を提供することである。 An object of the present invention is to provide a sound collection method, apparatus, program, and recording medium that realizes sound collection with suppressed non-stationary noise signals and achieves high suppression performance regardless of the range of the sound collection range. It is.
上記目的を達成するために、本発明の収音方法は、収音範囲を設定する収音範囲設定段階と、複数の収音手段の各々で受音された受音信号から話者位置を検出する話者位置検出段階と、検出された話者位置が収音範囲内である場合には話者音声を収音し、収音範囲外である場合には話者音声を抑圧する条件で、受信信号を用いてフィルタ係数を設定するフィルタ係数設定段階と、複数の収音手段の各々で受音された受音信号を、前記フィルタ係数で各々フィルタリングするフィルタ段階と、各フィルタ段階の出力信号を加算する加算段階を有する。 To achieve the above object, the sound collection method of the present invention detects a speaker position from a sound collection range setting stage for setting a sound collection range and a sound reception signal received by each of a plurality of sound collection means. The speaker position detection stage, and if the detected speaker position is within the sound collection range, the speaker voice is collected, and if the detected speaker position is outside the sound collection range, the speaker voice is suppressed. A filter coefficient setting stage for setting a filter coefficient using the received signal; a filter stage for filtering each received sound signal received by each of the plurality of sound collecting means with the filter coefficient; and an output signal of each filter stage There is an addition stage for adding.
これにより、設定された収音範囲の音声のみを収音し、それ以外の音を抑圧することが可能となる。
本発明の実施態様によれば、フィルタ係数設定段階は、複数の収音手段の各々で受音された受音信号を周波数領域に変換するFFT段階と、FFT段階の出力信号の各々を周波数成分ごとに乗算し、共分散行列を求める共分散行列計算段階と、検出された話者位置ごとに前記共分散行列を加算平均して、記憶する共分散行列記憶段階と、記憶された共分散行列、および検出された話者位置と前記収音範囲を用いてフィルタ係数を計算するフィルタ係数計算段階を含む。
本発明の実施態様によれば、フィルタ係数設定段階は、複数の収音手段の各々で受音された受音信号を周波数領域に変換するFFT段階と、FFT段階の出力信号の各々を周波数成分ごとに乗算し、共分散行列を求める共分散行列計算段階と、検出された話者位置ごとに共分散行列を加算平均して、記憶する共分散行列記憶段階と、記憶された共分散行列のうち対角成分で最もパワーの大きい成分、または記憶された共分散行列の対角成分の加算値の周波数特性を平滑化するゲインを、記憶された共分散行列に乗算する白色化段階と、白色化された共分散化行列、および検出された話者位置と前記収音範囲を用いてフィルタ係数を計算するフィルタ係数計算段階を含む。
As a result, it is possible to collect only the sound within the set sound collection range and suppress other sounds.
According to the embodiment of the present invention, the filter coefficient setting stage includes an FFT stage for converting the received signal received by each of the plurality of sound collecting means into the frequency domain, and each of the output signals of the FFT stage as frequency components. A covariance matrix calculation stage to obtain a covariance matrix by multiplying each, a covariance matrix storage stage for averaging the covariance matrix for each detected speaker position, and storing, and a stored covariance matrix And a filter coefficient calculation step of calculating a filter coefficient using the detected speaker position and the sound collection range.
According to the embodiment of the present invention, the filter coefficient setting stage includes an FFT stage for converting the received signal received by each of the plurality of sound collecting means into the frequency domain, and each of the output signals of the FFT stage as frequency components. A covariance matrix calculation stage to obtain a covariance matrix, a covariance matrix storage stage for averaging the covariance matrix for each detected speaker position, and a stored covariance matrix A whitening stage that multiplies the stored covariance matrix by a gain that smoothes the frequency characteristic of the diagonal component with the highest power or the added value of the diagonal component of the stored covariance matrix, and white And a filter coefficient calculation step of calculating a filter coefficient using the detected covariance matrix and the detected speaker position and the sound collection range.
上記課題を解決するために、本発明の他の収音方法は、収音範囲と音量範囲を設定する収音範囲・音量範囲設定段階と、複数の収音手段の各々で受音された受音信号から話者位置を検出する話者位置検出段階と、複数の収音手段の各々で受音された受音信号から話者音量を推定する話者音量推定段階と、検出された話者位置が前記収音範囲内であり、かつ推定された話者音量が前記音量範囲内である場合は収音し、それ以外の場合には話者音声抑圧する条件で、フィルタ係数設定段階は、前記受音信号を用いてフィルタ係数を設定するフィルタ係数設定段階と、前記複数の収音手段の各々で受音された受音信号を前記フィルタ係数で各々フィルタリングするフィルタ段階と、各フィルタ段階の出力信号を加算する加算段階を有する。 In order to solve the above-described problems, another sound collection method of the present invention includes a sound collection range / volume range setting stage for setting a sound collection range and a sound volume range, and a sound reception received by each of a plurality of sound collection means. A speaker position detecting stage for detecting a speaker position from a sound signal; a speaker volume estimating stage for estimating a speaker volume from a received sound signal received by each of a plurality of sound collecting means; and a detected speaker If the position is within the sound collection range and the estimated speaker volume is within the volume range, sound is collected; otherwise, the speaker sound suppression is performed. A filter coefficient setting step for setting a filter coefficient using the received sound signal; a filter step for filtering the received sound signal received by each of the plurality of sound collecting means with the filter coefficient; and An adding stage for adding the output signals;
収音範囲の条件に加え、音量範囲の条件を加えることで、収音手段から離れた話者の不要音声だけを抑圧することが可能となる。 By adding the condition of the volume range in addition to the condition of the sound collection range, it is possible to suppress only the unnecessary speech of the speaker away from the sound collection means.
本発明の実施態様によれば、フィルタ系数設定段階は、複数の収音手段の各々で受音された受音信号を周波数領域に変換するFFT段階と、FFT段階の出力信号の各々を周波数成分ごとに乗算し、共分散行列を求める共分散行列計算段階と、検出された話者位置ごとに前記共分散行列を加算平均して、記憶する共分散行列記憶段階と、記憶された共分散行列、検出された話者位置と前記収音範囲、および推定された話者音量と前記音量範囲を用いてフィル係数を計算するフィルタ係数計算段階を含む。 According to the embodiment of the present invention, the filter system number setting stage includes an FFT stage for converting the received signal received by each of the plurality of sound collecting means into a frequency domain, and each of the output signals of the FFT stage as frequency components. A covariance matrix calculation stage to obtain a covariance matrix by multiplying each, a covariance matrix storage stage for averaging the covariance matrix for each detected speaker position, and storing, and a stored covariance matrix And a filter coefficient calculation step of calculating a fill coefficient using the detected speaker position and the sound collection range, and the estimated speaker volume and the sound volume range.
本発明の実施態様によれば、フィルタ係数設定段階は、複数の収音手段の各々で受音された受音信号を周波数領域に変換するFFT段階と、FFT段階の出力信号の各々を周波数成分ごとに乗算し、共分散行列を求める共分散行列計算段階と、検出された話者位置ごとに共分散行列を加算平均して、記憶する共分散行列記憶段階と、記憶された共分散行列のうち対角成分で最もパワーの大きい成分、または記憶された共分散行列の対角成分の加算値の周波数特性を平滑化するゲインを、記憶された共分散行列に乗算する白色化段階と、白色化された共分散化行列、検出された話者位置と前記収音範囲、および推定された話者音量と前記音量範囲を用いてフィルタ係数を計算するフィルタ係数計算段階を含む。 According to the embodiment of the present invention, the filter coefficient setting stage includes an FFT stage for converting the received signal received by each of the plurality of sound collection means into the frequency domain, and each of the output signals of the FFT stage as frequency components. A covariance matrix calculation stage to obtain a covariance matrix, a covariance matrix storage stage for averaging the covariance matrix for each detected speaker position, and a stored covariance matrix A whitening stage that multiplies the stored covariance matrix by a gain that smoothes the frequency characteristic of the diagonal component with the highest power or the added value of the diagonal component of the stored covariance matrix, and white A filter coefficient calculating step of calculating a filter coefficient using the normalized covariance matrix, the detected speaker position and the sound collection range, and the estimated speaker volume and the sound volume range.
共分散行列の白色化により、音源の周波数特性に依存しないフィルタを求めることができる。これにより、音源の周波数特性が変化しても、フィルタの変化がなく、本発明の処理による音声の変化を防ぐことができる。 By whitening the covariance matrix, a filter that does not depend on the frequency characteristics of the sound source can be obtained. Thereby, even if the frequency characteristic of the sound source changes, there is no change in the filter, and it is possible to prevent a change in sound due to the processing of the present invention.
本発明は、上記のように収音範囲を設定し、検出した話者位置が収音範囲内にある場合にその音声を収音し、範囲外の音声は抑圧する。定常/非定常に関係なく範囲外の音を抑圧するので、収音したくない音声を抑圧することができる。また、実際に発音している音源位置に対する感度のみを制御するので、収音範囲の広さによって、抑圧性能が低下することもない。 The present invention sets the sound collection range as described above, collects the sound when the detected speaker position is within the sound collection range, and suppresses the sound outside the range. Since the sound outside the range is suppressed regardless of whether it is stationary or non-stationary, it is possible to suppress the voice that is not desired to be collected. In addition, since only the sensitivity to the sound source position where the sound is actually generated is controlled, the suppression performance does not deteriorate depending on the width of the sound collection range.
[第1の実施形態]
図1は本発明の第1の実施形態の収音装置のブロック図である。
[First Embodiment]
FIG. 1 is a block diagram of a sound collecting apparatus according to a first embodiment of the present invention.
第1の実施形態の収音装置はマイクロホン111〜11Mと話者位置検出部23と収音範囲設定部25とフィルタ係数設定部24とフィルタ部211〜21Mと加算器22により構成される。
The sound collection device according to the first embodiment includes
収音範囲設定部25は、収音する範囲を設定する。収音範囲は、ユーザがボタンやリモコンなどにより設定したり、事前に固定的に設定されたりする。話者位置検出部23は、マイクロホン111〜11Mで受音された信号と、マイクロホン111〜11Mの位置から話者位置を検出する。フィルタ係数設定部24は、検出された話者位置が、収音範囲設定部24で設定された収音範囲内であれば収音し、範囲外であれば抑圧するようにフィルタ係数を計算する。計算されたフィルタ係数はフィルタ部211〜21Mにコピーされる。フィルタ部211〜21Mは、マイクロホン111〜11Mにより受音された信号を各々フィルタリングする。フィルタ部211〜21Mの出力信号は加算器22で加算され、出力信号となる。以上により、収音範囲内の音のみを収音し、収音範囲外の不要な音は抑圧した出力信号が得られる。
The sound collection
以下に話者位置検出部23とフィルタ係数設定部24について詳細に説明する。
The speaker
話者位置検出部23は、たとえば以下の方法で実現される。
The speaker
マイクロホン111〜11Mから共分散行列を計算し、共分散行列に走査位置ごとに設定されたステアリングベクトルを乗じることで走査位置ごとの音声パワーを推定する。推定された走査位置ごとの音声パワーから最大パワーを持つ走査位置を話者位置として検出する。
The covariance matrix is calculated from the
以下に数式を用いて説明する。 This will be described below using mathematical formulas.
まず、i番目のマイクロホン 11iで受音された信号をx i (t)とし、それを周波数領域に変換したものをX i (ω)とし、入力信号ベクトル
を式(8)で定義する。 Is defined by equation (8).
ただし、Tは行列の転置を表す。 Where T is the transpose of the matrix.
次に、共分散行列
は式(9)で表わされる。 Is represented by equation (9).
ただし、Hは行列の共役転置を表す。 Where H is the conjugate transpose of the matrix.
次に、音声パワー推定で用いるステアリングベクトルについて述べる。ステアリングベクトルは走査位置から到来した音が同位相となるように設定する。このようなステアリングベクトルを用いることで、同位相になった信号(走査位置で発生した音)のみが強調され、走査位置に鋭い指向性が形成される。 Next, a steering vector used for speech power estimation will be described. The steering vector is set so that the sound coming from the scanning position has the same phase. By using such a steering vector, only a signal having the same phase (sound generated at the scanning position) is emphasized, and a sharp directivity is formed at the scanning position.
まず、走査位置(x, y, z)の場合に、i番目のマイクロホン11iに与える遅延量d i (x, y, z)は、走査位置(x, y, z)から発せられた音が同位相となるように、走査位置(x, y, z)とi番目のマイクロホン位置(xi, yi, zi)と音速cより、式(10)および式(11)を用いて求められる。
First, in the case of the scanning position (x, y, z), the delay amount d i (x, y, z) given to the i-
ただし、Dは固定遅延量であり、事前に定数として与えられる。 However, D is a fixed delay amount and is given as a constant in advance.
式(10)を周波数領域に変換した式が式(12)となり、これをベクトルとしたものがステアリングベクトルであり、式(13)となる。 An expression obtained by converting Expression (10) into the frequency domain is Expression (12). A vector obtained by converting the expression into a vector is a steering vector, which is Expression (13).
このステアリングベクトル
を共分散行列に乗じ、周波数について積分すれば、各走査位置に対応する音声パワーの推定値
が求められる。これは式(14)で表される。 Is required. This is expressed by equation (14).
ステアリングベクトル
は、走査位置(x, y, z)で発生した音のみを同位相にして強調しているので音声パワーの推定値
は、走査位置に音源があった場合のみ大きな値をとる。したがって、音声パワーの推定値
のうち最大パワーの走査位置(xm, ym, zm),を検出すれば、話者位置を推定可能である。 If the scanning position (x m , y m , z m ) with the maximum power is detected, the speaker position can be estimated.
次に、フィルタ係数設定部24について詳細に説明する。
Next, the filter
フィルタ係数設定部24では、話者位置検出部23で検出された話者位置が収音範囲内にあるかどうかを判定する。収音範囲内にある場合には収音対象とし、それ以外を抑圧対象とする。
The filter
収音範囲内の音声だけ収音し、それ以外の音を抑圧するフィルタは、収音対象の入力信号ベクトル
をフィルタ
でフィルタリングし加算した信号が、収音対象の入力信号をミキシングベルト
でミキシングしただけとなり、抑圧対象の入力信号ベクトル
をフィルタ
でフィルタリングし加算した信号が0となっていればよい。したがって、フィルタは以下の式(15)、(16)、(17)を満たす場合に最適となる。 It is only necessary that the signal filtered and added at 0 is 0. Therefore, the filter is optimal when the following expressions (15), (16), and (17) are satisfied.
式(15)〜(17)を最小二乗解でフィルタ
について解けば、式(18)となる。 If it solves about, it will become a formula (18).
ただし、CSjとCNkは、それぞれ話者音声収音の重みと抑圧の重みであり、CNkを大きくすれば不要音声の抑圧量が増加し、CSjを大きくすれば収音する音声の劣化が減少する。 However, C Sj and C Nk are the weights of speaker voice collection and suppression weights, respectively. If C Nk is increased, the amount of suppression of unnecessary voices increases, and if C Sj is increased, the voices to be collected are collected. Deterioration is reduced.
式(18)より、フィルタ係数を求めるには、入力信号の共分散行列を話者位置ごとに求める必要がある。本発明では、式(9)により求められる共分散行列
を話者ごとに時間平均、保存する。このとき、収音対象の話者位置に対する共分散行列は
とし、抑圧対象の話者位置に対する共分散行列は
とする。 And
以上求めた共分散行列から式(18)によりフィルタ係数を求めることができる。 The filter coefficient can be obtained from the covariance matrix obtained as described above by Equation (18).
以上示したように本実施形態では、設定された収音範囲の音声のみを収音し、それ以外の音を抑圧することが可能である。 As described above, in the present embodiment, it is possible to collect only the sound within the set sound collection range and suppress other sounds.
図5は本発明の利用例を説明する図である。本発明を用いた収音装置がテーブルに置いてあり、その周りに話者がいる場合を想定している。装置には、範囲別のミュートボタンがついており、そのミュートボタンを押すことで、そのボタンに対応した範囲の音だけミュート(収音しない)することができる。本発明では、音の定常性、非定常性にかかわらず、収音しない範囲を設定可能であるので、このような利用方法も可能となる。 FIG. 5 is a diagram illustrating an example of use of the present invention. It is assumed that the sound collection device using the present invention is placed on a table and a speaker is around it. The device has a mute button for each range. By pressing the mute button, only the sound in the range corresponding to the button can be muted (no sound is collected). In the present invention, a range in which sound is not collected can be set regardless of the steadiness or non-stationarity of the sound, and thus such a utilization method is also possible.
[第2の実施形態]
図2は本発明の第2の実施形態の収音装置のブロック図である。
[Second Embodiment]
FIG. 2 is a block diagram of a sound collecting apparatus according to the second embodiment of the present invention.
第2の実施形態の収音装置は、第1の実施形態の収音装置に、収音範囲・音量範囲設定部31と話者音量推定部32を追加した例である。
The sound collection device of the second embodiment is an example in which a sound collection range / volume
収音範囲・音量範囲設定部31は、収音範囲の設定と音量範囲を設定する。設定はユーザがボタンやリモコンなどにより行ったり、事前に固定的に与えたりする。話者音量推定部32は、マイクロホン111〜11Mで受音した信号から音声信号のパワーを推定する。話者位置検出部23で検出された話者位置が収音範囲内であり、かつ推定した話者音量が音量範囲内である場合は収音し、それ以外の場合には話者音声を抑圧する。これにより、たとえばマイクロホン111〜11Mに近くい受音パワーの大きい音声だけを収音し、マイクロホン111〜11Mから離れた話者の音声を抑圧することが可能となる。
The sound collection range / volume
以下に、話者音量の推定方法について説明する。話者音量
は、入力信号ベクトル
にミキシングベクトル
を乗じたものを周波数低域W内で平均したものであるので、式(19)で求められる。 Is obtained by averaging in the frequency low band W, and is obtained by the equation (19).
式(19)から、共分散行列から話者音量を推定できることが分かる。したがって、式(9)により共分散行列を求め、式(19)により話者音量を求めることができる。 From equation (19), it can be seen that the speaker volume can be estimated from the covariance matrix. Therefore, the covariance matrix can be obtained from equation (9), and the speaker volume can be obtained from equation (19).
第2の実施形態では、第1の実施形態の収音範囲の条件に加え、音量範囲の条件を加えることで、マイクロホン111〜11Mから離れた話者の不要音声だけを抑圧することも可能となる。
In the second embodiment, in addition to the sound collection range condition of the first embodiment, by adding the sound volume range condition, it is also possible to suppress only the unnecessary speech of the speaker away from the
これら以外の部分に関しては、第2の実施形態と同じであるので、説明を省略する。 Since other parts are the same as those in the second embodiment, description thereof is omitted.
[第3の実施形態]
図3は本発明の第3の実施形態の収音装置のブロック図である。第3の実施形態の収音装置は、第1の実施形態または第2の実施形態の収音装置において、フィルタ係数設定部12がFFT部411〜41Mと共分散行列計算部42と共分散行列記憶部43とフィルタ係数計算部44とにより実現された例である。
[Third Embodiment]
FIG. 3 is a block diagram of a sound collecting apparatus according to the third embodiment of the present invention. The sound collection device according to the third embodiment is the same as the sound collection device according to the first embodiment or the second embodiment, except that the filter
FFT部411〜41Mは、マイクロホン111〜11Mにより受音された信号を各々周波数領域に変換する。共分散行列計算部42では、FFT出力信号をチャネル間で乗算し、式(9)により共分散行列を求める。共分散行列記憶部43は、話者位置ごとに共分散行列を時間平均し、保存する。フィルタ係数計算部44は、式(18)により、フィルタ係数を算出する。
The
これ以外の部分に関しては、第1の実施形態または第2の実施形態と同じであるので、説明を省略する。 Since other parts are the same as those in the first embodiment or the second embodiment, description thereof will be omitted.
[第4の実施形態]
図4は本発明の第4の実施形態の話者位置検出装置のブロック図である。第4の実施形態の収音装置は、第1の実施形態または第2の実施形態の収音装置において、共分散行列計算部12がFFT部411〜41Mと共分散行列計算部42と共分散行列記憶部43と白色化部45とフィルタ係数計算部44とにより実現された例である。
[Fourth Embodiment]
FIG. 4 is a block diagram of a speaker position detecting apparatus according to a fourth embodiment of the present invention. In the sound collection device of the fourth embodiment, in the sound collection device of the first embodiment or the second embodiment, the covariance
FFT部411〜41Mと共分散行列計算部42と共分散行列記憶部43フィルタ係数算出部44に関しては、第3の実施形態と同様の処理を行うので、説明を省略する。
The
白色化部45は、共分散行列
を周波数領域で白色化(平坦な周波数特性に)する。白色化は、共分散行列の対角成分のうち最もパワーの大きい
を平滑化する白色化ゲイン
を乗算するか、共分散行列の対角成分の平均パワーを平滑化する白色化ゲイン
を乗算することで行なう。これらはそれぞれ式(20)と式(21)により表される。 This is done by multiplying These are represented by the equations (20) and (21), respectively.
ただし、βは白色化の度合いを調整する係数であり、1となれば完全な白色化となり、0となれば白色化は行われなくなる。 However, β is a coefficient for adjusting the degree of whitening. When it is 1, it becomes complete whitening, and when it becomes 0, whitening is not performed.
第4の実施形態では、共分散行列の白色化により、音源の周波数特性に依存しないフィルタを求めることができる。これにより、音源の周波数特性が変化しても、フィルタの変化がなく、本発明の処理による音色の変化を防ぐことができる。 In the fourth embodiment, it is possible to obtain a filter that does not depend on the frequency characteristics of the sound source by whitening the covariance matrix. Thereby, even if the frequency characteristic of the sound source changes, there is no change in the filter, and a change in timbre due to the processing of the present invention can be prevented.
これら以外の部分に関しては、第1の実施形態または第2の実施形態と同じであるので、説明を省略する。 Since other parts are the same as those in the first embodiment or the second embodiment, description thereof will be omitted.
なお、本発明の収音方法は専用のハードウェアにより実現されるもの以外に、その機能を実現するためのプログラムを、コンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行するものであってもよい。コンピュータ読み取り可能な記録媒体とは、フロッピーディスク、光磁気ディスク、CD―ROM等の記録媒体、コンピュータシステムに内蔵されるハードディスク装置等の記憶装置を指す。さらに、コンピュータ読み取り可能な記録媒体は、インターネットを介してプログラムを送信する場合のように、短時間の間、動的にプログラムを保持するもの(伝送媒体もしくは伝送波)、その場合のサーバとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含む。 The sound collecting method of the present invention is not only realized by dedicated hardware, but a program for realizing the function is recorded on a computer-readable recording medium, and the program recorded on the recording medium is recorded. May be read by a computer system and executed. The computer-readable recording medium refers to a recording medium such as a floppy disk, a magneto-optical disk, a CD-ROM, or a storage device such as a hard disk device built in the computer system. Furthermore, a computer-readable recording medium is a server that dynamically holds a program (transmission medium or transmission wave) for a short period of time, as in the case of transmitting a program via the Internet, and a server in that case. Some of them hold programs for a certain period of time, such as volatile memory inside computer systems.
111〜11M マイクロホン
211〜21M フィルタ部
22 加算器
23 話者位置検出部
24 フィルタ係数設定部
25 収音範囲設定部
31 収音範囲・音量範囲設定部
32 話者音量推定部
411〜41M FFT部
42 共分散行列計算部
43 共分散行列記憶部
44 フィルタ係数計算部
45 白色化部
121〜12M 加算器
13A1〜13AM 学習フィルタ
13B1〜13BM 適応フィルタ
14A 加算器
14B 加算器
15 加算器
16 適応アルゴリズム部
171〜17J 信号発生器
181,1〜18J,M 空間特性フィルタ
191〜19J 遅延器
20 適応期間検出器
511〜51M 加算器
52 加算器
26 仮想音源位置設定部
27 空間特性推定部
30 収音範囲設定部
11 1 to 11 M
Claims (14)
収音範囲を設定する収音範囲設定段階と、
複数の収音手段の各々で受音された受音信号から話者位置を検出する話者位置検出段階と、
前記検出された話者位置が前記収音範囲内である場合には話者音声を収音し、前記収音範囲外である場合には話者音声を抑圧する条件で、前記受音信号を用いてフィルタ係数を設定するフィルタ係数設定段階と、
前記複数の収音手段の各々で受音された受音信号を、前記フィルタ係数で各々フィルタリングするフィルタ段階と、
前記フィルタ段階の各出力信号を加算する加算段階を有する収音方法。 A sound collection method,
A sound collection range setting stage for setting the sound collection range;
A speaker position detection stage for detecting a speaker position from a received sound signal received by each of a plurality of sound pickup means;
When the detected speaker position is within the sound collection range, the voice signal is collected, and when the detected speaker position is outside the sound collection range, the sound reception signal is A filter coefficient setting stage to set the filter coefficient using,
A filter stage for filtering each received signal received by each of the plurality of sound collecting means with the filter coefficient;
A sound collection method comprising an addition step of adding the output signals of the filter step.
収音範囲と音量範囲を設定する収音範囲・音量範囲設定段階と、
複数の収音手段の各々で受音された受音信号から話者位置を検出する話者位置検出段階と、
複数の収音手段の各々で受音された受音信号から話者音量を推定する話者音量推定段階と、
前記検出された話者位置が前記収音範囲内であり、かつ前記推定された話者音量が前記音量範囲内である場合は収音し、それ以外の場合には話者音声抑圧する条件で、前記受音信号を用いてフィルタ係数を設定するフィルタ係数設定段階と、
前記複数の収音手段の各々で受音された受音信号を、前記フィルタ係数で各々フィルタリングするフィルタ段階と、
前記フィルタ段階の各出力信号を加算する加算段階とを有する収音方法。 A sound collection method,
Sound collection range / volume range setting stage to set the sound collection range and volume range,
A speaker position detection stage for detecting a speaker position from a received sound signal received by each of a plurality of sound pickup means;
A speaker volume estimation stage for estimating a speaker volume from a received signal received by each of a plurality of sound collection means;
If the detected speaker position is within the sound collection range and the estimated speaker volume is within the volume range, sound is collected; otherwise, the speaker sound is suppressed. A filter coefficient setting step for setting a filter coefficient using the received sound signal;
A filter stage for filtering each received signal received by each of the plurality of sound collecting means with the filter coefficient;
And a summing step of summing the output signals of the filter step.
前記複数の収音手段の各々で受音された受音信号を周波数領域に変換するFFT段階と、
前記FFT段階の出力信号の各々を周波数成分ごとに乗算し、共分散行列を求める共分散行列計算段階と、
前記検出された話者位置ごとに前記共分散行列を加算平均して、記憶する共分散行列記憶段階と、
前記記憶された共分散行列、前記検出された話者位置と前記収音範囲、および前記推定された話者音量と前記音量範囲を用いてフィルタ係数を計算するフィルタ係数計算段階とを含む、請求項2に記載の収音方法。 The filter coefficient setting step includes:
An FFT stage for converting a received sound signal received by each of the plurality of sound collecting means into a frequency domain;
A covariance matrix calculating step of multiplying each of the output signals of the FFT step for each frequency component to obtain a covariance matrix;
A covariance matrix storage step of averaging and storing the covariance matrix for each detected speaker position;
And a filter coefficient calculating step of calculating a filter coefficient using the stored covariance matrix, the detected speaker position and the sound collection range, and the estimated speaker volume and the volume range. Item 3. The sound collection method according to Item 2 .
前記複数の収音手段の各々で受音された受音信号を周波数領域に変換するFFT段階と、
前記FFT段階の出力信号の各々を周波数成分ごとに乗算し、共分散量列を求める共分散行列計算段階と、
前記検出された話者位置ごとに前記共分散行列を加算平均して、記憶する共分散行列記憶段階と、
前記記憶された共分散行列のうち対角成分で最もパワーの大きい成分、または前記記憶された共分散行列の対角成分の加算値の周波数特性を平滑化するゲインを、前記記憶された共分散行列に乗算する白色化段階と、
前記白色化された共分散行列、前記検出された話者位置と前記収音範囲、および前記推定された話者音量と前記音量範囲を用いてフィルタ係数を計算するフィルタ係数計算段階を含む、請求項2に記載の収音方法。 The filter coefficient setting step includes:
An FFT stage for converting a received sound signal received by each of the plurality of sound collecting means into a frequency domain;
A covariance matrix calculating step of multiplying each of the output signals of the FFT step for each frequency component to obtain a covariance sequence;
A covariance matrix storage step of averaging and storing the covariance matrix for each detected speaker position;
The stored covariance is a gain for smoothing the frequency characteristic of the diagonal component of the stored covariance matrix having the highest power or the sum of the diagonal components of the stored covariance matrix. A whitening stage to multiply the matrix;
And a filter coefficient calculation step of calculating a filter coefficient using the whitened covariance matrix, the detected speaker position and the sound collection range, and the estimated speaker volume and the volume range. Item 3. The sound collection method according to Item 2 .
前記複数の収音手段の各々で受音された受音信号を周波数領域に変換するFFT段階と、 An FFT stage for converting a received sound signal received by each of the plurality of sound collecting means into a frequency domain;
前記FFT段階の出力信号の各々を周波数成分ごとに乗算し、共分散行列を求める共分散行列計算段階と、 A covariance matrix calculating step of multiplying each of the output signals of the FFT step for each frequency component to obtain a covariance matrix;
前記検出された話者位置ごとに前記共分散行列を加算平均して、記憶する共分散行列記憶段階と、 A covariance matrix storage step of averaging and storing the covariance matrix for each detected speaker position;
前記記憶された共分散行列、および前記検出された話者位置と前記収音範囲を用いてフィルタ係数を計算するフィルタ係数計算段階とを含む、請求項1に記載の収音方法。 The sound collection method according to claim 1, comprising: a filter coefficient calculation step of calculating a filter coefficient using the stored covariance matrix, the detected speaker position, and the sound collection range.
前記複数の収音手段の各々で受音された受音信号を周波数領域に変換するFFT段階と、 An FFT stage for converting a received sound signal received by each of the plurality of sound collecting means into a frequency domain;
前記FFT段階の出力信号の各々を周波数成分ごとに乗算し、共分散量列を求める共分散行列計算段階と、 A covariance matrix calculating step of multiplying each of the output signals of the FFT step for each frequency component to obtain a covariance sequence;
前記検出された話者位置ごとに前記共分散行列を加算平均して、記憶する共分散行列記憶段階と、 A covariance matrix storage step of averaging and storing the covariance matrix for each detected speaker position;
前記記憶された共分散行列のうち対角成分で最もパワーの大きい成分、または前記記憶された共分散行列の対角成分の加算値の周波数特性を平滑化するゲインを、前記記憶された共分散行列に乗算する白色化段階と、 The stored covariance is a gain for smoothing the frequency characteristic of the diagonal component of the stored covariance matrix having the highest power or the added value of the diagonal components of the stored covariance matrix. A whitening stage to multiply the matrix;
前記白色化された共分散行列、および前記検出された話者位置と前記収音範囲を用いてフィルタ係数を計算するフィルタ係数計算段階を含む、請求項1に記載の収音方法。 The sound collection method according to claim 1, further comprising a filter coefficient calculation step of calculating a filter coefficient using the whitened covariance matrix and the detected speaker position and the sound collection range.
収音範囲を設定する収音範囲設定手段と、
複数の収音手段の各々で受音された受音信号から話者位置を検出する話者位置検出手段と、
前記検出された話者位置が前記収音範囲内である場合には話者音声を収音し、前記収音範囲外である場合には話者音声を抑圧する条件で、前記受信信号を用いてフィルタ係数を設定するフィルタ係数設定手段と、
前記複数の収音手段の各々で受音された受音信号を、前記フィルタ係数で各々フィルタリングするフィルタ手段と、
前記各フィルタ手段の出力信号を加算する加算手段を有する収音装置。 A sound collecting device,
A sound collection range setting means for setting a sound collection range;
Speaker position detecting means for detecting a speaker position from a received sound signal received by each of a plurality of sound collecting means;
When the detected speaker position is within the sound collection range, the voice signal is collected, and when the detected speaker position is outside the sound collection range, the received signal is used under the condition of suppressing the speaker voice. Filter coefficient setting means for setting the filter coefficient
Filter means for filtering received sound signals received by each of the plurality of sound collecting means, respectively, with the filter coefficients;
A sound collection device having addition means for adding the output signals of the filter means.
収音範囲と音量範囲を設定する収音範囲・音量範囲設定手段と、
複数の収音手段の各々で受音された受音信号から話者位置を検出する話者位置検出手段と、
複数の収音手段の各々で受音された受音信号から話者音量を推定する話者音量推定手段と、
前記検出された話者位置が前記収音範囲内であり、かつ前記推定された話者音量が前記音量範囲内である場合は収音し、それ以外の場合には話者音声抑圧する条件で、前記受音信号を用いてフィルタ係数を設定するフィルタ係数設定手段と、
前記複数の収音手段の各々で受音された受音信号を、前記フィルタ係数で各々フィルタリングするフィルタ手段と、
前記各フィルタ手段の出力信号を加算する加算手段を有する収音装置。 A sound collecting device,
A sound collection range / volume range setting means for setting a sound collection range and a volume range;
Speaker position detecting means for detecting a speaker position from a received sound signal received by each of a plurality of sound collecting means;
Speaker volume estimation means for estimating speaker volume from a received sound signal received by each of a plurality of sound collection means;
If the detected speaker position is within the sound collection range and the estimated speaker volume is within the volume range, sound is collected; otherwise, the speaker sound is suppressed. Filter coefficient setting means for setting a filter coefficient using the received sound signal;
Filter means for filtering received sound signals received by each of the plurality of sound collecting means, respectively, with the filter coefficients;
A sound collection device having addition means for adding the output signals of the filter means.
前記複数の収音手段の各々で受音された受音信号を周波数領域に変換するFFT手段と、
前記FFT手段の出力信号の各々を周波数成分ごとに乗算し、共分散行列を求める共分散行列計算手段と、
前記検出された話者位置ごとに前記共分散行列を加算平均して、記憶する共分散行列記憶手段と、
前記記憶された共分散行列、前記検出された話者位置と前記収音範囲、および前記推定された話者音量と前記音量範囲を用いてフィル係数を計算するフィルタ係数計算手段を含む、請求項8に記載の収音装置。 The filter coefficient setting means includes
FFT means for converting the received sound signal received by each of the plurality of sound collecting means into a frequency domain;
A covariance matrix calculating means for multiplying each output signal of the FFT means for each frequency component to obtain a covariance matrix;
Covariance matrix storage means for averaging the covariance matrix for each detected speaker position and storing the covariance matrix;
And a filter coefficient calculation means for calculating a fill coefficient using the stored covariance matrix, the detected speaker position and the sound collection range, and the estimated speaker volume and the volume range. 8. The sound collecting device according to 8 .
前記複数の収音手段の各々で受音された受音信号を周波数領域に変換するFFT手段と、
前記FFT手段の出力信号の各々を周波数成分ごとに乗算し、共分散行列を求める共分散行列計算手段と、
前記検出された話者位置ごとに前記共分散行列を加算平均して、記憶する共分散行列記憶手段と、
前記記憶された共分散行列のうち対角成分で最もパワーの大きい成分、または前記記憶された共分散行列の対角成分の加算値の周波数特性を平滑化するゲインを、前記記憶された共分散行列に乗算する白色化手段と、
前記白色化された共分散化行列、前記検出された話者位置と前記収音範囲、および前記推定された話者音量と前記音量範囲を用いてフィルタ係数を計算するフィルタ係数計算手段を含む、請求項8に記載の収音装置。 The filter coefficient setting means includes
FFT means for converting the received sound signal received by each of the plurality of sound collecting means into a frequency domain;
A covariance matrix calculating means for multiplying each output signal of the FFT means for each frequency component to obtain a covariance matrix;
Covariance matrix storage means for averaging the covariance matrix for each detected speaker position and storing the covariance matrix;
The stored covariance is a gain for smoothing the frequency characteristic of the diagonal component of the stored covariance matrix having the highest power or the sum of the diagonal components of the stored covariance matrix. Whitening means for multiplying the matrix;
Filter coefficient calculating means for calculating a filter coefficient using the whitened covariance matrix, the detected speaker position and the sound collection range, and the estimated speaker volume and the sound volume range; The sound collection device according to claim 8 .
前記複数の収音手段の各々で受音された受音信号を周波数領域に変換するFFT手段と、 FFT means for converting the received sound signal received by each of the plurality of sound collecting means into a frequency domain;
前記FFT手段の出力信号の各々を周波数成分ごとに乗算し、共分散行列を求める共分散行列計算手段と、 A covariance matrix calculating means for multiplying each output signal of the FFT means for each frequency component to obtain a covariance matrix;
前記検出された話者位置ごとに前記共分散行列を加算平均して、記憶する共分散行列記憶手段と、 Covariance matrix storage means for averaging the covariance matrix for each detected speaker position and storing the covariance matrix;
前記記憶された共分散行列、および前記検出された話者位置と前記収音範囲を用いてフィルタ係数を計算するフィルタ係数計算手段を含む、請求項7に記載の収音装置。 The sound collection device according to claim 7, further comprising: a filter coefficient calculation unit that calculates a filter coefficient using the stored covariance matrix, the detected speaker position, and the sound collection range.
前記複数の収音手段の各々で受音された受音信号を周波数領域に変換するFFT手段と、 FFT means for converting the received sound signal received by each of the plurality of sound collecting means into a frequency domain;
前記FFT手段の出力信号の各々を周波数成分ごとに乗算し、共分散行列を求める共分散行列計算手段と、 A covariance matrix calculating means for multiplying each output signal of the FFT means for each frequency component to obtain a covariance matrix;
前記検出された話者位置ごとに前記共分散行列を加算平均して、記憶する共分散行列記憶手段と、 Covariance matrix storage means for averaging the covariance matrix for each detected speaker position and storing the covariance matrix;
前記記憶された共分散行列のうち対角成分で最もパワーの大きい成分、または前記記憶された共分散行列の対角成分の加算値の周波数特性を平滑化するゲインを、前記記憶された共分散行列に乗算する白色化手段と、 The stored covariance is a gain for smoothing the frequency characteristic of the diagonal component of the stored covariance matrix having the highest power or the added value of the diagonal components of the stored covariance matrix. Whitening means for multiplying the matrix;
前記白色化された共分散化行列、および前記検出された話者位置と前記収音範囲を用いてフィルタ係数を計算するフィルタ係数計算手段を含む、請求項7に記載の収音装置。 The sound collection device according to claim 7, further comprising filter coefficient calculation means for calculating a filter coefficient using the whitened covariance matrix, the detected speaker position, and the sound collection range.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003293785A JP4119328B2 (en) | 2003-08-15 | 2003-08-15 | Sound collection method, apparatus thereof, program thereof, and recording medium thereof. |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003293785A JP4119328B2 (en) | 2003-08-15 | 2003-08-15 | Sound collection method, apparatus thereof, program thereof, and recording medium thereof. |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005064968A JP2005064968A (en) | 2005-03-10 |
JP4119328B2 true JP4119328B2 (en) | 2008-07-16 |
Family
ID=34370576
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003293785A Expired - Lifetime JP4119328B2 (en) | 2003-08-15 | 2003-08-15 | Sound collection method, apparatus thereof, program thereof, and recording medium thereof. |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4119328B2 (en) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4298466B2 (en) * | 2003-10-30 | 2009-07-22 | 日本電信電話株式会社 | Sound collection method, apparatus, program, and recording medium |
JP4787727B2 (en) * | 2006-12-04 | 2011-10-05 | 日本電信電話株式会社 | Audio recording apparatus, method thereof, program thereof, and recording medium thereof |
JP2011033369A (en) * | 2009-07-30 | 2011-02-17 | Ricoh Co Ltd | Conference device |
JP5175262B2 (en) * | 2009-12-02 | 2013-04-03 | 日本電信電話株式会社 | Voice acquisition device |
JP5672739B2 (en) * | 2010-03-29 | 2015-02-18 | ヤマハ株式会社 | Sound processor |
US20130325458A1 (en) * | 2010-11-29 | 2013-12-05 | Markus Buck | Dynamic microphone signal mixer |
JP5817366B2 (en) * | 2011-09-12 | 2015-11-18 | 沖電気工業株式会社 | Audio signal processing apparatus, method and program |
JP5512741B2 (en) * | 2012-05-17 | 2014-06-04 | 日本電信電話株式会社 | Voice acquisition device |
KR101673464B1 (en) * | 2015-03-13 | 2016-11-17 | 한화시스템 주식회사 | Apparatus and method for detecting multi-target in non-homogeneous clutter using modified iterative pre-whitening projection statistics |
KR101673458B1 (en) * | 2015-11-30 | 2016-11-07 | 한화시스템 주식회사 | Method for detecting multi-target in non-homogeneous clutter using modified iterative pre-whitening projection statistics |
JP7437650B2 (en) | 2019-11-21 | 2024-02-26 | パナソニックIpマネジメント株式会社 | Acoustic crosstalk suppression device and acoustic crosstalk suppression method |
-
2003
- 2003-08-15 JP JP2003293785A patent/JP4119328B2/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JP2005064968A (en) | 2005-03-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Van Waterschoot et al. | Fifty years of acoustic feedback control: State of the art and future challenges | |
JP4702372B2 (en) | Echo suppression method and apparatus | |
US9210504B2 (en) | Processing audio signals | |
US8238569B2 (en) | Method, medium, and apparatus for extracting target sound from mixed sound | |
US7092529B2 (en) | Adaptive control system for noise cancellation | |
US6917688B2 (en) | Adaptive noise cancelling microphone system | |
US6717991B1 (en) | System and method for dual microphone signal noise reduction using spectral subtraction | |
KR101449433B1 (en) | Noise cancelling method and apparatus from the sound signal through the microphone | |
US8811627B2 (en) | Echo suppressing method and apparatus | |
JP4286637B2 (en) | Microphone device and playback device | |
JP2003534570A (en) | How to suppress noise in adaptive beamformers | |
JP4119328B2 (en) | Sound collection method, apparatus thereof, program thereof, and recording medium thereof. | |
JP2001309483A (en) | Sound pickup method and sound pickup device | |
WO2007123047A1 (en) | Adaptive array control device, method, and program, and its applied adaptive array processing device, method, and program | |
JP2004349806A (en) | Multichannel acoustic echo canceling method, apparatus thereof, program thereof, and recording medium thereof | |
JP5662232B2 (en) | Echo canceling apparatus, method and program | |
WO2007123048A1 (en) | Adaptive array control device, method, and program, and its applied adaptive array processing device, method, and program | |
US8804981B2 (en) | Processing audio signals | |
JP2021193807A (en) | Signal processing device, teleconferencing device, and signal processing method | |
JP3756828B2 (en) | Reverberation elimination method, apparatus for implementing this method, program, and recording medium therefor | |
JP2003188776A (en) | Acoustic echo erasing method and device, and acoustic echo erasure program | |
JP3514714B2 (en) | Sound collection method and device | |
JP6143702B2 (en) | Echo canceling apparatus, method and program | |
JP3381731B2 (en) | Noise reduction device | |
JP3616341B2 (en) | Multi-channel echo cancellation method, apparatus thereof, program thereof, and recording medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20050621 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050714 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20050714 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20070201 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20071031 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071116 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080416 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080424 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4119328 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110502 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120502 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130502 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140502 Year of fee payment: 6 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |