JP4886616B2 - Sound collection device, sound collection method, sound collection program using the method, and recording medium - Google Patents

Sound collection device, sound collection method, sound collection program using the method, and recording medium Download PDF

Info

Publication number
JP4886616B2
JP4886616B2 JP2007166491A JP2007166491A JP4886616B2 JP 4886616 B2 JP4886616 B2 JP 4886616B2 JP 2007166491 A JP2007166491 A JP 2007166491A JP 2007166491 A JP2007166491 A JP 2007166491A JP 4886616 B2 JP4886616 B2 JP 4886616B2
Authority
JP
Japan
Prior art keywords
sound
signal
unit
reverberation
sound source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007166491A
Other languages
Japanese (ja)
Other versions
JP2009005261A (en
Inventor
裕輔 日岡
和則 小林
賢一 古家
章俊 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2007166491A priority Critical patent/JP4886616B2/en
Publication of JP2009005261A publication Critical patent/JP2009005261A/en
Application granted granted Critical
Publication of JP4886616B2 publication Critical patent/JP4886616B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a sound pickup apparatus capable of improving a noise suppression performance even in an environment where reverberation presents, and of improving a sound quality of a required signal to be picked up. <P>SOLUTION: A sound pickup apparatus has six sound pickup parts, a processed target signal generator, a power spectrum estimator, a reverberation spectrum estimator, a gain factor calculator, and a multiplier. The processed target signal generator generates a processed target signal from a signal outputted from one or more preliminarily-decided microphones or sound pickup parts. The power spectrum estimator estimates a signal quantity for a required sound source from which a reverberation signal is removed and a signal quantity for the other sound source from a signal quantity of each sound pickup signal and reverberation sound obtained at each sound pickup part for each frequency. The reverberation spectrum estimator calculates a signal quantity of the reverberation sound from the signal quantity for the required sound source and the signal quantity for the other sound source which are estimated by the power spectrum estimator for each frequency. <P>COPYRIGHT: (C)2009,JPO&amp;INPIT

Description

本発明は音声通話や機器の操作などハンズフリー方式で音声を収音する収音装置、収音方法、その方法を用いた収音プログラム、および記録媒体に関し、特にとらえたい音声を発する所望音源以外の雑音源が多数存在する場合に大きく関係する。   The present invention relates to a sound collection device, a sound collection method, a sound collection program using the method, and a recording medium that collects sound in a hands-free manner such as voice calls and device operations. This is greatly related to the case where there are many noise sources.

多数の背景雑音が存在する環境でのハンズフリーマイクを想定し、特定位置にある所望音源を強調する手法として、複数のビームフォーマー出力から所望音パワーを推定し、強調する方法が提案されている(非特許文献1)。
日岡裕輔、小林和則、古家賢一、片岡章俊、“小型マイクロホンアレー対を用いた特定位置にある音源の強調”、日本音響学会2006年春季研究発表会講演論文集、pp.621-622、2006.
Assuming a hands-free microphone in an environment with a large number of background noises, as a method to emphasize a desired sound source at a specific position, a method for estimating and enhancing desired sound power from multiple beamformer outputs has been proposed. (Non-Patent Document 1).
Yusuke Hioka, Kazunori Kobayashi, Kenichi Furuya, Akitoshi Kataoka, “Emphasis of a sound source at a specific position using a small microphone array pair”, Proc. Of the Spring Meeting of the Acoustical Society of Japan 2006, pp.621-622, 2006 .

非特許文献1の技術では残響の影響を考慮していないため、一般的な室内のように残響が存在する環境では、雑音抑圧性能が理論上の性能よりも低下してしまう。特に、残響が多い環境では、さらに雑音抑圧性能の低下が著しい。したがって、収音された所望の音の品質が劣化することになる。
本発明の収音装置は、この課題を解決するためになされたもので、残響がある環境でも雑音抑圧性能を向上させ、収音される所望信号の音質を向上させることを目的とする。
Since the technology of Non-Patent Document 1 does not consider the effect of reverberation, the noise suppression performance is lower than the theoretical performance in an environment where reverberation exists like a general room. In particular, in an environment with a lot of reverberation, the noise suppression performance is further deteriorated. Therefore, the quality of the desired sound collected will deteriorate.
The sound collection device of the present invention was made to solve this problem, and aims to improve noise suppression performance even in an environment with reverberation and to improve the sound quality of a desired signal to be collected.

本発明の収音装置は、6つ以上の収音部と、処理対象信号生成部と、パワースペクトル推定部と、残響スペクトル推定部と、利得係数算出部と、乗算部とを備える。6つ以上の収音部は、複数のマイクロホンを搭載して構成されるマイクロホンアレーの出力信号を利用して、それぞれ異なる領域の音を収音する。ここで、「それぞれ異なる」とは、一致しないことを言い、重複する部分があってもよい。パワースペクトル推定部は、各収音部で得られた各収音信号と残響音の信号量から、残響信号を除去した所望音源の信号量と、その他の音源の信号量とを周波数ごとに推定する。残響スペクトル推定部は、パワースペクトル推定部が推定した所望音源の信号量とその他の音源の信号量から、残響音の信号量を周波数ごとに求める。利得係数算出部は、所望音源の信号量と、所望音源の信号量を含む全ての音源の信号量との比から周波数ごとに利得係数を求める。乗算部は、利得係数算出部で算出した利得係数を処理対象信号に乗算する。   The sound collection device of the present invention includes six or more sound collection units, a processing target signal generation unit, a power spectrum estimation unit, a reverberation spectrum estimation unit, a gain coefficient calculation unit, and a multiplication unit. The six or more sound collection units collect sounds in different regions by using output signals of a microphone array configured by mounting a plurality of microphones. Here, “different” means that they do not match, and there may be overlapping portions. The power spectrum estimation unit estimates the signal amount of the desired sound source from which the reverberation signal has been removed and the signal amount of other sound sources for each frequency from the collected sound signal and the reverberant signal amount obtained by each sound collecting unit. To do. The reverberation spectrum estimation unit obtains the signal amount of the reverberation sound for each frequency from the signal amount of the desired sound source estimated by the power spectrum estimation unit and the signal amount of other sound sources. The gain coefficient calculation unit obtains a gain coefficient for each frequency from the ratio of the signal amount of the desired sound source and the signal amounts of all sound sources including the signal amount of the desired sound source. The multiplication unit multiplies the processing target signal by the gain coefficient calculated by the gain coefficient calculation unit.

例えば、6つの収音部(第1収音部〜第6収音部)を備える場合には、第1及び第2収音部は、複数のマイクロホンを搭載して構成されるマイクロホンアレーの出力信号を利用して互いに異なる位置から所望音源位置を含む角度領域の音を収音する。第3及び第4収音部は、マイクロホンアレーの出力信号を利用して互いに異なる位置から前記所望音源位置を含まない角度領域の音を収音する。第5収音部は、互いに異なる位置の中間点から所望音源位置を含む角度領域の音を収音する。第6収音部は、中間点から所望音源位置を含まない角度領域の音を収音する。処理対象信号生成部は、あらかじめ定めた1つ以上のマイクロホンまたは収音部からの信号から、処理対象信号を生成する。   For example, when six sound collecting units (first sound collecting unit to sixth sound collecting unit) are provided, the first and second sound collecting units are outputs of a microphone array configured by mounting a plurality of microphones. Using the signal, sound in an angular region including a desired sound source position is collected from different positions. The third and fourth sound collection units collect sound in an angular region that does not include the desired sound source position from different positions using the output signals of the microphone array. The fifth sound collection unit collects sound in an angle region including a desired sound source position from an intermediate point between different positions. The sixth sound collecting unit picks up sound in an angle region that does not include the desired sound source position from the intermediate point. The processing target signal generation unit generates a processing target signal from one or more predetermined microphones or signals from the sound collection unit.

または、例えば、第1及び第2収音部は、複数のマイクロホンを搭載して構成されるマイクロホンアレーの出力信号を利用して互いに異なる位置から、所望音源位置を含まない角度領域の一部の音を抑圧して収音する。第3及び第4収音部は、マイクロホンアレーの出力信号を利用して互いに異なる位置から、所望音源位置を含む角度領域の音を抑圧して収音する。第5及び第6収音部は、マイクロホンアレーの出力信号を利用して互いに異なる位置から、所望音源位置を含まない角度領域であって、第1及び第2収音部とは異なる一部の音を抑圧して収音する。   Alternatively, for example, the first and second sound collection units may use a part of an angular region that does not include a desired sound source position from different positions using an output signal of a microphone array configured by mounting a plurality of microphones. The sound is suppressed and collected. The third and fourth sound collection units collect sound by suppressing the sound in the angle region including the desired sound source position from different positions using the output signals of the microphone array. The fifth and sixth sound collection units are angular regions that do not include the desired sound source position from different positions using the output signals of the microphone array, and are different from the first and second sound collection units. The sound is suppressed and collected.

なお、残響スペクトル推定部は、所望音源の信号量とその他の音源の信号量を、収音部ごとの信号量に変換するゲイン行列乗算部と、収音部ごとの信号量を記録し、複数の過去の収音部ごとの信号量を重み付き加算する重み付き加算部とを備えればよい。   The reverberation spectrum estimation unit records a signal amount for each sound collection unit, a gain matrix multiplication unit that converts the signal amount of the desired sound source and the signal amount of other sound sources into a signal amount for each sound collection unit, and And a weighted adder that weights and adds the signal amount for each past sound pickup unit.

本発明の収音装置によれば、残響音の信号量を求め、残響音の信号量を引いた収音信号から所望音源の信号量を求めるので、残響が存在する環境でも雑音抑圧性能を向上することができる。また、高品質な収音が可能となる。   According to the sound collection device of the present invention, the signal amount of the reverberation sound is obtained, and the signal amount of the desired sound source is obtained from the sound collection signal obtained by subtracting the signal amount of the reverberation sound, so that noise suppression performance is improved even in an environment where reverberation exists. can do. In addition, high-quality sound collection is possible.

図1に本発明の利用状況の一例を示す。2つの小規模マイクロホンアレー3L、3Rをある程度(例えばマイクロホンアレー3L、3Rと所望音源1までの距離と同程度の距離)離れた異なる位置に配置し、それぞれマイクロホンで受音された信号に対して以下で説明する処理を行なう。以下に説明する処理を行なうことにより所望音源1の音が強調されて収音され、背景雑音源2の音は抑圧される。
本発明について説明する前に、まず、未公開の特許出願(特願2006−52502)で示された技術を説明する。図2に特願2006−52502の収音装置の全体の構成を示す。この図2を用いて収音装置の概要を説明する。マイクロホンアレー3Lの各マイクロホンで生成された各受音信号は、この例では第1収音部4−1と第3収音部4−3に入力される。更に、マイクロホンアレー3Rの各マイクロホンで生成された各受音信号はこの例では第2収音部4−2と第4収音部4−4に入力される。マイクロホンアレー3Lと3Rの中央に位置するマイクロホンの信号が第5収音部4−5と第6収音部4−6に入力される。なお、両マイクロホンアレー3Lと3Rに搭載されるマイクロホンの数は必ずしも同数である必要はない。
FIG. 1 shows an example of the usage situation of the present invention. Two small microphone arrays 3L and 3R are arranged at different positions separated by a certain amount (for example, the same distance as the distance between the microphone arrays 3L and 3R and the desired sound source 1), and the signals received by the microphones are respectively received. Processing described below is performed. By performing the processing described below, the sound of the desired sound source 1 is emphasized and collected, and the sound of the background noise source 2 is suppressed.
Before describing the present invention, first, a technique disclosed in an unpublished patent application (Japanese Patent Application No. 2006-5502) will be described. FIG. 2 shows the overall configuration of the sound collection device of Japanese Patent Application No. 2006-55022. The outline of the sound collecting device will be described with reference to FIG. In this example, each sound reception signal generated by each microphone of the microphone array 3L is input to the first sound collection unit 4-1 and the third sound collection unit 4-3. Further, in this example, each received sound signal generated by each microphone of the microphone array 3R is input to the second sound collection unit 4-2 and the fourth sound collection unit 4-4. Microphone signals located at the center of the microphone arrays 3L and 3R are input to the fifth sound collection unit 4-5 and the sixth sound collection unit 4-6. The number of microphones mounted on both microphone arrays 3L and 3R is not necessarily the same.

第1収音部4−1〜第4収音部4−4は図4に示すように各マイクロホンの受音信号x〜xが入力されるM個のフィルタ処理部41と、これらM個のフィルタ処理部41の各出力信号を加算する加算部42とによって構成される。各フィルタ処理部41は例えばFIRフィルタ等で構成され、デジタル処理により収音信号に含まれる周波数成分毎に分析処理を行いマイクロホンアレー3Lと3Rの指向特性を設定する。このような技術は例えば大賀寿郎、山崎芳男、金田豊共著「音響システムとデジタル処理」平成7年3月25日社団法人電子情報通信学会発行に記載されており、周知の技術により実現することができる。 As shown in FIG. 4, the first sound collecting unit 4-1 to the fourth sound collecting unit 4-4 include M filter processing units 41 to which the received sound signals x 1 to x m of the microphones are input, and these M And an adder 42 that adds the output signals of the filter processing units 41. Each filter processing unit 41 is composed of, for example, an FIR filter and the like, and performs analysis processing for each frequency component included in the collected sound signal by digital processing to set the directivity characteristics of the microphone arrays 3L and 3R. Such technology is described in, for example, Toshiro Oga, Yoshio Yamazaki, Yutaka Kaneda, “Sound System and Digital Processing”, published by the Institute of Electronics, Information and Communication Engineers on March 25, 1995, and can be realized by well-known technology. it can.

ここでは第1収音部4−1の指向特性及び第2収音部4−2の指向特性はマイクロホンアレー3L及び3Rのほぼ中央位置から図3に示す所望音源1の位置を含む角度領域ΘLとΘRを収音範囲とする特性に設定する。第3収音部4−3と第4収音部4−4の指向特性はマイクロホンアレー3Lと3Rのほぼ中央位置から図3に示す所望音源1の位置を含まない角度領域ΘL ̄とΘR ̄とを収音範囲とする特性に設定する。さらに、第5収音部4−5の指向性はマイクロホンアレー3Lと3Rのほぼ中間位置から所望音源1の位置を含む角度領域ΘCを収音範囲とする特性に設定する。第6収音部4−6の指向性はマイクロホンアレー3Lと3Rのほぼ中間位置から所望音源1の位置を含まない角度領域Θ ̄Cの角度範囲を収音範囲とする特性に設定する。 Here, the directivity characteristic of the first sound collection unit 4-1 and the directivity characteristic of the second sound collection unit 4-2 are angular regions Θ including the position of the desired sound source 1 shown in FIG. 3 from the approximate center position of the microphone arrays 3L and 3R. L and Θ R are set to the characteristics that make the sound collection range. The directivity characteristics of the third sound collection unit 4-3 and the fourth sound collection unit 4-4 are angular regions Θ L  ̄ and Θ that do not include the position of the desired sound source 1 shown in FIG. 3 from the approximate center position of the microphone arrays 3L and 3R. R Set to a characteristic with  ̄ as the sound collection range. Further, the directivity of the fifth sound collection unit 4-5 is set to a characteristic in which an angle region Θ C including the position of the desired sound source 1 is set from a substantially middle position between the microphone arrays 3L and 3R to a sound collection range. Sixth directivity collecting sections 4-6 sets the characteristic of the angular range of the desired position of the sound source 1 does not include the angle region Shita C from a substantially intermediate position of the microphone array 3L and 3R and sound pickup range.

第1乃至第6収音部4−1〜4−6の指向特性で収音された収音信号は周波数領域変換部5で周波数領域の信号に変換される。周波数領域への変換は入力された信号を短い時間長(例えばサンプリング周波数16000Hzの場合は256サンプル程度)のフレームに分解し、それぞれのフレームにおいて離散フーリエ変換を行なう。離散フーリエ変換は例えばFFT等と呼ばれている高速フーリエ変換等を用いることができる。周波数領域に変換された信号は複数の周波数領域成分に分割される。
周波数領域の信号に変換された収音信号は加算部6と音源信号成分推定部7とに入力される。加算部6へは第1収音部4−1と第2収音部4−2の出力信号を入力する。加算部6では周波数領域へ変換された各周波数領域の信号を同一周波数領域成分ごとに加算する。
The collected sound signals collected with the directivity characteristics of the first to sixth sound collecting units 4-1 to 4-6 are converted into frequency domain signals by the frequency domain converting unit 5. In the conversion to the frequency domain, the input signal is decomposed into frames having a short time length (for example, about 256 samples when the sampling frequency is 16000 Hz), and discrete Fourier transform is performed in each frame. For the discrete Fourier transform, for example, a fast Fourier transform called FFT or the like can be used. The signal converted to the frequency domain is divided into a plurality of frequency domain components.
The collected sound signal converted into the frequency domain signal is input to the adding unit 6 and the sound source signal component estimating unit 7. Output signals from the first sound collection unit 4-1 and the second sound collection unit 4-2 are input to the addition unit 6. The adder 6 adds the signals of each frequency domain converted to the frequency domain for each identical frequency domain component.

音源信号成分推定部7へは第1収音部4−1から第6収音部4−6の全ての出力信号を入力し、周波数領域ごとに各音源の信号量を推定する。各音源の信号量が推定できると、所望音源1の信号量対その他の音源の信号量との比つまりSN比を求めることができる。このSN比を周波数領域ごとに求め、このSN比を利得係数として乗算部9で加算部6から与えられる所望音源1の信号を主成分とする信号に各周波数領域毎に乗算することにより、所望音源1の信号を主成分とする信号に含まれる背景雑音成分を抑制することができる。乗算部9の乗算結果は逆周波数領域変換部10で時間領域信号に変換され、雑音除去後の信号として出力される。以上は特願2006−52502の発明の概要である。   All output signals from the first sound collection unit 4-1 to the sixth sound collection unit 4-6 are input to the sound source signal component estimation unit 7, and the signal amount of each sound source is estimated for each frequency domain. If the signal amount of each sound source can be estimated, the ratio of the signal amount of the desired sound source 1 to the signal amount of other sound sources, that is, the SN ratio can be obtained. The signal-to-noise ratio is obtained for each frequency domain, and the signal having the signal component of the desired sound source 1 given from the adder 6 by the multiplier 9 is multiplied for each frequency domain by using the signal-to-noise ratio as a gain coefficient. The background noise component contained in the signal whose main component is the signal of the sound source 1 can be suppressed. The multiplication result of the multiplication unit 9 is converted into a time domain signal by the inverse frequency domain conversion unit 10 and output as a signal after noise removal. The above is the outline of the invention of Japanese Patent Application No. 2006-55022.

以下では各部の構成及び動作を詳細に説明する。図4は第1収音部乃至第4収音部4−1〜4−4の構成を示している。ここでは第1収音部4−1を例示して説明するが、同様の処理が第2収音部4−2、第3収音部4−3、第4収音部4−4でも行われる。これら第1収音部4−1〜4−4は所望音源1の位置を挟んでその両側の方向から所望音源位置を含む角度領域を収音範囲とする収音特性及び所望音源位置を含まない角度領域を収音範囲とする収音特性に設定されることからサイドビームフォーマーとして機能する。第1収音部4−1に入力された信号xLmL(n)(m=1,2,…,M)はフィルタ処理部41に入力される。フィルタ処理部41ではあらかじめ与えられた(決定方法は後述する)フィルタ係数wLmL(n)と入力信号xLmL(n)を、式(1)に示す畳み込み演算に代入して得られる信号x'LmL(n)を出力する。 Hereinafter, the configuration and operation of each unit will be described in detail. FIG. 4 shows the configuration of the first to fourth sound collection units 4-1 to 4-4. Here, the first sound collection unit 4-1 is described as an example, but the same processing is performed in the second sound collection unit 4-2, the third sound collection unit 4-3, and the fourth sound collection unit 4-4. Is called. These first sound collection units 4-1 to 4-4 do not include a sound collection characteristic and a desired sound source position in which an angle region including the desired sound source position from both directions across the position of the desired sound source 1 is a sound collection range. It functions as a side beam former because it is set to the sound collection characteristic with the angle region as the sound collection range. The signal x LmL (n) (m L = 1, 2,..., M L ) input to the first sound collection unit 4-1 is input to the filter processing unit 41. In the filter processing unit 41, a signal x ′ obtained by substituting a filter coefficient w LmL (n) and an input signal x LmL (n) given in advance (determination method will be described later) into the convolution operation shown in Expression (1). Output LmL (n).

Figure 0004886616
各フィルタ処理部41の出力信号は加算部42に入力される。加算部42では入力信号を式(2)のように加算し、第1収音部4−1の出力信号ySL(n)を得る。
Figure 0004886616
The output signal of each filter processing unit 41 is input to the adding unit 42. The adder 42 adds the input signals as shown in Expression (2) to obtain the output signal y SL (n) of the first sound collecting unit 4-1.

Figure 0004886616
ここでフィルタ係数wLmL(n)は、第1収音部の指向特性DLSPB(ω,θ)が式(3)に示す特性を持つように、例えば最小二乗法などを利用して設計される。第2収音部、第3収音部、第4収音部についても同様に、式(4)から式(6)のそれぞれの条件を満たすように設計される。Θ、Θ ̄はそれぞれ、所望信号の周辺方向(例えば所望信号方向から±10°程度の範囲内の方向)、それ以外の方向、を示すものとする。また、式(3)〜(6)に示すD・・・・(ω,θ)は各収音部の指向特性を表わしている。
Figure 0004886616
Here, the filter coefficient w LmL (n) is designed using, for example, the least square method so that the directivity characteristic D LSPB (ω, θ) of the first sound collection unit has the characteristic shown in the expression (3). The Similarly, the second sound collection unit, the third sound collection unit, and the fourth sound collection unit are designed so as to satisfy the respective conditions of Expressions (4) to (6). Θ and Θ ̄ indicate the peripheral direction of the desired signal (for example, the direction within a range of about ± 10 ° from the desired signal direction) and the other directions, respectively. Further, D ( ... (Ω, θ) shown in the equations (3) to (6) represents the directivity characteristic of each sound collection unit.

Figure 0004886616
第1収音部4−1はマイクロホンアレー3Lから見たときに、所望音源1の方向で発せられる音のみを強調して収音する。第3収音部はマイクロホンアレー3Lから見て、所望音源の方向以外で発せられる音のみを強調して収音する。第2収音部4−2はマイクロホンアレー3Rから見て、所望音源1の方向で発せられる音のみを強調して収音する。第4収音部4−4はマイクロホンアレー3Rから見て、所望音源1の方向以外で発せられる音のみを強調して収音する。
Figure 0004886616
The first sound collection unit 4-1 emphasizes and collects only the sound emitted in the direction of the desired sound source 1 when viewed from the microphone array 3 </ b> L. The third sound collection unit emphasizes and collects only the sound emitted in directions other than the direction of the desired sound source when viewed from the microphone array 3L. The second sound collection unit 4-2 emphasizes and collects only the sound emitted in the direction of the desired sound source 1 when viewed from the microphone array 3R. The fourth sound collection unit 4-4 emphasizes and collects only the sound emitted from directions other than the direction of the desired sound source 1 when viewed from the microphone array 3R.

図5は正面ビームフォーマーとして機能する第5収音部4−5と第6収音部4−6における処理の流れを示している。正面ビームフォーマーにはマイクロホンアレー3Lの中心に配置されたマイクロホンで受音された信号xL(ML/2)(n)と、マイクロホンアレー3Rの中心に配置されたマイクロホンで受音された信号xR(MR/2)(n)が入力され、それぞれフィルタ処理部51と52に入力される。フィルタ処理部51と52では入力された信号xL(ML/2)(n)とxR(MR/2)(n)に、式(7)と式(8)に示すようなあらかじめ与えられたフィルタ係数wC(ML/2)(n)、wC(MR/2)(n)を畳み込んだ出力x’L(ML/2)(n)、x’R(MR/2)(n)を出力する。 FIG. 5 shows the flow of processing in the fifth sound collection unit 4-5 and the sixth sound collection unit 4-6 functioning as a front beam former. The front beamformer has a signal x L (ML / 2) (n) received by the microphone arranged at the center of the microphone array 3L and a signal received by the microphone arranged at the center of the microphone array 3R. xR (MR / 2) (n) is input and input to the filter processing units 51 and 52, respectively. In the filter processing units 51 and 52, the input signals x L (ML / 2) (n) and x R (MR / 2) (n) are given in advance as shown in the equations (7) and (8). Filter coefficients w C (ML / 2) (n), w C (MR / 2) (n) are convolved outputs x ′ L (ML / 2) (n), x ′ R (MR / 2) ( n) is output.

Figure 0004886616
ここでフィルタ係数wC(ML/2)(n)、wC(MR/2)(n)は位相特性が同じものが望ましく、例えば単一インパルス信号
Figure 0004886616
Here, it is desirable that the filter coefficients w C (ML / 2) (n) and w C (MR / 2) (n) have the same phase characteristics, for example, a single impulse signal.

Figure 0004886616
が用いられる。第5収音部4−5ではフィルタ処理部51と52の出力信号x’L(ML/2)(n)とx’R(MR/2)(n)を加算部53に入力する。加算部53では入力された信号を式(10)のように加算して、信号ySC(n)を出力する。これにより第5収音部4−5では、マイクロホンアレー3Lとマイクロホンアレー3Rの間の中間点から見て、所望音源1の方向で発せられる音のみを強調して収音する。
Figure 0004886616
Is used. The fifth sound collection unit 4-5 inputs the output signals x ′ L (ML / 2) (n) and x ′ R (MR / 2) (n) of the filter processing units 51 and 52 to the addition unit 53. The adder 53 adds the input signals as shown in Expression (10), and outputs a signal y SC (n). As a result, the fifth sound collection unit 4-5 emphasizes and collects only the sound emitted in the direction of the desired sound source 1 when viewed from the midpoint between the microphone array 3L and the microphone array 3R.

SC(n)=x’L(ML/2)(n)+x’R(MR/2)(n) (10)
第6収音部4−6ではフィルタ処理部51と52の出力信号x’L(ML/2)(n)とx’R(MR/2)(n)を減算部54に入力する。減算部54では入力された信号を式(11)のように減算して、信号yNC(n)を出力する。したがって第6収音部4−6では、マイクロホンアレー3Lとマイクロホンアレー3Rの間の中間点から見て、所望音源1の方向以外で発せられる音のみを強調して収音する。
y SC (n) = x ′ L (ML / 2) (n) + x ′ R (MR / 2) (n) (10)
The sixth sound collection unit 4-6 inputs the output signals x ′ L (ML / 2) (n) and x ′ R (MR / 2) (n) of the filter processing units 51 and 52 to the subtraction unit 54. The subtracting unit 54 subtracts the input signal as shown in Expression (11) and outputs a signal y NC (n). Accordingly, the sixth sound collecting unit 4-6 emphasizes and collects only the sound emitted in directions other than the direction of the desired sound source 1 when viewed from an intermediate point between the microphone array 3L and the microphone array 3R.

NC(n)=x’L(ML/2)(n)−x’R(MR/2)(n) (11)
図6は音源信号成分推定部7における処理の流れを示している。音源信号成分推定部7に入力される周波数成分YSL(ω,l)、YNL(ω,l)、YSC(ω,l)、YNC(ω,l)、YSR(ω,l)、YNR(ω,l)はそれぞれパワー演算部61に入力され、信号のパワー値|YSL(ω,l)|、|YNL(ω,l)|、|YSC(ω,l)|、|YNC(ω,l)|、|YSR(ω,l)|、|YNR(ω,l)|が出力され、ベクトル化部62に入力される。ベクトル化部62では、入力された第1乃至第6収音部4−1〜4−6の各出力信号のパワー値を式(12)のようにベクトル形式でまとめた、パワーベクトルY(ω,l)を出力する。
y NC (n) = x ′ L (ML / 2) (n) −x ′ R (MR / 2) (n) (11)
FIG. 6 shows the flow of processing in the sound source signal component estimation unit 7. Frequency components Y SL (ω, l), Y NL (ω, l), Y SC (ω, l), Y NC (ω, l), Y SR (ω, l) input to the sound source signal component estimation unit 7 ), Y NR (ω, l) are input to the power calculation unit 61, and the signal power values | Y SL (ω, l) | 2 , | Y NL (ω, l) | 2 , | Y SC (ω , L) | 2 , | Y NC (ω, l) | 2 , | Y SR (ω, l) | 2 , | Y NR (ω, l) | 2 are output and input to the vectorization unit 62. . In the vectorization unit 62, a power vector Y (ω, in which the power values of the input output signals of the first to sixth sound pickup units 4-1 to 4-6 are collected in a vector format as shown in Expression (12). , L) is output.

Figure 0004886616
パワーベクトルY(ω,l)は乗算部63に入力される。乗算部63のもう一方の入力であるパワー推定行列Tは、擬似逆行列演算部64の出力信号である。擬似逆行列演算部64には式(19)により定義されるゲイン行列Tが入力され、その擬似逆行列Tを出力する。
Figure 0004886616
The power vector Y (ω, l) is input to the multiplication unit 63. The power estimation matrix T + that is the other input of the multiplier 63 is an output signal of the pseudo inverse matrix calculator 64. The pseudo inverse matrix calculator 64 receives the gain matrix T defined by the equation (19) and outputs the pseudo inverse matrix T + .

Figure 0004886616
ゲイン逆行列Tの各要素は、第5収音部4−5と第6収音部4−6及び第1収音部4−1〜第4収音部4−4に設定されるΘx方向またはΘx ̄方向に対する指向特性のゲインであり、例えば式(14)から式(17)に示すような指向特性の周波数および方向に関する平均値を用いる。
Figure 0004886616
Each element of the gain inverse matrix T, theta x is set to the fifth collecting sections 4-5 and sixth sound pickup portion 4-6 and the first sound pickup units 4-1 to fourth sound pickup unit 4-4 The gain of the directivity with respect to the direction or the Θ x  ̄ direction, and for example, an average value regarding the frequency and direction of the directivity as shown in the equations (14) to (17) is used.

Figure 0004886616
αは所望音の周辺方向に対する第1、第2、第5収音部4−1、4−2、4−5に設定する指向特性の平均値である。βは所望信号の周辺方向に対する第1、第2、第5の収音部4−1、4−2、4−5に設定する指向特性の平均値である。γは所望信号の周辺方向に対する、第3、第4、第6収音部4−3、4−4、4−6に設定する指向特性の平均値である。δは所望信号の周辺方向以外に対する、第3、第4、第6収音部4−3、4−4、4−6に設定する指向特性の平均値である。尚、(14)〜(17)式中添字xはR、C、Lの何れかを表わす。
Figure 0004886616
α x is an average value of directivity characteristics set in the first, second, and fifth sound pickup units 4-1, 4-2, and 4-5 with respect to the peripheral direction of the desired sound. β x is an average value of directivity characteristics set in the first, second, and fifth sound pickup units 4-1, 4-2, and 4-5 with respect to the peripheral direction of the desired signal. γ x is an average value of directional characteristics set in the third, fourth, and sixth sound pickup units 4-3, 4-4, and 4-6 with respect to the peripheral direction of the desired signal. δ x is an average value of directivity characteristics set in the third, fourth, and sixth sound pickup units 4-3, 4-4, and 4-6 with respect to directions other than the peripheral direction of the desired signal. In the expressions (14) to (17), the subscript x represents R, C, or L.

乗算部9は式(18)に示すように入力されたビームフォーマー出力パワーベクトルとパワー推定行列の乗算を周波数成分ごとに行い、推定信号パワーベクトルXopt(ω,l)を出力する。
opt(ω,l)=TY(ω,l) (18)
図7は利得係数算出8における処理の流れを示している。図6に示した音源信号成分推定部7より入力された推定信号パワーベクトルXopt(ω,l)はベクトル要素抽出部81に入力される。ベクトル要素抽出部81では式(19)に示すように、入力された推定信号パワーベクトルの第1成分を推定信号パワー|S(ω,l)|、第2成分を推定左方向雑音パワー|N(ω,l)|、第3成分を推定正面方向雑音パワー|N(ω,l)|、第4成分を推定右方向雑音パワー|N(ω,l)|としてそれぞれ出力し、それらはSN比推定部82に入力される。
The multiplier 9 performs multiplication of the input beamformer output power vector and the power estimation matrix for each frequency component as shown in Expression (18), and outputs an estimated signal power vector X opt (ω, l).
X opt (ω, l) = T + Y (ω, l) (18)
FIG. 7 shows the flow of processing in the gain coefficient calculation 8. The estimated signal power vector X opt (ω, l) input from the sound source signal component estimation unit 7 shown in FIG. 6 is input to the vector element extraction unit 81. In the vector element extraction unit 81, as shown in Expression (19), the first component of the input estimated signal power vector is the estimated signal power | S (ω, l) | 2 , and the second component is the estimated left noise power | N L (ω, l) | 2 , the third component is estimated front noise power | N C (ω, l) | 2 , and the fourth component is estimated right noise power | N R (ω, l) | 2 These are output and input to the SN ratio estimation unit 82.

Figure 0004886616
SN比推定部82では式(20)を用いて推定SN比ESNR(ω,l)を計算する。
Figure 0004886616
The S / N ratio estimation unit 82 calculates the estimated S / N ratio ESNR (ω, l) using Expression (20).

Figure 0004886616
SN比推定部82の出力である推定SN比ESNR(ω,l)が利得係数R(ω,l)として出力される。
利得係数R(ω,l)は周波数領域毎に算出される。従って雑音の混入量が少ない周波数領域では利得係数R(ω,l)は「1」に近い値となり、所望信号成分はそのまま出力される。また雑音の混入量が多い周波数領域では利得係数R(ω,l)は「0」に近い値となり、その周波数領域の信号成分は大きく減衰され、雑音量を抑制する。このように周波数領域ごとに利得係数R(ω,l)を加算部6から与えられる所望信号を主成分とする信号Y(ω,l)に乗算することにより、周波数領域ごとに雑音成分が抑圧され、逆周波数領域変換部10で時間領域に変換された信号のSN比を向上することができる。
Figure 0004886616
The estimated SN ratio ESNR (ω, l), which is the output of the SN ratio estimation unit 82, is output as the gain coefficient R (ω, l).
The gain coefficient R (ω, l) is calculated for each frequency domain. Therefore, the gain coefficient R (ω, l) is a value close to “1” in the frequency region where the amount of noise is small, and the desired signal component is output as it is. In the frequency region where the amount of noise is large, the gain coefficient R (ω, l) is a value close to “0”, and the signal component in that frequency region is greatly attenuated to suppress the noise amount. In this way, by multiplying the signal Y S (ω, l) whose main component is the desired signal given from the adding unit 6 by the gain coefficient R (ω, l) for each frequency region, the noise component is obtained for each frequency region. It is possible to improve the SN ratio of the signal that is suppressed and converted into the time domain by the inverse frequency domain transform unit 10.

[第1実施形態]
図8に、本発明の第1実施形態の収音装置全体の構成例を示す。図2に示した特願2006−52502の収音装置全体の構成とは、パワースペクトル推定部110、残響スペクトル推定部120、処理対象信号生成部140が異なる。図9は、第1実施形態の収音装置の処理フローを示す図である。
[First Embodiment]
FIG. 8 shows a configuration example of the entire sound collecting device according to the first embodiment of the present invention. The power spectrum estimation unit 110, the reverberation spectrum estimation unit 120, and the processing target signal generation unit 140 are different from the configuration of the entire sound collection device of Japanese Patent Application No. 2006-55022 shown in FIG. FIG. 9 is a diagram illustrating a processing flow of the sound collection device according to the first embodiment.

第1及び第2収音部4−1、4−2は、複数のマイクロホンを搭載して構成されるマイクロホンアレーの出力信号を利用して互いに異なる位置から所望音源位置を含む角度領域の音ySL(n)、ySR(n)を収音する(S4−1、S4−2)。第3及び第4収音部4−3、4−4は、マイクロホンアレーの出力信号を利用して互いに異なる位置から前記所望音源位置を含まない角度領域の音yNL(n)、yNR(n)を収音する(S4−3、S4−4)。第5収音部4−5は、互いに異なる位置の中間点から所望音源位置を含む角度領域の音ySC(n)を収音する(S4−5)。第6収音部4−6は、中間点から所望音源位置を含まない角度領域の音yNC(n)を収音する(S4−6)。周波数領域変換部5は、各収音部4−1〜4−6で収音された信号ySL(n)、ySR(n)、yNL(n)、yNR(n)、ySC(n)、yNC(n)を、周波数領域の信号YSL(ω,l)、YSR(ω,l)、YNL(ω,l)、YNR(ω,l)、YSC(ω,l)、YNC(ω,l)に変換する。処理対象信号生成部140は、周波数領域の第1収音部4−1からの信号YSL(ω,l)と第2収音部4−2からの信号YSR(ω,l)の平均を、処理対象信号Y(ω,l)とする(S140)。パワースペクトル推定部110は、周波数領域に変換された各収音部4−1〜4−6で得られた各収音信号YSL(ω,l)、YSR(ω,l)、YNL(ω,l)、YNR(ω,l)、YSC(ω,l)、YNC(ω,l)と残響音の信号量Z est(ω,l)から、残響信号を除去した所望音源の信号量とその他の音源の信号量Xopt(ω,l)とを、周波数ごとに推定する(S110)。残響スペクトル推定部120は、パワースペクトル推定部110が推定した所望音源の信号量とその他の音源の信号量Xopt(ω,l)から、残響音の信号量Z est(ω,l)を周波数ごとに求める(S120)。利得係数算出部8は、所望音源の信号量と、所望音源の信号量を含む全ての音源の信号量との比から周波数ごとに利得係数R(ω,l)を求める(S8)。乗算部9は、利得係数算出部8で算出した利得係数R(ω,l)を処理対象信号Y(ω,l)に乗算する(S9)。逆周波数領域変換部10は、利得係数が乗算された処理対象信号R(ω,l)Y(ω,l)を時間領域に変換する。 The first and second sound collecting units 4-1 and 4-2 use the output signals of the microphone array configured by mounting a plurality of microphones, and the sound y in the angle region including the desired sound source position from different positions. SL (n) and y SR (n) are picked up (S4-1, S4-2). The third and fourth sound collection units 4-3 and 4-4 use the output signals of the microphone array to generate sound y NL (n), y NR (in an angular region not including the desired sound source position from different positions. n) is picked up (S4-3, S4-4). The fifth sound pickup unit 4-5, picks up the sound y SC (n) of the angular region including the desired sound source position from the midpoint of the different positions (S4-5). The sixth sound collecting unit 4-6 picks up the sound y NC (n) in the angular region not including the desired sound source position from the intermediate point (S4-6). The frequency domain transform unit 5 receives signals y SL (n), y SR (n), y NL (n), y NR (n), y SC collected by the sound collecting units 4-1 to 4-6. (N), y NC (n) are converted into frequency domain signals Y SL (ω, l), Y SR (ω, l), Y NL (ω, l), Y NR (ω, l), Y SC ( ω, l) and Y NC (ω, l). The processing target signal generation unit 140 averages the signal Y SL (ω, l) from the first sound collection unit 4-1 and the signal Y SR (ω, l) from the second sound collection unit 4-2 in the frequency domain. Is a processing target signal Y S (ω, l) (S140). The power spectrum estimation unit 110 obtains the sound collection signals Y SL (ω, l), Y SR (ω, l), Y NL obtained by the sound collection units 4-1 to 4-6 converted into the frequency domain. The reverberation signal was removed from (ω, l), Y NR (ω, l), Y SC (ω, l), Y NC (ω, l) and the amount of reverberant sound signal Z * est (ω, l). The signal amount of the desired sound source and the signal amount X opt (ω, l) of other sound sources are estimated for each frequency (S110). The reverberation spectrum estimation unit 120 calculates the signal amount Z * est (ω, l) of the reverberant sound from the signal amount of the desired sound source estimated by the power spectrum estimation unit 110 and the signal amount X opt (ω, l) of other sound sources. It calculates | requires for every frequency (S120). The gain coefficient calculation unit 8 obtains a gain coefficient R (ω, l) for each frequency from the ratio between the signal amount of the desired sound source and the signal amounts of all sound sources including the signal amount of the desired sound source (S8). The multiplier 9 multiplies the processing target signal Y S (ω, l) by the gain coefficient R (ω, l) calculated by the gain coefficient calculator 8 (S9). The inverse frequency domain transform unit 10 transforms the processing target signal R (ω, l) Y S (ω, l) multiplied by the gain coefficient into the time domain.

次に、図2の収音装置と異なる構成部の詳細を説明する。図10は、処理対象信号生成部140の機能構成例を示す図である。処理対象信号生成部140は、加算部141と除算部142から構成される。加算部141は、周波数領域の第1収音部4−1からの信号YSL(ω,l)と第2収音部4−2からの信号YSR(ω,l)とを加算する。除算部142は、加算された信号を2で割り、平均値を処理対象信号Y(ω,l)として出力する。図2の収音装置では、加算部6によって周波数領域の第1収音部4−1からの信号YSL(ω,l)と第2収音部4−2からの信号YSR(ω,l)とを加算して、処理対象信号Y(ω,l)としていた。違いは、2で割るか否かである。この違いによって生じる差は、信号全体のボリュームだけであり、波形が同じなので、信号処理の観点からは等価である。つまり、2以外の値で除算しても、等価な処理である。 Next, details of components that are different from the sound collection device of FIG. 2 will be described. FIG. 10 is a diagram illustrating a functional configuration example of the processing target signal generation unit 140. The processing target signal generation unit 140 includes an addition unit 141 and a division unit 142. The adding unit 141 adds the signal Y SL (ω, l) from the first sound collecting unit 4-1 in the frequency domain and the signal Y SR (ω, l) from the second sound collecting unit 4-2. The division unit 142 divides the added signal by 2 and outputs the average value as the processing target signal Y S (ω, l). In the sound collecting device of FIG. 2, the adder 6 causes the signal Y SL (ω, l) from the first sound collecting unit 4-1 in the frequency domain and the signal Y SR (ω, l) and the signal to be processed Y S (ω, l). The difference is whether to divide by 2. The difference caused by this difference is only the volume of the entire signal, and the waveform is the same, so they are equivalent from the viewpoint of signal processing. That is, even if division by a value other than 2 is performed, the processing is equivalent.

図11に、パワースペクトル推定部110の機能構成例を示す。パワースペクトル推定部110と、図6の音源信号成分推定部7との違いは、ベクトル化部62と乗算部63との間に、減算部111が備えられている点である。減算部111は、ベクトル化された信号Y(ω,l)から、推定した残響音の信号量Z est(ω,l)を次式のように減算し、その結果Y’(ω,l)を乗算部63に入力する。
Y’(ω,l)=Y(ω,l)−Z est(ω,l) (21)
その他の処理は、音源信号成分推定部7と同じである。
FIG. 11 shows a functional configuration example of the power spectrum estimation unit 110. The difference between the power spectrum estimation unit 110 and the sound source signal component estimation unit 7 in FIG. 6 is that a subtraction unit 111 is provided between the vectorization unit 62 and the multiplication unit 63. The subtracting unit 111 subtracts the estimated signal amount Z * est (ω, l) of the reverberant sound from the vectorized signal Y (ω, l) as in the following equation, and as a result, Y ′ (ω, l) ) Is input to the multiplier 63.
Y ′ (ω, l) = Y (ω, l) −Z * est (ω, l) (21)
Other processes are the same as those of the sound source signal component estimation unit 7.

図12に、残響スペクトル推定部120の機能構成例を示す。残響スペクトル推定部120は、ゲイン行列乗算部125と重み付き加算部126から構成される。ゲイン行列乗算部125は、所望音源の信号量とその他の音源の信号量Xopt(ω,l)を、収音部ごとの信号量Zest(ω,l)に変換する。ゲイン行列T’は、残響成分に対する各収音部の指向特性のゲインで、例えば式(22)とすればよい。 FIG. 12 shows a functional configuration example of the reverberation spectrum estimation unit 120. The reverberation spectrum estimation unit 120 includes a gain matrix multiplication unit 125 and a weighted addition unit 126. The gain matrix multiplication unit 125 converts the signal amount of the desired sound source and the signal amount X opt (ω, l) of other sound sources into a signal amount Z est (ω, l) for each sound collection unit. The gain matrix T ′ is a gain of the directivity of each sound collection unit with respect to the reverberation component, and may be, for example, Expression (22).

Figure 0004886616
ただし、
Figure 0004886616
However,

Figure 0004886616
である。重み付き加算部126は、収音部ごとの信号量Zest(ω,l)を記録し、複数の過去の収音部ごとの信号量を重み付き加算する。具体的には、過去のN個のフレームの収音部ごとの信号量Zest(ω,l)の重み付き加算を行うのであれば、N個の遅延部121〜121とN個の重み乗算部122〜122とN−1個の加算部123〜123N−1とを備えればよい。第1遅延部121は、収音部ごとの信号量Zest(ω,l)を記録し、1フレーム分遅延させる。第1重み乗算部122は、重みρを第1遅延部121の出力(1フレーム前の収音部ごとの信号量Zest(ω,l))に乗算する。第n遅延部121は、n−1フレーム前の収音部ごとの信号量Zest(ω,l)を記録し、1フレーム分遅延させる。第n重み乗算部122は、重みρを第n遅延部121の出力(nフレーム前の収音部ごとの信号量Zest(ω,l))に乗算する。第n加算部123は、第n+1加算部123n+1の出力に、第n重み乗算部122の出力を加算する。第1加算部123は、第2加算部123の出力に、第1重み乗算部122の出力を加算して、残響音の信号量Z est(ω,l)を出力する。このように処理することで、nフレーム前の収音部ごとの信号量Zest(ω,l)に重みρを付与した重み付き加算ができる。ここで、重みρは残響成分の時間によるパワー減衰を表すパラメータであり、例えば、残響時間T60からは、式(29)のように与えられる。
Figure 0004886616
It is. The weighted addition unit 126 records the signal amount Z est (ω, l) for each sound collection unit, and weights and adds the signal amounts for a plurality of past sound collection units. Specifically, if the weighted addition of the signal amount Z est (ω, l) for each sound collection part of the past N frames is performed, N delay parts 121 1 to 121 N and N weight multiplier unit 122 1 to 122 N and the N-1 of the adder 123 1 ~123 N-1 and may be Sonaere a. The first delay unit 121 1, the signal amount of each sound pickup unit Z est (ω, l) records, delaying one frame. The first weight multiplication unit 122 1 multiplies the output of the first delay unit 121 1 (the signal amount Z est (ω, l) for each sound collection unit one frame before) by the weight ρ 1 . The n-th delay unit 121 n records the signal amount Z est (ω, l) for each sound collection unit before n−1 frames and delays it by one frame. The first n weighted multiplication section 122 n, the weights [rho n outputs of the n delay unit 121 n (signal amount of each sound pickup unit of n frames before Z est (ω, l)) is multiplied. The n-th adder 123 n adds the output of the n-th weight multiplier 122 n to the output of the n + 1 adder 123 n + 1 . First adder 123 1, the output of the second adder unit 123 2 adds the output from the first weight multiplying unit 122 1, the signal amount of reverberation Z * est (ω, l) and outputs a. By processing in this way, weighted addition in which a weight ρ n is added to the signal amount Z est (ω, l) for each sound collection unit n frames before can be performed. Here, the weight [rho n is a parameter indicating the power attenuation with time of reverberation components, for example, from the reverberation time T 60 is given by the equation (29).

Figure 0004886616
ただし、Lは1フレームのサンプル数、Fはサンプリング周波数である。
Figure 0004886616
Here, L S is the number of samples in one frame, and F S is the sampling frequency.

次に、本発明の残響を除去する原理を説明する。図13は雑音発生のモデルを示す図である。図14は、各フレームでのパワースペクトルへの残響の影響を示す図である。残響音は、ある時刻0(ここでは時間フレームで考える)で発せられた直接音に対して、その伝達経路の距離に応じた時間だけ遅れて、また一定の減衰率によってその大きさが減じられてマイクロホンに到達する。例えば、図13に示す例では、時刻0に発せられた直接音と同じ音が時刻1〜3のフレームに残響として影響を与えている。このため、図14に示すように、あるフレームlにおける推定パワースペクトルには、過去のフレームに含まれる直接音の成分が残響として重畳されている。このときの減衰率が残響スペクトル推定部120の重みρに対応する。重みρは部屋の音響特性から決定され、例えば部屋の音響特性を示す1つの尺度である残響時間T60を用いて、式(29)によって理論的に計算することが可能である。本発明の収音装置では、過去の直接音の成分は、過去の収音部ごとの信号量Zest(ω,l)として求めることができる。そこで、ゲイン行列乗算部125で収音部ごとの信号量Zest(ω,l)に変換し、重み付き加算部126で収音部ごとの信号量Zest(ω,l)を記録し、複数の過去の収音部ごとの信号量を重み付き加算する。このように残響音の信号量Z est(ω,l)を求め、パワースペクトル推定部110では、ベクトル化された信号Y(ω,l)から、推定した残響音の信号量Z est(ω,l)を減算する。したがって、第1実施形態の収音装置は、残響による影響を低減できる。 Next, the principle of removing the reverberation of the present invention will be described. FIG. 13 is a diagram illustrating a noise generation model. FIG. 14 is a diagram illustrating the influence of reverberation on the power spectrum in each frame. The reverberant sound is delayed by a time corresponding to the distance of the transmission path with respect to the direct sound emitted at a certain time 0 (in this case, considered in a time frame), and the magnitude is reduced by a certain attenuation rate. To reach the microphone. For example, in the example shown in FIG. 13, the same sound as the direct sound emitted at time 0 affects the frames at times 1 to 3 as reverberation. For this reason, as shown in FIG. 14, the component of the direct sound included in the past frame is superimposed on the estimated power spectrum in a certain frame l as reverberation. The attenuation rate at this time corresponds to the weight ρ n of the reverberation spectrum estimation unit 120. The weight ρ n is determined from the acoustic characteristics of the room, and can be theoretically calculated by the equation (29) using, for example, a reverberation time T 60 that is one measure indicating the acoustic characteristics of the room. In the sound collection device of the present invention, the past direct sound component can be obtained as the signal amount Z est (ω, l) for each past sound collection unit. Therefore, the signal amount of each sound pickup unit gain matrix multiplication unit 125 Z est (ω, l) was converted to the signal amount of each sound pickup unit in the weighted addition section 126 Z est (ω, l) to the recording, A signal amount for each of a plurality of past sound pickup units is added with weight. In this way, the signal amount Z * est (ω, l) of the reverberant sound is obtained, and the power spectrum estimation unit 110 estimates the signal amount Z * est ( Subtract ω, l). Therefore, the sound collection device of the first embodiment can reduce the influence of reverberation.

[第2実施形態]
図15に、本発明の第2実施形態の収音装置全体の構成例を示す。第1実施形態(図8)とは、各収音部4’−1〜4’−6、処理対象信号生成部140’、パワースペクトル推定部110’、残響スペクトル推定部120’が異なる。以下では、第1実施形態と異なる構成部について説明する。
[Second Embodiment]
FIG. 15 shows a configuration example of the entire sound collecting device according to the second embodiment of the present invention. The sound collection units 4′-1 to 4′-6, the processing target signal generation unit 140 ′, the power spectrum estimation unit 110 ′, and the reverberation spectrum estimation unit 120 ′ are different from the first embodiment (FIG. 8). Below, a different structure part from 1st Embodiment is demonstrated.

図16は、各収音部4’−1〜4’−6の設定を説明するための音源位置の領域を示す図である。また、図17は、第1収音部4’−1の機能構成例を示す図である。マイクロホンアレー3Lには、信号xLmL(n)(m=1,2,…,M)が入力される。フィルタ処理部41’では、あらかじめ定められた(決定方法は後述する)フィルタ係数wLmL(n)と入力信号xLmL(n)を、式(30)に示す畳み込み演算に代入して得られる信号x'LmL(n)を出力する。 FIG. 16 is a diagram illustrating sound source position regions for explaining the settings of the sound collection units 4′-1 to 4′-6. FIG. 17 is a diagram illustrating a functional configuration example of the first sound collection unit 4′-1. A signal x LmL (n) (m L = 1, 2,..., M L ) is input to the microphone array 3L. In the filter processing unit 41 ′, a signal obtained by substituting a predetermined filter coefficient w LmL (n) and an input signal x LmL (n) into a convolution operation shown in Expression (30) ( description method will be described later). Output x ′ LmL (n).

Figure 0004886616
各フィルタ処理部41’の出力信号は加算部42’に入力される。加算部42’では入力信号を式(31)のように加算し、第1収音部4’−1の出力信号yLL(n)を得る。
Figure 0004886616
The output signal of each filter processing unit 41 ′ is input to the adding unit 42 ′. The adder 42 ′ adds the input signals as shown in Expression (31) to obtain the output signal y LL (n) of the first sound collection unit 4′-1.

Figure 0004886616
ここでフィルタ係数wLmL(n)は、第1収音部4’−1の指向特性DLSB(ω,θ)が式(32)に示す特性を持つように、例えば最小二乗法などを利用して設計される。第3収音部、第5収音部についても同様に、式(33)、式(34)のそれぞれの条件を満たすように設計される。ΘL1〜ΘL3は、それぞれ図16に示すマイクロホンアレー3Lから見た角度領域を示している。
Figure 0004886616
Here, the filter coefficient w LmL (n) uses, for example, the least square method so that the directivity characteristic D LSB (ω, θ) of the first sound collection unit 4′-1 has the characteristic shown in Expression (32). Designed. Similarly, the third sound collection unit and the fifth sound collection unit are designed so as to satisfy the conditions of Expression (33) and Expression (34). Θ L1 to Θ L3 indicate angular regions viewed from the microphone array 3L shown in FIG.

Figure 0004886616
つまり、第1収音部4’−1は、角度領域ΘL1の音を抑圧して収音する。第3収音部4’−3は、角度領域ΘL2の音を抑圧して収音する。第5収音部4’−5は、角度領域ΘL3の音を抑圧して収音する。
同様に、式(35)から式(37)に示すように、マイクロホンアレー3Rの第2収音部4’−2は、角度領域ΘR1の音を抑圧して収音する。第4収音部4’−4は、角度領域ΘR2の音を抑圧して収音する。第6収音部4’−6は、角度領域ΘR3の音を抑圧して収音する。
Figure 0004886616
That is, the first sound pickup unit 4'-1, to pick up by suppressing the sound of angular regions theta L1. The third sound pickup unit 4'-3, to pick up by suppressing the sound of angular regions theta L2. The fifth sound pickup 4'-5, to pick up by suppressing the sound of angular regions theta L3.
Similarly, as shown from equation (35) into equation (37), a second collecting sections 4'-second microphone array 3R is to pick up by suppressing the sound of angular regions theta R1. The fourth sound pickup unit 4'-4, to pick up by suppressing the sound of angular regions theta R2. Sixth sound pickup 4'-6, to pick up by suppressing the sound of angular regions theta R3.

Figure 0004886616
図18は、処理対象信号生成部140’の機能構成例を示す図である。処理対象信号生成部140’は、加算部141’と除算部142’から構成される。加算部141’は、周波数領域の第1収音部4−1’からの信号YLL(ω,l)、第2収音部4−2’からの信号YLR(ω,l)、第5収音部4−5’からの信号YRL(ω,l)、第6収音部4−6’からの信号YRR(ω,l)を次式のように加算し、加算結果Y’(ω,l)を出力する。
Figure 0004886616
FIG. 18 is a diagram illustrating a functional configuration example of the processing target signal generation unit 140 ′. The processing target signal generation unit 140 ′ includes an addition unit 141 ′ and a division unit 142 ′. The adding unit 141 ′ includes a signal Y LL (ω, l) from the first sound collecting unit 4-1 ′ in the frequency domain, a signal Y LR (ω, l) from the second sound collecting unit 4-2 ′, 5 sound pickup unit 4-5 'signal from Y RL (omega, l), the sixth sound pickup section 4-6' signal from Y RR (omega, l) was added to the following equation, the addition result Y 'Output B (ω, l).

Figure 0004886616
除算部142’は、加算された信号Y’(ω,l)を次式のように4で割り、平均値を処理対象信号Y(ω,l)として出力する。
(ω,l)=Y’(ω,l)/4 (39)
なお、第1実施形態で説明したように、除算部142’で割る数をいくつにしても、波形が同じなので、信号処理の観点からは等価である。つまり、4以外の値で除算しても、等価な処理である。
Figure 0004886616
The division unit 142 ′ divides the added signal Y ′ B (ω, l) by 4 as in the following equation, and outputs the average value as the processing target signal Y B (ω, l).
Y B (ω, l) = Y ′ B (ω, l) / 4 (39)
Note that, as described in the first embodiment, the waveform is the same regardless of the number of divisions by the division unit 142 ′, which is equivalent from the viewpoint of signal processing. That is, even if division is performed by a value other than 4, it is an equivalent process.

図19に、パワースペクトル推定部110’の機能構成例を示す。パワースペクトル推定部110’は、パワー演算部61’、ベクトル化部62’、減算部111’、乗算部63’、擬似逆行列演算部64’から構成される。パワー演算部61’は、各収音部からの周波数領域の信号YLL(ω,l)、YCL(ω,l)、YRL(ω,l)、YLR(ω,l)、YCR(ω,l)、YRR(ω,l)から、パワー値|YLL(ω,l)|、|YCL(ω,l)|、|YRL(ω,l)|、|YLR(ω,l)|、|YCR(ω,l)|、|YRR(ω,l)|を計算し、出力する。ベクトル化部62’は、パワー値を式(40)のようにベクトル形式でまとめた、パワーベクトルY(ω,l)を出力する。 FIG. 19 shows a functional configuration example of the power spectrum estimation unit 110 ′. The power spectrum estimation unit 110 ′ includes a power calculation unit 61 ′, a vectorization unit 62 ′, a subtraction unit 111 ′, a multiplication unit 63 ′, and a pseudo inverse matrix calculation unit 64 ′. The power calculation unit 61 ′ receives frequency domain signals Y LL (ω, l), Y CL (ω, l), Y RL (ω, l), Y LR (ω, l), Y from each sound collection unit. From CR (ω, l) and Y RR (ω, l), power values | Y LL (ω, l) | 2 , | Y CL (ω, l) | 2 , | Y RL (ω, l) | 2 , | Y LR (ω, l) | 2 , | Y CR (ω, l) | 2 , | Y RR (ω, l) | 2 are calculated and output. The vectorization unit 62 ′ outputs a power vector Y (ω, l) in which the power values are collected in a vector format as shown in Expression (40).

Figure 0004886616
減算部111’は、ベクトル化された信号Y(ω,l)から、推定した残響音の信号量Z est(ω,l)を次式のように減算し、その結果Y’(ω,l)を乗算部63’に入力する。
Y’(ω,l)=Y(ω,l)−Z est(ω,l) (41)
乗算部63’のもう一方の入力であるパワー推定行列Tは、擬似逆行列演算部64’の出力信号である。擬似逆行列演算部64’には式(42)により定義されるゲイン行列Tが入力され、その擬似逆行列Tを出力する。
Figure 0004886616
The subtractor 111 ′ subtracts the estimated reverberation signal amount Z * est (ω, l) from the vectorized signal Y (ω, l) as shown in the following equation, and as a result, Y ′ (ω, l) l) is input to the multiplier 63 '.
Y ′ (ω, l) = Y (ω, l) −Z * est (ω, l) (41)
The power estimation matrix T + which is the other input of the multiplier 63 ′ is an output signal of the pseudo inverse matrix calculator 64 ′. The pseudo inverse matrix calculator 64 ′ receives the gain matrix T defined by the equation (42) and outputs the pseudo inverse matrix T + .

Figure 0004886616
ゲイン逆行列T(ω)の各要素は、各収音部4’−1〜4’−6のΘ方向、Θ方向、Θ方向に対する指向特性のゲインであり、例えば式(43)から式(45)に示すような指向特性の方向に関する平均値を用いる。
Figure 0004886616
Each element of the gain inverse matrix T (ω) is a gain of directivity with respect to the Θ 1 direction, Θ 2 direction, and Θ 3 direction of each of the sound collection units 4′- 1 to 4′-6. For example, Expression (43) From the average value regarding the direction of the directivity as shown in Expression (45).

Figure 0004886616
α(ω)は、周波数ωにおける第1収音部4’−1と第2収音部4’−2の角度領域Θの方向に対する指向特性の平均値である。β(ω)は、周波数ωにおける第3収音部4’−3と第4収音部4’−4の角度領域Θの方向に対する指向特性の平均値である。γ(ω)は、周波数ωにおける第5収音部4’−5と第6収音部4’−6の角度領域Θの方向に対する指向特性の平均値である。ここで、xには、L1、L2、L3、R1、R2、R3のいずれかが入る。乗算部63’は、式(46)に示すように残響が減算された信号Y’(ω,l)に擬似逆行列Tを乗算し、推定信号パワーベクトルXopt(ω,l)を出力する。
Figure 0004886616
α x (ω) is an average value of directivity characteristics with respect to the direction of the angle region Θ x of the first sound collection unit 4′-1 and the second sound collection unit 4′-2 at the frequency ω. β x (ω) is an average value of directivity with respect to the direction of the angle region Θ x of the third sound collection unit 4′-3 and the fourth sound collection unit 4′-4 at the frequency ω. γ x (ω) is an average value of directivity with respect to the direction of the angle region Θ x of the fifth sound collection unit 4′-5 and the sixth sound collection unit 4′-6 at the frequency ω. Here, x is one of L1, L2, L3, R1, R2, and R3. The multiplier 63 ′ multiplies the signal Y ′ (ω, l) from which reverberation is subtracted as shown in the equation (46) by the pseudo inverse matrix T +, and outputs the estimated signal power vector X opt (ω, l). To do.

opt(ω,l)=TY’(ω,l) (46)
図20に、残響スペクトル推定部120’の機能構成例を示す。残響スペクトル推定部120’は、ゲイン行列乗算部125’が、第1実施形態の残響スペクトル推定部120(図12)と異なる。ゲイン行列乗算部125’では、ゲイン行列T’を、例えば式(47)とする。
X opt (ω, l) = T + Y ′ (ω, l) (46)
FIG. 20 shows a functional configuration example of the reverberation spectrum estimation unit 120 ′. The reverberation spectrum estimation unit 120 ′ is different from the reverberation spectrum estimation unit 120 (FIG. 12) in the gain matrix multiplication unit 125 ′ in the first embodiment. In the gain matrix multiplication unit 125 ′, the gain matrix T ′ is expressed by, for example, Expression (47).

Figure 0004886616
ただし、
Figure 0004886616
However,

Figure 0004886616
である。重み付き加算部126は、第1実施形態の残響スペクトル推定部120(図12)と同じなので、説明を省略する。
以上のような構成なので、第2実施形態の収音装置も、第1実施形態と同じように残響音を低減する効果を有する。
Figure 0004886616
It is. Since the weighted addition unit 126 is the same as the reverberation spectrum estimation unit 120 (FIG. 12) of the first embodiment, the description thereof is omitted.
Since it is the above structure, the sound collection apparatus of 2nd Embodiment has the effect of reducing a reverberation sound similarly to 1st Embodiment.

[第3実施形態]
図21に、本発明の第3実施形態の収音装置全体の構成例を示す。第2実施形態の収音装置とは、処理対象信号生成部140”が異なる。処理対象信号生成部の役割は、収音信号の中から、所望音に近い音を生成しておくことである。そして、雑音や残響を除去すれば高品質な収音が期待できる。所望音源が特定のマイクに近い場合、そのマイクから収音された信号の周波数領域の信号を処理対象信号とすることが合理的である。なお、第1実施形態にも処理対象信号生成部140”を用いることができる。
[Third Embodiment]
FIG. 21 shows a configuration example of the entire sound collecting device according to the third embodiment of the present invention. The processing target signal generation unit 140 ″ is different from the sound collection device of the second embodiment. The role of the processing target signal generation unit is to generate a sound close to the desired sound from the collected signals. If noise and reverberation are removed, high-quality sound collection can be expected.If the desired sound source is close to a specific microphone, the signal in the frequency domain of the signal collected from that microphone may be the signal to be processed. Note that the processing target signal generation unit 140 ″ can also be used in the first embodiment.

以上のような構成なので、第3実施形態の収音装置も、第1実施形態や第2実施形態と同じように残響音を低減する効果を有する。   Since it is the above structure, the sound collection apparatus of 3rd Embodiment also has the effect of reducing a reverberation sound similarly to 1st Embodiment or 2nd Embodiment.

[実験例]
次に第2実施形態の収音装置での実験結果を示す。図22は実験環境を示す図である。それぞれのマイクロホンアレーには、4つのマイクロホンが直線状に4cmの等間隔で配置されている。座標の単位はメートルであり、(0.4,0)と(−0.4,0)にそれぞれの中心が位置している。所望音源(対象話者の位置)が(0,0.5)にある。そして、3つの異なる背景雑音源(その他の話者の位置)が(−1.6,2.5)、(1.6,1.0)、(0.0,2.5)に配置されている。図23は、残響が異なる2つの環境で、背景雑音の抑圧量を測定した結果を示す図である。実験環境1が残響時間250msの場合(一般的な寝室を同程度)、実験環境2が残響時間500ms(一般的な会議室と同程度)である。この結果より、本発明の収音装置であれば、残響の異なる場合でも、特願2006−52502の収音装置に比べて残響抑圧量が向上していることが分かる。図24は、第2実施形態の収音装置で収音した音の品質を被験者により確認した結果を示す図である。10人の被験者が、本発明の収音装置で収音した音と、特願2006−52502の収音装置で収音した音とを、2:非常に良くなった、1:良くなった、0:同じである、−1:悪くなった、−2:非常に悪くなった、の5段階で評価した結果の平均値を示している。この結果より、多くの被験者が音が良くなったと評価しており、収音音質が改善していることが分かる。
[Experimental example]
Next, an experimental result in the sound collecting device of the second embodiment is shown. FIG. 22 is a diagram showing an experimental environment. In each microphone array, four microphones are linearly arranged at equal intervals of 4 cm. The unit of the coordinate is meter, and the respective centers are located at (0.4,0) and (−0.4,0). The desired sound source (target speaker position) is at (0, 0.5). Three different background noise sources (other speaker locations) are placed at (−1.6, 2.5), (1.6, 1.0), (0.0, 2.5). ing. FIG. 23 is a diagram illustrating a result of measuring the amount of suppression of background noise in two environments with different reverberations. When the experimental environment 1 has a reverberation time of 250 ms (same level as a general bedroom), the experimental environment 2 has a reverberation time of 500 ms (same level as a general conference room). From this result, it can be seen that the reverberation suppression amount is improved with the sound collecting device of the present invention even when reverberation is different from that of the sound collecting device of Japanese Patent Application No. 2006-55022. FIG. 24 is a diagram illustrating a result of confirming the quality of sound collected by the sound collection device of the second embodiment by a subject. 10 subjects have collected the sound collected by the sound collecting device of the present invention and the sound collected by the sound collecting device of Japanese Patent Application No. 2006-5502 2: very improved, 1: improved It shows the average value of the results evaluated in five stages: 0: the same, -1: worse, -2: very worse. From this result, it can be seen that many subjects evaluate that the sound has improved, and the sound collection quality has improved.

図25に、コンピュータの機能構成例を示す。なお、本発明の収音装置は、コンピュータ2000の記録部2020に、本発明の各構成部としてコンピュータ2000を動作させるプログラムを読み込ませ、処理部2010、入力部2030、出力部2040などを動作させることで実現できる。また、コンピュータに読み込ませる方法としては、プログラムをコンピュータ読み取り可能な記録媒体に記録しておき、記録媒体からコンピュータに読み込ませる方法、サーバ等に記録されたプログラムを、電気通信回線等を通じてコンピュータに読み込ませる方法などがある。   FIG. 25 shows a functional configuration example of a computer. Note that the sound collection device of the present invention causes the recording unit 2020 of the computer 2000 to read a program that causes the computer 2000 to operate as each component of the present invention and operate the processing unit 2010, the input unit 2030, the output unit 2040, and the like. This can be achieved. In addition, as a method of causing the computer to read, the program is recorded on a computer-readable recording medium, and the program recorded on the server or the like is read into the computer through a telecommunication line or the like. There is a method to make it.

本発明の利用状況の一例を示す図。The figure which shows an example of the utilization condition of this invention. 特願2006−52502の収音装置の全体の構成を示す図。The figure which shows the structure of the whole sound-collecting apparatus of Japanese Patent Application No. 2006-55022. 第1〜第6収音部の指向性を説明するための平面図。The top view for demonstrating the directivity of the 1st-6th sound collection part. 第1〜第4収音部の構成を説明するためのブロック図。The block diagram for demonstrating the structure of a 1st-4th sound collection part. 第5収音部4−5と第6収音部4−6の構成を示す図。The figure which shows the structure of the 5th sound collection part 4-5 and the 6th sound collection part 4-6. 音源信号成分推定部7の構成を示す図。The figure which shows the structure of the sound source signal component estimation part. 利得係数算出8の構成を示す図。The figure which shows the structure of the gain coefficient calculation 8. FIG. 第1実施形態の収音装置全体の構成例を示す図。The figure which shows the structural example of the whole sound-collecting apparatus of 1st Embodiment. 第1実施形態の収音装置の処理フローを示す図。The figure which shows the processing flow of the sound collection device of 1st Embodiment. 処理対象信号生成部140の機能構成例を示す図。The figure which shows the function structural example of the process target signal production | generation part 140. FIG. パワースペクトル推定部110の機能構成例を示す図。The figure which shows the function structural example of the power spectrum estimation part 110. 残響スペクトル推定部120の機能構成例を示す図。The figure which shows the function structural example of the reverberation spectrum estimation part 120. FIG. 雑音発生のモデルを示す図。The figure which shows the model of noise generation. 各フレームでのパワースペクトルへの残響の影響を示す図。The figure which shows the influence of the reverberation to the power spectrum in each frame. 第2実施形態の収音装置全体の構成例を示す図。The figure which shows the structural example of the whole sound-collecting apparatus of 2nd Embodiment. 各収音部4’−1〜4’−6の設定を説明するための音源位置の領域を示す図。The figure which shows the area | region of the sound source position for demonstrating the setting of each sound collection part 4'-1-4'-6. 第1収音部4’−1の機能構成例を示す図。The figure which shows the function structural example of 1st sound collection part 4'-1. 処理対象信号生成部140’の機能構成例を示す図。The figure which shows the function structural example of the process target signal generation part 140 '. パワースペクトル推定部110’の機能構成例を示す図。The figure which shows the function structural example of power spectrum estimation part 110 '. 残響スペクトル推定部120’の機能構成例を示す図。The figure which shows the function structural example of the reverberation spectrum estimation part 120 '. 第3実施形態の収音装置全体の構成例を示す図。The figure which shows the structural example of the whole sound-collecting apparatus of 3rd Embodiment. 実験環境を示す図。The figure which shows an experimental environment. 残響が異なる2つの環境で、背景雑音の抑圧量を測定した結果を示す図。The figure which shows the result of having measured the suppression amount of the background noise in two environments where reverberations differ. 第2実施形態の収音装置で収音した音の品質を被験者により確認した結果を示す図。The figure which shows the result of having confirmed the quality of the sound collected with the sound collection device of 2nd Embodiment by the test subject. コンピュータの機能構成例を示す図。The figure which shows the function structural example of a computer.

符号の説明Explanation of symbols

110、110’ パワースペクトル推定部
111 減算部
120、120’ 残響スペクトル推定部
125、125’ ゲイン行列乗算部
126 重み付き加算部
140、140’、140” 処理対象信号生成部
110, 110 ′ Power spectrum estimation unit 111 Subtraction unit 120, 120 ′ Reverberation spectrum estimation unit 125, 125 ′ Gain matrix multiplication unit 126 Weighted addition unit 140, 140 ′, 140 ″ Processing target signal generation unit

Claims (10)

複数のマイクロホンを搭載して構成されるマイクロホンアレーの出力信号を利用して、それぞれ異なる領域の音を収音する6つ以上の収音部と、
あらかじめ定めた1つ以上の前記マイクロホンまたは前記収音部からの信号から、処理対象信号を生成する処理対象信号生成部と、
前記各収音部で得られた各収音信号と残響音の信号量から、残響信号を除去した所望音源の信号量と、その他の音源の信号量とを周波数ごとに推定するパワースペクトル推定部と、
前記パワースペクトル推定部が推定した所望音源の信号量とその他の音源の信号量から、前記パワースペクトル推定部が次の処理で用いる残響音の信号量を周波数ごとに求める残響スペクトル推定部と、
前記所望音源の信号量と、所望音源の信号量を含む全ての音源の信号量との比から周波数ごとに利得係数を求める利得係数算出部と、
前記利得係数算出部で算出した利得係数を前記処理対象信号に乗算する乗算部と、
を備える収音装置。
6 or more sound collection units for collecting sounds in different areas using output signals of a microphone array configured with a plurality of microphones;
A processing target signal generation unit that generates a processing target signal from one or more predetermined microphones or signals from the sound collection unit;
A power spectrum estimator that estimates the signal amount of the desired sound source from which the reverberation signal is removed and the signal amount of other sound sources for each frequency from the collected sound signals and the reverberant signal amounts obtained by the sound collecting units. When,
A reverberation spectrum estimation unit that obtains a signal amount of reverberation sound used for the next processing by the power spectrum estimation unit for each frequency from the signal amount of the desired sound source and the signal amount of other sound sources estimated by the power spectrum estimation unit ;
A gain coefficient calculation unit for obtaining a gain coefficient for each frequency from the ratio of the signal amount of the desired sound source and the signal amounts of all sound sources including the signal amount of the desired sound source;
A multiplier that multiplies the signal to be processed by the gain coefficient calculated by the gain coefficient calculator;
A sound collecting device.
複数のマイクロホンを搭載して構成されるマイクロホンアレーの出力信号を利用して互いに異なる位置から所望音源位置を含む角度領域の音を収音する第1及び第2収音部と、
前記マイクロホンアレーの出力信号を利用して互いに異なる位置から前記所望音源位置を含まない角度領域の音を収音する第3及び第4収音部と、
前記互いに異なる位置の中間点から前記所望音源位置を含む角度領域の音を収音する第5収音部と、
前記中間点から前記所望音源位置を含まない角度領域の音を収音する第6収音部と、
あらかじめ定めた1つ以上の前記マイクロホンまたは前記収音部からの信号から、処理対象信号を生成する処理対象信号生成部と、
前記各収音部で得られた各収音信号と残響音の信号量から、残響信号を除去した所望音源の信号量と、その他の音源の信号量とを周波数ごとに推定するパワースペクトル推定部と、
前記パワースペクトル推定部が推定した所望音源の信号量とその他の音源の信号量から、前記パワースペクトル推定部が次の処理で用いる残響音の信号量を周波数ごとに求める残響スペクトル推定部と、
前記所望音源の信号量と、所望音源の信号量を含む全ての音源の信号量との比から周波数ごとに利得係数を求める利得係数算出部と、
前記利得係数算出部で算出した利得係数を前記処理対象信号に乗算する乗算部と、
を備える収音装置。
First and second sound collection units that collect sound in an angular region including a desired sound source position from different positions using output signals of a microphone array configured to include a plurality of microphones;
A third and a fourth sound collecting unit for collecting sound in an angular region not including the desired sound source position from different positions using an output signal of the microphone array;
A fifth sound collection unit for collecting sound in an angle region including the desired sound source position from an intermediate point between the different positions;
A sixth sound collecting unit that picks up sound in an angular region not including the desired sound source position from the intermediate point;
A processing target signal generation unit that generates a processing target signal from one or more predetermined microphones or signals from the sound collection unit;
A power spectrum estimator that estimates the signal amount of the desired sound source from which the reverberation signal is removed and the signal amount of other sound sources for each frequency from the collected sound signals and the reverberant signal amounts obtained by the sound collecting units. When,
A reverberation spectrum estimation unit that obtains a signal amount of reverberation sound used for the next processing by the power spectrum estimation unit for each frequency from the signal amount of the desired sound source and the signal amount of other sound sources estimated by the power spectrum estimation unit ;
A gain coefficient calculation unit for obtaining a gain coefficient for each frequency from the ratio of the signal amount of the desired sound source and the signal amounts of all sound sources including the signal amount of the desired sound source;
A multiplier that multiplies the signal to be processed by the gain coefficient calculated by the gain coefficient calculator;
A sound collecting device.
複数のマイクロホンを搭載して構成されるマイクロホンアレーの出力信号を利用して互いに異なる位置から、所望音源位置を含まない角度領域の一部の音を抑圧して収音する第1及び第2収音部と、
前記マイクロホンアレーの出力信号を利用して互いに異なる位置から、前記所望音源位置を含む角度領域の音を抑圧して収音する第3及び第4収音部と、
前記マイクロホンアレーの出力信号を利用して互いに異なる位置から、前記所望音源位置を含まない角度領域であって、前記第1及び第2収音部とは異なる一部の音を抑圧して収音する第5及び第6収音部と、
あらかじめ定めた1つ以上の前記マイクロホンまたは前記収音部からの信号から、処理対象信号を生成する処理対象信号生成部と、
前記各収音部で得られた各収音信号と残響音の信号量から、残響信号を除去した所望音源の信号量と、その他の音源の信号量とを周波数ごとに推定するパワースペクトル推定部と、
前記パワースペクトル推定部が推定した所望音源の信号量とその他の音源の信号量から、前記パワースペクトル推定部が次の処理で用いる残響音の信号量を周波数ごとに求める残響スペクトル推定部と、
前記所望音源の信号量と、所望音源の信号量を含む全ての音源の信号量との比から周波数ごとに利得係数を求める利得係数算出部と、
前記利得係数算出部で算出した利得係数を前記処理対象信号に乗算する乗算部と、
を備える収音装置。
First and second collections that collect sound by suppressing a part of sound in an angular region that does not include a desired sound source position from different positions using output signals of a microphone array that includes a plurality of microphones. The clef,
Third and fourth sound collection units for collecting sound by suppressing sound in an angle region including the desired sound source position from positions different from each other using output signals of the microphone array;
Collecting sound by suppressing a part of the sound that is different from the first and second sound collection units in an angular region not including the desired sound source position from different positions using the output signal of the microphone array. And fifth and sixth sound collection units
A processing target signal generation unit that generates a processing target signal from one or more predetermined microphones or signals from the sound collection unit;
A power spectrum estimator that estimates the signal amount of the desired sound source from which the reverberation signal is removed and the signal amount of other sound sources for each frequency from the collected sound signals and the reverberant signal amounts obtained by the sound collecting units. When,
A reverberation spectrum estimation unit that obtains a signal amount of reverberation sound used for the next processing by the power spectrum estimation unit for each frequency from the signal amount of the desired sound source and the signal amount of other sound sources estimated by the power spectrum estimation unit ;
A gain coefficient calculation unit for obtaining a gain coefficient for each frequency from the ratio of the signal amount of the desired sound source and the signal amounts of all sound sources including the signal amount of the desired sound source;
A multiplier that multiplies the signal to be processed by the gain coefficient calculated by the gain coefficient calculator;
A sound collecting device.
請求項1から3のいずれかに記載の収音装置であって、
前記残響スペクトル推定部は、
所望音源の信号量とその他の音源の信号量を、前記収音部ごとの信号量に変換するゲイン行列乗算部と、
前記収音部ごとの信号量を記録し、複数の過去の前記収音部ごとの信号量を重み付き加算する重み付き加算部と
を備える
ことを特徴とする収音装置。
The sound collection device according to any one of claims 1 to 3,
The reverberation spectrum estimation unit includes:
A gain matrix multiplication unit that converts the signal amount of the desired sound source and the signal amount of the other sound source into a signal amount for each of the sound collection units;
A sound collection apparatus comprising: a weighted addition unit that records a signal amount for each of the sound collection units and weights and adds a plurality of past signal amounts of the sound collection units.
複数のマイクロホンを搭載して構成されるマイクロホンアレーの出力信号を利用して、それぞれ異なる6つ以上の領域の音を収音する収音ステップと、
あらかじめ定めた1つ以上の前記マイクロホンからの信号または前記収音ステップで得た信号から、処理対象信号を生成する処理対象信号生成ステップと、
記収ステップ得た各収音信号と残響音の信号量から、残響信号を除去した所望音源の信号量と、その他の音源の信号量とを周波数ごとに推定するパワースペクトル推定ステップと、
前記パワースペクトル推定ステップが推定した所望音源の信号量とその他の音源の信号量から、前記パワースペクトル推定ステップが次の処理で用いる残響音の信号量を周波数ごとに求める残響スペクトル推定ステップと、
前記所望音源の信号量と、所望音源の信号量を含む全ての音源の信号量との比から周波数ごとに利得係数を求める利得係数算出ステップと、
前記利得係数算出ステップで算出した利得係数を前記処理対象信号に乗算する乗算ステップと、
を有する収音方法。
A sound collection step for collecting sounds of six or more different areas using an output signal of a microphone array configured with a plurality of microphones;
A processing target signal generation step of generating a processing target signal from a signal from one or more predetermined microphones or a signal obtained in the sound pickup step ;
From the signal amount before KiOsamu sound each collected sound signal and reverberation obtained in step, a signal of a desired sound source to remove reverberation signal, and the power spectrum estimation step of estimating the signal of other sound sources for each frequency ,
A reverberation spectrum estimation step for obtaining, for each frequency, a signal amount of reverberation sound used in the next processing by the power spectrum estimation step , from the signal amount of the desired sound source estimated by the power spectrum estimation step and the signal amount of other sound sources;
A gain coefficient calculating step for obtaining a gain coefficient for each frequency from the ratio of the signal amount of the desired sound source and the signal amounts of all sound sources including the signal amount of the desired sound source;
A multiplication step of multiplying the processing target signal by the gain coefficient calculated in the gain coefficient calculation step ;
A sound collection method.
複数のマイクロホンを搭載して構成されるマイクロホンアレーの出力信号を利用して互いに異なる位置から所望音源位置を含む角度領域の音を収音する第1及び第2収音ステップと、
前記マイクロホンアレーの出力信号を利用して互いに異なる位置から前記所望音源位置を含まない角度領域の音を収音する第3及び第4収音ステップと、
前記互いに異なる位置の中間点から前記所望音源位置を含む角度領域の音を収音する第5収音ステップと、
前記中間点から前記所望音源位置を含まない角度領域の音を収音する第6収音ステップと、
あらかじめ定めた1つ以上の前記マイクロホンからの信号または前記収音ステップで得た信号から、処理対象信号を生成する処理対象信号生成ステップと、
前記各収音ステップ得た各収音信号と残響音の信号量から、残響信号を除去した所望音源の信号量と、その他の音源の信号量とを周波数ごとに推定するパワースペクトル推定ステップと、
前記パワースペクトル推定ステップが推定した所望音源の信号量とその他の音源の信号量から、前記パワースペクトル推定ステップが次の処理で用いる残響音の信号量を周波数ごとに求める残響スペクトル推定ステップと、
前記所望音源の信号量と、所望音源の信号量を含む全ての音源の信号量との比から周波数ごとに利得係数を求める利得係数算出ステップと、
前記利得係数算出ステップで算出した利得係数を前記処理対象信号に乗算する乗算ステップと、
を有する収音方法。
First and second sound collecting steps for collecting sound in an angular region including a desired sound source position from different positions using output signals of a microphone array configured to include a plurality of microphones;
Third and fourth sound collecting steps for collecting sound in an angular region not including the desired sound source position from different positions using the output signal of the microphone array;
A fifth sound collecting step for collecting sound in an angle region including the desired sound source position from an intermediate point between the different positions;
A sixth sound collecting step for picking up sound in an angular region not including the desired sound source position from the intermediate point;
A processing target signal generation step of generating a processing target signal from a signal from one or more predetermined microphones or a signal obtained in the sound pickup step ;
Wherein the signal amount of each collected sound signal and reverberation obtained in each sound collecting step, and the signal level of a desired sound source to remove reverberation signal, and the power spectrum estimation step of estimating the signal of other sound sources for each frequency ,
A reverberation spectrum estimation step for obtaining, for each frequency, a signal amount of reverberation sound used in the next processing by the power spectrum estimation step , from the signal amount of the desired sound source estimated by the power spectrum estimation step and the signal amount of other sound sources;
A gain coefficient calculating step for obtaining a gain coefficient for each frequency from the ratio of the signal amount of the desired sound source and the signal amounts of all sound sources including the signal amount of the desired sound source;
A multiplication step of multiplying the processing target signal by the gain coefficient calculated in the gain coefficient calculation step ;
A sound collection method.
複数のマイクロホンを搭載して構成されるマイクロホンアレーの出力信号を利用して互いに異なる位置から、所望音源位置を含まない角度領域の一部の音を抑圧して収音する第1及び第2収音ステップと、
前記マイクロホンアレーの出力信号を利用して互いに異なる位置から、前記所望音源位置を含む角度領域の音を抑圧して収音する第3及び第4収音ステップと、
前記マイクロホンアレーの出力信号を利用して互いに異なる位置から、前記所望音源位置を含まない角度領域であって、前記第1及び第2収音部とは異なる一部の音を抑圧して収音する第5及び第6収音ステップと、
あらかじめ定めた1つ以上の前記マイクロホンからの信号または前記収音ステップで得た信号から、処理対象信号を生成する処理対象信号生成ステップと、
前記各収音ステップ得た各収音信号と残響音の信号量から、残響信号を除去した所望音源の信号量と、その他の音源の信号量とを周波数ごとに推定するパワースペクトル推定ステップと、
前記パワースペクトル推定ステップが推定した所望音源の信号量とその他の音源の信号量から、前記パワースペクトル推定ステップが次の処理で用いる残響音の信号量を周波数ごとに求める残響スペクトル推定ステップと、
前記所望音源の信号量と、所望音源の信号量を含む全ての音源の信号量との比から周波数ごとに利得係数を求める利得係数算出ステップと、
前記利得係数算出ステップで算出した利得係数を前記処理対象信号に乗算する乗算ステップと、
を有する収音方法。
First and second collections that collect sound by suppressing a part of sound in an angular region that does not include a desired sound source position from different positions using output signals of a microphone array that includes a plurality of microphones. Sound step,
Third and fourth sound collecting steps for collecting sound by suppressing sound in an angular region including the desired sound source position from different positions using the output signal of the microphone array;
Collecting sound by suppressing a part of the sound that is different from the first and second sound collection units in an angular region not including the desired sound source position from different positions using the output signal of the microphone array. And fifth and sixth sound collecting steps to
A processing target signal generation step of generating a processing target signal from a signal from one or more predetermined microphones or a signal obtained in the sound pickup step ;
Wherein the signal amount of each collected sound signal and reverberation obtained in each sound collecting step, and the signal level of a desired sound source to remove reverberation signal, and the power spectrum estimation step of estimating the signal of other sound sources for each frequency ,
A reverberation spectrum estimation step for obtaining, for each frequency, a signal amount of reverberation sound used in the next processing by the power spectrum estimation step , from the signal amount of the desired sound source estimated by the power spectrum estimation step and the signal amount of other sound sources;
A gain coefficient calculating step for obtaining a gain coefficient for each frequency from the ratio of the signal amount of the desired sound source and the signal amounts of all sound sources including the signal amount of the desired sound source;
A multiplication step of multiplying the processing target signal by the gain coefficient calculated in the gain coefficient calculation step ;
A sound collection method.
請求項5から7のいずれかに記載の収音方法であって、
前記残響スペクトル推定ステップは、
所望音源の信号量とその他の音源の信号量を、前記収音ステップごとの信号量に変換するゲイン行列乗算サブステップと、
前記収音ステップごとの信号量を記録し、複数の過去の前記収音ステップごとの信号量を重み付き加算する重み付き加算サブステップと
を有する
ことを特徴とする収音方法。
The sound collection method according to any one of claims 5 to 7,
The reverberation spectrum estimation step includes:
A gain matrix multiplication sub-step for converting a signal amount of a desired sound source and a signal amount of another sound source into a signal amount for each sound collection step ;
A sound collection method comprising: a weighted addition sub-step for recording a signal amount for each of the sound collection steps and weighting and adding a plurality of signal amounts for each of the past sound collection steps .
請求項1から4のいずれかに記載の収音装置として、コンピュータを動作させる収音プログラム。   A sound collection program for operating a computer as the sound collection device according to claim 1. 請求項9記載の収音プログラムを記録したコンピュータ読み取り可能な記録媒体。   A computer-readable recording medium on which the sound collecting program according to claim 9 is recorded.
JP2007166491A 2007-06-25 2007-06-25 Sound collection device, sound collection method, sound collection program using the method, and recording medium Expired - Fee Related JP4886616B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007166491A JP4886616B2 (en) 2007-06-25 2007-06-25 Sound collection device, sound collection method, sound collection program using the method, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007166491A JP4886616B2 (en) 2007-06-25 2007-06-25 Sound collection device, sound collection method, sound collection program using the method, and recording medium

Publications (2)

Publication Number Publication Date
JP2009005261A JP2009005261A (en) 2009-01-08
JP4886616B2 true JP4886616B2 (en) 2012-02-29

Family

ID=40321125

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007166491A Expired - Fee Related JP4886616B2 (en) 2007-06-25 2007-06-25 Sound collection device, sound collection method, sound collection program using the method, and recording medium

Country Status (1)

Country Link
JP (1) JP4886616B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4928376B2 (en) * 2007-07-18 2012-05-09 日本電信電話株式会社 Sound collection device, sound collection method, sound collection program using the method, and recording medium
JP4928382B2 (en) * 2007-08-10 2012-05-09 日本電信電話株式会社 Specific direction sound collection device, specific direction sound collection method, specific direction sound collection program, recording medium
JP6436180B2 (en) * 2017-03-24 2018-12-12 沖電気工業株式会社 Sound collecting apparatus, program and method
WO2021205494A1 (en) * 2020-04-06 2021-10-14 日本電信電話株式会社 Signal processing device, signal processing method, and program

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4286637B2 (en) * 2002-11-18 2009-07-01 パナソニック株式会社 Microphone device and playback device
JP4247037B2 (en) * 2003-01-29 2009-04-02 株式会社東芝 Audio signal processing method, apparatus and program
JP4594629B2 (en) * 2004-02-19 2010-12-08 学校法人早稲田大学 Sound source separation method and system
JP4568193B2 (en) * 2005-08-29 2010-10-27 日本電信電話株式会社 Sound collecting apparatus and method, program and recording medium
WO2007052604A1 (en) * 2005-11-01 2007-05-10 Matsushita Electric Industrial Co., Ltd. Sound collecting device
WO2007058121A1 (en) * 2005-11-15 2007-05-24 Nec Corporation Reverberation suppressing method, device, and reverberation suppressing program
JP4473829B2 (en) * 2006-02-28 2010-06-02 日本電信電話株式会社 Sound collecting device, program, and recording medium recording the same

Also Published As

Publication number Publication date
JP2009005261A (en) 2009-01-08

Similar Documents

Publication Publication Date Title
JP5079761B2 (en) Direct ratio estimation device, sound source distance measurement device, noise removal device, method of each device, and device program
JP2004187283A (en) Microphone unit and reproducing apparatus
JP5530741B2 (en) Reverberation suppression apparatus and reverberation suppression method
JP4724054B2 (en) Specific direction sound collection device, specific direction sound collection program, recording medium
JP5738488B2 (en) Beam forming equipment
JP5060465B2 (en) Sound collection device, sound collection method, sound collection program, recording medium
JP4886616B2 (en) Sound collection device, sound collection method, sound collection program using the method, and recording medium
JP5175262B2 (en) Voice acquisition device
JP4473829B2 (en) Sound collecting device, program, and recording medium recording the same
JP4928382B2 (en) Specific direction sound collection device, specific direction sound collection method, specific direction sound collection program, recording medium
JP4928376B2 (en) Sound collection device, sound collection method, sound collection program using the method, and recording medium
JP5294603B2 (en) Acoustic signal estimation device, acoustic signal synthesis device, acoustic signal estimation synthesis device, acoustic signal estimation method, acoustic signal synthesis method, acoustic signal estimation synthesis method, program using these methods, and recording medium
JP4787727B2 (en) Audio recording apparatus, method thereof, program thereof, and recording medium thereof
JP2015019185A (en) Sound switch apparatus, sound switch method and program therefor
JP4568193B2 (en) Sound collecting apparatus and method, program and recording medium
JP2004078021A (en) Method, device, and program for sound pickup
JP2003309493A (en) Method, device and program for reducing echo
JP5937451B2 (en) Echo canceling apparatus, echo canceling method and program
EP2809086B1 (en) Method and device for controlling directionality
JP5105336B2 (en) Sound source separation apparatus, program and method
JP5826712B2 (en) Multi-channel echo canceling apparatus, multi-channel echo canceling method, and program
JP2013113866A (en) Reverberation removal method, reverberation removal device and program
JP4298466B2 (en) Sound collection method, apparatus, program, and recording medium
JP2012205161A (en) Voice communication device
JP6075783B2 (en) Echo canceling apparatus, echo canceling method and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090729

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110810

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110913

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111104

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111129

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111209

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141216

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4886616

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees