JP5482854B2 - Sound collecting device and program - Google Patents

Sound collecting device and program Download PDF

Info

Publication number
JP5482854B2
JP5482854B2 JP2012217315A JP2012217315A JP5482854B2 JP 5482854 B2 JP5482854 B2 JP 5482854B2 JP 2012217315 A JP2012217315 A JP 2012217315A JP 2012217315 A JP2012217315 A JP 2012217315A JP 5482854 B2 JP5482854 B2 JP 5482854B2
Authority
JP
Japan
Prior art keywords
target area
microphone array
sound
area sound
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012217315A
Other languages
Japanese (ja)
Other versions
JP2014072708A (en
Inventor
一浩 片桐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2012217315A priority Critical patent/JP5482854B2/en
Publication of JP2014072708A publication Critical patent/JP2014072708A/en
Application granted granted Critical
Publication of JP5482854B2 publication Critical patent/JP5482854B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、収音装置及びプログラムに関し、例えば、特定のエリアの音を強調し、それ以外のエリアの音を抑制する収音装置及びプログラムに適用し得るものである。   The present invention relates to a sound collection device and a program, and can be applied to, for example, a sound collection device and a program that emphasizes sounds in a specific area and suppresses sounds in other areas.

特定の方向に存在する音(音声や音響;以下、音声及び音響をまとめて音響と呼ぶこともある)を強調し、それ以外の音を抑圧する技術として、マイクロホンアレイを用いたビームフォーマ(以下、BF)がある。ここで、ビームフォーマとは、各マイクロホンに到達する信号の時間差を利用して指向性を形成する技術である(非特許文献1参照)。   A beamformer using a microphone array (hereinafter referred to as a technique for emphasizing sound existing in a specific direction (speech and sound; hereinafter referred to as sound collectively)) and suppressing other sounds. BF). Here, the beamformer is a technique for forming directivity using a time difference between signals reaching each microphone (see Non-Patent Document 1).

BFは加算型と減算型の大きく2つの種類に分けられる。特に減算型BFは、加算型BFに比べ、少ないマイクロホン数で指向性を形成できるという利点がある。減算型BFの代表的な手法として、スペクトル減算法(Spectral Subtraction;以下SS)を用いたBFが挙げられる(非特許文献2参照)。   BF is roughly divided into two types, an addition type and a subtraction type. In particular, the subtraction type BF has an advantage that directivity can be formed with a smaller number of microphones than the addition type BF. As a typical method of the subtraction type BF, there is BF using a spectral subtraction method (hereinafter referred to as SS) (see Non-Patent Document 2).

図15は、マイクロホン数が2個の場合のSSに係る構成を示すブロック図である。図15において、2個のマイクロホン11及びマイクロホン12の間の距離をdとし、マイクロホン11及びマイクロホン12の正面から目的音源Tへの角度をθとする。SSでは、まず遅延器13が目的方向θからマイクロホン11及びマイクロホン12に到来する信号の時間差τを算出し、遅延を加えることにより目的音源方向の音信号の位相を合わせる。なお、他の方向からの音は遅延器13を介しても位相は揃わず強調されない。時間差τは下記(1)式により算出される。式(1)において、cは音速、Dは遅延量である。

Figure 0005482854
FIG. 15 is a block diagram showing a configuration related to SS when the number of microphones is two. 15, the distance between the two microphones 11 and the microphone 12 is d, the angle to the target sound source T and theta L from the front of the microphone 11 and the microphone 12. In SS, first delay unit 13 calculates the time difference tau L of signals arriving from the target direction theta L microphone 11 and the microphone 12, adjust the phase of the target sound source direction of the sound signal by adding delay. Note that the sound from other directions is not emphasized because the phases are not aligned even through the delay device 13. The time difference τ L is calculated by the following equation (1). In equation (1), c is the speed of sound and Di is the amount of delay.
Figure 0005482854

ここで、目的音源Tがマイクロホン11とマイクロホン12の中心に対してマイクロホン11の方向に存在する場合、マイクロホン11の入力に対し遅延処理を行う。その後、加算器14が(2)式に従い加算処理を行い、減算器15が(3)式に従い減算処理を行う。これにより、加算処理により目的音源方向の音が強調され、また減算処理により目的音源方向以外の音が抽出される。なお、加算処理及び減算処理は、周波数領域でも同様に行うことができ、その場合(2)式、(3)式はそれぞれ式(4)式、(5)式に変更される。図15では、(4)式、(5)式に従った加算処理及び減算処理を行う場合を例示している。   Here, when the target sound source T exists in the direction of the microphone 11 with respect to the center of the microphone 11 and the microphone 12, a delay process is performed on the input of the microphone 11. Thereafter, the adder 14 performs addition processing according to the equation (2), and the subtractor 15 performs subtraction processing according to the equation (3). Thereby, the sound in the target sound source direction is emphasized by the addition process, and the sound other than the target sound source direction is extracted by the subtraction process. Note that addition processing and subtraction processing can be performed in the same manner in the frequency domain, and in this case, Equation (2) and Equation (3) are changed to Equation (4) and Equation (5), respectively. FIG. 15 illustrates a case where addition processing and subtraction processing are performed according to equations (4) and (5).

加算処理及び減算処理されたデータを用いてスペクトル減算器16が(6)式に従い処理を行うことにより、目的音源方向の音を強調し、それ以外の音を抑圧することができる。βはSSの強度を変更するための係数である。   The spectrum subtractor 16 performs processing according to the expression (6) using the data subjected to the addition processing and the subtraction processing, whereby the sound in the target sound source direction can be emphasized and the other sounds can be suppressed. β is a coefficient for changing the strength of SS.

実環境では、ある特定のエリアの音(以下、目的エリア音)だけを収音したい場合、そのエリアの周囲に多数の雑音(以下、非目的エリア音)が存在する状況が考えられる。通常BFは、上下左右へ直線的にしか指向性を形成することができない。それ故、図16に示すように目的エリアと同方向に非目的エリア音源が存在する場合、目的エリア音だけでなく非目的エリア音まで強調してしまう問題が存在する。   In an actual environment, when it is desired to collect only a sound in a specific area (hereinafter referred to as a target area sound), there may be a situation in which a large number of noises (hereinafter referred to as non-target area sounds) exist around the area. Ordinarily, BF can form directivity only in the vertical and horizontal directions. Therefore, as shown in FIG. 16, when a non-target area sound source exists in the same direction as the target area, there is a problem that not only the target area sound but also the non-target area sound is emphasized.

この課題を解決するために、特許文献1の記載技術は、2個のマイクロホンアレイを用いて、別々の位置から各マイクロホンアレイの指向性をBFにより目的エリア方向、目的エリア以外の方向に向け、各方向から到来する音のレベル差から目的エリア音を推定し強調する手法を提案している。   In order to solve this problem, the technique described in Patent Document 1 uses two microphone arrays, and directs the directivity of each microphone array from different positions in a target area direction and a direction other than the target area by BF. We have proposed a method for estimating and emphasizing the target area sound from the level difference of the sound coming from each direction.

特開2007−235358号公報JP 2007-235358 A

浅野太著,“音のアレイ信号処理 −音源の定位・追跡と分離”,社団法人 日本音響学会,コロナ社,2011年2月25日発行Tadashi Asano, “Sound Array Signal Processing-Localization, Tracking and Separation of Sound Sources”, The Acoustical Society of Japan, Corona, published on February 25, 2011 矢頭隆,森戸誠,山田圭,小川哲司,“正方形マイクロホンアレイによる音源分離技術(<特集>音声認識技術の実用化への取り組み)”,一般社団法人情報処理学会,情報処理51(11),pp.1410−1416,2010年Takashi Yagami, Makoto Morito, Satoshi Yamada, Tetsuji Ogawa, "Sound source separation technology using a square microphone array (<Special issue> Efforts for practical application of speech recognition technology)", Information Processing Society of Japan, Information Processing 51 (11), pp. 1410-1416, 2010

しかしながら、特許文献1の記載技術では、マイクロホンアレイを目的エリアから等間隔の距離に配置しなければならない制限がある。つまり、例えば2個のマイクロホンアレイ1及びマイクロホンアレイ2を配置させるとき、マイクロホンアレイ1から目的エリアへの距離と、マイクロホンアレイ2から目的エリアへの距離を等しくする必要がある。このため、目的エリアを変更する場合、変更の毎に、マイクロホンアレイを配置し直さなければならない問題が生じ得る。また、特許文献1の記載技術は、加算型BFに基づいているため、1個のマイクロホンアレイを構成するためのマイクロホンを多数設けることが必要となる。   However, in the technique described in Patent Document 1, there is a limitation that the microphone array must be arranged at an equal distance from the target area. That is, for example, when two microphone arrays 1 and 2 are arranged, it is necessary to make the distance from the microphone array 1 to the target area equal to the distance from the microphone array 2 to the target area. For this reason, when the target area is changed, there is a problem that the microphone array has to be rearranged for each change. Further, since the technique described in Patent Document 1 is based on the addition type BF, it is necessary to provide a large number of microphones for constituting one microphone array.

そのため、少ないマイクロホンでマイクロホンアレイを構成することができ、マイクロホンアレイの位置を調整することなく、目的エリアが非目的エリア音源に囲まれている状況でも、目的エリア音のみを強調することができる収音装置及びプログラムが求められている。   For this reason, a microphone array can be configured with a small number of microphones, and only the target area sound can be emphasized without adjusting the position of the microphone array, even in a situation where the target area is surrounded by a non-target area sound source. There is a need for sound devices and programs.

かかる課題を解決するために、第1の本発明は、(1)複数のマイクロホンアレイと、(2)各マイクロホンアレイの出力に対し、ビームフォーマによって目的エリア方向へ指向性を形成する指向性形成部と、(3)各マイクロホンアレイのビームフォーマ後の出力において、目的エリア音が全てのマイクロホンアレイに同時に到着するように、目的エリアと各マイクロホンアレイの距離の違いにより発生する遅延を補正するマイクロホンアレイ間遅延補正部と、(4)各マイクロホンアレイのビームフォーマ出力に含まれる目的エリア音のパワーを全て同じ大きさにするために、各マイクロホンアレイのビームフォーマ出力間の振幅スペクトルの比率の最頻値もしくは中央値を算出し、補正係数とする目的エリア音パワー補正係数算出部と、(5)目的エリア音パワー補正係数算出部で算出した補正係数を用い、各マイクロホンアレイのビームフォーマ出力を補正し、それぞれをスペクトル減算することで目的エリア方向に存在する非目的エリア音を抽出し、その後抽出した非目的エリア音を各マイクロホンアレイのビームフォーマ出力からスペクトル減算することにより目的エリア音を抽出する目的エリア音抽出部とを備えることを特徴とする収音装置である。   In order to solve such a problem, the first aspect of the present invention provides (1) a plurality of microphone arrays, and (2) directivity formation that forms a directivity in the direction of a target area by a beamformer with respect to the output of each microphone array. And (3) a microphone that corrects a delay caused by a difference in distance between the target area and each microphone array so that the target area sound simultaneously arrives at all microphone arrays in the output after the beam former of each microphone array. (4) In order to make the power of the target area sound included in the beamformer output of each microphone array all the same, the maximum of the ratio of the amplitude spectrum between the beamformer outputs of each microphone array. A target area sound power correction coefficient calculation unit that calculates a frequency value or a median value as a correction coefficient; (5) Using the correction coefficient calculated by the target area sound power correction coefficient calculation unit, the beamformer output of each microphone array is corrected, and the non-target area sound existing in the target area direction is extracted by spectrum subtraction. And a target area sound extraction unit that extracts a target area sound by performing spectral subtraction of the non-target area sound extracted thereafter from the beamformer output of each microphone array.

第2の本発明は、(1)複数のマイクロホンアレイと、(2)各マイクロホンアレイの出力に対し、ビームフォーマによって目的エリア方向へ指向性を形成する指向性形成部と、(3)各マイクロホンアレイのビームフォーマ後の出力において、目的エリア音が全てのマイクロホンアレイに同時に到着するように、目的エリアと各マイクロホンアレイの距離の違いにより発生する遅延を補正するマイクロホンアレイ間遅延補正部と、(4)各マイクロホンアレイのビームフォーマ出力に含まれる目的エリア音のパワーを全て同じ大きさにするために、各マイクロホンアレイのビームフォーマ出力のパワーの差の2乗を最も小さくする係数を算出し、補正係数とする目的エリア音パワー補正係数算出部と、(5)目的エリア音パワー補正係数算出部で算出した補正係数を用い、各マイクロホンアレイのビームフォーマ出力を補正し、それぞれをスペクトル減算することで目的エリア方向に存在する非目的エリア音を抽出し、その後抽出した非目的エリア音を各マイクロホンアレイのビームフォーマ出力からスペクトル減算することにより目的エリア音を抽出する目的エリア音抽出部とを備えることを特徴とする収音装置である。   The second aspect of the present invention includes: (1) a plurality of microphone arrays; (2) a directivity forming unit that forms directivity in the direction of a target area with a beamformer with respect to the output of each microphone array; and (3) each microphone. An inter-microphone array delay correction unit that corrects a delay caused by a difference in the distance between the target area and each microphone array so that the target area sound arrives at all the microphone arrays at the same time after the beamformer of the array; 4) In order to make the power of the target area sound included in the beamformer output of each microphone array all the same, calculate a coefficient that minimizes the square of the difference in power of the beamformer output of each microphone array; A target area sound power correction coefficient calculation unit as a correction coefficient; and (5) target area sound power correction coefficient calculation. The beamformer output of each microphone array is corrected using the correction coefficient calculated in the section, and the non-target area sound existing in the target area direction is extracted by subtracting the spectrum, and then the extracted non-target area sound is A sound collection device comprising: a target area sound extraction unit that extracts a target area sound by performing spectral subtraction from a beamformer output of a microphone array.

第3の本発明は、複数のマイクロホンアレイからの信号が与えられるコンピュータを、(1)各マイクロホンアレイの出力に対し、ビームフォーマによって目的エリア方向へ指向性を形成する指向性形成部、(2)各マイクロホンアレイのビームフォーマ後の出力において、目的エリア音が全てのマイクロホンアレイに同時に到着するように、目的エリアと各マイクロホンアレイの距離の違いにより発生する遅延を補正するマイクロホンアレイ間遅延補正部、(3)各マイクロホンアレイのビームフォーマ出力に含まれる目的エリア音のパワーを全て同じ大きさにするために、各マイクロホンアレイのビームフォーマ出力間の振幅スペクトルの比率の最頻値もしくは中央値を算出し、補正係数とする目的エリア音パワー補正係数算出部、(4)目的エリア音パワー補正係数算出部で算出した補正係数を用い、各マイクロホンアレイのビームフォーマ出力を補正し、それぞれをスペクトル減算することで目的エリア方向に存在する非目的エリア音を抽出し、その後抽出した非目的エリア音を各マイクロホンアレイのビームフォーマ出力からスペクトル減算することにより目的エリア音を抽出する目的エリア音抽出部として機能させることを特徴とする収音プログラムである。   According to a third aspect of the present invention, there is provided a computer to which signals from a plurality of microphone arrays are provided. (1) A directivity forming unit that forms directivity in the direction of a target area by a beam former with respect to the output of each microphone array; ) Inter-microphone array delay correction unit that corrects the delay caused by the difference in distance between the target area and each microphone array so that the target area sound arrives at all the microphone arrays simultaneously at the output after the beamformer of each microphone array (3) In order to make the power of the target area sound included in the beamformer output of each microphone array all the same, the mode value or median value of the ratio of the amplitude spectrum between the beamformer outputs of each microphone array is set. A target area sound power correction coefficient calculation unit that calculates and sets a correction coefficient, (4 Using the correction coefficient calculated by the target area sound power correction coefficient calculator, correct the beamformer output of each microphone array, extract the non-target area sound that exists in the direction of the target area by subtracting each spectrum, and then extract The sound collection program is configured to function as a target area sound extraction unit that extracts a target area sound by subtracting the spectrum of the non-target area sound from the beamformer output of each microphone array.

第4の本発明は、複数のマイクロホンアレイからの信号が与えられるコンピュータを、(1)各マイクロホンアレイの出力に対し、ビームフォーマによって目的エリア方向へ指向性を形成する指向性形成部、(2)各マイクロホンアレイのビームフォーマ後の出力において、目的エリア音が全てのマイクロホンアレイに同時に到着するように、目的エリアと各マイクロホンアレイの距離の違いにより発生する遅延を補正するマイクロホンアレイ間遅延補正部、(3)各マイクロホンアレイのビームフォーマ出力に含まれる目的エリア音のパワーを全て同じ大きさにするために、各マイクロホンアレイのビームフォーマ出力のパワーの差の2乗を最も小さくする係数を算出し、補正係数とする目的エリア音パワー補正係数算出部、(4)目的エリア音パワー補正係数算出部で算出した補正係数を用い、各マイクロホンアレイのビームフォーマ出力を補正し、それぞれをスペクトル減算することで目的エリア方向に存在する非目的エリア音を抽出し、その後抽出した非目的エリア音を各マイクロホンアレイのビームフォーマ出力からスペクトル減算することにより目的エリア音を抽出する目的エリア音抽出部として機能させることを特徴とする収音プログラムである。   According to a fourth aspect of the present invention, there is provided a computer to which signals from a plurality of microphone arrays are provided. (1) A directivity forming unit that forms directivity in the direction of a target area by a beam former with respect to the output of each microphone array; ) Inter-microphone array delay correction unit that corrects the delay caused by the difference in distance between the target area and each microphone array so that the target area sound arrives at all the microphone arrays simultaneously at the output after the beamformer of each microphone array (3) In order to make the power of the target area sound included in the beamformer output of each microphone array all the same, the coefficient that minimizes the square of the power difference of the beamformer output of each microphone array is calculated. And a target area sound power correction coefficient calculation unit as a correction coefficient, (4) target error Using the correction coefficient calculated by the sound power correction coefficient calculation unit, the beamformer output of each microphone array is corrected, and the non-target area sound existing in the direction of the target area is extracted by subtracting each spectrum, and then extracted. A sound collection program that functions as a target area sound extraction unit that extracts a target area sound by subtracting the spectrum of the non-target area sound from the beamformer output of each microphone array.

本発明によれば、少ないマイクロホンでマイクロホンアレイを構成することができ、マイクロホンアレイの位置を調整することなく、目的エリアが非目的エリア音源に囲まれている状況でも、目的エリア音のみを強調することができる。   According to the present invention, a microphone array can be configured with a small number of microphones, and only the target area sound is emphasized even in a situation where the target area is surrounded by a non-target area sound source without adjusting the position of the microphone array. be able to.

第1の実施形態に係る収音装置の構成を示すブロック図である。It is a block diagram which shows the structure of the sound collection device which concerns on 1st Embodiment. 目的エリア音抽出部の構成を示すブロック図である。It is a block diagram which shows the structure of the target area sound extraction part. 第1の実施形態に係る収音装置の処理を示すフローチャートである。It is a flowchart which shows the process of the sound collection device which concerns on 1st Embodiment. 第1の実施形態に係る性能評価実験でのマイクロホンアレイと各音源の配置を示した図である。It is the figure which showed arrangement | positioning of the microphone array and each sound source in the performance evaluation experiment which concerns on 1st Embodiment. 第1の実施形態と既存手法の各配置パターンでの非目的エリア音の抑圧量を示した図である。It is the figure which showed the suppression amount of the non-target area sound in each arrangement pattern of 1st Embodiment and the existing method. 第2の実施形態に係る収音装置の構成を示すブロック図である。It is a block diagram which shows the structure of the sound collection device which concerns on 2nd Embodiment. 第2の実施形態に係る収音装置の処理を示すフローチャートである。It is a flowchart which shows the process of the sound collection device which concerns on 2nd Embodiment. 第3の実施形態に係る収音装置の構成を示すブロック図である。It is a block diagram which shows the structure of the sound collection device which concerns on 3rd Embodiment. 第3の実施形態に係る収音装置の処理を示すフローチャートである。It is a flowchart which shows the process of the sound collection device which concerns on 3rd Embodiment. 目的エリア音パワー補正係数算出部の構成を示すブロック図である。It is a block diagram which shows the structure of the target area sound power correction coefficient calculation part. 第3の実施形態に係る性能評価実験でのマイクロホンアレイと各音源の配置を示した図である。It is the figure which showed arrangement | positioning of the microphone array and each sound source in the performance evaluation experiment which concerns on 3rd Embodiment. 第3の実施形態と既存手法の各配置パターンでの非目的エリア音の抑圧量を示した図である。It is the figure which showed the suppression amount of the non-target area sound in each arrangement pattern of 3rd Embodiment and the existing method. 第4の実施形態に係る収音装置の構成を示すブロック図である。It is a block diagram which shows the structure of the sound collection device which concerns on 4th Embodiment. 第4の実施形態に係る収音装置の処理を示すフローチャートである。It is a flowchart which shows the process of the sound collection device which concerns on 4th Embodiment. スペクトル減算法に係る構成を示すブロック図である。It is a block diagram which shows the structure which concerns on a spectrum subtraction method. 1個のマイクロホンアレイから指向性ビームを目的エリア方向に向けた状態を示す説明図である。It is explanatory drawing which shows the state which orient | assigned the directional beam to the target area direction from one microphone array. 2個のマイクロホンアレイを用い、別々の場所から指向性ビームを目的エリア方向に向けた状態を示す説明図である。It is explanatory drawing which shows the state which used two microphone arrays and directed the directional beam from the different places to the direction of the target area. 各マイクロホンアレイのBF出力信号と目的エリア音成分、非目的エリア音成分のスペクトルの違いを示す説明図である。It is explanatory drawing which shows the difference in the spectrum of BF output signal of each microphone array, a target area sound component, and a non-target area sound component. 各マイクロホンアレイのBF出力信号間の振幅スペクトルの比率をヒストグラムで示した説明図である。It is explanatory drawing which showed the ratio of the amplitude spectrum between BF output signals of each microphone array with the histogram.

(A)第1〜第4の実施形態に共通する技術思想
第1〜第4の実施形態では、まず目的エリアを含む空間内に複数のマイクロホンアレイを任意に配置し、BFにより目的エリア方向へ指向性ビームを形成する。例として2個のマイクロホンアレイの指向性ビームを目的エリアに向けたときのイメージを図17に示す。この状態では、各マイクロホンアレイ1、2のBFの指向性には目的エリア音方向の非目的エリア音成分が含まれている。しかし、目的エリアは、全てのマイクロホンアレイ1、2の指向性ビームに含まれている。そのため、目的エリア音成分は、図18(a)、(c)に示すように、全BFの出力信号に同じ割合、分布で含まれることになる。それと比較し非目的エリア音1、2の成分は、図18(b)、(d)に示すように、各マイクロホンアレイ1、2のBF出力信号毎に異なっている。第1〜第4の実施形態は、このような特徴を利用するものである。
(A) Technical idea common to the first to fourth embodiments In the first to fourth embodiments, first, a plurality of microphone arrays are arbitrarily arranged in a space including the target area, and the target area is directed by BF. Form a directional beam. As an example, FIG. 17 shows an image when the directional beams of two microphone arrays are directed to the target area. In this state, the BF directivity of each of the microphone arrays 1 and 2 includes a non-target area sound component in the target area sound direction. However, the target area is included in the directional beams of all microphone arrays 1 and 2. Therefore, as shown in FIGS. 18A and 18C, the target area sound component is included in the output signals of all BFs in the same ratio and distribution. In contrast, the components of the non-target area sounds 1 and 2 are different for the BF output signals of the microphone arrays 1 and 2 as shown in FIGS. The first to fourth embodiments utilize such features.

つまり、一方のマイクロホンアレイ1のBF出力信号からマイクロホンアレイ2のBF出力信号をSSすると、図18(e)において重なっている目的エリア音成分は消去される。このとき、非目的エリア音1と非目的エリア音2の成分は重ならないため、非目的エリア音1のみを抽出することができる。抽出した非目的エリア音1の成分をマイクロホンアレイ1のBF出力信号から更にSSすることにより、最終的に目的エリア音を抽出することができる。   That is, when the BF output signal of the microphone array 2 is SS from the BF output signal of one of the microphone arrays 1, the target area sound component overlapping in FIG. 18 (e) is deleted. At this time, since the components of the non-target area sound 1 and the non-target area sound 2 do not overlap, only the non-target area sound 1 can be extracted. By further SS processing the extracted component of the non-target area sound 1 from the BF output signal of the microphone array 1, the target area sound can be finally extracted.

この手法により目的エリア音を抽出するためには、各BF出力信号に目的エリア音成分のパワーが同じ大きさで含まれることが前提となる。しかし、通常、各BF出力信号の目的エリア音成分のパワーは、目的エリアと各マイクロホンアレイ1、2との距離の違いや、マイクロホンアレイ1及び2の間のゲインの違いによって変わってくる。   In order to extract the target area sound by this method, it is assumed that the power of the target area sound component is included in each BF output signal with the same magnitude. However, normally, the power of the target area sound component of each BF output signal varies depending on the difference in distance between the target area and each of the microphone arrays 1 and 2 and the difference in gain between the microphone arrays 1 and 2.

そこで、第1及び第2の実施形態では、まず各BF出力信号間で振幅スペクトルの比を求め、その比率の最頻値を算出する。前述のとおり、目的エリア音成分は、全てのBF出力信号に同じ割合、分布で含まれているため、目的エリア音成分の周波数では、比率が全て同じになる。逆に非目的エリア音成分は、各BF出力信号で異なるので比率にはばらつきがある。この特性から、全ての周波数毎の比率に対して最頻値を求めれば、その値がそのまま、各BF出力信号の目的エリア音成分のパワーが等しくなるように補正する係数となる。図19は、各マイクロホンアレイ1、2のBF出力信号間の振幅スペクトルの比率をヒストグラムで示した説明図である。図19(A)は、各マイクロホンアレイ1、2が目的エリアから等距離に配置されている場合である。目的エリアからの距離が同じため、入力される目的エリア音成分のパワーはほぼ等しく、比率の最頻値は1に近い値となっている。図19(B)は、マイクロホンアレイ1よりもマイクロホンアレイ2の方が目的エリアに近い場合である。目的エリアに近いマイクロホンアレイ2の方が目的エリア音成分のパワーが大きいため、比率の最頻値は1より小さい値となっていることが分かる。またパワー補正係数は、中央値を最頻値の近似として算出し求めることもできる。図19(A)及び(B)から分かるように、比率の分布は単峰であるので、中央値は最頻値と近い値になる。以上のように、第1及び第2の実施形態では、各BF出力信号間の振幅スペクトルの比率の最頻値もしくは中央値をパワー補正係数として算出する。算出したパワー補正係数を用い、各BF出力信号に含まれる目的エリア音成分のパワーが全て等しくなるように補正した後、上記手法により目的エリア音を抽出する。   Therefore, in the first and second embodiments, first, the ratio of the amplitude spectrum is obtained between the BF output signals, and the mode value of the ratio is calculated. As described above, since the target area sound component is included in all BF output signals in the same ratio and distribution, all the ratios are the same at the frequency of the target area sound component. On the contrary, the non-target area sound component differs in each BF output signal, so that the ratio varies. From this characteristic, if the mode value is obtained for the ratios for all frequencies, the value is used as it is as a coefficient for correcting the power of the target area sound component of each BF output signal to be equal. FIG. 19 is an explanatory diagram showing the ratio of the amplitude spectrum between the BF output signals of the microphone arrays 1 and 2 as a histogram. FIG. 19A shows a case where the microphone arrays 1 and 2 are arranged equidistant from the target area. Since the distance from the target area is the same, the powers of the input target area sound components are substantially equal, and the mode of the ratio is a value close to 1. FIG. 19B shows a case where the microphone array 2 is closer to the target area than the microphone array 1. It can be seen that the mode value of the ratio is smaller than 1 because the power of the target area sound component is larger in the microphone array 2 closer to the target area. The power correction coefficient can also be obtained by calculating the median value as an approximation of the mode value. As can be seen from FIGS. 19A and 19B, since the distribution of the ratio is unimodal, the median value is close to the mode value. As described above, in the first and second embodiments, the mode value or median value of the ratio of the amplitude spectrum between the BF output signals is calculated as the power correction coefficient. After correcting the power of all target area sound components included in each BF output signal using the calculated power correction coefficient, the target area sound is extracted by the above method.

また、第3及び第4の実施形態では、まず各BF出力信号のパワーの差の2乗が最小になる値を算出し、この最小値を目的エリア音成分のパワー補正係数とする。各BF出力信号の目的エリア音成分の分布は正規化すると同じになるため、各BF後のパワーの差が最小になったときが、目的エリア音成分のパワーが一致した状態であると考えられる。算出したパワー補正係数を用い、各BF出力信号に含まれる目的エリア音成分のパワーが全て等しくなるように補正した後、上記手法により目的エリア音を抽出する。   In the third and fourth embodiments, first, a value that minimizes the square of the power difference of each BF output signal is calculated, and this minimum value is used as the power correction coefficient of the target area sound component. Since the distribution of the target area sound component of each BF output signal becomes the same when normalized, it is considered that the power of the target area sound component matches when the difference in power after each BF is minimized. . After correcting the power of all target area sound components included in each BF output signal using the calculated power correction coefficient, the target area sound is extracted by the above method.

(B)第1の実施形態
以下では、本発明に係る収音装置及びプログラムの第1の実施形態を、図面を参照しながら詳細に説明する。
(B) First Embodiment Hereinafter, a first embodiment of a sound collection device and a program according to the present invention will be described in detail with reference to the drawings.

(B−1)第1の実施形態の構成
図1は、第1の実施形態に係る収音装置の構成を示すブロック図である。収音装置10Aにおける、デジタル信号に変換された後の処理構成を、CPUと、CPUが実行するプログラムで実現することもできるが、機能的には、図1で表すことができる。
(B-1) Configuration of First Embodiment FIG. 1 is a block diagram illustrating a configuration of a sound collection device according to the first embodiment. The processing configuration after being converted into a digital signal in the sound collection device 10A can be realized by a CPU and a program executed by the CPU, but can be functionally represented in FIG.

図1において、第1の実施形態に係る収音装置10Aは、マイクロホンアレイ1、マイクロホンアレイ2、データ入力部3、指向性形成部4、マイクロホンアレイ間遅延補正部5、目的エリア音パワー補正係数算出部6、目的エリア音抽出部7を備える。   In FIG. 1, a sound collection device 10A according to the first embodiment includes a microphone array 1, a microphone array 2, a data input unit 3, a directivity forming unit 4, an inter-microphone array delay correction unit 5, a target area sound power correction coefficient. A calculation unit 6 and a target area sound extraction unit 7 are provided.

マイクロホンアレイ1は、目的エリアが存在する空間の、目的エリアを指向できる場所に配置される。マイクロホンアレイ1は、2個以上のマイクロホンから構成され、各マイクロホンにより音響を収音し、音響信号を当該収音装置10Aのデータ入力部3に入力するものである。   The microphone array 1 is arranged at a location where the target area can be directed in the space where the target area exists. The microphone array 1 is composed of two or more microphones, collects sound by each microphone, and inputs an acoustic signal to the data input unit 3 of the sound collecting device 10A.

マイクロホンアレイ2は、マイクロホンアレイ1と同様の構成を有するものであり、マイクロホンアレイ1と異なる場所に配置される。   The microphone array 2 has the same configuration as the microphone array 1 and is arranged at a different location from the microphone array 1.

マイクロホンアレイ1、2を構成する複数個のマイクロホンの配置はBFを実行できる配置であれば良く、例えば、横一列、縦一列、十字状又は格子状のいずれかであっても良い。また、マイクロホンアレイの配置数は、2個以上であっても良い。   The arrangement of the plurality of microphones constituting the microphone arrays 1 and 2 may be any arrangement that can execute the BF, and may be, for example, one horizontal row, one vertical row, a cross shape, or a lattice shape. The number of microphone arrays may be two or more.

データ入力部3は、マイクロホンアレイ1、2で収音された音響信号をアナログ信号からデジタル信号(データ)に変換するものである。   The data input unit 3 converts an acoustic signal collected by the microphone arrays 1 and 2 from an analog signal to a digital signal (data).

指向性形成部4は、全てのマイクロホンアレイ1、2からの出力信号に基づいてBFにより目的エリアに向けた指向性ビームを形成するものである。BFは、加算型の遅延和法、減算型のSSなど各種手法を適用することができる。また、ターゲットとする目的エリアの範囲に応じて、指向性形成部4は指向性の強度を変更できる。   The directivity forming unit 4 forms a directional beam directed to a target area by BF based on output signals from all the microphone arrays 1 and 2. Various methods such as an addition type delay sum method and a subtraction type SS can be applied to the BF. Further, the directivity forming unit 4 can change the intensity of directivity according to the range of the target area as a target.

マイクロホンアレイ間遅延補正部5は、各マイクロホンアレイ1、2のBF後の出力において、目的エリア音が全てのマイクロホンアレイに同時に到達するように、目的エリアと各マイクロホンアレイの距離の違いにより発生する遅延を補正するものである。   The inter-microphone array delay correction unit 5 is generated by the difference in distance between the target area and each microphone array so that the target area sound reaches all the microphone arrays simultaneously in the output after BF of each microphone array 1 and 2. This is to correct the delay.

目的エリア音パワー補正係数算出部6は、各BF後のデータに含まれる目的エリア音成分のパワーを全て同じ大きさにするための補正係数を算出するものである。   The target area sound power correction coefficient calculation unit 6 calculates a correction coefficient for making the powers of the target area sound components included in the data after each BF all the same.

目的エリア音抽出部7は、目的エリア音パワー補正係数算出部6で算出した補正係数により補正した各BF出力データをSSし、目的エリア方向に存在する非目的エリア音を抽出する。さらに、目的エリア音抽出部7は、抽出した非目的エリア音を、各BF出力データからSSすることにより目的エリア音を抽出して出力するものである。   The target area sound extraction unit 7 extracts each BF output data corrected by the correction coefficient calculated by the target area sound power correction coefficient calculation unit 6 and extracts a non-target area sound existing in the target area direction. Furthermore, the target area sound extraction unit 7 extracts and outputs the target area sound by performing SS on the extracted non-target area sound from each BF output data.

図2は、目的エリア音抽出部7の構成を示すブロック図である。ここで、マイクロホンアレイ1、2のBF後の出力データをX(n)、X(n)とし、各BF出力データに対するパワー補正係数をα(n)、α(n)とする。また、マイクロホンアレイ1からみた目的エリア方向に存在する非目的エリア音成分をN(n)とし、マイクロホンアレイ2からみた目的エリア方向に存在する非目的エリア音成分をN(n)とする。 FIG. 2 is a block diagram showing the configuration of the target area sound extraction unit 7. Here, the output data after BF of the microphone arrays 1 and 2 are X 1 (n) and X 2 (n), and the power correction coefficients for each BF output data are α 1 (n) and α 2 (n). . Further, a non-target area sound component existing in the target area direction viewed from the microphone array 1 is N 1 (n), and a non-target area sound component existing in the target area direction viewed from the microphone array 2 is N 2 (n). .

この場合、目的エリア音抽出部7は、マイクロホンアレイ2のBF出力データXにパワー補正係数α(n)を掛けてSSを行い、マイクロホンアレイ1のBF出力データX(n)に含まれる目的エリア方向の非目的エリア音成分N(n)を抽出する。さらに、目的エリア音抽出部7は、マイクロホンアレイ1のBF出力データX(n)に対しN(n)をSSし、目的エリア音成分Y(n)を抽出する。 In this case, the target area sound extraction unit 7 performs SS by multiplying the BF output data X 2 of the microphone array 2 by the power correction coefficient α 1 (n), and is included in the BF output data X 1 (n) of the microphone array 1. The non-target area sound component N 1 (n) in the target area direction is extracted. Furthermore, the target area sound extraction unit 7 SSs N 1 (n) for the BF output data X 1 (n) of the microphone array 1 and extracts the target area sound component Y 1 (n).

目的エリア音成分Y(n)についても同様に、目的エリア音抽出部7は、マイクロホンアレイ1のBF出力データXにパワー補正係数α(n)を掛けてSSを行い、マイクロホンアレイ2のBF出力データX(n)に含まれる目的エリア方向の非目的エリア音成分N(n)を抽出する。さらに、目的エリア音抽出部7は、マイクロホンアレイ2のBF出力データX(n)に対しN(n)をSSし、目的エリア音成分Y(n)を抽出する。 Similarly for the target area sound component Y 2 (n), the target area sound extraction unit 7 performs SS by multiplying the BF output data X 1 of the microphone array 1 by the power correction coefficient α 2 (n), and performs microphone array 2. extracting the BF output data X 2 (n) non-target area sound object area direction included in the component n 2 (n). Further, the target area sound extraction unit 7 SS SSs N 2 (n) for the BF output data X 2 (n) of the microphone array 2 and extracts the target area sound component Y 2 (n).

(B−2)第1の実施形態の動作
次に、第1の実施形態に係る収音装置10Aの処理を説明する。図3は、第1の実施形態に係る収音装置10Aの処理を示すフローチャートである。
(B-2) Operation of the First Embodiment Next, processing of the sound collection device 10A according to the first embodiment will be described. FIG. 3 is a flowchart showing the processing of the sound collection device 10A according to the first embodiment.

目的エリアがある空間に存在する各種の音源からの音響は、マイクロホンアレイ1、2を構成するマイクロホンによって収音され、マイクロホンアレイ1、2で取得した音響信号がデータ入力部3に入力し、音響信号がデジタル信号に変換される(S1)。   Sounds from various sound sources existing in a space with a target area are picked up by the microphones constituting the microphone arrays 1 and 2, and the acoustic signals acquired by the microphone arrays 1 and 2 are input to the data input unit 3, The signal is converted into a digital signal (S1).

指向性形成部4は、全てのマイクロホンアレイ1、2の出力に対し、BFによって目的エリア方向へ指向性を形成する(S2)。   The directivity forming unit 4 forms directivity in the direction of the target area by BF with respect to the outputs of all the microphone arrays 1 and 2 (S2).

マイクロホンアレイ間遅延補正部5は、目的エリアと各マイクロホンアレイの距離の違いにより発生する遅延を補正する(S3)。   The inter-microphone array delay correcting unit 5 corrects a delay caused by a difference in distance between the target area and each microphone array (S3).

マイクロホンアレイ間遅延補正部5は、まず目的エリアの位置とマイクロホンアレイの位置から、各マイクロホンアレイへの目的エリア音の到達時間を算出する。そして、最も目的エリアから遠い位置に配置されたマイクロホンアレイを基準として、全てのマイクロホンアレイに目的エリア音が同時に到達するように遅延を加える。マイクロホンアレイ間遅延補正部5によるこの操作により、任意に配置した各マイクロホンアレイ1、2の出力データを同時に扱うことが可能となる。   The inter-microphone array delay correcting unit 5 first calculates the arrival time of the target area sound to each microphone array from the position of the target area and the position of the microphone array. Then, with reference to the microphone array arranged farthest from the target area, a delay is added so that the target area sound reaches all the microphone arrays simultaneously. This operation by the inter-microphone array delay correction unit 5 makes it possible to simultaneously handle output data of the microphone arrays 1 and 2 that are arbitrarily arranged.

目的エリア音パワー補正係数算出部6は、各マイクロホンアレイ1、2からのBF後の出力データに含まれる目的エリア音成分のパワーを全て同じにするための目的エリア音パワー補正係数を算出する(S4)。   The target area sound power correction coefficient calculation unit 6 calculates a target area sound power correction coefficient for making all the powers of the target area sound components included in the output data after BF from the microphone arrays 1 and 2 equal ( S4).

パワー補正係数を求めるために、目的エリア音パワー補正係数算出部6は、まず各BF出力データX、X間で振幅スペクトルの比率を求める。この際、指向性形成部4でBFを時間領域で行なっている場合には、各BF出力データを周波数領域に変換する。そして、目的エリア音パワー補正係数算出部6は、求めた比率から最頻値を算出し、その値をパワー補正係数とする((7)、(8)式)。または、目的エリア音パワー補正係数算出部6は、比率の中央値を算出し、パワー補正係数とすることもできる((9)、(10)式)。

Figure 0005482854
In order to obtain the power correction coefficient, the target area sound power correction coefficient calculation unit 6 first obtains the ratio of the amplitude spectrum between the BF output data X 1 and X 2 . At this time, if the directivity forming unit 4 performs BF in the time domain, each BF output data is converted to the frequency domain. Then, the target area sound power correction coefficient calculation unit 6 calculates the mode value from the obtained ratio, and sets the value as the power correction coefficient (Equations (7) and (8)). Alternatively, the target area sound power correction coefficient calculation unit 6 can also calculate the median of the ratios and use it as the power correction coefficient (Equations (9) and (10)).
Figure 0005482854

ここで、X1k(n)、X2k(n)はマイクロホンアレイ1、2のBF後の出力データ、Nは周波数ビンの総数、kは周波数、α(n)、α(n)は各BF出力に対するパワー補正係数である。目的エリア音パワー補正係数算出部6は、パワー補正係数を全て求める必要はなく、一方を求めたらもう一方を、その逆数としてもよい。つまり、目的エリア音パワー補正係数算出部6がα(n)を求めたら、もう一方のα(n)については、α(n)=1/α(n)とすることができる。 Here, X 1k (n), X 2k (n) are output data after BF of the microphone arrays 1 and 2, N is the total number of frequency bins, k is the frequency, α 1 (n), α 2 (n) are It is a power correction coefficient for each BF output. The target area sound power correction coefficient calculation unit 6 does not have to obtain all the power correction coefficients, and when one is obtained, the other may be the reciprocal thereof. That is, when the target area sound power correction coefficient calculation unit 6 calculates α 1 (n), α 2 (n) = 1 / α 1 (n) can be set for the other α 2 (n). .

目的エリア音抽出部7は、目的エリア音パワー補正係数算出部6で算出したパワー補正係数により補正した各BF出力データをSSし、目的エリア方向に存在する非目的エリア音を抽出する(S5)。さらに、目的エリア音抽出部7は、抽出した非目的エリア音を各BFの出力からSSすることにより目的エリア音を抽出する(S6)。マイクロホンアレイ1からみた目的エリア方向に存在する非目的エリア音N(n)を抽出するには、(11)式に示すように、マイクロホンアレイ1のBF出力X(n)からマイクロホンアレイ2のBF出力X(n)にパワー補正係数αを掛けたものをSSする。同様に(12)式に従い、マイクロホンアレイ2からみた目的エリア方向に存在する非目的エリア音N(n)を抽出する。

Figure 0005482854
The target area sound extraction unit 7 SS each BF output data corrected by the power correction coefficient calculated by the target area sound power correction coefficient calculation unit 6, and extracts the non-target area sound existing in the target area direction (S5). . Furthermore, the target area sound extraction unit 7 extracts the target area sound by performing SS on the extracted non-target area sound from the output of each BF (S6). In order to extract the non-target area sound N 1 (n) existing in the direction of the target area viewed from the microphone array 1, the microphone array 2 is obtained from the BF output X 1 (n) of the microphone array 1 as shown in the equation (11). SS is obtained by multiplying the BF output X 2 (n) by the power correction coefficient α 2 . Similarly, the non-target area sound N 2 (n) existing in the target area direction viewed from the microphone array 2 is extracted according to the equation (12).
Figure 0005482854

その後、目的エリア音抽出部7は、(13)式、(14)式に従い、各BF出力データから非目的エリア音をSSすることにより目的エリア音を抽出する。(13)式、(14)式のγ(n)、γ(n)はSS時の強度を変更するための係数である。

Figure 0005482854
Thereafter, the target area sound extraction unit 7 extracts the target area sound by SS of the non-target area sound from each BF output data according to the equations (13) and (14). In equations (13) and (14), γ 1 (n) and γ 2 (n) are coefficients for changing the strength at the time of SS.
Figure 0005482854

第1の実施形態の効果を示すために以下の実験を行った。   The following experiment was conducted to show the effect of the first embodiment.

図4は、マイクロホンアレイ1、2と音源の配置を示したものである。収音対象のエリアを一辺が2mの正方形とし、収音対象エリアを4つの区画に分けた。その内3つのエリアに、目的エリア音源1個と、非目的エリア音源を2個配置した。音源は全てヒトの声であり、これらをほぼ同じ音量で同時に再生し、マイクロホンアレイで録音した。マイクロホンアレイは2台使用し、それぞれ正面方向に目的エリア音源と非目的エリア音源が重なるように配置する。   FIG. 4 shows the arrangement of the microphone arrays 1 and 2 and the sound source. The area to be collected was a square with a side of 2 m, and the area to be collected was divided into four sections. One target area sound source and two non-target area sound sources were arranged in three areas. The sound sources were all human voices, and these were reproduced simultaneously at approximately the same volume and recorded with a microphone array. Two microphone arrays are used and arranged so that the target area sound source and the non-target area sound source overlap each other in the front direction.

図4(A)の配置パターン1では、各マイクロホンアレイ1、2に対し、目的エリア音源を非目的エリア音源の手前に配置した。また図4(B)の配置パターン2では、目的エリア音源を非目的エリア音源の奥に配置した。各マイクロホンアレイ1、2は、同数のマイクロホンから構成され、1台のマイクロホンアレイに使用したマイクロホンの数は2個とした。マイクロホン間隔は全て3cmとした。録音したデータを用い、本発明方式とマイクロホンアレイ単独でのBFの非目的エリア音の抑圧量を、計算機シミュレーションにより比較した。BFの手法は既存の減算型BF(非特許文献2参照)を用いた。   In the arrangement pattern 1 of FIG. 4A, the target area sound source is arranged in front of the non-target area sound source for each of the microphone arrays 1 and 2. 4B, the target area sound source is placed behind the non-target area sound source. Each of the microphone arrays 1 and 2 is composed of the same number of microphones, and the number of microphones used in one microphone array is two. All the microphone intervals were 3 cm. Using recorded data, the amount of suppression of non-target area sound of BF by the method of the present invention and the microphone array alone was compared by computer simulation. The existing subtractive BF (see Non-Patent Document 2) was used as the BF method.

非目的エリア音をどの程度抑圧できるのかをNoise Reduction Rate(NRR)を用いて評価した。   The extent to which non-target area sounds can be suppressed was evaluated using Noise Reduction Rate (NRR).

図5は、それぞれの配置パターンでの非目的エリア音の抑圧量を示したものである。図5(A)の配置パターン1では、本発明方式は、マイクロホンアレイ単独のBFに比べ、約3dB非目的エリア音の抑圧量が大きい。図5(B)の配置パターン2においても、本発明方式の方が、マイクロホンアレイ単独のBFよりも約3.6dB大きく抑圧できている。このように本実施形態によれば、目的エリア方向に存在する非目的エリア音を抑圧することができる。   FIG. 5 shows the suppression amount of the non-target area sound in each arrangement pattern. In the arrangement pattern 1 of FIG. 5A, the method of the present invention has a large suppression amount of about 3 dB non-target area sound compared to the BF of the microphone array alone. Also in the arrangement pattern 2 of FIG. 5 (B), the method of the present invention can suppress approximately 3.6 dB larger than the BF of the microphone array alone. Thus, according to the present embodiment, it is possible to suppress the non-target area sound existing in the target area direction.

(B−3)第1の実施形態の効果
第1の実施形態によれば、各BFの出力に含まれる目的エリア音成分の大きさを補正することにより目的エリア音を抽出するため、各マイクロホンアレイの位置を調整することなく、目的エリアが非目的エリア音源に囲まれている状況でも目的エリア昔のみを強調することができる。つまり複数のマイクロホンアレイを異なる方向に一度配置するだけで目的エリア音のみを強調することができる。
(B-3) Effect of First Embodiment According to the first embodiment, each microphone is extracted in order to extract a target area sound by correcting the magnitude of the target area sound component included in the output of each BF. Without adjusting the position of the array, it is possible to emphasize only the past target area even in a situation where the target area is surrounded by non-target area sound sources. That is, only the target area sound can be emphasized by arranging a plurality of microphone arrays once in different directions.

また、第1の実施形態によれば、指向性形成部が形成する指向性を変更することができるので、複数のマイクロホンアレイの位置などを変更することなく、目的エリアの変更にも容易に対応することができる。   Further, according to the first embodiment, the directivity formed by the directivity forming unit can be changed, so that it is possible to easily change the target area without changing the positions of a plurality of microphone arrays. can do.

さらに、第1の実施形態によれば、減算型BFを使用することができるため、1個のマイクロホンアレイを、少ないマイクロホンで構成することができる。   Furthermore, according to the first embodiment, since the subtractive BF can be used, one microphone array can be configured with a small number of microphones.

(C)第2の実施形態
第1の実施形態では、目的エリア音が抽出されたデータは、マイクロホンアレイの数だけ出力される。エリア収音装置を使用する際、これらのデータの中から最終的に1つのデータを選択して出力する状況が想定される。
(C) Second Embodiment In the first embodiment, data from which target area sounds are extracted is output by the number of microphone arrays. When using the area sound pickup device, a situation is assumed in which one data is finally selected and output from these data.

そこで第2の実施形態は、目的エリアと各マイクロホンアレイの距離や、目的エリア音と非目的エリア音のSNの比を特徴量として利用し、最も目的エリア音が強調されているデータを選択する出力データ選択部を備える。   Accordingly, in the second embodiment, the distance between the target area and each microphone array and the SN ratio of the target area sound and the non-target area sound are used as feature amounts to select data in which the target area sound is most emphasized. An output data selection unit is provided.

以下、本発明に係る収音装置及びプログラムの第2の実施形態を、図面を参照して説明する。   Hereinafter, a second embodiment of a sound collecting device and a program according to the present invention will be described with reference to the drawings.

(C−1)第2の実施形態の構成
図6は、第2の実施形態に係る収音装置の構成を示すブロック図である。図6において、第2の実施形態に係る収音装置10Bは、マイクロホンアレイ1、マイクロホンアレイ2、データ入力部3、指向性形成部4、マイクロホンアレイ間遅延補正部5、目的エリア音パワー補正係数算出部6、目的エリア音抽出部7、出力データ選択部8を備える。
(C-1) Configuration of Second Embodiment FIG. 6 is a block diagram showing a configuration of a sound collection device according to the second embodiment. In FIG. 6, the sound collection device 10B according to the second embodiment includes a microphone array 1, a microphone array 2, a data input unit 3, a directivity forming unit 4, an inter-microphone array delay correction unit 5, and a target area sound power correction coefficient. A calculation unit 6, a target area sound extraction unit 7, and an output data selection unit 8 are provided.

第2の実施形態に係る収音装置10Bは、第1の実施形態で説明した構成要素に加えて、目的エリア音抽出部7の後段に出力データ選択部8を備える。   The sound collection device 10B according to the second embodiment includes an output data selection unit 8 subsequent to the target area sound extraction unit 7 in addition to the components described in the first embodiment.

出力データ選択部8は、目的エリア音抽出部7の出力の中から、目的エリアと各マイクロホンアレイ1、2との距離もしくはSN比を、目的エリア音強調の指標とし、最も目的エリア音が強調されているデータを選択するものである。   The output data selection unit 8 uses the distance or S / N ratio between the target area and each of the microphone arrays 1 and 2 from the output of the target area sound extraction unit 7 as an index of the target area sound enhancement, and the target area sound is most emphasized. The selected data is selected.

(C−2)第2の実施形態の動作
次に、第2の実施形態に係る収音装置10Bの処理を説明する。図7は、第2の実施形態に係る収音装置10Bの処理を示すフローチャートである。図7において、S1〜S6の処理は図3のS1〜S6の処理と同様である。
(C-2) Operation of the Second Embodiment Next, processing of the sound collection device 10B according to the second embodiment will be described. FIG. 7 is a flowchart showing the processing of the sound collection device 10B according to the second embodiment. In FIG. 7, the process of S1-S6 is the same as the process of S1-S6 of FIG.

出力データ選択部8は、目的エリア音抽出部7で目的エリア音を抽出した複数個のデータから、最も目的エリア音が強調されているデータを選択する(S7)。   The output data selection unit 8 selects data in which the target area sound is most emphasized from the plurality of data extracted by the target area sound extraction unit 7 (S7).

出力データ選択部8は、目的エリア音強調の指標を、目的エリアとマイクロホンアレイ1、2との間の距離として、距離が最も近いものを出力データとして選択する。もしくは、SN比(この場合はY(n)/N(n))を目的エリア音強調の指標とし、出力データ選択部8は最もSN比が良いものを選択する。さらに、出力データ選択部8は、これらの指標を組み合わせて選択することもできる。 The output data selection unit 8 selects the target area sound enhancement index as the distance between the target area and the microphone arrays 1 and 2 and outputs the closest distance as the output data. Alternatively, the SN ratio (in this case, Y i (n) / N i (n)) is used as an index for the target area sound enhancement, and the output data selection unit 8 selects the one with the best SN ratio. Furthermore, the output data selection unit 8 can also select a combination of these indices.

(C−3)第2の実施形態の効果
第2の実施形態によれば、第1の実施形態の効果に加えて、複数存在する目的エリア音が抽出されたデータの中から、最も目的エリア音が強調されたデータを選択し、出力することが可能になる。
(C-3) Effects of the Second Embodiment According to the second embodiment, in addition to the effects of the first embodiment, the target area is the most out of the data in which a plurality of target area sounds are extracted. Data with enhanced sound can be selected and output.

(D)第1及び第2の実施形態の変形実施形態
上記第1及び第2の実施形態では、マイクロホンアレイが2個の場合を示したが、マイクロホンアレイは3個以上あってもよい。この場合において(7)〜(14)の各数式は、以下の様に拡張できる。ここでMはマイクロホンアレイの総数である。

Figure 0005482854
(D) Modified Embodiments of First and Second Embodiments In the first and second embodiments described above, the case where there are two microphone arrays is shown, but there may be three or more microphone arrays. In this case, the equations (7) to (14) can be expanded as follows. Here, M is the total number of microphone arrays.
Figure 0005482854

(E)第3の実施形態
以下では、本発明に係る収音装置及びプログラムの第3の実施形態を、図面を参照して詳細に説明する。
(E) Third Embodiment Hereinafter, a third embodiment of the sound collection device and the program according to the present invention will be described in detail with reference to the drawings.

(E−1)第3の実施形態の構成
図8は、第3の実施形態に係る収音装置の構成を示すブロック図である。収音装置10Cにおける、デジタル信号に変換された後の処理構成を、CPUと、CPUが実行するプログラムで実現することもできるが、機能的には、図8で表すことができる。
(E-1) Configuration of Third Embodiment FIG. 8 is a block diagram showing a configuration of a sound collection device according to the third embodiment. The processing configuration after being converted into a digital signal in the sound collecting device 10C can be realized by a CPU and a program executed by the CPU, but can be functionally represented by FIG.

第3の実施形態に係る収音装置10Cは、マイクロホンアレイ1、マイクロホンアレイ2、データ入力部3、指向性形成部4、マイクロホンアレイ間遅延補正部5、目的エリア音パワー補正係数算出部9、目的エリア音抽出部7を備える。   The sound collection device 10C according to the third embodiment includes a microphone array 1, a microphone array 2, a data input unit 3, a directivity forming unit 4, an inter-microphone array delay correction unit 5, a target area sound power correction coefficient calculation unit 9, A target area sound extraction unit 7 is provided.

マイクロホンアレイ1は、目的エリアが存在する空間の、目的エリアを指向できる場所に配置される。マイクロホンアレイ1は、2個以上のマイクロホンから構成され、各マイクロホンにより音響を収音し、音響信号を当該収音装置10Aのデータ入力部3に入力するものである。   The microphone array 1 is arranged at a location where the target area can be directed in the space where the target area exists. The microphone array 1 is composed of two or more microphones, collects sound by each microphone, and inputs an acoustic signal to the data input unit 3 of the sound collecting device 10A.

マイクロホンアレイ2は、マイクロホンアレイ1と同様の構成を有するものであり、マイクロホンアレイ1と異なる場所に配置される。   The microphone array 2 has the same configuration as the microphone array 1 and is arranged at a different location from the microphone array 1.

マイクロホンアレイ1、2を構成する複数個のマイクロホンの配置はBFを実行できる配置であれば良く、例えば、横一列、縦一列、十字状又は格子状のいずれかであっても良い。また、マイクロホンアレイの配置数は、2個以上であっても良い。   The arrangement of the plurality of microphones constituting the microphone arrays 1 and 2 may be any arrangement that can execute the BF, and may be, for example, one horizontal row, one vertical row, a cross shape, or a lattice shape. The number of microphone arrays may be two or more.

データ入力部3は、マイクロホンアレイ1、2で収音された音響信号をアナログ信号からデジタル信号(データ)に変換するものである。   The data input unit 3 converts an acoustic signal collected by the microphone arrays 1 and 2 from an analog signal to a digital signal (data).

指向性形成部4は、全てのマイクロホンアレイ1、2からの出力信号に基づいてBFにより目的エリアに向けた指向性ビームを形成するものである。BFは、加算型の遅延和法、減算型のSSなど各種手法を適用することができる。また、ターゲットとする目的エリアの範囲に応じて、指向性形成部4は指向性の強度を変更できる。   The directivity forming unit 4 forms a directional beam directed to a target area by BF based on output signals from all the microphone arrays 1 and 2. Various methods such as an addition type delay sum method and a subtraction type SS can be applied to the BF. Further, the directivity forming unit 4 can change the intensity of directivity according to the range of the target area as a target.

マイクロホンアレイ間遅延補正部5は、各マイクロホンアレイ1、2のBF後の出力において、目的エリア音が全てのマイクロホンアレイに同時に到達するように、目的エリアと各マイクロホンアレイの距離の違いにより発生する遅延を補正するものである。   The inter-microphone array delay correction unit 5 is generated by the difference in distance between the target area and each microphone array so that the target area sound reaches all the microphone arrays simultaneously in the output after BF of each microphone array 1 and 2. This is to correct the delay.

目的エリア音パワー補正係数算出部9は、各BF後のデータに含まれる目的エリア音成分のパワーを全て同じ大きさにするためのパワー補正係数を算出するものである。つまり、目的エリア音パワー補正係数算出部9は、各マイクロホンアレイ1、2のBF出力のパワーの差の2乗を最も小さくする係数を算出し、これをパワー補正係数とする。   The target area sound power correction coefficient calculation unit 9 calculates a power correction coefficient for making all the powers of the target area sound components included in the data after each BF the same. That is, the target area sound power correction coefficient calculation unit 9 calculates a coefficient that minimizes the square of the power difference between the BF outputs of the microphone arrays 1 and 2 and sets this as the power correction coefficient.

目的エリア音抽出部7は、目的エリア音パワー補正係数算出部9で算出したパワー補正係数により補正した各BF出力データをSSし、目的エリア方向に存在する非目的エリア音を抽出する。さらに、目的エリア音抽出部7は、抽出した非目的エリア音を、各BF出力データからSSすることにより目的エリア音を抽出して出力するものである。   The target area sound extraction unit 7 extracts each BF output data corrected by the power correction coefficient calculated by the target area sound power correction coefficient calculation unit 9 and extracts a non-target area sound existing in the direction of the target area. Furthermore, the target area sound extraction unit 7 extracts and outputs the target area sound by performing SS on the extracted non-target area sound from each BF output data.

図2は、目的エリア音抽出部7の構成を示すブロック図である。ここで、マイクロホンアレイ1、2のBF後の出力データをX(n)、X(n)とし、各BF出力データに対するパワー補正係数をα(n)、α(n)とする。また、マイクロホンアレイ1からみた目的エリア方向に存在する非目的エリア音成分をN(n)とし、マイクロホンアレイ2からみた目的エリア方向に存在する非目的エリア音成分をN(n)とする。 FIG. 2 is a block diagram showing the configuration of the target area sound extraction unit 7. Here, the output data after BF of the microphone arrays 1 and 2 are X 1 (n) and X 2 (n), and the power correction coefficients for each BF output data are α 1 (n) and α 2 (n). . Further, a non-target area sound component existing in the target area direction viewed from the microphone array 1 is N 1 (n), and a non-target area sound component existing in the target area direction viewed from the microphone array 2 is N 2 (n). .

この場合、目的エリア音抽出部7は、マイクロホンアレイ2のBF出力データXにパワー補正係数α(n)を掛けてSSを行い、マイクロホンアレイ1のBF出力データX(n)に含まれる目的エリア方向の非目的エリア音成分N(n)を抽出する。さらに、目的エリア音抽出部7は、マイクロホンアレイ1のBF出力データX(n)に対しN(n)をSSし、目的エリア音成分Y(n)を抽出する。 In this case, the target area sound extraction unit 7 performs SS by multiplying the BF output data X 2 of the microphone array 2 by the power correction coefficient α 1 (n), and is included in the BF output data X 1 (n) of the microphone array 1. The non-target area sound component N 1 (n) in the target area direction is extracted. Furthermore, the target area sound extraction unit 7 SSs N 1 (n) for the BF output data X 1 (n) of the microphone array 1 and extracts the target area sound component Y 1 (n).

目的エリア音成分Y(n)についても同様に、目的エリア音抽出部7は、マイクロホンアレイ1のBF出力データXにパワー補正係数α(n)を掛けてSSを行い、マイクロホンアレイ2のBF出力データX(n)に含まれる目的エリア方向の非目的エリア音成分N(n)を抽出する。さらに、目的エリア音抽出部7は、マイクロホンアレイ2のBF出力データX(n)に対しN(n)をSSし、目的エリア音成分Y(n)を抽出する。 Similarly for the target area sound component Y 2 (n), the target area sound extraction unit 7 performs SS by multiplying the BF output data X 1 of the microphone array 1 by the power correction coefficient α 2 (n), and performs microphone array 2. extracting the BF output data X 2 (n) non-target area sound object area direction included in the component n 2 (n). Further, the target area sound extraction unit 7 SS SSs N 2 (n) for the BF output data X 2 (n) of the microphone array 2 and extracts the target area sound component Y 2 (n).

(E−2)第3の実施形態の動作
次に、実施形態に係る収音装置の動作を説明する。図9は、第3の実施形態に係る収音装置10Cの処理を示すフローチャートである。
(E-2) Operation of the Third Embodiment Next, the operation of the sound collection device according to the embodiment will be described. FIG. 9 is a flowchart showing processing of the sound collecting device 10C according to the third embodiment.

目的エリアがある空間に存在する各種の音源からの音響は、マイクロホンアレイ1、2を構成するマイクロホンによって収音され、マイクロホンアレイ1、2で取得した音響信号がデータ入力部3に入力し、音響信号がデジタル信号に変換される(S1)。   Sounds from various sound sources existing in a space with a target area are picked up by the microphones constituting the microphone arrays 1 and 2, and the acoustic signals acquired by the microphone arrays 1 and 2 are input to the data input unit 3, The signal is converted into a digital signal (S1).

指向性形成部4は、全てのマイクロホンアレイ1、2の出力に対し、BFによって目的エリア方向へ指向性を形成する(S2)。   The directivity forming unit 4 forms directivity in the direction of the target area by BF with respect to the outputs of all the microphone arrays 1 and 2 (S2).

マイクロホンアレイ間遅延補正部5は、目的エリアと各マイクロホンアレイの距離の違いにより発生する遅延を補正する(S3)。   The inter-microphone array delay correcting unit 5 corrects a delay caused by a difference in distance between the target area and each microphone array (S3).

マイクロホンアレイ間遅延補正部5は、まず目的エリアの位置とマイクロホンアレイの位置から、各マイクロホンアレイへの目的エリア音の到達時間を算出する。そして、最も目的エリアから遠い位置に配置されたマイクロホンアレイを基準として、全てのマイクロホンアレイに目的エリア音が同時に到達するように遅延を加える。マイクロホンアレイ間遅延補正部5によるこの操作により、任意に配置した各マイクロホンアレイ1、2の出力データを同時に扱うことが可能となる。   The inter-microphone array delay correcting unit 5 first calculates the arrival time of the target area sound to each microphone array from the position of the target area and the position of the microphone array. Then, with reference to the microphone array disposed farthest from the target area, a delay is added so that the target area sound reaches all the microphone arrays simultaneously. This operation by the inter-microphone array delay correction unit 5 makes it possible to simultaneously handle output data of the microphone arrays 1 and 2 that are arbitrarily arranged.

目的エリア音パワー補正係数算出部9は、マイクロホンアレイ1、2からの各BF出力データに含まれる目的エリア音成分のパワーを全て同じにするためのパワー補正係数を算出する。この際、目的エリア音パワー補正係数算出部9は、各マイクロホンアレイ1、2のBF後の出力の差が最も小さくなるように目的エリア音パワー補正係数を更新する(S14)。   The target area sound power correction coefficient calculation unit 9 calculates a power correction coefficient for making all the powers of the target area sound components included in the BF output data from the microphone arrays 1 and 2 the same. At this time, the target area sound power correction coefficient calculation unit 9 updates the target area sound power correction coefficient so that the difference between the outputs after BF of the microphone arrays 1 and 2 becomes the smallest (S14).

図10は、目的エリア音パワー補正係数算出部9の構成を示すブロック図である。目的エリア音パワー補正係数算出部9は、パワー補正係数を求めるために、(19)式、(20)式に従い、2個のマイクロホンアレイ1、2のBF後出力のパワーの差の2乗した評価関数の値を算出する。この際、指向性形成部4でBFを時間領域で行なっている場合は、目的エリア音パワー補正係数算出部9はBF後出力データを周波数領域に変換する。

Figure 0005482854
FIG. 10 is a block diagram showing the configuration of the target area sound power correction coefficient calculation unit 9. The target area sound power correction coefficient calculation unit 9 squares the power difference between the outputs after BF of the two microphone arrays 1 and 2 according to the expressions (19) and (20) in order to obtain the power correction coefficient. The value of the evaluation function is calculated. At this time, if the directivity forming unit 4 performs BF in the time domain, the target area sound power correction coefficient calculation unit 9 converts the post-BF output data into the frequency domain.
Figure 0005482854

ここで、X1k(n)、X2k(n)はマイクロホンアレイ1、2のBF後出力データ、Nは周波数ビンの総数、kは周波数、α(n)、α(n)は各BF出力に対するパワー補正係数である。 Here, X 1k (n) and X 2k (n) are output data after BF of the microphone arrays 1 and 2, N is the total number of frequency bins, k is the frequency, and α 1 (n) and α 2 (n) are each This is a power correction coefficient for the BF output.

目的エリア音パワー補正係数算出部9は、評価関数J(n),J(n)の値が最も小さくなるように、(21)式、(22)式に従い、パワー補正係数α(n)、α(n)を更新する。ρは学習係数である。計算量を減らすために、目的エリア音パワー補正係数算出部9は、一方のパワー補正係数を先に求め、他方のパワー補正係数を、一方のパワー補正係数の逆数としても良い。

Figure 0005482854
Destination area sound power correction coefficient calculator 9, the evaluation function J 1 (n), such that the value of J 2 (n) is the smallest, (21), in accordance with (22), the power correction coefficient alpha 1 ( n), α 2 (n) is updated. ρ is a learning coefficient. In order to reduce the amount of calculation, the target area sound power correction coefficient calculation unit 9 may obtain one power correction coefficient first, and the other power correction coefficient may be the reciprocal of one power correction coefficient.
Figure 0005482854

目的エリア音抽出部7は、目的エリア音パワー補正係数算出部6で算出した補正係数により補正した各BF出力データをSSし、目的エリア方向に存在する非目的エリア音を抽出する(S5)。さらに、目的エリア音抽出部7は、抽出した非目的エリア音を各BFの出力データからSSすることにより目的エリア音を抽出する(S6)。   The target area sound extraction unit 7 SS SS each BF output data corrected by the correction coefficient calculated by the target area sound power correction coefficient calculation unit 6 and extracts a non-target area sound existing in the target area direction (S5). Furthermore, the target area sound extraction unit 7 extracts the target area sound by performing SS on the extracted non-target area sound from the output data of each BF (S6).

マイクロホンアレイ1からみた目的エリア方向に存在する非目的エリア音N(n)を抽出するには、(11)式に示すように、マイクロホンアレイ1のBF出力X(n)からマイクロホンアレイ2のBF出力X(n)にパワー補正係数αを掛けたものをSSする。同様に(12)式に従い、マイクロホンアレイ2からみた目的エリア方向に存在する非目的エリア音N(n)を抽出する。 In order to extract the non-target area sound N 1 (n) existing in the direction of the target area viewed from the microphone array 1, the microphone array 2 is obtained from the BF output X 1 (n) of the microphone array 1 as shown in the equation (11). SS is obtained by multiplying the BF output X 2 (n) by the power correction coefficient α 2 . Similarly, the non-target area sound N 2 (n) existing in the target area direction viewed from the microphone array 2 is extracted according to the equation (12).

その後、目的エリア音抽出部7は、(13)式、(14)式に従い、各BF出力データから非目的エリア音をSSすることにより目的エリア音を抽出する。(13)式、(14)式のγ(n)、γ(n)はSS時の強度を変更するための係数である。 Thereafter, the target area sound extraction unit 7 extracts the target area sound by SS of the non-target area sound from each BF output data according to the equations (13) and (14). In equations (13) and (14), γ 1 (n) and γ 2 (n) are coefficients for changing the strength at the time of SS.

第3の実施形態の効果を示すために以下の実験を行った。   The following experiment was conducted to show the effect of the third embodiment.

図11は、マイクロホンアレイ1、2と音源の配置を示したものである。収音対象のエリアを一辺が2mの正方形とし、収音対象エリアを4つの区画に分けた。その内3つのエリアに、目的エリア音源1個と、非目的エリア音源を2個配置した。音源は全てヒトの声であり、これらをほぼ同じ音量で同時に再生し、マイクロホンアレイで録音した。マイクロホンアレイは2台使用し、それぞれ正面方向に目的エリア音源と非目的エリア音源が重なるように配置する。   FIG. 11 shows the arrangement of the microphone arrays 1 and 2 and the sound source. The area to be collected was a square with a side of 2 m, and the area to be collected was divided into four sections. One target area sound source and two non-target area sound sources were arranged in three areas. The sound sources were all human voices, and these were reproduced simultaneously at approximately the same volume and recorded with a microphone array. Two microphone arrays are used and arranged so that the target area sound source and the non-target area sound source overlap each other in the front direction.

図11(A)の配置パターン1では、各マイクロホンアレイ1、2に対し、目的エリア音源を非目的エリア音源の手前に配置した。また図11(B)の配置パターン2では、目的エリア音源を非目的エリア音源の奥に配置した。各マイクロホンアレイ1、2は、同数のマイクロホンから構成され、1台のマイクロホンアレイに使用したマイクロホンの数は2個とした。マイクロホン間隔は全て3cmとした。録音したデータを用い、本発明方式とマイクロホンアレイ単独でのBFの非目的エリア音の抑圧量を、計算機シミュレーションにより比較した。BFの手法は既存の減算型BF(非特許文献2参照)を用いた。   In the arrangement pattern 1 of FIG. 11A, the target area sound source is arranged in front of the non-target area sound source for each of the microphone arrays 1 and 2. Further, in the arrangement pattern 2 of FIG. 11B, the target area sound source is arranged behind the non-target area sound source. Each of the microphone arrays 1 and 2 is composed of the same number of microphones, and the number of microphones used in one microphone array is two. All the microphone intervals were 3 cm. Using recorded data, the amount of suppression of non-target area sound of BF by the method of the present invention and the microphone array alone was compared by computer simulation. The existing subtractive BF (see Non-Patent Document 2) was used as the BF method.

非目的エリア音をどの程度抑圧できるのかをNoise Reduction Rate(NRR)を用いて評価した。   The extent to which non-target area sounds can be suppressed was evaluated using Noise Reduction Rate (NRR).

図12は、それぞれの配置パターンでの非目的エリア音の抑圧量を示したものである。図12(A)の配置パターン1では、本発明方式は、マイクロホンアレイ単独のBFに比べ、約4dB非目的エリア音の抑圧量が大きい。図12(B)の配置パターン2においても、本発明方式の方が、マイクロホンアレイ単独のBFよりも約5.5dB大きく抑圧できている。このように、第3の実施形態によれば、目的エリア方向に存在する非目的エリア音を抑圧することができる。   FIG. 12 shows the suppression amount of the non-target area sound in each arrangement pattern. In the arrangement pattern 1 of FIG. 12A, the method of the present invention has a large suppression amount of about 4 dB non-target area sound compared to the BF of the microphone array alone. Also in the arrangement pattern 2 of FIG. 12B, the method of the present invention can suppress approximately 5.5 dB larger than the BF of the microphone array alone. Thus, according to the third embodiment, it is possible to suppress the non-target area sound existing in the target area direction.

(E−3)第3の実施形態の効果
第3の実施形態によれば、各BFの出力に含まれる目的エリア音成分の大きさを補正することにより目的エリア音を抽出するため、各マイクロホンアレイの位置を調整することなく、目的エリアが非目的エリア音源に囲まれている状況でも目的エリア昔のみを強調することができる。つまり複数のマイクロホンアレイを異なる方向に一度配置するだけで目的エリア音のみを強調することができる。
(E-3) Effects of the Third Embodiment According to the third embodiment, each microphone is used to extract the target area sound by correcting the magnitude of the target area sound component included in the output of each BF. Without adjusting the position of the array, it is possible to emphasize only the past target area even in a situation where the target area is surrounded by non-target area sound sources. That is, only the target area sound can be emphasized by arranging a plurality of microphone arrays once in different directions.

また、第3の実施形態によれば、指向性形成部が形成する指向性を変更することができるので、複数のマイクロホンアレイの位置などを変更することなく、目的エリアの変更にも容易に対応することができる。   Further, according to the third embodiment, since the directivity formed by the directivity forming unit can be changed, it is possible to easily change the target area without changing the positions of a plurality of microphone arrays. can do.

さらに、第3の実施形態によれば、減算型BFを使用することができるため、1個のマイクロホンアレイを、少ないマイクロホンで構成することができる。   Furthermore, according to the third embodiment, since the subtractive BF can be used, one microphone array can be configured with a small number of microphones.

(F)第4の実施形態
第3の実施形態では、目的エリア音が抽出されたデータは、マイクロホンアレイの数だけ出力される。エリア収音装置を使用する際、これらのデータの中から最終的に1つのデータを選択して出力する状況が想定される。そこで第4の実施形態は、目的エリアと各マイクロホンアレイの距離や、目的エリア音と非目的エリア音のSNの比を特徴量として利用し、最も目的エリア音が強調されているデータを選択する出力データ選択部を備える。
(F) Fourth Embodiment In the third embodiment, data from which target area sounds are extracted is output by the number of microphone arrays. When using the area sound pickup device, a situation is assumed in which one data is finally selected and output from these data. Accordingly, in the fourth embodiment, the distance between the target area and each microphone array and the SN ratio of the target area sound and the non-target area sound are used as feature amounts to select data in which the target area sound is most emphasized. An output data selection unit is provided.

以下、本発明による収音装置及びプログラムの第4の実施形態を図面を参照して説明する。   Hereinafter, a fourth embodiment of a sound collecting apparatus and a program according to the present invention will be described with reference to the drawings.

(F−1)第4の実施形態の構成
図13は、第4の実施形態に係る収音装置の構成を示すブロック図である。図13において、第4の実施形態に係る収音装置10Dは、マイクロホンアレイ1、マイクロホンアレイ2、データ入力部3、指向性形成部4、マイクロホンアレイ間遅延補正部5、目的エリア音パワー補正係数算出部9、目的エリア音抽出部7、出力データ選択部8を備える。
(F-1) Configuration of Fourth Embodiment FIG. 13 is a block diagram illustrating a configuration of a sound collection device according to the fourth embodiment. In FIG. 13, a sound collection device 10D according to the fourth embodiment includes a microphone array 1, a microphone array 2, a data input unit 3, a directivity forming unit 4, an inter-microphone array delay correction unit 5, a target area sound power correction coefficient. A calculation unit 9, a target area sound extraction unit 7, and an output data selection unit 8 are provided.

第4の実施形態に係る収音装置10Dは、第3の実施形態で説明した構成要素に加えて、目的エリア音抽出部7の後段に出力データ選択部8を備える。   The sound collection device 10D according to the fourth embodiment includes an output data selection unit 8 at the subsequent stage of the target area sound extraction unit 7 in addition to the components described in the third embodiment.

出力データ選択部8は、目的エリア音抽出部7の出力の中から、目的エリアと各マイクロホンアレイ1、2との距離もしくはSN比を、目的エリア音強調の指標とし、最も目的エリア音が強調されているデータを選択するものである。   The output data selection unit 8 uses the distance or S / N ratio between the target area and each of the microphone arrays 1 and 2 from the output of the target area sound extraction unit 7 as an index of the target area sound enhancement, and the target area sound is most emphasized. The selected data is selected.

(F−2)第4の実施形態の動作
次に、第4の実施形態に係る収音装置10Dの処理を説明する。図14は、第4の実施形態に係る収音装置10Dの処理を示すフローチャートである。図14において、S1、S2、S3、S14、S5、S6の処理は図9のS1、S2、S3、S14、S5、S6の処理と同様である。
(F-2) Operation of Fourth Embodiment Next, processing of the sound collection device 10D according to the fourth embodiment will be described. FIG. 14 is a flowchart showing the processing of the sound collection device 10D according to the fourth embodiment. In FIG. 14, the processes of S1, S2, S3, S14, S5, and S6 are the same as the processes of S1, S2, S3, S14, S5, and S6 of FIG.

出力データ選択部8は、目的エリア音抽出部7で目的エリア音を抽出した複数個のデータから、最も目的エリア音が強調されているデータを選択する(S7)。   The output data selection unit 8 selects data in which the target area sound is most emphasized from the plurality of data extracted by the target area sound extraction unit 7 (S7).

出力データ選択部8は、目的エリア音強調の指標を、目的エリアとマイクロホンアレイ1、2との間の距離として、距離が最も近いものを出力データとして選択する。もしくは、SN比(この場合はY(n)/N(n))を目的エリア音強調の指標とし、出力データ選択部8は最もSN比が良いものを選択する。さらに、出力データ選択部8は、これらの指標を組み合わせて選択することもできる。 The output data selection unit 8 selects the target area sound enhancement index as the distance between the target area and the microphone arrays 1 and 2 and outputs the closest distance as the output data. Alternatively, the SN ratio (in this case, Y i (n) / N i (n)) is used as an index for the target area sound enhancement, and the output data selection unit 8 selects the one with the best SN ratio. Furthermore, the output data selection unit 8 can also select a combination of these indices.

(F−3)第4の実施形態の効果
第4の実施形態によれば、第3の実施形態の効果に加えて、複数存在する目的エリア音が抽出されたデータの中から、最も目的エリア音が強調されたデータを選択し、出力することが可能になる。
(F-3) Effect of the fourth embodiment According to the fourth embodiment, in addition to the effect of the third embodiment, the target area is the most out of the data from which a plurality of target area sounds are extracted. Data with enhanced sound can be selected and output.

(G)第3及び第4の実施形態の変形実施形態
上記第3及び第4の実施形態では、マイクロホンアレイが2つのものを示したが、マイクロホンアレイは3個以上あってもよい。この場合において(19)〜(22)の各数式は、以下の様に拡張できる。ここでMはマイクロホンアレイの総数である。

Figure 0005482854
(G) Modified Embodiment of Third and Fourth Embodiments In the third and fourth embodiments, two microphone arrays are shown, but there may be three or more microphone arrays. In this case, the equations (19) to (22) can be expanded as follows. Here, M is the total number of microphone arrays.
Figure 0005482854

(H)他の実施形態
上記各実施形態では、マイクロホンアレイが捕捉して得た音響信号をリアルタイムに処理するものを示したが、マイクロホンアレイが捕捉して得た音響信号を記憶媒体に記憶させ、その後、記憶媒体から読み出して処理して目的エリア音の強調信号を得るようにしても良い。このように記憶媒体を利用する場合には、マイクロホンアレイが設定されている場所と、強調処理をする場所とが離れていても良い。同様に、リアルタイムに処理する場合にも、マイクロホンアレイが設定されている場所と、強調処理する場所とが離れていても良く、通信により信号を遠隔地に供給するようにしても良い。以上のような記憶媒体や通信を利用したりする場合も、本発明の「収音装置」の概念に含まれるものとする。
(H) Other Embodiments In each of the above embodiments, the acoustic signal obtained by the microphone array is shown in real time. However, the acoustic signal obtained by the microphone array is stored in a storage medium. Thereafter, the enhancement signal of the target area sound may be obtained by reading out from the storage medium and processing. When the storage medium is used in this way, the place where the microphone array is set and the place where the enhancement processing is performed may be separated from each other. Similarly, when processing in real time, the place where the microphone array is set and the place where the emphasis processing is performed may be separated from each other, and the signal may be supplied to a remote place by communication. The case where the above storage medium or communication is used is also included in the concept of the “sound collecting device” of the present invention.

10A、10B、10C、10D…収音装置、
1…マイクロホンアレイ、2…マクロホンアレイ、3…データ入力部、
4…指向性形成部、5…マイクロホンアレイ間遅延補正部、
6及び9…目的エリア音パワー補正係数算出部、7…目的エリア音抽出部。
10A, 10B, 10C, 10D ... sound collecting device,
1 ... microphone array, 2 ... macrophone array, 3 ... data input unit,
4 ... directivity forming part, 5 ... delay correction part between microphone arrays,
6 and 9: a target area sound power correction coefficient calculation unit, 7: a target area sound extraction unit.

Claims (5)

複数のマイクロホンアレイと、
上記各マイクロホンアレイの出力に対し、ビームフォーマによって目的エリア方向へ指向性を形成する指向性形成部と、
上記各マイクロホンアレイのビームフォーマ後の出力において、目的エリア音が全てのマイクロホンアレイに同時に到着するように、目的エリアと上記各マイクロホンアレイの距離の違いにより発生する遅延を補正するマイクロホンアレイ間遅延補正部と、
上記各マイクロホンアレイのビームフォーマ出力に含まれる目的エリア音のパワーを全て同じ大きさにするために、上記各マイクロホンアレイのビームフォーマ出力間の振幅スペクトルの比率の最頻値もしくは中央値を算出し、補正係数とする目的エリア音パワー補正係数算出部と、
上記目的エリア音パワー補正係数算出部で算出した補正係数を用い、上記各マイクロホンアレイのビームフォーマ出力を補正し、それぞれをスペクトル減算することで目的エリア方向に存在する非目的エリア音を抽出し、その後抽出した非目的エリア音を上記各マイクロホンアレイのビームフォーマ出力からスペクトル減算することにより目的エリア音を抽出する目的エリア音抽出部と
を備えることを特徴とする収音装置。
Multiple microphone arrays,
A directivity forming unit that forms directivity in the direction of the target area by a beamformer with respect to the output of each microphone array,
Inter-microphone array delay correction that corrects the delay caused by the difference in the distance between the target area and each microphone array so that the target area sound arrives at all microphone arrays simultaneously at the output after the beam former of each microphone array. And
In order to make the power of the target area sound included in the beamformer output of each microphone array all the same, the mode value or median value of the ratio of the amplitude spectrum between the beamformer outputs of each microphone array is calculated. A target area sound power correction coefficient calculation unit as a correction coefficient;
Using the correction coefficient calculated by the target area sound power correction coefficient calculating unit, correcting the beamformer output of each microphone array, extracting each non-target area sound existing in the target area direction by subtracting the spectrum, A sound collection apparatus comprising: a target area sound extraction unit that extracts a target area sound by performing spectral subtraction on the extracted non-target area sound from the beamformer output of each microphone array.
複数のマイクロホンアレイと、
上記各マイクロホンアレイの出力に対し、ビームフォーマによって目的エリア方向へ指向性を形成する指向性形成部と、
上記各マイクロホンアレイのビームフォーマ後の出力において、目的エリア音が全てのマイクロホンアレイに同時に到着するように、目的エリアと上記各マイクロホンアレイの距離の違いにより発生する遅延を補正するマイクロホンアレイ間遅延補正部と、
上記各マイクロホンアレイのビームフォーマ出力に含まれる目的エリア音のパワーを全て同じ大きさにするために、上記各マイクロホンアレイのビームフォーマ出力のパワーの差の2乗を最も小さくする係数を算出し、補正係数とする目的エリア音パワー補正係数算出部と、
上記目的エリア音パワー補正係数算出部で算出した補正係数を用い、上記各マイクロホンアレイのビームフォーマ出力を補正し、それぞれをスペクトル減算することで目的エリア方向に存在する非目的エリア音を抽出し、その後抽出した非目的エリア音を上記各マイクロホンアレイのビームフォーマ出力からスペクトル減算することにより目的エリア音を抽出する目的エリア音抽出部と
を備えることを特徴とする収音装置。
Multiple microphone arrays,
A directivity forming unit that forms directivity in the direction of the target area by a beamformer with respect to the output of each microphone array,
Inter-microphone array delay correction that corrects the delay caused by the difference in the distance between the target area and each microphone array so that the target area sound arrives at all microphone arrays simultaneously at the output after the beam former of each microphone array. And
In order to make all the power of the target area sound included in the beamformer output of each microphone array the same magnitude, a coefficient that minimizes the square of the difference in power of the beamformer output of each microphone array is calculated, A target area sound power correction coefficient calculation unit as a correction coefficient;
Using the correction coefficient calculated by the target area sound power correction coefficient calculating unit, correcting the beamformer output of each microphone array, extracting each non-target area sound existing in the target area direction by subtracting the spectrum, A sound collection apparatus comprising: a target area sound extraction unit that extracts a target area sound by performing spectral subtraction on the extracted non-target area sound from the beamformer output of each microphone array.
上記目的エリア音抽出部の出力の中から、目的エリアと上記各マイクロホンアレイの距離もしくはSN比を目的エリア音強調の指標とし、最も目的エリア音が強調されているデータを選択する出力データ選択部を備えることを特徴とする請求項1又は2に記載の収音装置。   An output data selection unit for selecting the data in which the target area sound is most emphasized from the outputs of the target area sound extraction unit, using the distance or SN ratio between the target area and each of the microphone arrays as an index of the target area sound enhancement. The sound collecting device according to claim 1, further comprising: 複数のマイクロホンアレイからの信号が与えられるコンピュータを、
上記各マイクロホンアレイの出力に対し、ビームフォーマによって目的エリア方向へ指向性を形成する指向性形成部、
上記各マイクロホンアレイのビームフォーマ後の出力において、目的エリア音が全てのマイクロホンアレイに同時に到着するように、目的エリアと上記各マイクロホンアレイの距離の違いにより発生する遅延を補正するマイクロホンアレイ間遅延補正部、
上記各マイクロホンアレイのビームフォーマ出力に含まれる目的エリア音のパワーを全て同じ大きさにするために、上記各マイクロホンアレイのビームフォーマ出力間の振幅スペクトルの比率の最頻値もしくは中央値を算出し、補正係数とする目的エリア音パワー補正係数算出部、
上記目的エリア音パワー補正係数算出部で算出した補正係数を用い、上記各マイクロホンアレイのビームフォーマ出力を補正し、それぞれをスペクトル減算することで目的エリア方向に存在する非目的エリア音を抽出し、その後抽出した非目的エリア音を上記各マイクロホンアレイのビームフォーマ出力からスペクトル減算することにより目的エリア音を抽出する目的エリア音抽出部
として機能させることを特徴とする収音プログラム。
A computer that receives signals from multiple microphone arrays
A directivity forming unit that forms directivity in the direction of the target area by a beamformer with respect to the output of each microphone array,
Inter-microphone array delay correction that corrects the delay caused by the difference in the distance between the target area and each microphone array so that the target area sound arrives at all microphone arrays simultaneously at the output after the beam former of each microphone array. Part,
In order to make the power of the target area sound included in the beamformer output of each microphone array all the same, the mode value or median value of the ratio of the amplitude spectrum between the beamformer outputs of each microphone array is calculated. , A target area sound power correction coefficient calculation unit as a correction coefficient,
Using the correction coefficient calculated by the target area sound power correction coefficient calculating unit, correcting the beamformer output of each microphone array, extracting each non-target area sound existing in the target area direction by subtracting the spectrum, A sound collection program that functions as a target area sound extraction unit that extracts a target area sound by performing spectral subtraction on the extracted non-target area sound from the beamformer output of each microphone array.
複数のマイクロホンアレイからの信号が与えられるコンピュータを、
上記各マイクロホンアレイの出力に対し、ビームフォーマによって目的エリア方向へ指向性を形成する指向性形成部、
上記各マイクロホンアレイのビームフォーマ後の出力において、目的エリア音が全てのマイクロホンアレイに同時に到着するように、目的エリアと上記各マイクロホンアレイの距離の違いにより発生する遅延を補正するマイクロホンアレイ間遅延補正部、
上記各マイクロホンアレイのビームフォーマ出力に含まれる目的エリア音のパワーを全て同じ大きさにするために、上記各マイクロホンアレイのビームフォーマ出力のパワーの差の2乗を最も小さくする係数を算出し、補正係数とする目的エリア音パワー補正係数算出部、
上記目的エリア音パワー補正係数算出部で算出した補正係数を用い、上記各マイクロホンアレイのビームフォーマ出力を補正し、それぞれをスペクトル減算することで目的エリア方向に存在する非目的エリア音を抽出し、その後抽出した非目的エリア音を上記各マイクロホンアレイのビームフォーマ出力からスペクトル減算することにより目的エリア音を抽出する目的エリア音抽出部
として機能させることを特徴とする収音プログラム。
A computer that receives signals from multiple microphone arrays
A directivity forming unit that forms directivity in the direction of the target area by a beamformer with respect to the output of each microphone array,
Inter-microphone array delay correction that corrects the delay caused by the difference in the distance between the target area and each microphone array so that the target area sound arrives at all microphone arrays simultaneously at the output after the beam former of each microphone array. Part,
In order to make all the power of the target area sound included in the beamformer output of each microphone array the same magnitude, a coefficient that minimizes the square of the difference in power of the beamformer output of each microphone array is calculated, A target area sound power correction coefficient calculation unit as a correction coefficient,
Using the correction coefficient calculated by the target area sound power correction coefficient calculating unit, correcting the beamformer output of each microphone array, extracting each non-target area sound existing in the target area direction by subtracting the spectrum, A sound collection program that functions as a target area sound extraction unit that extracts a target area sound by performing spectral subtraction on the extracted non-target area sound from the beamformer output of each microphone array.
JP2012217315A 2012-09-28 2012-09-28 Sound collecting device and program Active JP5482854B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012217315A JP5482854B2 (en) 2012-09-28 2012-09-28 Sound collecting device and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012217315A JP5482854B2 (en) 2012-09-28 2012-09-28 Sound collecting device and program

Publications (2)

Publication Number Publication Date
JP2014072708A JP2014072708A (en) 2014-04-21
JP5482854B2 true JP5482854B2 (en) 2014-05-07

Family

ID=50747533

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012217315A Active JP5482854B2 (en) 2012-09-28 2012-09-28 Sound collecting device and program

Country Status (1)

Country Link
JP (1) JP5482854B2 (en)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5648760B1 (en) * 2014-03-07 2015-01-07 沖電気工業株式会社 Sound collecting device and program
US9781508B2 (en) 2015-01-05 2017-10-03 Oki Electric Industry Co., Ltd. Sound pickup device, program recorded medium, and method
JP6131989B2 (en) * 2015-07-07 2017-05-24 沖電気工業株式会社 Sound collecting apparatus, program and method
JP6187626B1 (en) 2016-03-29 2017-08-30 沖電気工業株式会社 Sound collecting device and program
JP6645322B2 (en) 2016-03-31 2020-02-14 富士通株式会社 Noise suppression device, speech recognition device, noise suppression method, and noise suppression program
JP6818445B2 (en) * 2016-06-27 2021-01-20 キヤノン株式会社 Sound data processing device and sound data processing method
JP6732564B2 (en) 2016-06-29 2020-07-29 キヤノン株式会社 Signal processing device and signal processing method
JP6693340B2 (en) * 2016-08-30 2020-05-13 富士通株式会社 Audio processing program, audio processing device, and audio processing method
JP6241520B1 (en) * 2016-08-31 2017-12-06 沖電気工業株式会社 Sound collecting apparatus, program and method
JP6260666B1 (en) * 2016-09-30 2018-01-17 沖電気工業株式会社 Sound collecting apparatus, program and method
JP6742216B2 (en) 2016-10-25 2020-08-19 キヤノン株式会社 Sound processing system, sound processing method, program
US10547961B2 (en) 2016-10-25 2020-01-28 Canon Kabushiki Kaisha Signal processing apparatus, signal processing method, and storage medium
US10085087B2 (en) 2017-02-17 2018-09-25 Oki Electric Industry Co., Ltd. Sound pick-up device, program, and method
JP6943120B2 (en) * 2017-09-28 2021-09-29 沖電気工業株式会社 Sound collectors, programs and methods
JP7067146B2 (en) * 2018-03-12 2022-05-16 沖電気工業株式会社 Sound collectors, programs and methods
JP7067173B2 (en) * 2018-03-22 2022-05-16 沖電気工業株式会社 Sound collectors, programs and methods
JP6973224B2 (en) * 2018-03-23 2021-11-24 沖電気工業株式会社 Sound collectors, programs and methods
JP7040198B2 (en) * 2018-03-23 2022-03-23 沖電気工業株式会社 Sound collectors, programs and methods
JP7175096B2 (en) 2018-03-28 2022-11-18 沖電気工業株式会社 SOUND COLLECTION DEVICE, PROGRAM AND METHOD
JP6669219B2 (en) * 2018-09-04 2020-03-18 沖電気工業株式会社 Sound pickup device, program and method
JP7158976B2 (en) 2018-09-28 2022-10-24 沖電気工業株式会社 Sound collecting device, sound collecting program and sound collecting method
JP6822505B2 (en) 2019-03-20 2021-01-27 沖電気工業株式会社 Sound collecting device, sound collecting program and sound collecting method
JP6729744B1 (en) * 2019-03-29 2020-07-22 沖電気工業株式会社 Sound collecting device, sound collecting program, and sound collecting method
JP6879340B2 (en) 2019-07-29 2021-06-02 沖電気工業株式会社 Sound collecting device, sound collecting program, and sound collecting method
JP7292646B2 (en) * 2019-12-11 2023-06-19 本田技研工業株式会社 Sound source separation device, sound source separation method, and program
CN111131616B (en) * 2019-12-28 2022-05-17 科大讯飞股份有限公司 Audio sharing method based on intelligent terminal and related device
JP6885483B1 (en) * 2020-02-07 2021-06-16 沖電気工業株式会社 Sound collecting device, sound collecting program and sound collecting method

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5060465B2 (en) * 2008-06-19 2012-10-31 日本電信電話株式会社 Sound collection device, sound collection method, sound collection program, recording medium

Also Published As

Publication number Publication date
JP2014072708A (en) 2014-04-21

Similar Documents

Publication Publication Date Title
JP5482854B2 (en) Sound collecting device and program
JP6187626B1 (en) Sound collecting device and program
JP4897519B2 (en) Sound source separation device, sound source separation program, and sound source separation method
JP6065028B2 (en) Sound collecting apparatus, program and method
JP6065030B2 (en) Sound collecting apparatus, program and method
JP6131989B2 (en) Sound collecting apparatus, program and method
JP6763332B2 (en) Sound collectors, programs and methods
JP5772151B2 (en) Sound source separation apparatus, program and method
JP6540730B2 (en) Sound collection device, program and method, determination device, program and method
JP5494699B2 (en) Sound collecting device and program
JP5648760B1 (en) Sound collecting device and program
JP6436180B2 (en) Sound collecting apparatus, program and method
JP2016163135A (en) Sound collection device, program and method
JP2019068133A (en) Sound pick-up device, program, and method
JP6241520B1 (en) Sound collecting apparatus, program and method
JP6182169B2 (en) Sound collecting apparatus, method and program thereof
JP6260666B1 (en) Sound collecting apparatus, program and method
JP6908142B1 (en) Sound collecting device, sound collecting program, and sound collecting method
JP6065029B2 (en) Sound collecting apparatus, program and method
JP6863004B2 (en) Sound collectors, programs and methods
JP6624256B1 (en) Sound pickup device, program and method
JP2017181761A (en) Signal processing device and program, and gain processing device and program
JP6885483B1 (en) Sound collecting device, sound collecting program and sound collecting method
JP6923025B1 (en) Sound collectors, programs and methods
JP6879340B2 (en) Sound collecting device, sound collecting program, and sound collecting method

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140203

R150 Certificate of patent or registration of utility model

Ref document number: 5482854

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150