JP6624255B1 - Sound pickup device, program and method - Google Patents
Sound pickup device, program and method Download PDFInfo
- Publication number
- JP6624255B1 JP6624255B1 JP2018159891A JP2018159891A JP6624255B1 JP 6624255 B1 JP6624255 B1 JP 6624255B1 JP 2018159891 A JP2018159891 A JP 2018159891A JP 2018159891 A JP2018159891 A JP 2018159891A JP 6624255 B1 JP6624255 B1 JP 6624255B1
- Authority
- JP
- Japan
- Prior art keywords
- target area
- sound
- component
- signal
- area sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Abstract
【課題】 より少ない歪みの目的エリア音を収音する収音装置、プログラム及び方法を提供することができる。【解決手段】 本発明は収音装置に関する。そして、本発明の収音装置は、複数のマイクロホンアレイから入力された入力信号に基づいて、それぞれのマイクロホンアレイのビームフォーマ出力を取得し、取得したビームフォーマ出力を用いて目的エリアを音源とする目的エリア音を抽出する目的エリア音抽出手段と、周波数毎に、それぞれのマイクロホンアレイを構成するそれぞれのマイクロホンの入力信号の成分を比較して、いずれかのマイクロホンの入力信号の成分を、混合信号の成分として選択する選択手段と、目的エリア音抽出手段で抽出された目的エリア音成分に、選択手段で周波数ごとに選択された成分により構成される混合信号を混合する信号混合手段と、選択手段が混合した混合後信号を出力する出力手段とを有することを特徴とする。【選択図】 図1PROBLEM TO BE SOLVED: To provide a sound collecting device, a program and a method for collecting a target area sound with less distortion. The present invention relates to a sound collection device. Then, the sound collection device of the present invention obtains the beamformer output of each microphone array based on the input signals input from the plurality of microphone arrays, and uses the obtained beamformer output to set the target area as a sound source. A target area sound extracting means for extracting a target area sound, and for each frequency, a component of an input signal of each microphone constituting each microphone array is compared, and a component of an input signal of any one of the microphones is compared with a mixed signal. Selecting means for selecting a component as a component, a signal mixing means for mixing a target area sound component extracted by the target area sound extracting means with a mixed signal composed of components selected for each frequency by the selecting means, And an output means for outputting a mixed signal after mixing. [Selection diagram] Fig. 1
Description
この発明は、収音装置、プログラム及び方法に関し、例えば、特定のエリアの音を強調し、それ以外のエリアの音を抑制するシステムに適用し得る。 The present invention relates to a sound collection device, a program, and a method, and can be applied to, for example, a system that emphasizes sound in a specific area and suppresses sound in other areas.
複数の音源が存在する環境下において、ある特定方向の音のみ分離し収音する技術として、マイクロホンアレイを用いたビームフォーマ(Beam Former;以下「BF」とも呼ぶ)がある。BFとは、各マイクロホンに到達する信号の時間差を利用して指向性を形成する技術である(非特許文献1参照)。 In an environment where a plurality of sound sources are present, as a technique for separating and collecting only sound in a specific direction, there is a beam former (hereinafter also referred to as “BF”) using a microphone array. BF is a technique for forming directivity by using a time difference between signals reaching each microphone (see Non-Patent Document 1).
従来、BFは、加算型と減算型の大きく2つの種類に分けられる。特に減算型BFは、加算型即に比べ、少ないマイクロホン数で指向性を形成できるという利点がある。 Conventionally, BFs are broadly classified into two types: an addition type and a subtraction type. In particular, the subtraction type BF has an advantage that directivity can be formed with a smaller number of microphones than the addition type BF.
図4は、マイクロホンMの数が2個の場合の減算型BF200に係る構成を示すブロック図である。
FIG. 4 is a block diagram showing a configuration of the
図5は、2個のマイクロホンM1、M2を用いた減算型BF200により形成される指向性フィルタの例について示した説明図である。
FIG. 5 is an explanatory diagram showing an example of a directional filter formed by a
減算型BF200は、まず遅延器210により目的とする方向に存在する音(以下、「目的音」と呼ぶ)が各マイクロホンM1、M2に到来する信号の時間差を算出し、遅延を加えることにより目的音の位相を合わせる。上述の時間差は以下の(1)式により算出することができる。
The
ここで、dはマイクロホンM1、M2間の距離、cは音速、τiは遅延量である。またθLは、各マイクロホンM(M1、M2)を結んだ直線に対する垂直方向から目的方向への角度である。 Here, d is the distance between the microphones M1 and M2, c is the speed of sound, and τ i is the amount of delay. The theta L is the angle from the vertical direction to the target direction against the line connecting the microphones M (M1, M2).
また、ここで、死角がマイクロホンM1とM2の中心に対し、マイクロホンM1の方向に存在する場合、遅延器210は、マイクロホンM1の入力信号x1(t)に対し遅延処理を行う。その後、減算型BF200では、以下の(2)式に従い処理(減算処理)を行う。
Also, here, with respect to the center of the blind spot is a microphone M1 M2, when present in the direction of the microphone M1,
減算型BF200の処理は周波数領域でも同様に行うことができ、その場合(2)式は以下の(3)のように変更される。
ここでθL=±π/2の場合、減算型BF200により形成される指向性は図5(a)に示すように、カージオイド型の単一指向性となる。また、「θL=0,π」の場合、減算型BF200により形成される指向性は、図5(b)のような8の字型の双指向性となる。
Here, when θ L = ± π / 2, the directivity formed by the
以下では、入力信号から単一指向性を形成するフィルタを「単一指向性フィルタ」と呼び、双指向性を形成するフィルタを双指向性フィルタと呼ぶものとする。 Hereinafter, a filter that forms unidirectionality from an input signal is referred to as a “unidirectionality filter”, and a filter that forms bidirectionality is referred to as a bidirectional filter.
また、減算器220では、スペクトル減算法(Spectral Subtraction;以下、単に、「SS」とも呼ぶ)を用いることで、双指向性の死角に強い指向性を形成することもできる。SSによる指向性は、以下の(4)式に従い全周波数、もしくは指定した周波数帯域で形成される。
In addition, the
以下の(4)式では、マイクロホンM1の入力信号X1を用いているが、マイクロホンM2の入力信号X2でも同様の効果を得ることができる。ここでβは、SSの強度を調節するための係数である。また、減算器220では、減算時に値がマイナスなった場合は、0または元の値を小さくした値に置き換えるフロアリング処理を行う。以上のような減算型BF200の処理方式では、双指向性の特性によって目的方向以外に存在する音(以下、「非目的音」と呼ぶ)を抽出し、抽出した非目的音の振幅スペクトルを入力信号の振幅スペクトルから減算することで、目的音を強調することができる。
ある特定のエリア内に存在する音(以下、「目的エリア音」と呼ぶ)だけを収音したい場合、減算型BFを用いるだけでは、そのエリアの周囲に存在する音源の音(以下、「非目的エリア音」と呼ぶ)も収音してしまう可能性がある。そこで、特許文献1では、複数のマイクロホンアレイを用い、それぞれ別々の方向から目的エリアヘ指向性を向けレ指向性を目的エリアで交差させることで目的エリア音を収音する手法(以下、「エリア収音」と呼ぶ)を提案している。エリア収音では、まず各マイクロホンアレイのBF出力に含まれる目的エリア音の振幅スペクトルの比率を推定し、それを補正係数とする。
When it is desired to collect only sounds existing in a certain area (hereinafter, referred to as “target area sound”), sound of a sound source existing around the area (hereinafter, “non-target sound”) is obtained only by using the subtraction type BF. (Referred to as “target area sound”). Therefore, in
例えば、2つのマイクロホンアレイを使用する場合、目的エリア音振幅スペクトルの補正係数は、以下の(5)式及び(6)式の組み合わせ、又は以下の(7)式及び(8)式の組み合わせにより算出することができる。ここで、Y1k(n)は第1のマイクロホンアレイのBF出力の振幅スペクトルであり、Y2k(n)は第2のマイクロホンアレイのBF出力の振幅スペクトルであり、Nは周波数ビンの総数であり、kは周波数である。また、ここで、α1(n)、α2(n)は各BF出力に対する振幅スペクトル補正係数である。さらに、ここで、modeは最頻値を表し、medeianは中央値を表している。
以上の処理により、減算器220は、補正係数α1(n)、α2(n)を求め、求めた補正係数により各BF出力を補正し、SSすることで、目的エリア方向に存在する非目的エリア音を抽出する。さらに、減算器220は、抽出した非目的エリア音を各BFの出力からSSすることにより目的エリア音を抽出することができる。
By the above processing, the
減算型BF200は、第1のマイクロホンアレイからみた目的エリア方向に存在する非目的エリア音N1(n)を抽出際、例えば、(9)式に示すように、第1のマイクロホンアレイのBF出力Y1(n)から第2のマイクロホンアレイのBF出力Y2(n)に振幅スペクトル補正係数α2を掛けたものをSSする。減算型BF200は、同様に、以下の(10)式に従い、第2のマイクロホンアレイからみた目的エリア方向に存在する非目的エリア音N2(n)を抽出する。
When extracting the non-target area sound N 1 (n) existing in the target area direction viewed from the first microphone array, the
その後、減算型BF200は、以下の(11)式、又は(12)式に従い、各BF出力から非目的エリア音をSSして目的エリア音を抽出する。なお、以下の(11)式は、第1のマイクロホンアレイを基準として、目的エリア音を抽出する場合の処理を示している。また、以下の(12)式は、第2のマイクロホンアレイを基準として目的エリア音を抽出する場合の処理を示している。ここでγ1(n)、γ2(n)は、SS時の強度を変更するための係数である。
ところで、背景雑音や非目的エリア音の音量レベルが大きい場合、目的エリア音抽出の際に行うSSにより、目的エリア音が歪んだり、ミュージカルノイズという耳障りな異音が発生する可能性がある。 By the way, when the volume level of the background noise or the non-target area sound is large, the target area sound may be distorted or annoying unusual noise such as musical noise may occur due to SS performed at the time of extracting the target area sound.
そこで、特許文献3の手法では、背景雑音と非目的エリア音の大きさに応じて、マイクの入力信号と推定雑音の音量レベルをそれぞれ調節し、抽出した目的エリア音に混合している。 Therefore, in the method of Patent Document 3, the volume levels of the microphone input signal and the estimated noise are adjusted according to the loudness of the background noise and the non-target area sound, respectively, and are mixed with the extracted target area sound.
目的エリア音を抽出する処理により発生するミュージカルノイズは、背景雑音と非目的エリア音の音量レベルが大きいほど強くなるため、特許文献3の手法では、混合する入力信号と推定雑音の総和の音量レベルも、背景雑音と非目的エリア音の音量レベルに比例して大きくしている。 Since the musical noise generated by the process of extracting the target area sound becomes stronger as the volume levels of the background noise and the non-target area sound become larger, the technique of Patent Document 3 discloses the volume level of the sum of the mixed input signal and the estimated noise. Are also increased in proportion to the volume levels of the background noise and the non-target area sound.
具体的には、特許文献3の手法において、背景雑音の音量レベルは、背景雑音を抑圧する過程で求める推定雑音から算出する。また、特許文献3の手法では、非目的エリア音の音量レベルは、目的エリア音を強調する過程で抽出する目的エリア方向に存在する非目的エリア音と、目的エリア方向以外に存在する非目的エリア音を合わせたものから算出する。さらに、特許文献3の手法では、混合する入力信号と推定雑音の比率は、推定雑音と非目的エリア音の音量レベルから決定する。 Specifically, in the method of Patent Document 3, the volume level of the background noise is calculated from the estimated noise obtained in the process of suppressing the background noise. Further, in the method of Patent Document 3, the volume level of the non-target area sound is divided into the non-target area sound existing in the target area direction extracted in the process of enhancing the target area sound and the non-target area sound existing outside the target area direction. Calculated from the combined sound. Furthermore, in the method of Patent Document 3, the ratio between the input signal to be mixed and the estimated noise is determined from the volume levels of the estimated noise and the non-target area sound.
目的エリアの近くに非目的エリア音が存在する場合、混合する入力信号の音量レベルが大きすぎると目的エリア音に非目的エリア音が混入し、どちらが目的エリア音なのかが分からなくなってしまう。そこで、特許文献3の手法では、非目的エリア音が大きいときは混合する入力信号の音量レベルを下げ、推定雑音の音量レベルを大きくして混合する。つまり、特許文献3の手法では、非目的エリア音が存在しないか音量レベルが小さい場合は入力信号の割合を多くし、逆に非目的エリア音の音量レベルが大きい場合推定雑音の割合を多くして混合する。 When a non-target area sound exists near the target area, if the volume level of the input signal to be mixed is too high, the non-target area sound mixes with the target area sound, and it becomes difficult to determine which is the target area sound. Therefore, in the method of Patent Document 3, when the non-target area sound is loud, the volume level of the input signal to be mixed is lowered, and the volume level of the estimated noise is increased to mix. That is, in the method of Patent Document 3, when the non-target area sound does not exist or the volume level is low, the ratio of the input signal is increased, and when the volume level of the non-target area sound is high, the ratio of the estimated noise is increased. Mix.
このように特許文献3の手法を用いれば、目的エリア音に入力信号及び推定雑音を混合することにより、ミュージカルノイズをマスキングし、通常の背景雑音のように違和感なく聞かせることができる。さらに、特許文献3の手法では、マイク入力信号に含まれる目的エリア音の成分により、目的エリア音の歪みを補正し、音質を改善することができる。 Thus, by using the technique of Patent Document 3, by mixing the input signal and the estimated noise with the sound of the target area, the musical noise can be masked and can be heard without discomfort like ordinary background noise. Further, according to the method of Patent Document 3, distortion of the target area sound can be corrected by the component of the target area sound included in the microphone input signal, and the sound quality can be improved.
しかしながら、特許文献3の手法では、目的エリアの近くに非目的エリア音が存在する場合、混合する入力信号のレベルを下げるため、非目的エリア音の混入は抑えることができるが、目的エリア音の歪みを改善する効果は低くなってしまう。 However, in the method of Patent Document 3, when a non-target area sound exists near the target area, the level of the input signal to be mixed is reduced, so that mixing of the non-target area sound can be suppressed. The effect of improving distortion is reduced.
そのため、より少ない歪みの目的エリア音を収音する収音装置、プログラム及び方法が望まれている。 Therefore, a sound collection device, a program, and a method for collecting a target area sound with less distortion are desired.
第1の本発明の収音装置は、(1)複数のマイクロホンアレイから入力された入力信号に基づいて、それぞれの前記マイクロホンアレイのビームフォーマ出力を取得し、取得したビームフォーマ出力を用いて目的エリアを音源とする目的エリア音を抽出する目的エリア音抽出手段と、(2)周波数毎に、それぞれの前記マイクロホンアレイを構成するそれぞれのマイクロホンの入力信号の成分を比較して、いずれかの前記マイクロホンの入力信号の成分を、混合信号の成分として選択する選択手段と、(3)前記目的エリア音抽出手段で抽出された目的エリア音成分に、前記選択手段で周波数ごとに選択された成分により構成される混合信号を混合する信号混合手段と、(4)前記選択手段が混合した混合後信号を出力する出力手段とを有し、(5)前記選択手段は、それぞれの前記マイクロホンアレイを構成するそれぞれの前記マイクロホンの入力信号の成分から最も振幅スペクトルが小さい入力信号の成分を混合信号の成分として選択することを特徴とする。 According to a first aspect of the present invention, there is provided a sound collection apparatus which (1) acquires beamformer outputs of the respective microphone arrays based on input signals inputted from a plurality of microphone arrays, and uses the acquired beamformer outputs. A target area sound extracting means for extracting a target area sound using an area as a sound source; and (2) comparing input signal components of respective microphones constituting each of the microphone arrays for each frequency, and Selecting means for selecting a component of the input signal of the microphone as a component of the mixed signal; and (3) selecting a target area sound component extracted by the target area sound extracting means by a component selected for each frequency by the selecting means. possess a signal mixing means for mixing the mixed signal composed, and output means for outputting the mixed signal after the mixing (4) the selection means (5) the selection means, and selects as a component of each of the respective input signal mixed signal components of the most amplitude spectrum is small input signal components of the microphone constituting the microphone array.
第2の本発明の収音プログラムは、コンピュータを、(1)複数のマイクロホンアレイから入力された入力信号に基づいて、それぞれの前記マイクロホンアレイのビームフォーマ出力を取得し、取得したビームフォーマ出力を用いて目的エリアを音源とする目的エリア音を抽出する目的エリア音抽出手段と、(2)周波数毎に、それぞれの前記マイクロホンアレイを構成するそれぞれのマイクロホンの入力信号の成分を比較して、いずれかの前記マイクロホンの入力信号の成分を、混合信号の成分として選択する選択手段と、(3)前記目的エリア音抽出手段で抽出された目的エリア音成分に、前記選択手段で周波数ごとに選択された成分により構成される混合信号を混合する信号混合手段と、(4)前記選択手段が混合した混合後信号を出力する出力手段として機能させ、(5)前記選択手段は、それぞれの前記マイクロホンアレイを構成するそれぞれの前記マイクロホンの入力信号の成分から最も振幅スペクトルが小さい入力信号の成分を混合信号の成分として選択することを特徴とする。 According to a second aspect of the present invention, there is provided a sound collection program for: (1) obtaining a beamformer output of each of the microphone arrays based on input signals input from a plurality of microphone arrays; A target area sound extracting means for extracting a target area sound using the target area as a sound source, and (2) comparing the components of the input signals of the microphones constituting each of the microphone arrays for each frequency. Selecting means for selecting the component of the input signal of the microphone as a component of the mixed signal; and (3) selecting the target area sound component extracted by the target area sound extracting means for each frequency by the selecting means. Signal mixing means for mixing a mixed signal composed of the mixed components; and (4) outputting a mixed signal mixed by the selecting means. To function as output means for, (5) the selection means to select as a component of each of the respective input signal mixed signal components of the most amplitude spectrum is small input signal components of the microphone constituting the microphone array It is characterized by that.
第3の本発明は、収音装置が行う収音プログラムにおいて、(1)目的エリア音抽出手段、選択手段、信号混合手段、出力手段を備え、(2)前記目的エリア音抽出手段は、複数のマイクロホンアレイから入力された入力信号に基づいて、それぞれの前記マイクロホンアレイのビームフォーマ出力を取得し、取得したビームフォーマ出力を用いて目的エリアを音源とする目的エリア音を抽出し、(3)前記選択手段は、周波数毎に、それぞれの前記マイクロホンアレイを構成するそれぞれのマイクロホンの入力信号の成分を比較して、いずれかの前記マイクロホンの入力信号の成分を、混合信号の成分として選択し、(4)前記信号混合手段は、前記目的エリア音抽出手段で抽出された目的エリア音成分に、前記選択手段で周波数ごとに選択された成分により構成される混合信号を混合し、(5)前記出力手段は、前記選択手段が混合した混合後信号を出力し、(6)前記選択手段は、それぞれの前記マイクロホンアレイを構成するそれぞれの前記マイクロホンの入力信号の成分から最も振幅スペクトルが小さい入力信号の成分を混合信号の成分として選択することを特徴とする。 According to a third aspect of the present invention, there is provided a sound collection program executed by a sound collection device, comprising: (1) a target area sound extraction unit, a selection unit, a signal mixing unit, and an output unit; (3) acquiring a beamformer output of each of the microphone arrays based on an input signal input from the microphone array, and extracting a target area sound having a target area as a sound source using the acquired beamformer output; The selection means, for each frequency, by comparing the components of the input signal of each microphone constituting each microphone array, to select the component of the input signal of any of the microphones as a component of the mixed signal, (4) The signal mixing unit selects the target area sound component extracted by the target area sound extraction unit for each frequency by the selection unit. Mixing the mixed signal composed of the components, (5) said output means outputs the mixed signal after said selection means are mixed, (6) the selection means, constituting each of the microphone array A component of the input signal having the smallest amplitude spectrum is selected as a component of the mixed signal from components of the input signal of each of the microphones .
本発明によれば、より少ない歪みの目的エリア音を収音する収音装置、プログラム及び方法を提供することができる。 According to the present invention, it is possible to provide a sound collecting apparatus, a program, and a method for collecting a target area sound with less distortion.
(A)第1の実施形態
以下、本発明による収音装置、プログラム及び方法の第1の実施形態を、図面を参照しながら詳述する。
(A) First Embodiment Hereinafter, a first embodiment of a sound collection device, a program, and a method according to the present invention will be described in detail with reference to the drawings.
(A−1)第1の実施形態の構成
図1は、この実施形態の収音装置100の機能的構成について示したブロック図である。
(A-1) Configuration of First Embodiment FIG. 1 is a block diagram showing a functional configuration of a
収音装置100は、2つのマイクロホンアレイMA(MA1、MA2)を用いて、目的エリアの音源からの目的エリア音を収音する目的エリア音収音処理を行う。
The
マイクロホンアレイMA1、MA2は、目的エリアが存在する空間の任意の場所に配置される。目的エリアに対するマイクロホンアレイMA1、MA2の位置は、指向性が目的エリアでのみ重なればどこでも良く、例えば目的エリアを挟んで対向に配置しても良い。各マイクロホンアレイMAは2つ以上のマイクロホンMから構成され、各マイクロホンMにより音響信号を収音する。この実施形態では、各マイクロホンアレイMAに、音響信号を収音する2つのマイクロホンM(M1、M2)が配置されるものとして説明する。すなわち、各マイクロホンアレイMAは、2chマイクロホンアレイを構成している。なお、マイクロホンアレイMAの数は2つに限定するものではなく、目的エリアが複数存在する場合、全てのエリアをカバーできる数のマイクロホンアレイMAを配置する必要がある。 The microphone arrays MA1 and MA2 are arranged at any place in the space where the target area exists. The positions of the microphone arrays MA1 and MA2 with respect to the target area may be anywhere as long as the directivity overlaps only in the target area. For example, the microphone arrays MA1 and MA2 may be arranged to face each other across the target area. Each microphone array MA includes two or more microphones M, and each microphone M collects an acoustic signal. In this embodiment, a description will be given assuming that two microphones M (M1, M2) that collect sound signals are arranged in each microphone array MA. That is, each microphone array MA constitutes a 2ch microphone array. Note that the number of microphone arrays MA is not limited to two. When there are a plurality of target areas, it is necessary to arrange the number of microphone arrays MA that can cover all the areas.
収音装置100は、信号入力部101、雑音抑圧部102、指向性形成部103、遅延補正部104、空間座標データ105、補正係数算出部106、目的エリア音抽出部107、混合成分選択部108、信号混合部109、及び信号出力部110を備える。
The
収音装置100を構成する各機能ブロックの詳細処理については後述する。
Detailed processing of each functional block constituting the
収音装置100は、全てハードウェア(例えば、専用チップ等)により構成するようにしてもよいし一部又は全部についてソフトウェア(プログラム)として構成するようにしてもよい。収音装置100は、例えば、プロセッサ及びメモリを有するコンピュータにプログラム(実施形態の判定プログラムや収音プログラムを含む)をインストールすることにより構成するようにしてもよい。
The
(A−2)第1の実施形態の動作
次に、以上のような構成を有する第1の実施形態の収音装置100の動作(実施形態に係る収音方法)を説明する。
(A-2) Operation of First Embodiment Next, an operation (a sound collection method according to the embodiment) of the
信号入力部101は、各マイクロホンアレイで収音した音響信号をアナログ信号からデジタル信号に変換し入力する。その後、例えば高速フーリエ変換を用いて時間領域から周波数領域へ変換する。
The
雑音抑圧部102は、信号入力部101で取得した信号に含まれる背景雑音の成分を推定し、抑圧する。雑音抑圧部102による雑音抑圧には、例えば、SSやウィーナーフィルタリング法(Wiener Filltering)などを用いることができる。
The
指向性形成部103は、マイクロホンアレイ毎に雑音抑圧部により背景雑音を抑圧した信号に対し、(4)式に従いBFにより目的エリア方向に指向性を形成する。
The
遅延補正部104は、目的エリアと各マイクロホンアレイの距離の違いにより発生する遅延を算出し、補正する。遅延補正部104は、まず空間座標データ105から目的エリアの位置と各マイクロホンアレイの位置を取得し、各マイクロホンアレイヘの目的エリア音の到達時間の差を算出する。次に最も目的エリアから遠い位置に配置されたマイクロホンアレイを基準として、全てのマイクロホンアレイに目的エリア音が同時に到達するように遅延を加える。
The
空間座標データ105は、全ての目的エリアと各マイクロホンアレイと各マイクロホンアレイを構成するマイクロホンの位置情報を保持している。空間座標データ105が各マイクロホンアレイの各マイクロホンの位置情報を保持する方法や、空間座標データ105が保持する位置情報の具体的な形式は限定されないものであり、種々のデータ形式を適用することができる。
The spatial coordinate
補正係数算出部106は、各BF出力に含まれる目的エリア音成分の振幅スペクトルを同じにするための補正係数を(5)、(6)式または(7)、(8)式に従い算出する。
The correction
目的エリア音抽出部107は、補正係数算出部106で算出した補正係数により補正した各BF出力データを(9)、もしくは(10)式に従いSSし、目的エリア方向に存在する非目的エリア音を抽出する。さらに、目的エリア音抽出部107は、抽出した雑音を各BFの出力から(11)、もしくは(12)式に従いSSすることにより目的エリア音を抽出する。
The target area
混合成分選択部108は、各マイクロホンアレイ(MA1、MA2)を構成するマイクロホン(M1、M2)の入力信号の振幅スペクトルを周波数成分毎に比較し、最も振幅スペクトルが小さい周波数成分を、混合信号成分として選択する。2つの2chのマイクロホンアレイMA1、MA2を用いエリア収音を行う場合、混合成分選択部108では、混合信号の周波数成分XMIXk(n)は(13)式に従い選択されることになる。
The mixed
ここで、X11k(n)、X12k(n)は、それぞれマイクロホンアレイMA1を構成するマイクロホンM1、M2の入力信号X11(n)、X12(n)の各周波数の振幅スペクトルである。また、ここで、X21k(n)、X22k(n)は、それぞれマイクロホンアレイMA2を構成するマイクロホンM1、M2の入力信号X21(n)、X22(n)の各周波数の振幅スペクトルである。さらに、ここでkは、周波数(周波数成分の識別子)である。さらにまた、収音装置100(混合成分選択部108、信号混合部109)において、信号処理に用いる周波数の帯域(kの範囲)は、上限と下限を設けて制限しても良い。
なお、混合成分選択部108において、混合信号としてX11k(n)もしくはX12k(n)が選択された場合、(14)式に示すように、マイクロホンアレイMA1を構成するマイクロホンの入力信号成分の加算平均を混合信号成分としても良い。
信号混合部109は、目的エリア音抽出部107で抽出した目的エリア音の成分に、混合成分選択部108で周波数毎に選択した入力信号成分(周波数ごとに選択された入力信号成分により構成される信号;以下、「混合信号」と呼ぶ)を混合する。例えば、信号混合部109が、式(11)に従いマイクロホンアレイMA1を基準としてエリア収音を行う場合、最終的な出力W1k(n)は以下の(15)式に従い混合される。ここでμiは、混合する信号(混合信号)の成分の大きさを調整するパラメータである。μiは全周波数で一定でも良いし、周波数毎に変えても良い。
以上のように、信号混合部109は、混合を行った出力信号に位相を復元する際、位相情報は、目的エリア音抽出部において基準としたマイクロホンアレイを構成するマイクロホンの入力信号の加算平均、もしくはどれか1つのマイクロホンの入力信号を使用する。
As described above, when restoring the phase to the mixed output signal, the
また、信号混合部109は、混合信号として選択した入力信号の位相を使用しても良い。例えば、(11)式を用いて目的エリア音が抽出された場合、信号混合部109は、マイクロホンアレイMA1を基準としているので、入力信号成分X11k(n)とX12k(n)の加算平均、又は、X11k(n)若しくはX12k(n)のどちらかの位相情報を用いて、出力信号に位相を復元する。
Further,
さらに、信号混合部109において、信号の混合処理は、目的エリア音と混合信号の振幅スペクトルに、それぞれ位相情報を復元した後に行っても良い。この場合、信号混合部109では、位相復元に使用する情報は、目的エリア音と混合信号で別々にすることができる。例えば、信号混合部109において、目的エリア音には、目的エリア音抽出部において基準としたマイクロホンアレイを構成するマイクロホンの入力信号成分の加算平均、もしくはマイクロホンアレイを構成するマイクロホンの内どれか1つ入力信号成分を使用するようにしてもよい。また、信号混合部109において、混合信号には、混合信号成分として選択した入力信号成分の位相を使用するようにしてもよい。
Furthermore, the
信号出力部110は、信号混合部109において処理した出力信号を、周波数領域から時間領域へ変換し、出力する。
The
以上のように、第1の実施形態では、混合信号として、エリア収音に使用する全マイクロホンの入力信号の振幅スペクトルを周波数毎に比較し、最も振幅スペクトルが小さい周波数成分を選択する。さらに、第1の実施形態では、特定のエリアを収音する場合、マイクロホンアレイを収音エリアの周囲に設置することが望ましい。 As described above, in the first embodiment, as a mixed signal, the amplitude spectra of the input signals of all microphones used for area sound pickup are compared for each frequency, and the frequency component having the smallest amplitude spectrum is selected. Furthermore, in the first embodiment, when sound is collected in a specific area, it is desirable that the microphone array be installed around the sound collection area.
(A−3)第1の実施形態の効果
第1の実施形態によれば、以下のような効果を奏することができる。
(A-3) Effects of First Embodiment According to the first embodiment, the following effects can be obtained.
第1の実施形態の収音装置100では、各マイクロホンアレイの入力信号の周波数成分毎に、最も振幅スペクトルの小さいものを混合信号成分として選択することで、目的エリアの近くに非目的エリア音が存在する場合においても、混合後の非目的エリア音の混入を抑え、目的エリア音の歪みを改善することができる。
In the
ここで、例えば、第1の実施形態において、各マイクロホンアレイから収音エリアの中心までは等距離であるものとする。また、例えば、第1の実施形態において、目的エリア音は、各マイクロホンアレイを構成するマイクロホン全てに同じ音量で入力されるものとする(図2(a)参照)。一方、非目的エリア音が存在する位置は、各マイクロホンアレイからの距離が異なる。そのため、各マイクロホンアレイの信号に含まれる非目的エリア音の音量は、距離減衰によって違う大きさとなる。また1つのマイクロホンアレイを構成する各マイクロホンにおいても、非目的エリア音がマイクロホンアレイの正面以外に存在する場合、非目的エリア音と各マイクロホンとの距離が違うため、音量に差が生じる(図2(b)参照)。つまり、非目的エリア音から最も遠い位置にあるマイクロホンの入力信号は、含まれる非目的エリア音が最も小さくなる。そのため、目的エリア音は、全てのマイクロホンの信号に同じ音量で含まれているので、全マイクロホンの信号中で1番振幅スペクトルが小さい入力信号の周波数成分は、SN比が最も高いことになる。そのため、第1の実施形態では、目的エリアの近くに非目的エリア音が存在する場合においても、混合後の非目的エリア音の混入を抑え、目的エリア音の歪みを改善するという効果を奏することができる。 Here, for example, in the first embodiment, it is assumed that the distance from each microphone array to the center of the sound collection area is equal. Further, for example, in the first embodiment, it is assumed that the target area sound is input to all the microphones constituting each microphone array at the same volume (see FIG. 2A). On the other hand, the position where the non-target area sound exists has a different distance from each microphone array. Therefore, the volume of the non-target area sound included in the signal of each microphone array has a different magnitude due to the distance attenuation. Also, in each microphone constituting one microphone array, if the non-target area sound exists other than in front of the microphone array, the distance between the non-target area sound and each microphone is different, so that a difference occurs in the sound volume (FIG. 2). (B)). That is, the input signal of the microphone located farthest from the non-target area sound has the smallest non-target area sound included. Therefore, since the target area sound is included in the signals of all microphones at the same volume, the frequency component of the input signal having the smallest amplitude spectrum among the signals of all microphones has the highest SN ratio. Therefore, in the first embodiment, even when a non-target area sound exists near the target area, the mixing of the non-target area sound after mixing is suppressed and the distortion of the target area sound is improved. Can be.
(B)第2の実施形態
以下、本発明による収音装置、プログラム及び方法の第2の実施形態を、図面を参照しながら詳述する。
(B) Second Embodiment Hereinafter, a second embodiment of a sound collection device, a program, and a method according to the present invention will be described in detail with reference to the drawings.
(B−1)第2の実施形態の構成
図3は、第2の実施形態の収音装置100Aに係る機能的構成について示したブロック図であり、上述の図1と同一部分又は対応部分については同一符号又は対応符号を付している。
(B-1) Configuration of Second Embodiment FIG. 3 is a block diagram showing a functional configuration of a
以下では、第2の実施形態について第1の実施形態との差異を説明する。 Hereinafter, differences between the second embodiment and the first embodiment will be described.
第2の実施形態の収音装置100Aでは、周波数別マイクロホンアレイ選択部11が追加されている点で第1の実施形態と異なっている。また、第2の実施形態の収音装置100Aでは、目的エリア音抽出部107が、目的エリア音抽出部107Aに置き換わっている点で第1の実施形態と異なっている。なお、第2の実施形態では、混合成分選択部108の処理結果が周波数別マイクロホンアレイ選択部111及び目的エリア音抽出部107Aに供給される点で第1の実施形態と異なっている。
The
収音装置100Aを構成する各機能ブロックの詳細処理については後述する。
Detailed processing of each functional block configuring the
(B−2)第2の実施形態の動作
次に、以上のような構成を有する第2の実施形態の収音装置100Aの動作(実施形態に係る収音方法)について、第1の実施形態との差異を中心に説明する。
(B-2) Operation of Second Embodiment Next, an operation (a sound collection method according to the embodiment) of the
周波数別マイクロホンアレイ選択部111は、混合成分選択部108によって選択された混合信号成分によって、目的エリア音抽出部107において基準とするマイクロホンアレイを周波数毎に選択する。
The frequency-specific microphone
以下では、ある周波数pにおける各マイクロホンアレイ(MA1、MA2)の各マイクロホン(M1、M2)の入力信号(入力成分の成分)をそれぞれX11p(n)、X12p(n)、X21p(n)、X22p(n)と表すものとする。さらに、以下では、周波数pとは異なる周波数qにおける各マイクロホンアレイ(MA1、MA2)の各マイクロホン(M1、M2)の入力信号(入力成分の成分)をそれぞれX11q(n)、X12q(n)、X21q(n)、X22q(n)と表すものとする。 Hereinafter, the input signals (components of the input components) of the microphones (M1, M2) of the microphone arrays (MA1, MA2) at a certain frequency p are represented by X 11p (n), X 12p (n), and X 21p (n, respectively). ), X 22p (n). Further, hereinafter, the input signals (components of the input components) of the microphones (M1, M2) of the microphone arrays (MA1, MA2) at the frequency q different from the frequency p are respectively represented by X 11q (n) and X 12q (n ), X 21q (n) and X 22q (n).
例えば、ある周波数pにおいて、混合成分選択部108で混合信号としてマイクロホンアレイMA1を構成するマイクロホンM1の入力信号X11p(n)が選択された場合、目的エリア音抽出部107Aは、基準となるマイクロホンアレイとして、マイクロホンアレイMA1を選択し、(16)式に従って目的エリア音(周波数pの目的エリア音の成分)を抽出する。また、例えば、周波数qにおいて、混合成分選択部108で混合信号としてマイクロホンアレイMA2を構成するマイクロホンM2の入力信号X22q(n)が選択された場合、目的エリア音抽出部107Aは、基準となるマイクロホンアレイとしてマイクロホンアレイMA2を選択し、(17)式に従って目的エリア音(周波数qの目的エリア音の成分)を抽出する。
以上のように、目的エリア音抽出部107Aは、周波数ごとに、混合成分選択部108で選択された入力信号に応じたマイクロホンアレイを選択し、選択したマイクロホンアレイの入力信号を基準とした目的エリア音の抽出を行い、後段(信号混合部109)に供給する。
As described above, the target area
(B−3)第2の実施形態の効果
第2の実施形態によれば、第1の実施形態と比較して以下のような効果を奏することができる。
(B-3) Effects of the Second Embodiment According to the second embodiment, the following effects can be obtained as compared with the first embodiment.
第2の実施形態では、目的エリア音抽出部107Aが、周波数ごと(成分ごと)に、混合成分選択部108によって選択された混合信号の供給元となるマイクロホンアレイ(周波数別マイクロホンアレイ選択部111が選択したマイクロホンアレイ)を基準とした目的エリア音の抽出処理を行う。これにより、第2の実施形態の収音装置100Aでは、混合信号と目的エリア音抽出処理で用いる信号の供給元(供給元のマイクロホンアレイ)が一致するため、目的エリア音の歪みをより改善するという効果を奏することができる。
In the second embodiment, the target area
(C)他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。
(C) Other Embodiments The present invention is not limited to the above embodiments, and may include modified embodiments as exemplified below.
(C−1)上記の各実施形態の収音装置では、収音に用いる各マイクロホンアレイMAのマイクロホンの数は2つであったが、3つ以上のマイクを用いて収音した音響信号に基づいて目的エリア方向の音を収音するようにしてもよい。上記の各実施形態において、適用するマイクロホンアレイMA毎のマイクロホンの数や目的音方向の音を収音する方式については、既存の種々の方式を適用することができる。 (C-1) In the sound collection device of each of the above embodiments, the number of microphones of each microphone array MA used for sound collection is two, but the sound signal collected by using three or more microphones is The sound in the direction of the target area may be collected based on the sound. In each of the above embodiments, various existing systems can be applied to the number of microphones for each microphone array MA to be applied and the system for collecting sound in the target sound direction.
100…収音装置、M1、M2…マイクロホン、MA1、MA2…マイクロホンアレイ、101…信号入力部、102…雑音抑圧部、103…指向性形成部、104…遅延補正部、105…空間座標データ、106…補正係数算出部、107…目的エリア音抽出部、108…混合成分選択部、109…信号混合部、110…信号出力部。 100: sound collecting device, M1, M2: microphone, MA1, MA2: microphone array, 101: signal input unit, 102: noise suppression unit, 103: directivity forming unit, 104: delay correction unit, 105: spatial coordinate data, 106: correction coefficient calculating unit, 107: target area sound extracting unit, 108: mixed component selecting unit, 109: signal mixing unit, 110: signal output unit.
Claims (5)
周波数毎に、それぞれの前記マイクロホンアレイを構成するそれぞれのマイクロホンの入力信号の成分を比較して、いずれかの前記マイクロホンの入力信号の成分を、混合信号の成分として選択する選択手段と、
前記目的エリア音抽出手段で抽出された目的エリア音成分に、前記選択手段で周波数ごとに選択された成分により構成される混合信号を混合する信号混合手段と、
前記選択手段が混合した混合後信号を出力する出力手段とを有し、
前記選択手段は、それぞれの前記マイクロホンアレイを構成するそれぞれの前記マイクロホンの入力信号の成分から最も振幅スペクトルが小さい入力信号の成分を混合信号の成分として選択する
ことを特徴とする収音装置。 A target area sound for acquiring a beamformer output of each of the microphone arrays based on input signals input from a plurality of microphone arrays, and extracting a target area sound having a target area as a sound source using the acquired beamformer outputs. Extraction means;
Selecting means for comparing the components of the input signals of the microphones constituting each of the microphone arrays for each frequency, and selecting the component of the input signal of any one of the microphones as a component of the mixed signal;
A signal mixing unit that mixes a target area sound component extracted by the target area sound extraction unit with a mixed signal formed by a component selected for each frequency by the selection unit;
Output means for outputting a mixed signal after the selection means has been mixed ,
The selection means selects a component of an input signal having the smallest amplitude spectrum from components of an input signal of each of the microphones constituting each of the microphone arrays as a component of a mixed signal. Sound device.
複数のマイクロホンアレイから入力された入力信号に基づいて、それぞれの前記マイクロホンアレイのビームフォーマ出力を取得し、取得したビームフォーマ出力を用いて目的エリアを音源とする目的エリア音を抽出する目的エリア音抽出手段と、
周波数毎に、それぞれの前記マイクロホンアレイを構成するそれぞれのマイクロホンの入力信号の成分を比較して、いずれかの前記マイクロホンの入力信号の成分を、混合信号の成分として選択する選択手段と、
前記目的エリア音抽出手段で抽出された目的エリア音成分に、前記選択手段で周波数ごとに選択された成分により構成される混合信号を混合する信号混合手段と、
前記選択手段が混合した混合後信号を出力する出力手段として機能させ、
前記選択手段は、それぞれの前記マイクロホンアレイを構成するそれぞれの前記マイクロホンの入力信号の成分から最も振幅スペクトルが小さい入力信号の成分を混合信号の成分として選択する
ことを特徴とする収音プログラム。 Computer
A target area sound for acquiring a beamformer output of each of the microphone arrays based on input signals input from a plurality of microphone arrays, and extracting a target area sound having a target area as a sound source using the acquired beamformer outputs. Extraction means;
Selecting means for comparing the components of the input signals of the microphones constituting each of the microphone arrays for each frequency, and selecting the component of the input signal of any one of the microphones as a component of the mixed signal;
A signal mixing unit that mixes a target area sound component extracted by the target area sound extraction unit with a mixed signal formed by a component selected for each frequency by the selection unit;
Said selecting means to function as an output means for outputting the mixed signal after the mixing is,
The sound collecting program according to claim 1, wherein said selecting means selects a component of an input signal having the smallest amplitude spectrum from a component of an input signal of each of said microphones constituting each of said microphone arrays as a component of a mixed signal .
目的エリア音抽出手段、選択手段、信号混合手段、出力手段を備え、
前記目的エリア音抽出手段は、複数のマイクロホンアレイから入力された入力信号に基づいて、それぞれの前記マイクロホンアレイのビームフォーマ出力を取得し、取得したビームフォーマ出力を用いて目的エリアを音源とする目的エリア音を抽出し、
前記選択手段は、周波数毎に、それぞれの前記マイクロホンアレイを構成するそれぞれのマイクロホンの入力信号の成分を比較して、いずれかの前記マイクロホンの入力信号の成分を、混合信号の成分として選択し、
前記信号混合手段は、前記目的エリア音抽出手段で抽出された目的エリア音成分に、前記選択手段で周波数ごとに選択された成分により構成される混合信号を混合し、
前記出力手段は、前記選択手段が混合した混合後信号を出力し、
前記選択手段は、それぞれの前記マイクロホンアレイを構成するそれぞれの前記マイクロホンの入力信号の成分から最も振幅スペクトルが小さい入力信号の成分を混合信号の成分として選択する
ことを特徴とする収音方法。 In the sound pickup method performed by the sound pickup device,
Target area sound extraction means, selection means, signal mixing means, output means,
The target area sound extracting means obtains a beamformer output of each of the microphone arrays based on input signals input from a plurality of microphone arrays, and uses the obtained beamformer outputs to set a target area as a sound source. Extract the area sound,
The selection means, for each frequency, by comparing the components of the input signal of each microphone constituting each microphone array, to select the component of the input signal of any of the microphones as a component of the mixed signal,
The signal mixing unit mixes a target area sound component extracted by the target area sound extraction unit with a mixed signal formed by a component selected for each frequency by the selection unit,
The output means outputs a mixed signal mixed by the selection means ,
The sound collection method according to claim 1, wherein the selecting means selects, as a mixed signal component, an input signal component having the smallest amplitude spectrum from input signal components of each of the microphones included in each of the microphone arrays .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018159891A JP6624255B1 (en) | 2018-08-29 | 2018-08-29 | Sound pickup device, program and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018159891A JP6624255B1 (en) | 2018-08-29 | 2018-08-29 | Sound pickup device, program and method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6624255B1 true JP6624255B1 (en) | 2019-12-25 |
JP2020036136A JP2020036136A (en) | 2020-03-05 |
Family
ID=69100904
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018159891A Active JP6624255B1 (en) | 2018-08-29 | 2018-08-29 | Sound pickup device, program and method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6624255B1 (en) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6065030B2 (en) * | 2015-01-05 | 2017-01-25 | 沖電気工業株式会社 | Sound collecting apparatus, program and method |
JP6065028B2 (en) * | 2015-01-05 | 2017-01-25 | 沖電気工業株式会社 | Sound collecting apparatus, program and method |
JP6187626B1 (en) * | 2016-03-29 | 2017-08-30 | 沖電気工業株式会社 | Sound collecting device and program |
JP6540730B2 (en) * | 2017-02-17 | 2019-07-10 | 沖電気工業株式会社 | Sound collection device, program and method, determination device, program and method |
-
2018
- 2018-08-29 JP JP2018159891A patent/JP6624255B1/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2020036136A (en) | 2020-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6187626B1 (en) | Sound collecting device and program | |
JP6065028B2 (en) | Sound collecting apparatus, program and method | |
JP5772151B2 (en) | Sound source separation apparatus, program and method | |
JP6540730B2 (en) | Sound collection device, program and method, determination device, program and method | |
JP6943120B2 (en) | Sound collectors, programs and methods | |
JP6436180B2 (en) | Sound collecting apparatus, program and method | |
JP6624256B1 (en) | Sound pickup device, program and method | |
JP6624255B1 (en) | Sound pickup device, program and method | |
US11095979B2 (en) | Sound pick-up apparatus, recording medium, and sound pick-up method | |
JP2016163135A (en) | Sound collection device, program and method | |
US11825264B2 (en) | Sound pick-up apparatus, storage medium, and sound pick-up method | |
JP6241520B1 (en) | Sound collecting apparatus, program and method | |
JP6260666B1 (en) | Sound collecting apparatus, program and method | |
Uhle et al. | Determined source separation for microphone recordings using IIR filters | |
JP6065029B2 (en) | Sound collecting apparatus, program and method | |
JP6669219B2 (en) | Sound pickup device, program and method | |
JP6923025B1 (en) | Sound collectors, programs and methods | |
JP6863004B2 (en) | Sound collectors, programs and methods | |
JP6725014B1 (en) | Sound collecting device, sound collecting program, and sound collecting method | |
JP7207170B2 (en) | Sound collection device, sound collection program, sound collection method, and sound collection system | |
JP2024027617A (en) | Speech recognition device, speech recognition program, speech recognition method, sound collection device, sound collection program, and sound collection method | |
JP6729744B1 (en) | Sound collecting device, sound collecting program, and sound collecting method | |
JP7158976B2 (en) | Sound collecting device, sound collecting program and sound collecting method | |
JP6885483B1 (en) | Sound collecting device, sound collecting program and sound collecting method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180829 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190806 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191004 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20191029 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20191111 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6624255 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |