JP6725014B1 - Sound collecting device, sound collecting program, and sound collecting method - Google Patents
Sound collecting device, sound collecting program, and sound collecting method Download PDFInfo
- Publication number
- JP6725014B1 JP6725014B1 JP2019009620A JP2019009620A JP6725014B1 JP 6725014 B1 JP6725014 B1 JP 6725014B1 JP 2019009620 A JP2019009620 A JP 2019009620A JP 2019009620 A JP2019009620 A JP 2019009620A JP 6725014 B1 JP6725014 B1 JP 6725014B1
- Authority
- JP
- Japan
- Prior art keywords
- target area
- signal
- sound
- mixing
- area sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
【課題】 エリア収音処理の際に音質劣化を抑制する。【解決手段】 本発明は、収音装置に関する。そして、本発明の収音装置は、複数のマイクアレイのビームフォーマ出力に基づく目的方向信号を取得する手段と、取得した目的方向信号をスペクトル減算処理することで非目的エリア音を抽出し、目的方向信号から非目的エリア音をスペクトル減算することにより目的エリア音を抽出する手段と、捕捉信号に基づく非目的エリアを音源とする音の成分が優勢な非目的エリア音成分優勢信号からピーク周波数を検出し、非目的エリア音成分優勢信号のピーク周波数に基づく抑圧周波数の成分を抑圧する抑圧フィルタを形成すると、抑圧フィルタを混合用信号に掛けて目的エリア音に混合して混合後信号を取得する手段と、混合後信号を目的エリアのエリア収音結果として出力する手段とを有することを特徴とする。【選択図】 図1PROBLEM TO BE SOLVED: To suppress sound quality deterioration during area sound collection processing. The present invention relates to a sound collecting device. Then, the sound collecting device of the present invention extracts a non-target area sound by a means for acquiring a target direction signal based on the beamformer outputs of a plurality of microphone arrays and a spectrum subtraction process for the acquired target direction signal. A means for extracting the target area sound by spectrally subtracting the non-target area sound from the direction signal, and a peak frequency from the non-target area sound component dominant signal in which the sound component whose sound source is the non-target area based on the captured signal is dominant. When a suppression filter that detects and suppresses the suppression frequency component based on the peak frequency of the non-target area sound component dominant signal is formed, the suppression filter is applied to the mixing signal to mix with the target area sound and the mixed signal is obtained. And a means for outputting the mixed signal as an area sound collection result of the target area. [Selection diagram]
Description
本発明は、収音装置、収音プログラム及び収音方法に関し、例えば特定のエリアの音を強調し、それ以外のエリアの音を抑圧するエリア収音処理に適用し得る。 The present invention relates to a sound collecting device, a sound collecting program, and a sound collecting method, and can be applied to, for example, area sound collecting processing that emphasizes sound in a specific area and suppresses sound in other areas.
従来、複数の音源が存在する環境下において、ある特定の方向の音のみ分離し収音する技術として、マイクロホンアレイを用いたビームフォーマ(Beam Former;以下、「BF」と呼ぶ)がある。BFとは、各マイクロホンに到達する信号の時間差を利用して指向性を形成する技術である(非特許文献1参照)。BFは、加算型と減算型の大きく2つの種類に分けられる。特に減算型BFは、加算型BFに比べ、少ないマイクロホン数で指向性を形成できるという利点がある。 BACKGROUND ART Conventionally, there is a beam former (Beam Former; hereinafter referred to as “BF”) using a microphone array as a technique for separating and collecting only a sound in a specific direction in an environment where a plurality of sound sources exist. BF is a technique for forming directivity by utilizing the time difference between signals that reach each microphone (see Non-Patent Document 1). BFs are roughly classified into two types: addition type and subtraction type. In particular, the subtraction type BF has an advantage that directivity can be formed with a smaller number of microphones than the addition type BF.
図6は、マイクロホン数が2個の場合の減算型BF300に係る構成を示すブロック図である。 FIG. 6 is a block diagram showing a configuration of the subtraction type BF 300 when the number of microphones is two.
図6に示す減算型BF300は、遅延器310と減算器320とを有している。
The subtraction type BF 300 shown in FIG. 6 has a
減算型BF300は、まず遅延器310により目的とする方向に存在する音(以下、「目的音」と呼ぶ)が各マイクロホンに到来する信号の時間差を算出し、遅延を加えることにより目的音の位相を合わせる。時間差は下記(1)式により算出される。ここで「d」はマイクロホン間の距離であり、「c」は音速であり、「τL」は遅延量である。また、ここで「θL」は、各マイクロホン(M1、M2)の間を結んだ直線に対する垂直方向から目的方向への角度である。
τL=(dsinθL)/c …(1)
The subtraction type BF 300 first calculates the time difference between the signals of the sounds existing in the target direction (hereinafter referred to as the “target sound”) that arrive at each microphone by the
τ L =(dsin θ L )/c (1)
ここで、死角がマイクロホンM1とマイクロホンM2の中心に対し、マイクロホンM1の方向に存在する場合、遅延器310は、マイクロホンM1の入力信号x1(t)に対し遅延処理を行う。その後、減算型BF300では、減算器320が(2)式に従い減算処理を行う。
m(t)=x2(t)−x1(t−τL) …(2)
Here, when the blind spot exists in the direction of the microphone M1 with respect to the centers of the microphones M1 and M2, the
m (t) = x 2 ( t) -x 1 (t-τ L) ... (2)
減算器320では、周波数領域でも同様に減算処理を行うことができ、その場合(2)式は以下(3)式のように変更される。
図7は、2個のマイクロホンM1、M2を用いた減算型BF300により形成される指向特性を示す図である。 FIG. 7 is a diagram showing a directional characteristic formed by the subtraction type BF300 using the two microphones M1 and M2.
ここでθL=±π/2の場合、減算器320で形成される指向性は図7(a)に示すように、カージオイド型の単一指向性となり、θL=0,πの場合は、図7(b)のような8の字型の双指向性となる。ここでは、入力信号から単一指向性を形成するフィルタを「単一指向性フィルタ」と呼び、双指向性を形成するフィルタを「双指向性フィルタ」と呼ぶものとする。
Here, when θ L =±π/2, the directivity formed by the
また、減算器320では、スペクトル減算法(Spectral Subtraction;以下単に「SS」とも呼ぶ)を用いることで、双指向性の死角に強い指向性を形成することもできる。SSによる指向性は、(4)式に従い全周波数、又は指定した周波数帯域で形成される。(4)式では、マイクロホンM1の入力信号X1を用いているが、マイクロホンM2の入力信号X2でも同様の効果を得ることができる。ここでβはSSの強度を調節するための係数である。
Further, in the
減算器320では、減算処理時に値がマイナスになった場合は、0または元の値を小さくした値に置き換える処理(フロアリング処理)を行う。この方式により、減算器320では、双指向性フィルタにより目的方向以外に存在する音(以下、「非目的音」と呼ぶ)を抽出し、抽出した非目的音の振幅スペクトルを入力信号の振幅スペクトルから減算することで、目的音を強調することができる。
Y(n)=X1(n)−βM(n) …(4)
In the
Y(n)=X 1 (n)-βM(n) (4)
ところで、ある特定のエリア内に存在する音(以下、「目的エリア音」と呼ぶ)だけを収音したい場合、減算型BFを用いるだけでは、そのエリアの周囲に存在する音源(以下、「非目的エリア音」と呼ぶ)も収音してしまう可能性がある。そこで特許文献1の記載技術では、複数のマイクロホンアレイを用い、それぞれ別々の方向から目的エリアへ指向性を向け、指向性を目的エリアで交差させることで目的エリア音を収音する手法(以下、「エリア収音」と呼ぶ)を提案している。
By the way, when only the sound existing in a specific area (hereinafter, referred to as “target area sound”) is desired to be picked up, the sound source (hereinafter, referred to as “non There is also a possibility that the target area sound will be picked up). Therefore, in the technique described in
従来のエリア収音では、まず各マイクロホンアレイのBF出力に含まれる目的エリア音の振幅スペクトルの比率を推定し、それを補正係数とする。例えば、2つのマイクロホンアレイを使用する場合、目的エリア音振幅スペクトルの補正係数は、(5)、(6)式または(7)、(8)式により算出される。
ここで、「Y1k(n)」、「Y2k(n)」は、それぞれ第1、第2のマイクロホンアレイのBF出力の振幅スペクトルである。また、「N」は周波数ビンの総数であり、「k」は周波数である。さらに、「α1(n)」、「α2(n)」は、それぞれ第1、第2のマイクロホンアレイのBF出力に対する振幅スペクトル補正係数である。さらにまた、「mode」は最頻値、「median」は中央値をそれぞれ表している。 Here, “Y 1k (n)” and “Y 2k (n)” are the amplitude spectra of the BF outputs of the first and second microphone arrays, respectively. Also, "N" is the total number of frequency bins and "k" is the frequency. Furthermore, “α 1 (n)” and “α 2 (n)” are amplitude spectrum correction coefficients for the BF outputs of the first and second microphone arrays, respectively. Furthermore, “mode” represents the mode value, and “median” represents the median value.
従来のエリア収音処理では、その後、補正係数により各BF出力を補正し、SSすることで、目的エリア方向に存在する非目的エリア音を抽出する。更に抽出した非目的エリア音を各BFの出力からSSすることにより目的エリア音を抽出することができる。 In the conventional area sound collection process, each BF output is then corrected by the correction coefficient and SS is performed to extract the non-target area sound existing in the target area direction. Furthermore, the target area sound can be extracted by performing SS of the extracted non-target area sound from the output of each BF.
この場合、従来のエリア収音処理では、第1のマイクロホンアレイからみた目的エリア方向に存在する非目的エリア音N1(n)を抽出するには、(9)式に示すように、第1のマイクロホンアレイのBF出力Y1(n)から第2のマイクロホンアレイのBF出力Y2(n)に振幅スペクトル補正係数α2を掛けたものをSSする。同様に(10)式に従い、第2のマイクロホンアレイからみた目的エリア方向に存在する非目的エリア音N2(n)を抽出する。
N1(n)=Y1(n)−α2(n)Y2(n) …(9)
N2(n)=Y2(n)−α1(n)Y1(n) …(10)
In this case, in the conventional area sound collection processing, in order to extract the non-target area sound N 1 (n) existing in the direction of the target area viewed from the first microphone array, as shown in Expression (9), to SS
N 1 (n)=Y 1 (n)−α 2 (n)Y 2 (n) (9)
N 2 (n)=Y 2 (n)−α 1 (n)Y 1 (n) (10)
その後、従来のエリア収音処理では、(11)式、(12)式に従い、各BF出力から非目的エリア音をSSして目的エリア音を抽出する。(11)式は第1のマイクロホンアレイを基準として目的エリア音を抽出する処理を示しており、(12)式は第2のマイクロホンアレイを基準として目的エリア音を抽出する処理を示している。
Z1(n)=Y1(n)−γ1(n)N1(n) …(11)
Z2(n)=Y2(n)−γ2(n)N2(n) …(12)
After that, in the conventional area sound collection processing, the target area sound is extracted by SS of the non-target area sound from each BF output according to the expressions (11) and (12). Expression (11) shows a process of extracting the target area sound with the first microphone array as a reference, and Expression (12) shows a process of extracting the target area sound with the second microphone array as a reference.
Z 1 (n)=Y 1 (n)−γ 1 (n)N 1 (n) (11)
Z 2 (n)=Y 2 (n)−γ 2 (n)N 2 (n) (12)
ここでγ1(n)、γ2(n)はSS時の強度を変更するための係数である。 Here, γ 1 (n) and γ 2 (n) are coefficients for changing the strength during SS.
背景雑音や非目的エリア音の音量レベルが大きい場合、目的エリア音抽出の際に行うSSにより目的エリア音が歪んだり、ミュージカルノイズといった耳障りな異音が発生する可能性がある。 When the volume level of the background noise or the non-target area sound is high, the target area sound may be distorted by the SS performed when the target area sound is extracted, or an unpleasant noise such as musical noise may occur.
そこで、特許文献2に記載されたエリア収音手法では、背景雑音と非目的エリア音の大きさに応じて、マイクの入力信号と推定雑音の音量レベルをそれぞれ調節し、抽出した目的エリア音に混合している。目的エリア音を抽出する処理により発生するミュージカルノイズは、背景雑音と非目的エリア音の音量レベルが大きいほど強くなるため、混合する入力信号と推定雑音の総和の音量レベルも、背景雑音と非目的エリア音の音量レベルに比例して大きくする。そこで、特許文献2に記載された手法では、背景雑音の音量レベルは、背景雑音を抑圧する過程で求める推定雑音から算出する。さらに、特許文献2に記載された手法では、非目的エリア音の音量レベルは、目的エリア音を強調する過程で抽出する目的エリア方向に存在する非目的エリア音と、目的エリア方向以外に存在する非目的エリア音を合わせたものから算出する。
Therefore, in the area sound collection method described in
ところで、ここで、従来のエリア収音処理において、混合する入力信号と推定雑音の比率を、推定雑音と非目的エリア音の音量レベルから決定することを想定する。そうすると、目的エリアの近くに非目的エリア音が存在する場合、混合する入力信号の音量レベルが大きすぎると目的エリア音に非目的エリア音が混入し、どちらが目的エリア音なのかが分からなくなってしまう。 By the way, here, it is assumed that in the conventional area sound collection processing, the ratio of the input signal to be mixed with the estimated noise is determined from the volume levels of the estimated noise and the non-target area sound. Then, when there is a non-target area sound near the target area, if the volume level of the input signal to be mixed is too high, the target area sound is mixed with the non-target area sound, and it becomes unclear which is the target area sound. ..
そこで、特許文献2に記載された手法では、非目的エリア音が大きいときは混合する入力信号の音量レベルを下げ、推定雑音の音量レベルを大きくして混合する。つまり、特許文献2に記載された手法では、非目的エリア音が存在しないか音量レベルが小さい場合は入力信号の割合を多くし、逆に非目的エリア音の音量レベルが大きい場合推定雑音の割合を多くして混合する。
Therefore, in the method described in
このように特許文献2の手法を用いれば、目的エリア音に入力信号及び推定雑音を混合することにより、ミュージカルノイズをマスキングし、通常の背景雑音のように違和感なく聞かせることができる。また、特許文献2の手法を用いれば、マイク入力信号に含まれる目的エリア音の成分により、目的エリア音の歪みを補正し、音質を改善することができる。
As described above, by using the method of
しかしながら、特許文献2の手法では、周囲の非目的エリア音レベルが大きい場合、目的エリア音への加算は、入力信号を小さくして推定雑音を大きくするため、ミュージカルノイズをマスキングすることはできるが、音質改善の効果は弱まってしまう。
However, in the method of
そのため、エリア収音処理の際に音質劣化を抑制する収音装置、収音プログラム及び収音方法が望まれている。 Therefore, a sound collecting device, a sound collecting program, and a sound collecting method that suppress sound quality deterioration during the area sound collecting process are desired.
第1の本発明は、(1)複数のマイクアレイが出力する捕捉信号又は前記捕捉信号に基づく信号のそれぞれに対し、ビームフォーマによって目的エリア音方向へ指向性を形成して、前記マイクアレイごとに目的方向信号を取得する指向性形成手段と、(2)それぞれの前記目的方向信号をスペクトル減算することで目的エリア方向に存在する非目的エリア音を抽出し、抽出した前記非目的エリア音をいずれかの前記目的方向信号からスペクトル減算することにより目的エリア音を抽出する目的エリア音抽出手段と、(3)前記捕捉信号に基づく非目的エリアを音源とする音の成分が優勢な非目的エリア音成分優勢信号からピーク周波数を検出し、前記非目的エリア音成分優勢信号のピーク周波数に基づく抑圧周波数の成分を抑圧する抑圧フィルタを形成する混合フィルタ形成手段と、(4)前記混合フィルタ形成手段で形成された抑圧フィルタを、いずれかの前記マイクアレイが出力する前記捕捉信号又は前記捕捉信号に基づく信号により構成される混合用信号に掛けてフィルタ済混合用信号を取得し、さらに前記フィルタ済混合用信号を、前記目的エリア音抽出手段で抽出した前記目的エリア音に混合して混合後信号を取得する信号混合手段と、(5)前記信号混合手段が取得した混合後信号を目的エリアのエリア収音結果として出力する出力手段とを有することを特徴とする。 The first aspect of the present invention is: (1) Forming directivity in a target area sound direction by a beamformer with respect to each of capture signals output from a plurality of microphone arrays or signals based on the capture signals, And (2) extracting the non-target area sound existing in the target area direction by spectrally subtracting each of the target direction signals, and extracting the extracted non-target area sound. Target area sound extraction means for extracting a target area sound by spectrally subtracting from any one of the target direction signals; and (3) a non-target area in which a sound component whose sound source is a non-target area based on the captured signal is dominant. Mixing filter forming means for detecting a peak frequency from a sound component dominant signal and forming a suppression filter for suppressing a suppression frequency component based on the peak frequency of the non-target area sound component dominant signal; and (4) the mixing filter forming means. The suppression filter formed in 1. is applied to a mixing signal composed of the capture signal or a signal based on the capture signal output from any one of the microphone arrays to obtain a filtered mixing signal, and the filtered signal is further filtered. A signal mixing means for mixing a mixing signal with the target area sound extracted by the target area sound extracting means to obtain a mixed signal; and (5) the mixed signal acquired by the signal mixing means in the target area. It is characterized by having an output means for outputting as an area sound collection result.
第2の本発明の収音プログラムは、コンピュータを、(1)複数のマイクアレイが出力する捕捉信号又は前記捕捉信号に基づく信号のそれぞれに対し、ビームフォーマによって目的エリア音方向へ指向性を形成して、前記マイクアレイごとに目的方向信号を取得する指向性形成手段と、(2)それぞれの前記目的方向信号をスペクトル減算することで目的エリア方向に存在する非目的エリア音を抽出し、抽出した前記非目的エリア音をいずれかの前記目的方向信号からスペクトル減算することにより目的エリア音を抽出する目的エリア音抽出手段と、(3)前記捕捉信号に基づく非目的エリアを音源とする音の成分が優勢な非目的エリア音成分優勢信号からピーク周波数を検出し、前記非目的エリア音成分優勢信号のピーク周波数に基づく抑圧周波数の成分を抑圧する抑圧フィルタを形成する混合フィルタ形成手段と、(4)前記混合フィルタ形成手段で形成された抑圧フィルタを、いずれかの前記マイクアレイが出力する前記捕捉信号又は前記捕捉信号に基づく信号により構成される混合用信号に掛けてフィルタ済混合用信号を取得し、さらに前記フィルタ済混合用信号を、前記目的エリア音抽出手段で抽出した前記目的エリア音に混合して混合後信号を取得する信号混合手段と、(5)前記信号混合手段が取得した混合後信号を目的エリアのエリア収音結果として出力する出力手段として機能させることを特徴とする。 A sound collecting program according to a second aspect of the present invention causes a computer to (1) form a directivity in a sound direction of a target area by a beam former for each of a capture signal output by a plurality of microphone arrays or a signal based on the capture signal. Then, directivity forming means for acquiring a target direction signal for each microphone array, and (2) spectral subtraction of each target direction signal to extract non-target area sounds existing in the target area direction, and extract Target area sound extraction means for extracting the target area sound by spectrally subtracting the non-target area sound from any of the target direction signals; and (3) a sound sourced from the non-target area based on the captured signal. A mixing filter forming means for detecting a peak frequency from a non-target area sound component dominant signal having a dominant component, and forming a suppression filter for suppressing a suppression frequency component based on the peak frequency of the non-target area sound component dominant signal; 4) The suppression filter formed by the mixing filter forming means is applied to a mixing signal composed of the captured signal output from any one of the microphone arrays or a signal based on the captured signal to obtain a filtered mixed signal. And (5) the signal mixing means that acquires and further mixes the filtered mixed signal with the target area sound extracted by the target area sound extraction means to acquire a mixed signal. It is characterized in that it functions as an output means for outputting the mixed signal as an area sound collection result of the target area.
第3の本発明は、収音装置が行う収音方法において、(1)指向性形成手段、目的エリア音抽出手段、混合フィルタ形成手段、信号混合手段及び出力手段を有し、(2)前記指向性形成手段は、複数のマイクアレイが出力する捕捉信号又は前記捕捉信号に基づく信号のそれぞれに対し、ビームフォーマによって目的エリア音方向へ指向性を形成して、前記マイクアレイごとに目的方向信号を取得し、(3)前記目的エリア音抽出手段は、それぞれの前記目的方向信号をスペクトル減算することで目的エリア方向に存在する非目的エリア音を抽出し、抽出した前記非目的エリア音をいずれかの前記目的方向信号からスペクトル減算することにより目的エリア音を抽出し、(4)前記混合フィルタ形成手段は、前記捕捉信号に基づく非目的エリアを音源とする音の成分が優勢な非目的エリア音成分優勢信号からピーク周波数を検出し、前記非目的エリア音成分優勢信号のピーク周波数に基づく抑圧周波数の成分を抑圧する抑圧フィルタを形成し、(5)前記信号混合手段は、前記混合フィルタ形成手段で形成された抑圧フィルタを、いずれかの前記マイクアレイが出力する前記捕捉信号又は前記捕捉信号に基づく信号により構成される混合用信号に掛けてフィルタ済混合用信号を取得し、さらに前記フィルタ済混合用信号を、前記目的エリア音抽出手段で抽出した前記目的エリア音に混合して混合後信号を取得し、(6)前記出力手段は、前記信号混合手段が取得した混合後信号を目的エリアのエリア収音結果として出力することを特徴とする。 A third aspect of the present invention is a sound collecting method performed by a sound collecting device, including (1) directivity forming means, target area sound extracting means, mixing filter forming means, signal mixing means and output means, and (2) the above The directivity forming means forms a directivity in the target area sound direction by the beam former for each of the capture signals output by the plurality of microphone arrays or the signals based on the capture signals, and the target direction signal for each microphone array. (3) The target area sound extraction means extracts the non-target area sound existing in the target area direction by spectrally subtracting each of the target direction signals, and the extracted non-target area sound is A target area sound is extracted by spectrally subtracting from the target direction signal, and (4) the mixing filter forming means is a non-target area in which a sound component whose sound source is a non-target area based on the captured signal is dominant. A peak frequency is detected from the sound component dominant signal, and a suppression filter for suppressing a suppression frequency component based on the peak frequency of the non-target area sound component dominant signal is formed; (5) the signal mixing means forms the mixing filter. The suppression filter formed by means is applied to a mixing signal composed of the captured signal or a signal based on the captured signal output from any one of the microphone arrays to obtain a filtered mixed signal, and further the filter The mixed signal is mixed with the target area sound extracted by the target area sound extraction means to obtain a mixed signal, and (6) the output means targets the mixed signal acquired by the signal mixing means. It is characterized in that it is output as the area sound collection result of the area.
この本発明によれば、エリア収音処理の際に音質劣化を抑制することができる。 According to the present invention, it is possible to suppress sound quality deterioration during area sound collection processing.
(A)第1の実施形態
以下、本発明による収音装置、収音プログラム及び収音方法の第1の実施形態を、図面を参照しながら詳述する。
(A) First Embodiment Hereinafter, a first embodiment of a sound collecting device, a sound collecting program, and a sound collecting method according to the present invention will be described in detail with reference to the drawings.
(A−1)第1の実施形態の構成
図1は、第1の実施形態に係る収音装置100の機能的構成を示すブロック図である。
(A-1) Configuration of First Embodiment FIG. 1 is a block diagram showing a functional configuration of a
収音装置100は、2つのマイクロホンアレイMA(MA1、MA2)を用いて、目的エリアの音源からの目的エリア音を収音する目的エリア音収音処理を行う。
The
マイクロホンアレイMA1、MA2は、目的エリアが存在する空聞の任意の場所に配置される。目的エリアに対するマイクロホンアレイMA1、MA2の位置は、指向性が目的エリアでのみ重なればどこでも良く、例えば目的エリアを挟んで対向に配置しても良い。各マイクロホンアレイMAは2つ以上のマイクロホンMから構成され、各マイクロホンMにより音響信号を収音する。この実施形態では、各マイクロホンアレイMAに、音響信号を収音する2つのマイクロホンM1、M2が配置されるものとして説明する。すなわち、この実施形態において、各マイクロホンアレイMAは、2chマイクロホンアレイを構成しているものとする。2個のマイクロホンM1、M2の間の距離は限定されないものであるが、この実施形態の例では、2個のマイクロホンM1、M2の間の距離は3cmとする。なお、マイクロホンアレイMAの数は2つに限定するものではなく、目的エリアが複数存在する場合、全てのエリアをカバーできる数のマイクロホンアレイMAを配置する必要がある。 The microphone arrays MA1 and MA2 are arranged at any place in the space where the target area exists. The positions of the microphone arrays MA1 and MA2 with respect to the target area may be anywhere as long as the directivities overlap only in the target area, for example, they may be arranged opposite to each other across the target area. Each microphone array MA is composed of two or more microphones M, and each microphone M picks up an acoustic signal. In this embodiment, two microphones M1 and M2 that pick up an acoustic signal are arranged in each microphone array MA. That is, in this embodiment, each microphone array MA constitutes a 2ch microphone array. The distance between the two microphones M1 and M2 is not limited, but in the example of this embodiment, the distance between the two microphones M1 and M2 is 3 cm. Note that the number of microphone arrays MA is not limited to two, and when there are a plurality of target areas, it is necessary to arrange the microphone arrays MA in a number that can cover all areas.
次に、図1を用いて収音装置100の内部構成について説明する。
Next, the internal configuration of the
図1に示す通り、収音装置100は、信号入力部1、雑音抑圧部2、指向性形成部3、遅延補正部4、空間座標データ5、補正係数算出部6、目的エリア音抽出部7、混合フィルタ形成部8、信号混合部9、及び信号出力部10を有している。
As shown in FIG. 1, the
収音装置100は、全てハードウェア(例えば、専用チップ等)により構成するようにしてもよいし一部又は全部についてソフトウェア(プログラム)として構成するようにしてもよい。収音装置100は、例えば、プロセッサ及びメモリを有するコンピュータにプログラム(実施形態の信号処理プログラムを含む)をインストールすることにより構成するようにしてもよい。
The
次に、図2を用いて、収音装置100のハードウェア構成について説明する。
Next, the hardware configuration of the
収音装置100は、全てハードウェア(例えば、専用チップ等)により構成するようにしてもよいし一部又は全部についてソフトウェア(プログラム)として構成するようにしてもよい。収音装置100は、例えば、プロセッサ及びメモリを有するコンピュータにプログラム(実施形態の収音プログラムを含む)をインストールすることにより構成するようにしてもよい。
The
図2は、収音装置100のハードウェア構成の例について示したブロック図である。
FIG. 2 is a block diagram showing an example of the hardware configuration of the
図2では、収音装置100を、ソフトウェア(コンピュータ)を用いて構成する際のハードウェア構成の例について示している。
FIG. 2 shows an example of a hardware configuration when the
図2に示す収音装置100は、ハードウェア的な構成要素として、プログラム(実施形態の収音プログラムを含む)がインストールされたコンピュータ200を有している。なお、コンピュータ200に、アナログ信号(超指向性マイクロホンM1、M2から供給される信号)をデジタル信号に変換する変換手段が搭載されていない場合、収音装置100に別途図示しない変換手段を搭載するようにしてもよい。また、コンピュータ200は、収音プログラム専用のコンピュータとしてもよいし、他の機能のプログラムと共用される構成としてもよい。
The
図2に示すコンピュータ200は、プロセッサ201、一次記憶部202、及び二次記憶部203を有している。一次記憶部202は、プロセッサ201の作業用メモリ(ワークメモリ)として機能する記憶手段であり、例えば、DRAM(Dynamic Random Access Memory)等の高速動作するメモリを適用することができる。二次記憶部203は、OS(Operating System)やプログラムデータ(実施形態に係る収音プログラムのデータを含む)等の種々のデータを記録する記憶手段であり、例えば、FLASHメモリやHDD等の不揮発性メモリを適用することができる。この実施形態のコンピュータ200では、プロセッサ201が起動する際、二次記憶部203に記録されたOSやプログラム(実施形態に係る収音プログラムを含む)を読み込み、一次記憶部202上に展開して実行する。
The
なお、コンピュータ200の具体的な構成は図2の構成に限定されないものであり、種々の構成を適用することができる。例えば、一次記憶部202が不揮発メモリ(例えば、FLASHメモリ等)であれば、二次記憶部203については除外した構成としてもよい。
The specific configuration of the
(A−2)第1の実施形態の動作
信号入力部1は、各マイクロホンアレイMA(MA1、MA2)が収音した音響信号の入力をうけるとその音響信号をアナログ信号からデジタル信号に変換する。そして、信号入力部1は、当該音響信号(デジタル信号)を、所定の方法(例えば、高速フーリエ変換)を用いて、時間領域から周波数領域へ変換する。以下では、各マイクロホンアレイMAにおいて、マイクロホンM1、M2の周波数領域の入力信号を、それぞれX1、X2として説明する。
(A-2) Operation of the first embodiment The
雑音抑圧部2は、信号入力部1で取得した入力信号に含まれる背景雑音の成分を推定し、抑圧する。雑音抑圧部2に適用する雑音抑圧手法は限定されないものであるが、例えば、SSやウィーナーフィルタリング法(Wiener filtering)などを用いることができる。
The
指向性形成部3は、マイクロホンアレイMA毎に、雑音抑圧部2により背景雑音を抑圧した信号に対し、(4)式に従いBFにより目的エリア方向に指向性を形成する。以下では、マイクロホンアレイMA1、MA2のBF出力の振幅スペクトルを、それぞれY1k(n)、Y2k(n)として説明する。
The
遅延補正部4は、目的エリアと各マイクロホンアレイMAの距離の違いにより発生する遅延を算出し、補正する。遅延補正部4は、まず空間座標データ5から目的エリアの位置とマイクロホンアレイの位置を取得し、各マイクロホンアレイへの目的エリア音の到達時間の差を算出する。次に最も目的エリアから遠い位置に配置されたマイクロホンアレイを基準として、全てのマイクロホンアレイに目的エリア音が同時に到達するように遅延を加える。
The delay correction unit 4 calculates and corrects the delay caused by the difference in the distance between the target area and each microphone array MA. The delay correction unit 4 first acquires the position of the target area and the position of the microphone array from the spatial coordinate
空間座標データ5は、全ての目的エリアと各マイクロホンアレイMAと各マイクロホンアレイMAを構成するマイクロホンMの位置情報を保持する。
The spatial coordinate
補正係数算出部6は、各BF出力に含まれる目的エリア音成分の振幅スペクトルを同じにするための補正係数を算出する。以下では、マイクロホンアレイMA1、MA2のBF出力に対する振幅スペクトル補正係数を、α1(n)、α2(n)として説明する。補正係数算出部6は、例えば、(5)式、(6)式または(7)式、(8)式に従い、補正係数α1(n)、α2(n)を算出する。
The correction
目的エリア音抽出部7は、補正係数算出部6で算出した補正係数により補正した各BF出力データから、目的エリア方向に存在する非目的エリア音を抽出する。目的エリア音抽出部7は、補正係数算出部6で算出した補正係数により補正した各BF出力データを例えば、(9)式又は(10)式に従いSSし、目的エリア方向に存在する非目的エリア音(N1(n)又はN2(n))を抽出する。
The target area sound extraction unit 7 extracts the non-target area sound existing in the target area direction from each BF output data corrected by the correction coefficient calculated by the correction
さらに、目的エリア音抽出部7は、抽出した非目的エリア音(N1(n)又はN2(n))を各BFの出力から(11)式又は(12)式に従いSSすることにより目的エリア音(Z1(n)又はZ2(n))を抽出する。 Further, the target area sound extraction unit 7 performs SS by extracting the extracted non-target area sound (N 1 (n) or N 2 (n)) from the output of each BF according to Expression (11) or Expression (12). Area sounds (Z 1 (n) or Z 2 (n)) are extracted.
混合フィルタ形成部8は、目的エリア音抽出部7において(9)式又は(10)式により抽出した非目的エリア音(N1(n)又はN2(n))からパワーがピークとなる周波数(以下、「ピーク周波数」と呼ぶ)を検出し、そのピーク周波数の成分(パワー)だけを抑圧する抑制フィルタ(以下、「ノッチフィルタ」、「バンドストップフィルタ」、又は「バンドエリミネーションフィルタ」と呼ぶ)を形成する。 The mixing filter formation unit 8 has a frequency at which the power reaches a peak from the non-target area sound (N 1 (n) or N 2 (n)) extracted by the target area sound extraction unit 7 by the expression (9) or the expression (10). (Hereinafter, referred to as “peak frequency”) and suppresses only the component (power) of the peak frequency (hereinafter referred to as “notch filter”, “band stop filter”, or “band elimination filter”) Form).
混合フィルタ形成部8では、ピーク周波数を検出する際、抽出した非目的エリア音(N1(n)又はN2(n))だけでなく、他の、入力信号(いずれかのマイクロホンアレイMAの入力信号)に基づき、「非目的エリアを音源とする音」の成分が優勢な信号(以下、「非目的エリア音成分優勢信号」と呼ぶ)を用いてもよい。例えば、混合フィルタ形成部8では、ピーク周波数を検出する際、指向性形成部3において(2)式又は(3)式により抽出した音(非目的音)を用いても良い。混合フィルタ形成部8では、ピーク周波数は、例えば、振幅スペクトルを平滑化し、最大振幅スペクトルを求めて検出するようにしてもよい。また、混合フィルタ形成部8では、抽出した非目的エリア音を時間領域に戻し、線形予測(LPC:Linear Predictive Coding)分析を行って、LPCスペクトル包絡のピークをピーク周波数として検出しても良い。
When detecting the peak frequency, the mixing filter forming unit 8 outputs not only the extracted non-target area sound (N 1 (n) or N 2 (n)) but also another input signal (of either microphone array MA). Based on the (input signal), a signal in which the component of the “sound whose sound source is the non-target area” is dominant (hereinafter, referred to as “non-target area sound component dominant signal”) may be used. For example, in the mixing filter forming unit 8, when detecting the peak frequency, the sound (non-target sound) extracted by the
混合フィルタ形成部8は、ピーク周波数を検出した後、ノッチフィルタの形成する際に、既存のノッチフィルタ形成手法を用いても良いし、独自のフィルタ形成手法を用いても良い。混合フィルタ形成部8では、独自手法によりノッチフィルタを形成する場合、例えば、抑圧する周波数帯域(以下、「抑圧周波数」と呼ぶ)を、ピーク周波数だけとしても良いし、ピーク周波数を含む周波数帯(例えば、ピーク周波数を中心とした所定の帯域幅の周波数帯)としても良い。 The mixed filter forming unit 8 may use an existing notch filter forming method or an original filter forming method when forming the notch filter after detecting the peak frequency. When the notch filter is formed by the unique method in the mixed filter forming unit 8, for example, the frequency band to be suppressed (hereinafter referred to as “suppression frequency”) may be only the peak frequency, or the frequency band including the peak frequency ( For example, it may be a frequency band having a predetermined bandwidth centered on the peak frequency).
また、混合フィルタ形成部8は、抑圧周波数を複数するようにしてもよい。例えば、混合フィルタ形成部8は、非目的エリア音のピーク周波数(1番目のピーク)だけでなく、2番目以降(2番目、3番目、…、N番目)のピークを、それぞれ抑圧周波数として設定するようにしてもよい。 Further, the mixing filter forming unit 8 may have a plurality of suppression frequencies. For example, the mixing filter forming unit 8 sets not only the peak frequency (first peak) of the non-target area sound but also the second and subsequent peaks (second, third,..., Nth) as suppression frequencies. You may do so.
混合フィルタ形成部8において、各抑圧周波数に対して適用する抑圧量(減衰量)の決定方法は限定されないものである。混合フィルタ形成部8では、例えば、各抑圧周波数に対する抑圧量を固定値としてもよいし、非目的エリア音のピーク周波数の振幅スペクトルや全帯域の平均振幅スペクトルに応じて動的に各抑圧周波数に対する抑圧量を設定するようにしてもよい。例えば、混合フィルタ形成部8では、非目的エリア音のピーク周波数の振幅スペクトルや全帯域の平均振幅スペクトルが大きいほど、抑圧周波数の成分に適用する抑圧量を大きく設定するようにしてもよい。また、混合フィルタ形成部8は、信号出力部10から出力される音に基づいて、抑圧量を変更するようにしてもよい。
The method of determining the suppression amount (attenuation amount) applied to each suppression frequency in the mixing filter forming unit 8 is not limited. In the mixing filter forming unit 8, for example, the amount of suppression for each suppression frequency may be a fixed value, or for each suppression frequency dynamically according to the amplitude spectrum of the peak frequency of the non-target area sound or the average amplitude spectrum of the entire band. The amount of suppression may be set. For example, in the mixing filter forming unit 8, the suppression amount applied to the suppression frequency component may be set to be larger as the amplitude spectrum of the peak frequency of the non-target area sound or the average amplitude spectrum of the entire band is larger. Moreover, the mixing filter forming unit 8 may change the suppression amount based on the sound output from the
混合フィルタ形成部8では、抑圧周波数に帯域幅をもたせる場合、当該帯域幅において一律で同じ抑圧量としても良いし、ピーク周波数から周波数が離れるに従い弱くなるよう(抑圧量が少なくなるように)に設定しても良い。 When the suppression frequency has a bandwidth, the mixing filter forming unit 8 may uniformly apply the same suppression amount in the bandwidth, or may become weaker as the frequency deviates from the peak frequency (so that the suppression amount decreases). You may set it.
混合フィルタ形成部8では、同じ非目的エリア音が定常的に存在する場合(例えば、定常的に大音量のサイレン音やエンジン音等が存在する場合)は、動的にフィルタを形成するのではなく、事前にピーク周波数(当該非目的エリア音)を検出してノッチフィルタを形成しておいても良いし、予めノッチフィルタを複数用意して切替えても良い。なお、混合フィルタ形成部8において、ノッチフィルタは、周波数領域と時間領域どちらでも適用することができる。 When the same non-target area sound constantly exists (for example, when there is a steady loud siren sound, engine sound, etc.), the mixed filter forming unit 8 does not dynamically form a filter. Instead, the peak frequency (the non-target area sound) may be detected in advance to form the notch filter, or a plurality of notch filters may be prepared and switched in advance. In addition, in the mixing filter forming unit 8, the notch filter can be applied in both the frequency domain and the time domain.
信号混合部9は、混合フィルタ形成部8で形成したノッチフィルタを混合用信号に掛けた信号(以下、「フィルタ処理済混合用信号XMIX(n)」と呼ぶ)を形成する。そして、信号混合部9は、フィルタ処理済混合用信号XMIX(n)と、目的エリア音抽出部7で抽出した目的エリア音(Z1(n)又はZ2(n))とを混合した信号(以下、「混合後信号W(n)」と呼ぶ)を形成する。
The
混合用信号は、信号入力部1で取得した入力信号(いずれかのマイクロホンアレイMAにおけるいずれかのマイクロホンの入力信号)でも良いし、雑音抑圧部2により背景雑音を抑圧した信号(いずれかのマイクロホンアレイMAにおけるいずれかのマイクロホンの入力信号について背景雑音を抑圧した信号)でも良い。 The mixing signal may be an input signal acquired by the signal input unit 1 (an input signal of any microphone in any microphone array MA), or a signal in which background noise is suppressed by the noise suppression unit 2 (any microphone). A signal with background noise suppressed for an input signal of any microphone in the array MA) may be used.
ここでは、例として、目的エリア音抽出部7において、(11)式に従いマイクロホンアレイMA1を基準としたエリア収音が行われ、目的エリア音Z1(n)が取得された場合を想定する。この場合、信号混合部9は、例えば、以下の(13)に従い、目的エリア音(Z1(n))とフィルタ処理済混合用信号XMIX(n)とを混合するようにしてもよい。ここで、「μ」は、混合するフィルタ処理済混合用信号XMIX(n)の大きさを調整するパラメータ(係数)である。また、ここで、「W1(n)」はマイクロホンアレイMA1を基準として抽出した目的エリア音Z1(n)に基づいて算出した混合後信号である。なお、目的エリア音抽出部7において、(12)式に従い、マイクロホンアレイMA2を基準としたエリア収音が行われ、目的エリア音Z2(n)にフィルタ処理済混合用信号XMIX(n)を混合して混合後信号W2(n)を得る場合の式は(14)式のようになる。
Here, as an example, it is assumed that the target area sound extraction unit 7 collects an area sound with the microphone array MA1 as a reference according to the expression (11) and acquires the target area sound Z 1 (n). In this case, the
目的エリア音抽出部7では、μを予め定めた定数としてもよいし、非目的エリア音のレベルに応じて適応的(動的)に変えても良い。また、目的エリア音抽出部7では、信号出力部10から出力される信号(例えば、W1(n)又はW2(n)のパワー)に応じて、μの値を変更するようにしてもよい。 In the target area sound extraction unit 7, μ may be a predetermined constant or may be changed adaptively (dynamically) according to the level of the non-target area sound. In the target area sound extraction unit 7, the value of μ may be changed according to the signal output from the signal output unit 10 (for example, the power of W 1 (n) or W 2 (n)). Good.
また、目的エリア音抽出部7では、例えば、以下の(15)式又は(16)式に示すように、混合後信号を算出する際に、目的エリア音(Z1(n)又はZ2(n))の大きさを調整するパラメータ(係数)としてρを追加してもよい。この場合、目的エリア音抽出部7では、ρを0と設定することで、混合用の信号だけを出力することもできる。
W1(n)=Z1(n)+μXMIX(n) …(13)
W2(n)=Z2(n)+μXMIX(n) …(14)
W1(n)=ρZ1(n)+μXMIX(n) …(15)
W2(n)=ρZ2(n)+μXMIX(n) …(16)
Further, in the target area sound extraction unit 7, for example, as shown in the following Expression (15) or Expression (16), when calculating the mixed signal, the target area sound (Z 1 (n) or Z 2 ( n)) may be added as a parameter (coefficient) for adjusting the size. In this case, the target area sound extraction unit 7 can output only the mixing signal by setting ρ to 0.
W 1 (n)=Z 1 (n)+μX MIX (n) (13)
W 2 (n)=Z 2 (n)+μX MIX (n) (14)
W 1 (n)=ρZ 1 (n)+μX MIX (n) (15)
W 2 (n)=ρZ 2 (n)+μX MIX (n) (16)
信号出力部10は、信号混合部9で算出した混合後信号(W1(n)又はW2(n))又は混合後信号に基づく信号をエリア収音結果として出力する。信号出力部10が混合後信号を出力する際の出力形式や出力手段(出力メディア)は限定されないものである。例えば、信号出力部10は、混合後信号を周波数領域で出力するようにしてもよいし、時間領域で出力するようにしてもよい。
The
次に、収音装置100におけるエリア収音処理の具体例について図3、図4を用いて説明する。
Next, a specific example of the area sound collecting process in the
まず、ここでは、非目的エリア音における1番目のピークの周波数を「fPNT1」、非目的エリア音における2番目のピークの周波数を「fPNT2」、…、非目的エリア音におけるN番目のピークの周波数を「fPNTN」と呼ぶものとする。 First, here, the frequency of the first peak in the non-target area sound is "fPNT1", the frequency of the second peak in the non-target area sound is "fPNT2",..., The frequency of the N-th peak in the non-target area sound. Shall be referred to as “fPNTN”.
図3(a)は、混合用信号としての入力信号X1(n)に含まれる非目的エリアを音源とする音(雑音)がサイレン音だったときの、信号入力部1、雑音抑圧部2、指向性形成部3もしくは目的エリア音抽出部7において抽出したサイレン音のスペクトラムである。また図3(b)は、非目的エリアを音源とする音(雑音)の1番目のピーク(最大ピーク)と2番目のピークを抑圧するように設計したノッチフィルタの例を示した図であり、周波数ごとの抑圧量を示している。また図4は、混合用信号として、目的エリア音と非目的エリアを音源とする音(雑音)(図3(a)に示すサイレン音)が含まれる場合の入力信号X1(n)のスペクトラムを示している。
FIG. 3A shows the
図3、図4の例では、混合フィルタ形成部8は、非目的エリアを音源とする音(雑音)の1番目のピーク(最大ピーク)の周波数fPNT1を中心とする前後200Hzの帯域と、非目的エリアを音源とする音(雑音)の2番目のピークの周波数fPNT2を中心とする前後200Hzの帯域を抑圧周波数として設定するものとする。以下では、周波数fPNT1に対応する抑圧周波数を第1の抑圧周波数と呼び、周波数fPNT2に対応する抑圧周波数を第2の抑圧周波数と呼ぶものとする。 In the example of FIG. 3 and FIG. 4, the mixing filter forming unit 8 has a band of 200 Hz before and after the frequency fPNT1 of the first peak (maximum peak) of the sound (noise) whose sound source is the non-target area, and A band of 200 Hz before and after the frequency fPNT2 of the second peak of the sound (noise) whose sound source is the target area is set as the suppression frequency. Hereinafter, the suppression frequency corresponding to the frequency fPNT1 will be referred to as a first suppression frequency, and the suppression frequency corresponding to the frequency fPNT2 will be referred to as a second suppression frequency.
図3、図4の例では、混合用信号(入力信号X1(n))の第1の抑圧周波数と第2の抑圧周波数において、非目的エリアを音源とする音(雑音)であるサイレン音の成分が、目的エリア音(例えば、電話装置の話者の音声等)より優勢であるものとして説明する。 In the examples of FIGS. 3 and 4, at the first suppression frequency and the second suppression frequency of the mixing signal (input signal X 1 (n)), a siren sound that is a sound (noise) that uses the non-target area as a sound source. Will be described as being dominant over the target area sound (for example, the voice of the speaker of the telephone device).
図3(b)に示すノッチフィルタでは、第1の抑圧周波数の帯域(周波数fPNT1を中心とする前後200Hzの帯域)と、第2の抑圧周波数の帯域(周波数fPNT2を中心とする前後200Hzの帯域)について抑圧量が1以下の値に設定されている。ノッチフィルタにおいて、各周波数の抑圧量は0から1の間の数値で表すことができ、数値が小さいほど抑圧量が大きいことを示すことになる。図3(b)に示すノッチフィルタでは、第1及び第2の抑圧周波数の帯域ともに、ピークの周波数(fPNT1、fPNT2)の抑圧量が最大となっており、ピークの周波数(fPNT1、fPNT2)から離れるごとに抑圧量が小さくなるように設定されている。 In the notch filter shown in FIG. 3B, a first suppression frequency band (a band of 200 Hz before and after centering on the frequency fPNT1) and a second suppression frequency band (a band of 200 Hz before and after centering on the frequency fPNT2). ), the suppression amount is set to a value of 1 or less. In the notch filter, the suppression amount of each frequency can be represented by a numerical value between 0 and 1, and the smaller the numerical value, the larger the suppression amount. In the notch filter shown in FIG. 3B, the suppression amount of the peak frequencies (fPNT1, fPNT2) is maximum in both the first and second suppression frequency bands, and the peak frequencies (fPNT1, fPNT2) It is set so that the amount of suppression decreases as the distance increases.
これにより、図3(a)に示す非目的エリアを音源とする音(雑音)(サイレン音)では、図3(b)に示すノッチフィルタにおける第1及び第2の抑圧周波数の帯域についてパワーが抑圧されている。 As a result, in the sound (noise) (siren sound) having the non-target area as the sound source shown in FIG. 3A, the power is reduced in the bands of the first and second suppression frequencies in the notch filter shown in FIG. 3B. It is suppressed.
図4は、目的エリア音と非目的エリアを音源とする音(雑音)(図3(a)に示すサイレン音)が含まれる場合の入力信号X1(n)を混合用信号XMIX(n)としたときのスペクトラムを実線で図示し、混合用信号(入力信号X1(n))がノッチフィルタ(図3(b)に示すノッチフィルタ)によりフィルタ処理された後のフィルタ処理済混合用信号XMIX(n)のスペクトラムを点線で図示している。図4の例では、フィルタ処理済混合用信号XMIX(n)を適用することで、混合後信号W1(n)において、非目的エリアを音源とする音(雑音)であるサイレン音の成分が優勢な帯域(第1及び第2の抑圧周波数)におけるSN比が向上していることがわかる。 FIG. 4 shows the case where the input signal X 1 (n) in the case where the target area sound and the sound (noise) generated by the sound source in the non-target area (the siren sound shown in FIG. 3A) are included are mixed signals X MIX (n ) Is indicated by a solid line, and the mixed signal (input signal X 1 (n)) is filtered by a notch filter (notch filter shown in FIG. 3B) and then mixed. The spectrum of the signal X MIX (n) is shown by the dotted line. In the example of FIG. 4, by applying the filtered mixed signal X MIX (n), in the mixed signal W 1 (n), the component of the siren sound that is the sound (noise) whose sound source is the non-target area It can be seen that the SN ratio is improved in the band (1st and 2nd suppression frequencies) in which is dominant.
(A−3)第1の実施形態の効果
第1の実施形態によれば、以下のような効果を奏することができる。
(A-3) Effects of First Embodiment According to the first embodiment, the following effects can be achieved.
第1の実施形態の収音装置100では、目的エリア音抽出の際に抽出した非目的エリア音のピーク周波数を検出し、ピーク周波数に基づく抑圧周波数の成分を抑圧するノッチフィルタを形成する。そして、収音装置100は、ノッチフィルタを混合用信号に掛けることにより、混合用信号に含まれる非目的エリア音の主成分を抑圧したフィルタ処理済混合用信号XMIX(n)を得ることができる。そして、収音装置100は、フィルタ処理済混合用信号XMIX(n)を、目的エリア音に混合した混合後信号(W1(n)又はW2(n))を生成し、混合後信号に基づく信号Z(n)をエリア収音結果として出力する。これにより、収音装置100では、エリア収音結果に対して、非目的エリア音の混入を抑えながら音質を改善することができる。
The
(B)第2の実施形態
以下、本発明による収音装置、収音プログラム及び収音方法の第2の実施形態を、図面を参照しながら詳述する。
(B) Second Embodiment Hereinafter, a second embodiment of the sound collecting device, the sound collecting program, and the sound collecting method according to the present invention will be described in detail with reference to the drawings.
(B−1)第2の実施形態の構成
図5は、第2の実施形態の収音装置100Aに係る機能的構成について示したブロック図であり、上述の図1と同一部分又は対応部分については同一符号又は対応符号を付している。
(B-1) Configuration of Second Embodiment FIG. 5 is a block diagram showing a functional configuration according to the
以下では、第2の実施形態について第1の実施形態との差異を説明する。 The differences between the second embodiment and the first embodiment will be described below.
なお、第2の実施形態の収音装置100Aのハードウェア構成についても上述の図2を用いて示すことができる。
The hardware configuration of the
第2の実施形態の収音装置100Aでは、混合フィルタ調整部11が追加されている点で第1の実施形態と異なっている。
The
(B−2)第2の実施形態の動作
次に、以上のような構成を有する第2の実施形態の収音装置100Aの動作(実施形態に係る収音方法)について、第1の実施形態との差異を中心に説明する。
(B-2) Operation of Second Embodiment Next, the operation (sound collecting method according to the embodiment) of the
第2の実施形態では、上述の通り、混合フィルタ調整部11のみが第1の実施形態と異なっているため、以下では混合フィルタ調整部11の動作を中心に説明する。 In the second embodiment, as described above, only the mixing filter adjusting unit 11 is different from the first embodiment, and hence the operation of the mixing filter adjusting unit 11 will be mainly described below.
混合フィルタ調整部11は、まず目的エリア音抽出部7から目的エリア音を取得し、ピーク周波数を検出する。 The mixing filter adjusting unit 11 first acquires the target area sound from the target area sound extracting unit 7 and detects the peak frequency.
次に、混合フィルタ調整部11は、目的エリア音のピーク周波数と、混合フィルタ形成部8において形成したノッチフィルタの抑圧周波数(非目的エリア音のピーク)を比較し、それらの周波数帯域の距離(例えば、目的エリア音のピーク周波数と非目的エリア音のピーク周波数の差;以下「周波数差」と呼ぶ)によってノッチフィルタによる抑圧量を調整する。 Next, the mixing filter adjusting unit 11 compares the peak frequency of the target area sound with the suppression frequency (peak of the non-target area sound) of the notch filter formed in the mixing filter forming unit 8, and determines the distance (frequency) of those frequency bands. For example, the suppression amount by the notch filter is adjusted by the difference between the peak frequency of the target area sound and the peak frequency of the non-target area sound; hereinafter referred to as “frequency difference”).
例えば、混合フィルタ調整部11は、周波数差が100Hz以内の場合、混合フィルタ形成部8で形成されるノッチフィルタの抑圧量を1/2に下げるようにしてもよい。 For example, the mixed filter adjusting unit 11 may reduce the suppression amount of the notch filter formed by the mixed filter forming unit 8 to 1/2 when the frequency difference is within 100 Hz.
混合フィルタ調整部11では、抑圧量の調整は、一定の差以下であれば一律に変更してもよいし、差が大きくなるに従って徐々に大きくなるような設定にしても良い。 In the mixing filter adjustment unit 11, the adjustment of the suppression amount may be uniformly changed as long as it is equal to or less than a certain difference, or may be set to gradually increase as the difference increases.
また、混合フィルタ形成部8において、非目的エリア音のピーク周波数(1番目のピーク)だけでなく、2番目以降(2番目、3番目、…、N番目)のピークを、それぞれ抑圧周波数として設定する場合、混合フィルタ調整部11は、目的エリア音についても1番目〜N番目のピークを検出し、非目的エリア音の各ピーク(1番目〜N番目のピーク)と、目的エリア音の各ピーク(1番目〜N番目のピーク)とを比較し、非目的エリア音の各ピーク(1番目〜N番目のピーク)に対応するそれぞれの抑圧周波数の抑圧量を調整してもよい。 In addition, in the mixing filter forming unit 8, not only the peak frequency (first peak) of the non-target area sound but also the second and subsequent peaks (second, third,..., Nth) are set as suppression frequencies. In this case, the mixing filter adjusting unit 11 detects the 1st to Nth peaks of the target area sound as well, and detects each peak of the non-target area sound (1st to Nth peak) and each peak of the target area sound. (1st to Nth peak) may be compared to adjust the suppression amount of each suppression frequency corresponding to each peak (1st to Nth peak) of the non-target area sound.
ここでは、目的エリア音における1番目のピークの周波数を「PT1」、目的エリア音における2番目のピークの周波数を「PT2」、…、目的エリア音におけるN番目のピークの周波数を「PTN」と呼ぶものとする。また、ここでは、非目的エリア音における1番目のピークの周波数を「PNT1」、非目的エリア音における2番目のピークの周波数を「PNT2」、…、非目的エリア音におけるN番目のピークの周波数を「PNTN」と呼ぶものとする。この場合、混合フィルタ調整部11は、周波数PT1と周波数PNT1との間の周波数差に応じて周波数PT1に基づく抑圧周波数の抑圧量を調整し、周波数PT2と周波数PNT2との間の周波数差に応じて周波数PT2に基づく抑圧周波数の抑圧量を調整し、…、周波数PTNと周波数PNTNとの間の周波数差に応じて周波数PTNに基づく抑圧周波数の抑圧量を調整する。この場合、混合フィルタ調整部11が調整する各抑圧量の調整の仕方は上記の例と同様の方式でもよい。 Here, the frequency of the first peak in the target area sound is "PT1", the frequency of the second peak in the target area sound is "PT2",..., The frequency of the Nth peak in the target area sound is "PTN". I shall call it. Further, here, the frequency of the first peak in the non-target area sound is "PNT1", the frequency of the second peak in the non-target area sound is "PNT2",..., The frequency of the N-th peak in the non-target area sound. Shall be referred to as "PNTN". In this case, the mixed filter adjustment unit 11 adjusts the suppression amount of the suppression frequency based on the frequency PT1 according to the frequency difference between the frequency PT1 and the frequency PNT1, and according to the frequency difference between the frequency PT2 and the frequency PNT2. Then, the suppression amount of the suppression frequency based on the frequency PT2 is adjusted, and the suppression amount of the suppression frequency based on the frequency PTN is adjusted according to the frequency difference between the frequency PTN and the frequency PNTN. In this case, the method of adjusting each suppression amount adjusted by the mixing filter adjusting unit 11 may be the same method as the above example.
(B−3)第2の実施形態の効果
第2の実施形態によれば、以下のような効果を奏することができる。
(B-3) Effects of Second Embodiment According to the second embodiment, the following effects can be achieved.
第2の実施形態の収音装置100Aでは、混合フィルタ調整部11が、目的エリア音のピーク周波数とノッチフィルタの抑圧周波数(非目的エリア音のピーク周波数)を比較し、抑圧量を調整することで、非目的エリア音の種類によらず安定して音質を改善することができる。
In the
(C)他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。
(C) Other Embodiments The present invention is not limited to each of the above-described embodiments, and modified embodiments as exemplified below can be cited.
(C−1)上記の各実施形態において、雑音抑圧部2は必須ではないため除外するようにしてもよい。例えば、背景雑音がほとんどない静かな環境であれば、雑音抑圧部2の処理は除外するようにしてもよい。
(C-1) In each of the above embodiments, the
(C−2)上記の各実施形態において、遅延補正部4は必須ではないため除外するようにしてもよい。例えば、各マイクロホンアレイMAと目的エリア音の配置により、当初から遅延が発生しないか無視できる程度であれば、遅延補正部4の処理を除外するようにしてもよい。 (C-2) In each of the above-described embodiments, the delay correction unit 4 may be omitted because it is not essential. For example, the processing of the delay correction unit 4 may be excluded if the delay does not occur from the beginning or is negligible depending on the arrangement of each microphone array MA and the target area sound.
(C−3)上記の各実施形態において、補正係数算出部6は必須ではないため除外するようにしてもよい。例えば、各マイクロホンアレイMAと目的エリア音の配置により、各マイクロホンM(各マイクロホンアレイMAを構成する各マイクロホンM)で捕捉される目的エリア音の振幅スペクトルの差が小さいことが明白な場合は、補正係数算出部6の処理を除外してもよい。
(C-3) In each of the above embodiments, the correction
100、100A…収音装置、1…信号入力部、2…雑音抑圧部、3…指向性形成部、4…遅延補正部、5…空間座標データ、6…補正係数算出部、7…目的エリア音抽出部、8…混合フィルタ形成部、9…信号混合部、10…信号出力部、11…混合フィルタ調整部、M、M1、M2…マイクロホン、MA、MA1、MA2…マイクロホンアレイ。 100, 100A... Sound collection device, 1... Signal input unit, 2... Noise suppression unit, 3... Directivity formation unit, 4... Delay correction unit, 5... Spatial coordinate data, 6... Correction coefficient calculation unit, 7... Target area Sound extraction unit, 8... Mixing filter forming unit, 9... Signal mixing unit, 10... Signal output unit, 11... Mixing filter adjusting unit, M, M1, M2... Microphone, MA, MA1, MA2... Microphone array.
Claims (7)
それぞれの前記目的方向信号をスペクトル減算することで目的エリア方向に存在する非目的エリア音を抽出し、抽出した前記非目的エリア音をいずれかの前記目的方向信号からスペクトル減算することにより目的エリア音を抽出する目的エリア音抽出手段と、
前記捕捉信号に基づく非目的エリアを音源とする音の成分が優勢な非目的エリア音成分優勢信号からピーク周波数を検出し、前記非目的エリア音成分優勢信号のピーク周波数に基づく抑圧周波数の成分を抑圧する抑圧フィルタを形成する混合フィルタ形成手段と、
前記混合フィルタ形成手段で形成された抑圧フィルタを、いずれかの前記マイクアレイが出力する前記捕捉信号又は前記捕捉信号に基づく信号により構成される混合用信号に掛けてフィルタ済混合用信号を取得し、さらに前記フィルタ済混合用信号を、前記目的エリア音抽出手段で抽出した前記目的エリア音に混合して混合後信号を取得する信号混合手段と、
前記信号混合手段が取得した混合後信号を目的エリアのエリア収音結果として出力する出力手段と
を有することを特徴とする収音装置。 Directivity formation for obtaining a target direction signal for each microphone array by forming a directivity in the target area sound direction by the beamformer with respect to each of the capture signals output by the plurality of microphone arrays or the signals based on the capture signals. Means and
A non-target area sound existing in the target area direction is extracted by spectrally subtracting each of the target direction signals, and the target area sound is extracted by spectrally subtracting the extracted non-target area sound from any of the target direction signals. Target area sound extraction means for extracting
The peak frequency is detected from the non-target area sound component dominant signal in which the sound component whose sound source is the non-target area based on the captured signal is dominant, and the suppression frequency component based on the peak frequency of the non-target area sound component dominant signal is detected. Mixing filter forming means for forming a suppressing filter for suppressing,
The suppression filter formed by the mixing filter forming means is applied to a mixing signal composed of the captured signal or a signal based on the captured signal output from any one of the microphone arrays to obtain a filtered mixed signal. A signal mixing means for further mixing the filtered mixing signal with the target area sound extracted by the target area sound extracting means to obtain a mixed signal,
Output means for outputting the mixed signal acquired by the signal mixing means as an area sound collection result of the target area.
複数のマイクアレイが出力する捕捉信号又は前記捕捉信号に基づく信号のそれぞれに対し、ビームフォーマによって目的エリア音方向へ指向性を形成して、前記マイクアレイごとに目的方向信号を取得する指向性形成手段と、
それぞれの前記目的方向信号をスペクトル減算することで目的エリア方向に存在する非目的エリア音を抽出し、抽出した前記非目的エリア音をいずれかの前記目的方向信号からスペクトル減算することにより目的エリア音を抽出する目的エリア音抽出手段と、
前記捕捉信号に基づく非目的エリアを音源とする音の成分が優勢な非目的エリア音成分優勢信号からピーク周波数を検出し、前記非目的エリア音成分優勢信号のピーク周波数に基づく抑圧周波数の成分を抑圧する抑圧フィルタを形成する混合フィルタ形成手段と、
前記混合フィルタ形成手段で形成された抑圧フィルタを、いずれかの前記マイクアレイが出力する前記捕捉信号又は前記捕捉信号に基づく信号により構成される混合用信号に掛けてフィルタ済混合用信号を取得し、さらに前記フィルタ済混合用信号を、前記目的エリア音抽出手段で抽出した前記目的エリア音に混合して混合後信号を取得する信号混合手段と、
前記信号混合手段が取得した混合後信号を目的エリアのエリア収音結果として出力する出力手段と
して機能させることを特徴とする収音プログラム。 Computer,
Directivity formation for obtaining a target direction signal for each microphone array by forming a directivity in the target area sound direction by the beamformer with respect to each of the capture signals output by the plurality of microphone arrays or the signals based on the capture signals. Means and
A non-target area sound existing in the target area direction is extracted by spectrally subtracting each of the target direction signals, and the target area sound is extracted by spectrally subtracting the extracted non-target area sound from any of the target direction signals. Target area sound extraction means for extracting
The peak frequency is detected from the non-target area sound component dominant signal in which the sound component whose sound source is the non-target area based on the captured signal is dominant, and the suppression frequency component based on the peak frequency of the non-target area sound component dominant signal is detected. Mixing filter forming means for forming a suppressing filter for suppressing,
The suppression filter formed by the mixing filter forming means is applied to a mixing signal composed of the captured signal or a signal based on the captured signal output from any one of the microphone arrays to obtain a filtered mixed signal. A signal mixing means for further mixing the filtered mixing signal with the target area sound extracted by the target area sound extracting means to obtain a mixed signal,
A sound collecting program, which is caused to function as output means for outputting the mixed signal acquired by the signal mixing means as an area sound collection result of a target area.
指向性形成手段、目的エリア音抽出手段、混合フィルタ形成手段、信号混合手段及び出力手段を有し、
前記指向性形成手段は、複数のマイクアレイが出力する捕捉信号又は前記捕捉信号に基づく信号のそれぞれに対し、ビームフォーマによって目的エリア音方向へ指向性を形成して、前記マイクアレイごとに目的方向信号を取得し、
前記目的エリア音抽出手段は、それぞれの前記目的方向信号をスペクトル減算することで目的エリア方向に存在する非目的エリア音を抽出し、抽出した前記非目的エリア音をいずれかの前記目的方向信号からスペクトル減算することにより目的エリア音を抽出し、
前記混合フィルタ形成手段は、前記捕捉信号に基づく非目的エリアを音源とする音の成分が優勢な非目的エリア音成分優勢信号からピーク周波数を検出し、前記非目的エリア音成分優勢信号のピーク周波数に基づく抑圧周波数の成分を抑圧する抑圧フィルタを形成し、
前記信号混合手段は、前記混合フィルタ形成手段で形成された抑圧フィルタを、いずれかの前記マイクアレイが出力する前記捕捉信号又は前記捕捉信号に基づく信号により構成される混合用信号に掛けてフィルタ済混合用信号を取得し、さらに前記フィルタ済混合用信号を、前記目的エリア音抽出手段で抽出した前記目的エリア音に混合して混合後信号を取得し、
前記出力手段は、前記信号混合手段が取得した混合後信号を目的エリアのエリア収音結果として出力する
ことを特徴とする収音方法。 In the sound collecting method performed by the sound collecting device,
A directivity forming unit, a target area sound extracting unit, a mixing filter forming unit, a signal mixing unit and an output unit,
The directivity forming means forms a directivity in a target area sound direction by a beam former with respect to each of a capture signal output by a plurality of microphone arrays or a signal based on the capture signal, and the directivity is generated for each microphone array. Get the signal,
The target area sound extraction means extracts a non-target area sound existing in the target area direction by spectrally subtracting each of the target direction signals, and extracts the extracted non-target area sound from any of the target direction signals. Extract the target area sound by subtracting the spectrum,
The mixing filter forming means detects a peak frequency from a non-target area sound component dominant signal in which a sound component whose sound source is a non-target area based on the captured signal is dominant, and a peak frequency of the non-target area sound component dominant signal. Form a suppression filter that suppresses the suppression frequency component based on
The signal mixing means applies the suppression filter formed by the mixing filter forming means to the mixing signal output from any one of the microphone arrays, or the mixing signal composed of the signal based on the acquisition signal and filtered. A signal for mixing is acquired, and the filtered signal for mixing is further mixed with the target area sound extracted by the target area sound extracting means to acquire a signal after mixing,
The sound collecting method, wherein the output means outputs the mixed signal acquired by the signal mixing means as an area sound collection result of a target area.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019009620A JP6725014B1 (en) | 2019-01-23 | 2019-01-23 | Sound collecting device, sound collecting program, and sound collecting method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019009620A JP6725014B1 (en) | 2019-01-23 | 2019-01-23 | Sound collecting device, sound collecting program, and sound collecting method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6725014B1 true JP6725014B1 (en) | 2020-07-15 |
JP2020120263A JP2020120263A (en) | 2020-08-06 |
Family
ID=71523949
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019009620A Active JP6725014B1 (en) | 2019-01-23 | 2019-01-23 | Sound collecting device, sound collecting program, and sound collecting method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6725014B1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114827821A (en) * | 2022-04-25 | 2022-07-29 | 世邦通信股份有限公司 | Pickup control method and system for pickup, pickup apparatus, and storage medium |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4088148B2 (en) * | 2002-12-27 | 2008-05-21 | 松下電器産業株式会社 | Noise suppressor |
JP6187626B1 (en) * | 2016-03-29 | 2017-08-30 | 沖電気工業株式会社 | Sound collecting device and program |
JP6436180B2 (en) * | 2017-03-24 | 2018-12-12 | 沖電気工業株式会社 | Sound collecting apparatus, program and method |
-
2019
- 2019-01-23 JP JP2019009620A patent/JP6725014B1/en active Active
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114827821A (en) * | 2022-04-25 | 2022-07-29 | 世邦通信股份有限公司 | Pickup control method and system for pickup, pickup apparatus, and storage medium |
CN114827821B (en) * | 2022-04-25 | 2024-06-11 | 世邦通信股份有限公司 | Pickup control method and system, pickup device, and storage medium |
Also Published As
Publication number | Publication date |
---|---|
JP2020120263A (en) | 2020-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6187626B1 (en) | Sound collecting device and program | |
JP6065028B2 (en) | Sound collecting apparatus, program and method | |
JP5772151B2 (en) | Sound source separation apparatus, program and method | |
JP6540730B2 (en) | Sound collection device, program and method, determination device, program and method | |
JP6725014B1 (en) | Sound collecting device, sound collecting program, and sound collecting method | |
US11095979B2 (en) | Sound pick-up apparatus, recording medium, and sound pick-up method | |
JP7158976B2 (en) | Sound collecting device, sound collecting program and sound collecting method | |
JP6436180B2 (en) | Sound collecting apparatus, program and method | |
JP6943120B2 (en) | Sound collectors, programs and methods | |
JP6863004B2 (en) | Sound collectors, programs and methods | |
US11825264B2 (en) | Sound pick-up apparatus, storage medium, and sound pick-up method | |
JP6624256B1 (en) | Sound pickup device, program and method | |
JP6065029B2 (en) | Sound collecting apparatus, program and method | |
JP6854967B1 (en) | Noise suppression device, noise suppression method, and noise suppression program | |
JP7404657B2 (en) | Speech recognition device, speech recognition program, and speech recognition method | |
JP6923025B1 (en) | Sound collectors, programs and methods | |
JP7380783B1 (en) | Sound collection device, sound collection program, sound collection method, determination device, determination program, and determination method | |
JP6624255B1 (en) | Sound pickup device, program and method | |
JP6729744B1 (en) | Sound collecting device, sound collecting program, and sound collecting method | |
JP6669219B2 (en) | Sound pickup device, program and method | |
JP2024027617A (en) | Voice recognition device, voice recognition program, voice recognition method, sound collection device, sound collection program and sound collection method | |
JP7529065B1 (en) | Sound collection device, sound collection program, and sound collection method | |
JP7207170B2 (en) | Sound collection device, sound collection program, sound collection method, and sound collection system | |
JP2024110015A (en) | Sound absorbing device, sound absorbing program, sound absorbing method, determining device, determining program, and determining method | |
JP2020120261A (en) | Sound pickup device, sound pickup program, and sound pickup method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190123 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200310 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200508 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200526 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200608 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6725014 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |