JP2020039055A - Sound collection device, program, and method - Google Patents

Sound collection device, program, and method Download PDF

Info

Publication number
JP2020039055A
JP2020039055A JP2018165461A JP2018165461A JP2020039055A JP 2020039055 A JP2020039055 A JP 2020039055A JP 2018165461 A JP2018165461 A JP 2018165461A JP 2018165461 A JP2018165461 A JP 2018165461A JP 2020039055 A JP2020039055 A JP 2020039055A
Authority
JP
Japan
Prior art keywords
target area
signal
sound
area sound
mixed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018165461A
Other languages
Japanese (ja)
Other versions
JP6669219B2 (en
Inventor
一浩 片桐
Kazuhiro Katagiri
一浩 片桐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2018165461A priority Critical patent/JP6669219B2/en
Publication of JP2020039055A publication Critical patent/JP2020039055A/en
Application granted granted Critical
Publication of JP6669219B2 publication Critical patent/JP6669219B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

To improve sound quality by recovering a component of a high bandwidth to be lost by area sound collection processing.SOLUTION: A sound collection device includes: target area sound extraction means for acquiring a beam former output of each one of multiple microphone arrays on the basis of input signals input from the microphone arrays, and extracting target area sound with a target area as a sound source by using an acquired beam former output; mixed signal acquisition section for acquiring a mixed signal being the signal based on an input signal that has a higher sampling frequency being more effective than target area sound to be extracted by the target area sound extraction means; signal mixing means for mixing a mixed signal acquired by the mixed signal acquisition means with target area sound extracted by the target area sound extraction means; and output means for outputting post-mixing signal mixed by the signal mixing means.SELECTED DRAWING: Figure 1

Description

この発明は、収音装置、プログラム及び方法に関し、例えば、特定のエリアの音を強調し、それ以外のエリアの音を抑制するシステムに適用し得る。   The present invention relates to a sound collection device, a program, and a method, and can be applied to, for example, a system that emphasizes sound in a specific area and suppresses sound in other areas.

複数の音源が存在する環境下において、ある特定方向の音のみ分離し収音する技術として、マイクロホンアレイを用いたビームフォーマ(Beam Former;以下「BF」とも呼ぶ)がある。BFとは、各マイクロホンに到達する信号の時間差を利用して指向性を形成する技術である(非特許文献1参照)。   In an environment where a plurality of sound sources exist, as a technique for separating and collecting only sound in a specific direction, there is a beam former (hereinafter also referred to as “BF”) using a microphone array. BF is a technique for forming directivity by using a time difference between signals reaching each microphone (see Non-Patent Document 1).

従来、BFは、加算型と減算型の大きく2つの種類に分けられる。特に減算型BFは、加算型即に比べ、少ないマイクロホン数で指向性を形成できるという利点がある。   Conventionally, BFs are roughly classified into two types, namely, an addition type and a subtraction type. In particular, the subtraction type BF has an advantage that directivity can be formed with a smaller number of microphones than the addition type BF.

図3は、マイクロホンMの数が2個の場合の減算型BF200に係る構成を示すブロック図である。   FIG. 3 is a block diagram illustrating a configuration of the subtraction type BF 200 when the number of microphones M is two.

図4は、2個のマイクロホンM1、M2を用いた減算型BF200により形成される指向性フィルタの例について示した説明図である。   FIG. 4 is an explanatory diagram showing an example of a directional filter formed by a subtraction type BF 200 using two microphones M1 and M2.

減算型BF200は、まず遅延器210により目的とする方向に存在する音(以下、「目的音」と呼ぶ)が各マイクロホンM1、M2に到来する信号の時間差を算出し、遅延を加えることにより目的音の位相を合わせる。上述の時間差は以下の(1)式により算出することができる。   The subtraction type BF 200 first calculates the time difference between the signals that arrive at the microphones M1 and M2 of the sound (hereinafter, referred to as “target sound”) present in the target direction by the delay unit 210, and adds the delay to the target. Adjust the sound phase. The above-mentioned time difference can be calculated by the following equation (1).

ここで、dはマイクロホンM1、M2間の距離、cは音速、τは遅延量である。またθは、各マイクロホンM(M1、M2)を結んだ直線に対する垂直方向から目的方向への角度である。 Here, d is the distance between the microphones M1 and M2, c is the sound speed, and τ i is the delay amount. The theta L is the angle from the vertical direction to the target direction against the line connecting the microphones M (M1, M2).

また、ここで、死角がマイクロホンM1とM2の中心に対し、マイクロホンM1の方向に存在する場合、遅延器210は、マイクロホンM1の入力信号x(t)に対し遅延処理を行う。その後、減算型BF200では、以下の(2)式に従い減算器220が処理(減算処理)を行う。 Also, here, with respect to the center of the blind spot is a microphone M1 M2, when present in the direction of the microphone M1, delayer 210 performs delay processing on an input signal x 1 of the microphone M1 (t). Thereafter, in the subtraction type BF 200, the subtractor 220 performs processing (subtraction processing) according to the following equation (2).

減算型BF200の処理は周波数領域でも同様に行うことができ、その場合(2)式は以下の(3)のように変更される。

Figure 2020039055
The processing of the subtraction type BF 200 can be similarly performed in the frequency domain, and in that case, the expression (2) is changed to the following (3).
Figure 2020039055

ここでθ=±π/2の場合、減算型BF200により形成される指向性は図4(a)に示すように、カージオイド型の単一指向性となる。また、「θ=0,π」の場合、減算型BF200により形成される指向性は、図4(b)のような8の字型の双指向性となる。 Here, when θ L = ± π / 2, the directivity formed by the subtraction type BF 200 is a cardioid type single directivity as shown in FIG. Further, in the case of “θ L = 0, π”, the directivity formed by the subtraction type BF 200 is a figure-eight bidirectional directivity as shown in FIG.

以下では、入力信号から単一指向性を形成するフィルタを「単一指向性フィルタ」と呼び、双指向性を形成するフィルタを双指向性フィルタと呼ぶものとする。   Hereinafter, a filter that forms unidirectionality from an input signal is referred to as a “unidirectionality filter”, and a filter that forms bidirectionality is referred to as a bidirectional filter.

また、減算器220では、スペクトル減算法(Spectral Subtraction;以下、単に、「SS」とも呼ぶ)を用いることで、双指向性の死角に強い指向性を形成することもできる。SSによる指向性は、以下の(4)式に従い全周波数、もしくは指定した周波数帯域で形成される。   In addition, the subtractor 220 can form a strong directivity in a bidirectional blind spot by using a spectral subtraction method (hereinafter, also simply referred to as “SS”). The directivity by the SS is formed in all frequencies or a designated frequency band according to the following equation (4).

以下の(4)式では、マイクロホンM1の入力信号Xを用いているが、マイクロホンM2の入力信号Xでも同様の効果を得ることができる。ここでβは、SSの強度を調節するための係数である。また、減算器220では、減算時に値がマイナスなった場合は、0または元の値を小さくした値に置き換えるフロアリング処理を行う。以上のような減算型BF200の処理方式では、双指向性の特性によって目的方向以外に存在する音(以下、「非目的音」と呼ぶ)を抽出し、抽出した非目的音の振幅スペクトルを入力信号の振幅スペクトルから減算することで、目的音を強調することができる。

Figure 2020039055
In the following equation (4), and using the input signal X 1 microphone M1, but it is possible to obtain the same effect input signal X 2 microphones M2. Here, β is a coefficient for adjusting the strength of SS. When the value becomes negative at the time of subtraction, the subtractor 220 performs flooring processing of replacing it with 0 or a value obtained by reducing the original value. In the processing method of the subtraction type BF 200 as described above, a sound existing in a direction other than the target direction (hereinafter, referred to as a “non-target sound”) is extracted based on the bidirectional characteristics, and an amplitude spectrum of the extracted non-target sound is input. By subtracting from the amplitude spectrum of the signal, the target sound can be emphasized.
Figure 2020039055

ある特定のエリア内に存在する音(以下、「目的エリア音」と呼ぶ)だけを収音したい場合、減算型BFを用いるだけでは、そのエリアの周囲に存在する音源の音(以下、「非目的エリア音」と呼ぶ)も収音してしまう可能性がある。そこで、特許文献1では、複数のマイクロホンアレイを用い、それぞれ別々の方向から目的エリアヘ指向性を向けレ指向性を目的エリアで交差させることで目的エリア音を収音する手法(以下、「エリア収音」と呼ぶ)を提案している。エリア収音では、まず各マイクロホンアレイのBF出力に含まれる目的エリア音の振幅スペクトルの比率を推定し、それを補正係数とする。   When it is desired to collect only sounds existing in a specific area (hereinafter, referred to as “target area sound”), the sound of a sound source existing around that area (hereinafter, “non (Referred to as “target area sound”). Therefore, in Japanese Patent Application Laid-Open No. H11-163, a method of collecting a target area sound by using a plurality of microphone arrays and directing the directivity from different directions to the target area so that the directivity intersects the target area is described. Sound "). In the area sound collection, first, the ratio of the amplitude spectrum of the target area sound included in the BF output of each microphone array is estimated, and the ratio is used as a correction coefficient.

例えば、2つのマイクロホンアレイを使用する場合、目的エリア音振幅スペクトルの補正係数は、以下の(5)式及び(6)式の組み合わせ、又は以下の(7)式及び(8)式の組み合わせにより算出することができる。ここで、Y1k(n)は第1のマイクロホンアレイのBF出力の振幅スペクトルであり、Y2k(n)は第2のマイクロホンアレイのBF出力の振幅スペクトルであり、Nは周波数ビンの総数、kは周波数である。また、ここで、α(n)、α(n)は各BF出力に対する振幅スペクトル補正係数である。さらに、ここで、modeは最頻値、medeianは中央値を表している。

Figure 2020039055
For example, when two microphone arrays are used, the correction coefficient of the target area sound amplitude spectrum is calculated by a combination of the following equations (5) and (6) or a combination of the following equations (7) and (8). Can be calculated. Where Y 1k (n) is the amplitude spectrum of the BF output of the first microphone array, Y 2k (n) is the amplitude spectrum of the BF output of the second microphone array, N is the total number of frequency bins, k is a frequency. Here, α 1 (n) and α 2 (n) are amplitude spectrum correction coefficients for each BF output. Further, here, mode represents the mode, and median represents the median.
Figure 2020039055

以上の処理により、減算器220は、補正係数α(n)、α(n)を求め、求めた補正係数により各BF出力を補正し、SSすることで、目的エリア方向に存在する非目的エリア音を抽出する。さらに、減算器220は、抽出した非目的エリア音を各BFの出力からSSすることにより目的エリア音を抽出することができる。 By the above processing, the subtracter 220 calculates the correction coefficients α 1 (n) and α 2 (n), corrects each BF output with the obtained correction coefficients, and performs SS to obtain the non-existence in the target area direction. Extract the target area sound. Further, the subtracter 220 can extract the target area sound by applying the extracted non-target area sound from the output of each BF.

第1のマイクロホンアレイからみた目的エリア方向に存在する非目的エリア音N(n)を抽出するには、(9)式に示すように、第1のマイクロホンアレイのBF出力Y(n)から第2のマイクロホンアレイのBF出力Y(n)に振幅スペクトル補正係数αを掛けたものをSSする。同様に、以下の(10)式に従い、第2のマイクロホンアレイからみた目的エリア方向に存在する非目的エリア音N(n)を抽出する。 To extract the non-target area sound N 1 (n) present in the target area direction as viewed from the first microphone array, as shown in Expression (9), the BF output Y 1 (n) of the first microphone array. And SS multiplying the BF output Y 2 (n) of the second microphone array by the amplitude spectrum correction coefficient α 2 . Similarly, the non-target area sound N 2 (n) existing in the direction of the target area viewed from the second microphone array is extracted according to the following equation (10).

その後、減算型BF200は、以下の(11)式、又は(12)式に従い、各BF出力から非目的エリア音をSSして目的エリア音を抽出する。なお、以下の(11)式は、第1のマイクロホンアレイを基準として、目的エリア音を抽出する場合の処理を示している。また、以下の(12)式は、第2のマイクロホンアレイを基準として目的エリア音を抽出する場合の処理を示している。ここでγ(n)、γ(n)は、SS時の強度を変更するための係数である。

Figure 2020039055
Thereafter, the subtraction type BF 200 extracts the non-target area sound from each BF output according to the following equation (11) or (12) to extract the target area sound. The following equation (11) shows a process for extracting a target area sound with reference to the first microphone array. The following equation (12) shows a process for extracting a target area sound based on the second microphone array. Here, γ 1 (n) and γ 2 (n) are coefficients for changing the strength at the time of SS.
Figure 2020039055

ところで、背景雑音や非目的エリア音の音量レベルが大きい場合、目的エリア音抽出の際に行うSSにより、目的エリア音が歪んだり、ミュージカルノイズという耳障りな異音が発生する可能性がある。   By the way, when the volume level of the background noise or the non-target area sound is large, the target area sound may be distorted or annoying abnormal noise such as musical noise may occur due to SS performed at the time of extracting the target area sound.

そこで、特許文献2の手法では、背景雑音と非目的エリア音の大きさに応じて、マイクの入力信号と推定雑音の音量レベルをそれぞれ調節し、抽出した目的エリア音に混合している。   Therefore, in the method of Patent Document 2, the volume levels of the microphone input signal and the estimated noise are respectively adjusted according to the loudness of the background noise and the non-target area sound, and are mixed with the extracted target area sound.

目的エリア音を抽出する処理により発生するミュージカルノイズは、背景雑音と非目的エリア音の音量レベルが大きいほど強くなるため、混合する入力信号と推定雑音の総和の音量レベルも、背景雑音と非目的エリア音の音量レベルに比例して大きくする。   Since the musical noise generated by the process of extracting the target area sound becomes stronger as the volume level of the background noise and the non-target area sound increases, the volume level of the sum of the input signal to be mixed and the estimated noise is Increase in proportion to the volume level of the area sound.

そこで、特許文献2の手法では、背景雑音の音量レベルは、背景雑音を抑圧する過程で求める推定雑音から算出する。また、特許文献2の手法では、非目的エリア音の音量レベルは、目的エリア音を強調する過程で抽出する目的エリア方向に存在する非目的エリア音と、目的エリア方向以外に存在する非目的エリア音を合わせたものから算出する。さらに、特許文献2の手法では、混合する入力信号と推定雑音の比率は、推定雑音と非目的エリア音の音量レベルから決定する。   Therefore, in the method of Patent Document 2, the volume level of the background noise is calculated from the estimated noise obtained in the process of suppressing the background noise. Further, in the method of Patent Document 2, the volume level of the non-target area sound is divided into a non-target area sound existing in the target area direction extracted in the process of emphasizing the target area sound and a non-target area sound existing in a direction other than the target area direction. Calculated from the combined sound. Furthermore, in the method of Patent Document 2, the ratio between the input signal to be mixed and the estimated noise is determined from the volume levels of the estimated noise and the non-target area sound.

目的エリアの近くに非目的エリア音が存在する場合、混合する入力信号の音量レベルが大きすぎると目的エリア音に非目的エリア音が混入し、どちらが目的エリア音なのかが分からなくなってしまう。そこで、特許文献2の手法では、非目的エリア音が大きいときは混合する入力信号の音量レベルを下げ、推定雑音の音量レベルを大きくして混合する。つまり、特許文献2の手法では、非目的エリア音が存在しないか音量レベルが小さい場合は入力信号の割合を多くし、逆に非目的エリア音の音量レベルが大きい場合推定雑音の割合を多くして混合する。   When the non-target area sound exists near the target area, if the volume level of the input signal to be mixed is too high, the non-target area sound is mixed with the target area sound, and it is difficult to know which is the target area sound. Therefore, in the method of Patent Document 2, when the non-target area sound is loud, the volume level of the input signal to be mixed is lowered, and the volume level of the estimated noise is increased to mix. That is, in the method of Patent Document 2, when the non-target area sound does not exist or the volume level is low, the ratio of the input signal is increased, and when the non-target area sound is high, the ratio of the estimated noise is increased. Mix.

このように特許文献2の手法を用いれば、目的エリア音に入力信号及び推定雑音を混合することにより、ミュージカルノイズをマスキングし、通常の背景雑音のように違和感なく聞かせることができる。また、特許文献2の手法では、マイク入力信号に含まれる目的エリア音の成分により、目的エリア音の歪みを補正し、音質を改善することができる。   As described above, by using the method of Patent Document 2, by mixing the input signal and the estimated noise with the target area sound, the musical noise can be masked, and the sound can be heard without discomfort like ordinary background noise. Further, according to the method of Patent Document 2, distortion of the target area sound can be corrected by the component of the target area sound included in the microphone input signal, and the sound quality can be improved.

特開2014−072708号公報JP 2014-072708 A 特開2017−183902号公報JP 2017-183902 A

浅野太著,“音響テクノロジーシリーズ16 音のアレイ信号処理−音源の定位・追跡と分離−”,日本音響学会編,コロナ社,2011年2月25日発行Tadashi Asano, "Acoustic Technology Series 16 Array Signal Processing of Sound-Localization / Tracking and Separation of Sound Sources", edited by The Acoustical Society of Japan, Corona, Feb. 25, 2011

しかしながら特許文献2の手法は、特許文献1の処理において、エリア収音処理音に入力信号および推定雑音を混合しているため、音質が改善される周波数帯域に制限がある。特許文献1の手法は、使用するマイクロホンアレイのマイクロホン間隔により、指向性が保証される帯域が限られる。例えば、特許文献1の手法において、マイクロホン間隔を3cmとした場合、6kHzを超えると折返し歪が発生し、目的エリア外の音も収音してしまう可能性がある。そのため、特許文献2の手法では、帯域を6kHzまでに制限して処理を行う必要がある。したがって、特許文献2の手法に基づくエリア収音においては、6kHz以上の成分は不要となるため、無駄な処理を省くことも考慮し、通常サンプリング周波数16kHzで音響信号を取り込むことになる(この場合、8kHzまでの成分が存在するが、6kHzから8kHzの帯域は処理を行わない)。つまり特許文献2の手法による音質改善は、6kHz(最大で8kHz)までとなり、それ以上の帯域は失われたままである。通常、人間の話している内容を理解することが目的であれば6kHzまでの成分がなくても問題はない。しかし通信システムの進歩により伝送帯域が大きくなると、映像の高画質化に伴い音声もより高音質なものを求められるが、従来の手法では実現することができない。   However, in the method of Patent Literature 2, in the processing of Patent Literature 1, since the input signal and the estimated noise are mixed with the area sound processing sound, the frequency band in which the sound quality is improved is limited. In the method of Patent Document 1, the band in which the directivity is guaranteed is limited depending on the microphone interval of the microphone array used. For example, in the method of Patent Document 1, when the microphone interval is set to 3 cm, when the frequency exceeds 6 kHz, aliasing distortion occurs, and sound outside the target area may be collected. Therefore, in the method of Patent Document 2, it is necessary to perform the processing while limiting the band to 6 kHz. Therefore, in the area sound pickup based on the method of Patent Document 2, since a component of 6 kHz or more is unnecessary, an acoustic signal is usually taken in at a sampling frequency of 16 kHz in consideration of omitting wasteful processing (in this case, , 8 kHz, but processing is not performed in the 6 kHz to 8 kHz band). That is, the sound quality improvement by the method of Patent Document 2 is up to 6 kHz (8 kHz at the maximum), and the band beyond that remains lost. Normally, there is no problem even if there is no component up to 6 kHz if the purpose is to understand the contents spoken by humans. However, when the transmission band is increased due to the progress of the communication system, the sound quality is required to be higher with the improvement of the image quality of the video, but it cannot be realized by the conventional method.

そのため、エリア収音処理により失われる高帯域の成分を回復し、音質を改善する収音装置、プログラム及び方法が望まれている。   Therefore, a sound collecting device, a program, and a method for recovering a high-band component lost by the area sound collecting process and improving sound quality are desired.

第1の本発明は、(1)複数のマイクロホンアレイから入力された入力信号に基づいて、それぞれの前記マイクロホンアレイのビームフォーマ出力取得し、取得したビームフォーマ出力を用いて目的エリアを音源とする目的エリア音を抽出する目的エリア音抽出手段と、(2)前記入力信号に基づく信号であって、前記目的エリア音抽出手段が抽出する前記目的エリア音よりも有効なサンプリング周波数が高い混合信号を取得する混合信号取得手段と、(3)前記目的エリア音抽出手段で抽出された前記目的エリア音に前記混合信号取得手段が取得した前記混合信号を混合する信号混合手段と、(4)前記信号混合手段が混合した混合後信号を出力する出力手段とを有することを特徴とする。   According to a first aspect of the present invention, (1) beamformer outputs of the respective microphone arrays are obtained based on input signals input from a plurality of microphone arrays, and a target area is set as a sound source using the obtained beamformer outputs. Target area sound extracting means for extracting a target area sound; and (2) a mixed signal which is a signal based on the input signal and which has a higher effective sampling frequency than the target area sound extracted by the target area sound extracting means. (3) signal mixing means for mixing the mixed signal obtained by the mixed signal obtaining means with the target area sound extracted by the target area sound extracting means, and (4) the signal Output means for outputting a mixed signal after the mixing means has been mixed.

第2の本発明の収音プログラムは、コンピュータを、(1)複数のマイクロホンアレイから入力された入力信号に基づいて、それぞれの前記マイクロホンアレイのビームフォーマ出力取得し、取得したビームフォーマ出力を用いて目的エリアを音源とする目的エリア音を抽出する目的エリア音抽出手段と、(2)前記入力信号に基づく信号であって、前記目的エリア音抽出手段が抽出する前記目的エリア音よりも有効なサンプリング周波数が高い混合信号を取得する混合信号取得手段と、(3)前記目的エリア音抽出手段で抽出された前記目的エリア音に前記混合信号取得手段が取得した前記混合信号を混合する信号混合手段と、(4)前記信号混合手段が混合した混合後信号を出力する出力手段として機能させることを特徴とする。   A sound collection program according to a second aspect of the present invention provides a computer which (1) acquires a beamformer output of each microphone array based on input signals inputted from a plurality of microphone arrays, and uses the acquired beamformer output. And (2) a signal based on the input signal, which is more effective than the target area sound extracted by the target area sound extracting means. Mixed signal obtaining means for obtaining a mixed signal having a high sampling frequency; and (3) signal mixing means for mixing the mixed signal obtained by the mixed signal obtaining means with the target area sound extracted by the target area sound extracting means. And (4) functioning as output means for outputting the mixed signal mixed by the signal mixing means.

第3の本発明は、収音装置が行う収音方法において、(1)目的エリア音抽出手段、混合信号取得手段、信号混合手段、及び出力手段を有し、(2)前記目的エリア音抽出手段は、複数のマイクロホンアレイから入力された入力信号に基づいて、それぞれの前記マイクロホンアレイのビームフォーマ出力取得し、取得したビームフォーマ出力を用いて目的エリアを音源とする目的エリア音を抽出し、(3)前記混合信号取得手段は、前記入力信号に基づく信号であって、前記目的エリア音抽出手段が抽出する前記目的エリア音よりも有効なサンプリング周波数が高い混合信号を取得し、(4)前記信号混合手段は、前記目的エリア音抽出手段で抽出された前記目的エリア音に前記混合信号取得手段が取得した前記混合信号を混合し、(5)前記出力手段は、前記信号混合手段が混合した混合後信号を出力することを特徴とする。   According to a third aspect of the present invention, there is provided a sound collecting method performed by the sound collecting apparatus, comprising (1) a target area sound extracting unit, a mixed signal acquiring unit, a signal mixing unit, and an output unit; and (2) the target area sound extracting unit. The means obtains a beamformer output of each of the microphone arrays based on input signals input from a plurality of microphone arrays, and extracts a target area sound having a target area as a sound source using the obtained beamformer outputs, (3) The mixed signal acquiring means acquires a mixed signal having a higher effective sampling frequency than the target area sound extracted by the target area sound extracting means, the mixed signal being a signal based on the input signal. The signal mixing means mixes the mixed signal acquired by the mixed signal acquiring means with the target area sound extracted by the target area sound extracting means, and Output means, and outputs the mixed signal after said signal mixing means is mixed.

本発明によれば、エリア収音処理において失われる成分を低減して音質を改善させる収音装置、プログラム及び方法を提供することができる。   According to the present invention, it is possible to provide a sound collecting device, a program, and a method for improving a sound quality by reducing a component lost in an area sound collecting process.

第1の実施形態に係る収音装置の機能的構成について示したブロック図である。FIG. 2 is a block diagram illustrating a functional configuration of the sound collection device according to the first embodiment. 第2の実施形態に係る収音装置の機能的構成について示したブロック図である。It is a block diagram showing a functional configuration of a sound collection device according to a second embodiment. 従来のマイクロホン数が2個の場合の減算型BFに係る構成を示すブロック図である。FIG. 13 is a block diagram illustrating a configuration related to a conventional subtraction type BF when the number of microphones is two. 従来の2個のマイクロホンを用いた減算型BFにより形成される指向特性を示す図である。FIG. 10 is a diagram illustrating a directional characteristic formed by a conventional subtraction-type BF using two microphones.

(A)第1の実施形態
以下、本発明による収音装置、プログラム及び方法の第1の実施形態を、図面を参照しながら詳述する。
(A) First Embodiment Hereinafter, a first embodiment of a sound collection device, a program, and a method according to the present invention will be described in detail with reference to the drawings.

(A−1)第1の実施形態の構成
図1は、この実施形態の収音装置100の機能的構成について示したブロック図である。
(A-1) Configuration of First Embodiment FIG. 1 is a block diagram showing a functional configuration of a sound collection device 100 of this embodiment.

収音装置100は、2つのマイクロホンアレイMA(MA1、MA2)を用いて、目的エリアの音源からの目的エリア音を収音する目的エリア音収音処理を行う。   The sound pickup device 100 performs a target area sound pickup process of picking up a target area sound from a sound source in the target area using two microphone arrays MA (MA1, MA2).

マイクロホンアレイMA1、MA2は、目的エリアが存在する空聞の任意の場所に配置される。目的エリアに対するマイクロホンアレイMA1、MA2の位置は、指向性が目的エリアでのみ重なればどこでも良く、例えば目的エリアを挟んで対向に配置しても良い。各マイクロホンアレイMAは2つ以上のマイクロホンMから構成され、各マイクロホンMにより音響信号を収音する。この実施形態では、各マイクロホンアレイMAに、音響信号を収音する2つのマイクロホンM(M1、M2)が配置されるものとして説明する。すなわち、各マイクロホンアレイMAは、2chマイクロホンアレイを構成している。なお、マイクロホンアレイMAの数は2つに限定するものではなく、目的エリアが複数存在する場合、全てのエリアをカバーできる数のマイクロホンアレイMAを配置する必要がある。   The microphone arrays MA1 and MA2 are arranged at any location in the air where the target area exists. The positions of the microphone arrays MA1 and MA2 with respect to the target area may be anywhere as long as the directivity overlaps only in the target area. For example, the microphone arrays MA1 and MA2 may be arranged to face each other across the target area. Each microphone array MA includes two or more microphones M, and each microphone M collects an acoustic signal. In this embodiment, a description will be given assuming that two microphones M (M1, M2) that collect sound signals are arranged in each microphone array MA. That is, each microphone array MA constitutes a 2ch microphone array. Note that the number of microphone arrays MA is not limited to two, and when there are a plurality of target areas, it is necessary to arrange the number of microphone arrays MA that can cover all the areas.

なお、この実施形態の例では、マイクロホンの数は2個であり、2つのマイクロホン間の距離は3cmであるものとする。なお、マイクロホン間の距離は限定されないものである。   In the example of this embodiment, it is assumed that the number of microphones is two and the distance between the two microphones is 3 cm. The distance between the microphones is not limited.

収音装置100は、サンプリング周波数設定部101、収音処理用信号入力部102、混合用信号入力部103、雑音抑圧部104、指向性形成部105、遅延補正部106、空間座標データ107、補正係数算出部108、目的エリア音抽出部109、信号混合部110、及び信号出力部111を有している。   The sound collection device 100 includes a sampling frequency setting unit 101, a sound collection processing signal input unit 102, a mixing signal input unit 103, a noise suppression unit 104, a directivity forming unit 105, a delay correction unit 106, spatial coordinate data 107, a correction It has a coefficient calculation unit 108, a target area sound extraction unit 109, a signal mixing unit 110, and a signal output unit 111.

収音装置100を構成する各機能ブロックの詳細処理については後述する。   Detailed processing of each functional block configuring the sound collection device 100 will be described later.

収音装置100は、全てハードウェア(例えば、専用チップ等)により構成するようにしてもよいし一部又は全部についてソフトウェア(プログラム)として構成するようにしてもよい。収音装置100は、例えば、プロセッサ及びメモリを有するコンピュータにプログラム(実施形態の判定プログラムや収音プログラムを含む)をインストールすることにより構成するようにしてもよい。   The sound collection device 100 may be entirely configured by hardware (for example, a dedicated chip or the like), or may be partially or entirely configured as software (program). The sound collection device 100 may be configured by installing a program (including the determination program and the sound collection program of the embodiment) in a computer having a processor and a memory, for example.

(A−2)第1の実施形態の動作
次に、以上のような構成を有する第1の実施形態の収音装置100の動作(実施形態に係る収音方法)を説明する。
(A-2) Operation of First Embodiment Next, an operation (a sound collection method according to the embodiment) of the sound collection device 100 according to the first embodiment having the above-described configuration will be described.

サンプリング周波数設定部101は、入力された音響信号(各マイクロホンアレイMA1、MA2の各マイクロホンM1、M2から入力された入力信号)に対して、用途(種類)ごとにサンプリング周波数を設定して出力する。ここでは、サンプリング周波数設定部101は、収音処理用信号入力部102向けの信号(以下、「エリア収音処理用信号」と呼ぶ)と、混合用信号入力部103向けの信号(以下、「混合用信号」と呼ぶ)のそれぞれに対してサンプリング周波数を設定する。   The sampling frequency setting unit 101 sets a sampling frequency for each use (type) for an input acoustic signal (input signal input from each of the microphones M1 and M2 of each of the microphone arrays MA1 and MA2) and outputs the same. . Here, the sampling frequency setting unit 101 includes a signal for the sound collection processing signal input unit 102 (hereinafter, referred to as an “area sound collection processing signal”) and a signal for the mixing signal input unit 103 (hereinafter, “signal”). The sampling frequency is set for each of the “mixing signals”.

サンプリング周波数設定部101は、例えば、エリア収音処理用信号のサンプリング周波数よりも、混合用信号のサンプリング周波数を高い周波数に設定するようにしてもよい。具体的には、サンプリング周波数設定部101は、例えば、エリア収音処理用信号のサンプリング周波数を16kHz、混合用信号のサンプリング周波数を48kHzとしてもよい。なお、エリア収音処理用信号のサンプリング周波数は、後述する目的エリア音抽出部109におけるエリア収音処理で処理する帯域(抽出する目的エリア音の帯域)の上限に対応する周波数であるものとする。例えば、目的エリア音抽出部109におけるエリア収音処理で処理する帯域の上限が8khzである場合、エリア収音処理用信号のサンプリング周波数は16kHzとなる。   For example, the sampling frequency setting unit 101 may set the sampling frequency of the mixing signal to be higher than the sampling frequency of the area sound collection processing signal. Specifically, for example, the sampling frequency setting unit 101 may set the sampling frequency of the area sound collection processing signal to 16 kHz and the sampling frequency of the mixing signal to 48 kHz. Note that the sampling frequency of the area sound pickup processing signal is a frequency corresponding to the upper limit of the band (band of the target area sound to be extracted) processed in the area sound pickup processing in the target area sound extraction unit 109 described later. . For example, when the upper limit of the band processed in the area sound pickup processing in the target area sound extraction unit 109 is 8 kHz, the sampling frequency of the area sound pickup processing signal is 16 kHz.

収音処理用信号入力部102は、入力された音響信号(各マイクロホンアレイMA1、MA2の各マイクロホンM1、M2から入力された入力信号)について、サンプリング周波数設定部101から設定されたサンプリング周波数に基づき、アナログ信号からデジタル信号に変換する。そして、収音処理用信号入力部102は、変換したデジタル信号を変換(例えば、高速フーリエ変換を用いて時間領域から周波数領域へ変換)する。   The sound collection processing signal input unit 102 is configured to input an acoustic signal (input signals input from the microphones M1 and M2 of the microphone arrays MA1 and MA2) based on the sampling frequency set by the sampling frequency setting unit 101. , Converting an analog signal to a digital signal. Then, the sound collection signal input unit 102 converts the converted digital signal (for example, from the time domain to the frequency domain using fast Fourier transform).

混合用信号入力部103は、入力された音響信号(各マイクロホンアレイMA1、MA2の各マイクロホンM1、M2から入力された入力信号)について、サンプリング周波数設定部101から設定されたサンプリング周波数に基づき、アナログ信号からデジタル信号に変換する。そして、混合用信号入力部103は、変換したデジタル信号を変換(例えば、高速フーリエ変換を用いて時間領域から周波数領域へ変換)する。   Based on the sampling frequency set by the sampling frequency setting unit 101, the mixing signal input unit 103 converts the input audio signal (input signals input from the microphones M1 and M2 of the microphone arrays MA1 and MA2) into analog signals. Converts a signal to a digital signal. Then, the mixing signal input unit 103 converts the converted digital signal (for example, from the time domain to the frequency domain using fast Fourier transform).

雑音抑圧部104は、収音処理用信号入力部102もしくは混合用信号入力部103で取得した信号に含まれる背景雑音の成分を推定し、抑圧する。すなわち、雑音抑圧部104は、収音処理用信号入力部102から供給されたエリア収音処理用信号から雑音抑圧処理を行い、指向性形成部105に供給する。また、雑音抑圧部104は、混合用信号入力部103から供給された混合用信号から雑音抑圧処理を行い、信号混合部110に供給する。雑音抑圧部104が行う雑音抑圧処理の具体的手法については限定されないものであるが、例えば、SSやウィーナーフィルタリング法(Wiener Filtering)などを用いることができる。   The noise suppression unit 104 estimates and suppresses a background noise component included in the signal acquired by the sound collection processing signal input unit 102 or the mixing signal input unit 103. That is, the noise suppression unit 104 performs noise suppression processing on the area sound collection processing signal supplied from the sound collection signal input unit 102, and supplies the signal to the directivity forming unit 105. Further, the noise suppression unit 104 performs a noise suppression process on the mixing signal supplied from the mixing signal input unit 103 and supplies the signal to the signal mixing unit 110. Although the specific method of the noise suppression processing performed by the noise suppression unit 104 is not limited, for example, SS and Wiener Filtering (Wiener Filtering) can be used.

なお、収音装置100において、背景雑音がほとんどない静かな環境である場合(入力信号に背景雑音である場合)、雑音抑圧部104を除外するようにしてもよい。また、収音装置100において、雑音抑圧処理を行わない場合(雑音抑圧部104が除外されている場合)、混合用信号入力部103は、信号の時間領域から周波数領域へ変換を行わず、時間領域のままでも良い。   In the sound collecting apparatus 100, when the environment is a quiet environment with almost no background noise (when the input signal is background noise), the noise suppression unit 104 may be omitted. Further, in the sound pickup apparatus 100, when the noise suppression processing is not performed (when the noise suppression unit 104 is excluded), the mixing signal input unit 103 does not convert the signal from the time domain to the frequency domain, and The area may be left as it is.

指向性形成部105は、マイクロホンアレイ毎に供給されたエリア収音処理用信号(この実施形態の例では、雑音抑圧部104により背景雑音が抑圧されたエリア収音処理用信号)に対し、目的エリア方向に指向性を形成した信号を取得する。具体的には、指向性形成部105は、(4)式に従い、各マイクロホンアレイ(MA1、MA2)についてBFにより目的エリア方向に指向性を形成した信号(BF出力)を取得する。   The directivity forming unit 105 outputs a signal to the area sound processing signal supplied to each microphone array (in the example of this embodiment, the area sound processing signal whose background noise is suppressed by the noise suppressing unit 104). A signal having directivity in the area direction is obtained. Specifically, the directivity forming unit 105 obtains a signal (BF output) in which the directivity is formed in the direction of the target area by the BF for each of the microphone arrays (MA1, MA2) according to Expression (4).

遅延補正部106は、目的エリアと各マイクロホンアレイの距離の違いにより発生する遅延を算出し、補正する。まず空間座標データ107から目的エリアの位置とマイクロホンアレイの位置を取得し、各マイクロホンアレイへの目的エリア音の到達時間の差を算出する。次に、遅延補正部106は、最も目的エリアから遠い位置に配置されたマイクロホンアレイを基準として、全てのマイクロホンアレイに目的エリア音が同時に到達するように遅延を加える。   The delay correction unit 106 calculates and corrects a delay generated due to a difference in the distance between the target area and each microphone array. First, the position of the target area and the position of the microphone array are acquired from the spatial coordinate data 107, and the difference between the arrival time of the target area sound to each microphone array is calculated. Next, the delay correction unit 106 adds a delay based on the microphone array located farthest from the target area so that the sound of the target area reaches all the microphone arrays at the same time.

なお、マイクロホンアレイと目的エリア音の配置により、当初から遅延が発生しない場合、収音装置100において遅延補正部106を除外した構成としてもよい。   In the case where no delay occurs from the beginning due to the arrangement of the microphone array and the target area sound, the sound collection device 100 may be configured to exclude the delay correction unit 106.

空間座標データ107は、全ての目的エリアと各マイクロホンアレイと各マイクロホンアレイを構成するマイクロホンの位置情報を保持している。空間座標データ107が各マイクロホンアレイの各マイクロホンの位置情報を保持する方法や、空間座標データ107が保持する位置情報の具体的な形式は限定されないものであり、種々のデータ形式を適用することができる。   The spatial coordinate data 107 holds all target areas, each microphone array, and positional information of the microphones constituting each microphone array. The method by which the spatial coordinate data 107 holds the position information of each microphone of each microphone array, and the specific format of the position information held by the spatial coordinate data 107 are not limited, and various data formats may be applied. it can.

補正係数算出部108は、各BF出力に含まれる目的エリア音成分の振幅スペクトルを同じにするための補正係数を(5)、(6)式または(7)、(8)式に従い算出する。   The correction coefficient calculation unit 108 calculates a correction coefficient for equalizing the amplitude spectrum of the target area sound component included in each BF output according to the formulas (5) and (6) or the formulas (7) and (8).

なお、マイクロホンアレイと目的エリア音の配置により、各マイクロホンの目的エリア音の振幅スペクトルの差が小さいことが明白な場合は、収音装置100において補正係数算出部108を除外した構成としてもよい。   If it is clear that the difference between the amplitude spectrum of the target area sound of each microphone is small due to the arrangement of the microphone array and the target area sound, the sound collection device 100 may be configured to exclude the correction coefficient calculation unit 108.

目的エリア音抽出部109は、補正係数算出部108で算出した補正係数により補正した各BF出力データを(9)、もしくは(10)式に従いSSし、目的エリア方向に存在する非目的エリア音を抽出する。さらに、目的エリア音抽出部109は、抽出した雑音を各BFの出力から(10)、もしくは(11)式に従いSSすることにより目的エリア音を抽出する。   The target area sound extraction unit 109 SSs each BF output data corrected by the correction coefficient calculated by the correction coefficient calculation unit 108 according to the equation (9) or (10), and removes the non-target area sound existing in the target area direction. Extract. Furthermore, the target area sound extraction unit 109 extracts the target area sound by subjecting the extracted noise to SS from the output of each BF according to the formula (10) or (11).

そして、目的エリア音抽出部109は、抽出した目的エリア音に対し、サンプリング周波数設定部101で混合用信号に設定したサンプリング周波数でアップサンプリングする処理(混合用信号と同じサンプリング周波数まで上げた音響信号に変換する処理)を施す。そして、目的エリア音抽出部109は、アップサンプリング済の目的エリア音を信号混合部110に供給する。これにより、信号混合部110において、目的エリア音は、混合用信号と容易に混合可能な形式の音響信号となる。なお、目的エリア音抽出部109によるアップサンプリングの具体的処理方式については限定されないものであり、種々の方式を適用することができる。   Then, the target area sound extraction unit 109 performs upsampling on the extracted target area sound at the sampling frequency set for the mixing signal by the sampling frequency setting unit 101 (the acoustic signal raised to the same sampling frequency as the mixing signal). Is performed. Then, the target area sound extraction unit 109 supplies the upsampled target area sound to the signal mixing unit 110. As a result, in the signal mixing section 110, the target area sound becomes an audio signal in a format that can be easily mixed with the mixing signal. Note that the specific processing method of the upsampling by the target area sound extraction unit 109 is not limited, and various methods can be applied.

信号混合部110は、目的エリア音抽出部109から供給されたアップサンプリング処理済の目的エリア音(目的エリア音抽出部109で抽出した目的エリア音に対してサンプリング周波数を混合用信号と同じにした信号)と、雑音抑圧部104から供給された信号(雑音抑圧処理済の混合用信号)を混合する処理を行う。信号混合部110による混合処理の詳細については限定されないものである。信号混合部110は、例えば、2つの信号を周波数領域において混合した後、時間領域へ変換しても良いし、周波数領域から時間領域へ変換した後で混合しても良い。   The signal mixing section 110 sets the sampling frequency of the up-sampled target area sound supplied from the target area sound extraction section 109 (the sampling frequency of the target area sound extracted by the target area sound extraction section 109 to be the same as the mixing signal). And a signal supplied from the noise suppression unit 104 (mixing signal after noise suppression processing). The details of the mixing process by the signal mixing unit 110 are not limited. The signal mixing unit 110 may, for example, mix the two signals in the frequency domain and then convert the two signals to the time domain, or mix the two signals after converting the frequency domain to the time domain.

信号出力部111は、信号混合部110において混合処理した信号を最終的な出力信号として出力する。   The signal output unit 111 outputs the signal mixed and processed by the signal mixing unit 110 as a final output signal.

以上のように、収音装置100では、エリア収音処理よりも高いサンプリング周波数の信号を混合信号として使用する。   As described above, the sound collection device 100 uses a signal having a higher sampling frequency than the area sound collection processing as a mixed signal.

以上のように、第1の実施形態の収音装置100では、混合用の信号として、エリア収音処理よりも高いサンプリング周波数のものを使用し、エリア収音処理音に混合する。また、第1の実施形態の収音装置100では、エリア収音処理では、従来どおり折返し歪が発生しないサンプリング周波数で音響信号を取り込んでいる。さらに、第1の実施形態の収音装置100では、混合用信号として、エリア収音処理よりも高いサンプリング周波数で音響信号を取り込んでいる。さらにまた、第1の実施形態の収音装置100では、エリア収音処理が完了した後、その信号をアップサンプリング処理して、混合用信号と同じサンプリング周波数にしている。そして、第1の実施形態の収音装置100では、その後、エリア収音処理後の信号と混合用信号を混合して出力する。   As described above, in the sound collection device 100 of the first embodiment, a signal having a sampling frequency higher than that of the area sound collection processing is used as a mixing signal, and mixed with the area sound collection processing sound. Further, in the sound collecting apparatus 100 of the first embodiment, in the area sound collecting processing, an acoustic signal is captured at a sampling frequency at which aliasing does not occur as in the related art. Furthermore, in the sound collection device 100 of the first embodiment, a sound signal is taken in as a mixing signal at a higher sampling frequency than in the area sound collection processing. Furthermore, in the sound pickup apparatus 100 of the first embodiment, after the area sound pickup processing is completed, the signal is up-sampled to have the same sampling frequency as the mixing signal. Then, in the sound pickup apparatus 100 of the first embodiment, the signal after the area sound pickup processing and the mixing signal are mixed and output.

(A−3)第1の実施形態の効果
第1の実施形態によれば、以下のような効果を奏することができる。
(A-3) Effects of First Embodiment According to the first embodiment, the following effects can be obtained.

第1の実施形態の収音装置100では、エリア収音処理よりも高いサンプリング周波数の信号を混合信号として使用することで、エリア収音処理により失われる高帯域の成分を回復し、音質を改善することができる。   In the sound pickup apparatus 100 of the first embodiment, a signal having a higher sampling frequency than the area sound pickup processing is used as a mixed signal, thereby recovering a high-band component lost by the area sound pickup processing and improving sound quality. can do.

(B)第2の実施形態
以下、本発明による収音装置、プログラム及び方法の第2の実施形態を、図面を参照しながら詳述する。
(B) Second Embodiment Hereinafter, a second embodiment of a sound collection device, a program, and a method according to the present invention will be described in detail with reference to the drawings.

(B−1)第2の実施形態の構成
図3は、第2の実施形態の収音装置100Aに係る機能的構成について示したブロック図であり、上述の図1と同一部分又は対応部分については同一符号又は対応符号を付している。
(B-1) Configuration of Second Embodiment FIG. 3 is a block diagram showing a functional configuration of a sound collection device 100A according to a second embodiment. Have the same or corresponding reference numerals.

以下では、第2の実施形態について第1の実施形態との差異を説明する。   Hereinafter, differences between the second embodiment and the first embodiment will be described.

第2の実施形態の収音装置100Aでは、混合帯域選択部112が追加されている点で、第1の実施形態と異なっている。   The sound collection device 100A of the second embodiment is different from the first embodiment in that a mixed band selection unit 112 is added.

(B−2)第2の実施形態の動作
次に、以上のような構成を有する第2の実施形態の収音装置100Aの動作(実施形態に係る収音方法)について、第1の実施形態との差異を中心に説明する。
(B-2) Operation of the Second Embodiment Next, the operation (sound collection method according to the embodiment) of the sound collection device 100A of the second embodiment having the above-described configuration will be described in the first embodiment. The following description focuses on the differences from.

混合帯域選択部112は、前段(この実施形態の例では雑音抑圧部104)から供給された信号(この実施形態の例では雑音抑圧処理済の混合用信号)に対して、目的エリア音抽出部109で処理した信号に混合する帯域(以下、「混合帯域」と呼ぶ)を選択し、供給された混合用信号から混合帯域のみを抽出(もしくは混合帯域以外を抑圧)する処理(以下、「フィルタ処理」とも呼ぶ)を施した信号(以下、「フィルタ処理済混合用信号」と呼ぶ)を取得して信号混合部110に供給する。   The mixing band selection unit 112 converts the signal supplied from the preceding stage (the noise suppression unit 104 in the example of this embodiment) (the mixing signal after noise suppression processing in the example of this embodiment) into a target area sound extraction unit. A process of selecting a band (hereinafter, referred to as a “mixing band”) to be mixed with the signal processed in step 109 and extracting only the mixing band from the supplied mixing signal (or suppressing a region other than the mixing band) (hereinafter, “filter”) The signal (hereinafter, also referred to as “filtered mixing signal”) subjected to the “processing” is acquired and supplied to the signal mixing unit 110.

混合帯域の範囲については限定されないものである。混合帯域は、例えば、全体域(サンプリング周波数に対応する全帯域)でも良いし、所定の周波数ω1以上の帯域(ハイパスフィルターの処理で通過する帯域)でも良いし、所定の周波数ω2以下の帯域(ローパスフィルターの処理で通過する帯域)としてもよいし、所定の下限周波数ω3以上で且つ上限周波数ω4以下の帯域(バンドパスフィルタの処理で通過する帯域)としてもよい。また、混合帯域選択部112では、複数のフィルタを用いた信号処理(例えば、複数のバンドパスフィルタを組み合わせた処理)を行うようにしてもよい。また、混合帯域選択部112は、周波数領域でフィルタ処理(帯域制御処理)を行うようにしてもよいし、時間領域で信号のフィルタ処理(帯域制御処理)を行うようにしてもよい。   The range of the mixing zone is not limited. The mixed band may be, for example, a whole band (a whole band corresponding to the sampling frequency), a band of a predetermined frequency ω1 or more (a band passed by processing of a high-pass filter), or a band of a predetermined frequency ω2 or less ( The band may be a band that is passed through the processing of the low-pass filter) or may be a band that is equal to or higher than the predetermined lower limit frequency ω3 and equal to or lower than the upper limit frequency ω4 (the band that is passed by the band-pass filter processing). Further, the mixed band selection unit 112 may perform signal processing using a plurality of filters (for example, processing combining a plurality of bandpass filters). Further, the mixed band selection unit 112 may perform filter processing (band control processing) in the frequency domain, or may perform signal filter processing (band control processing) in the time domain.

また、混合帯域選択部112では、混合帯域として、予め設定された帯域を設定するようにしてもよいし、動的な帯域を設定(例えば、供給された信号やその他の要因に応じた帯域に設定)するようにしてもよい。具体的には、例えば、混合帯域選択部112では、収音装置100Aで最終的に出力する信号に混入させると出力信号の品質(出力信号の使用目的に応じた品質)が劣化するおそれのある帯域を除外した帯域を混合帯域として設定するようにしてもよい。   In addition, the mixed band selection unit 112 may set a preset band as the mixed band, or set a dynamic band (for example, to a band corresponding to a supplied signal or other factors). Setting). More specifically, for example, in the mixed band selection unit 112, the quality of the output signal (the quality according to the purpose of use of the output signal) may be deteriorated if the mixed signal is mixed with the signal finally output by the sound pickup device 100A. A band excluding the band may be set as the mixed band.

そして、信号混合部110は、エリア収音処理後の信号と、混合帯域選択部112により処理された混合信号(フィルタ処理済混合用信号)を混合して出力する。   Then, the signal mixing section 110 mixes and outputs the signal after the area sound collection processing and the mixed signal (filtered mixing signal) processed by the mixing band selection section 112.

(B−3)第2の実施形態の効果
第2の実施形態によれば、第1の実施形態の効果と比較して、以下のような効果を奏することができる。
(B-3) Effects of the Second Embodiment According to the second embodiment, the following effects can be obtained as compared with the effects of the first embodiment.

第2の実施形態の収音装置100A(信号混合部110)では、エリア収音処理後の信号と、混合帯域選択部112により処理された混合信号(フィルタ処理済混合用信号)を混合して出力する。これにより、第2の実施形態の収音装置100Aでは、最終的に出力する出力信号の品質を向上(劣化を抑制)するという効果を奏する。例えば、第2の実施形態の収音装置100Aでは、最終的に出力する信号に混入させると出力信号の品質が劣化するおそれのある帯域を除外した帯域を混合帯域として設定することで、最終的に出力する出力信号の品質を向上(劣化を抑制)するという効果を奏する。   In the sound collection device 100A (signal mixing unit 110) of the second embodiment, the signal after the area sound collection processing is mixed with the mixed signal (filtered mixing signal) processed by the mixing band selection unit 112. Output. Thereby, in the sound collection device 100A of the second embodiment, there is an effect that the quality of the output signal finally output is improved (deterioration is suppressed). For example, in the sound collection device 100A of the second embodiment, by setting a band excluding a band in which the quality of an output signal may be deteriorated when mixed into a signal to be finally output, as a mixed band, This has the effect of improving the quality of the output signal output to the device (suppressing deterioration).

(C)他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。
(C) Other Embodiments The present invention is not limited to the above embodiments, but may include modified embodiments as exemplified below.

(C−1)上記の各実施形態の収音装置では、収音に用いる各マイクロホンアレイMAのマイクロホンの数は2つであったが、3つ以上のマイクを用いて収音した音響信号に基づいて目的エリア方向の音を収音するようにしてもよい。上記の各実施形態において、適用するマイクロホンアレイMA毎のマイクロホンの数や目的音方向の音を収音する方式については、既存の種々の方式を適用することができる。   (C-1) In the sound collection device of each of the above embodiments, the number of microphones of each microphone array MA used for sound collection is two, but the number of microphones used for sound collection is three or more. The sound in the direction of the target area may be collected based on the sound. In each of the above embodiments, various existing systems can be applied to the number of microphones for each microphone array MA to be applied and the system for collecting sound in the target sound direction.

(C−2)上記の各実施形態のサンプリング周波数設定部101において、エリア収音処理用信号と混合用信号のサンプリング周波数を同じとしてもよい。この場合、目的エリア音抽出部109は、エリア収音処理を行う帯域(抽出する目的エリア音の帯域;以下、「エリア収音処理帯域」と呼ぶ)を、折返し歪が発生しない帯域に制限し、エリア収音処理帯域より高い周波数の帯域の成分には「0」のデータを設定した信号をエリア収音処理後の信号(抽出した目的エリア音)として出力するようにしてもよい。   (C-2) In the sampling frequency setting unit 101 of each of the above embodiments, the sampling frequency of the area sound collection processing signal and the sampling frequency of the mixing signal may be the same. In this case, the target area sound extraction unit 109 limits the band in which the area sound pickup processing is performed (the band of the target area sound to be extracted; hereinafter, referred to as the “area sound pickup processing band”) to a band in which aliasing distortion does not occur. Alternatively, a signal in which data of “0” is set as a component of a frequency band higher than the area sound collection processing band may be output as a signal after the area sound collection processing (extracted target area sound).

この場合、目的エリア音抽出部109が出力する信号(抽出した目的エリア音)は、外形的には混合用信号と同じサンプリング周波数の信号となるが、有効なサンプリング周波数は、エリア収音処理帯域の上限に対応するサンプリング周波数(以下、「エリア収音処理有効サンプリング周波数」と呼ぶ)となる。その結果、目的エリア音抽出部109が抽出する目的エリア音で有効なサンプリング周波数(エリア収音処理有効サンプリング周波数)は、混合信号用信号よりも低い周波数となる。例えば、エリア収音処理用信号と混合用信号のサンプリング周波数を48kHzとし、エリア収音処理帯域の上限を8kHz(エリア収音処理有効サンプリング周波数を16kHzとした場合に対応する周波数)としてもよい。   In this case, the signal output from the target area sound extraction unit 109 (the extracted target area sound) is a signal having the same sampling frequency as the mixing signal in terms of external shape, but the effective sampling frequency is the area sound collection processing band. (Hereinafter, referred to as "area sound collection processing effective sampling frequency"). As a result, the effective sampling frequency of the target area sound extracted by the target area sound extraction unit 109 (the effective sampling frequency of the area pickup processing) is lower than the frequency of the mixed signal. For example, the sampling frequency of the area sound pickup processing signal and the mixing signal may be set to 48 kHz, and the upper limit of the area sound pickup processing band may be set to 8 kHz (a frequency corresponding to the case where the area sound pickup processing effective sampling frequency is set to 16 kHz).

なお、この場合、当然のことながら目的エリア音抽出部109は、エリア収音処理後の信号(抽出した目的エリア音)に対してアップサンプリング処理を行わずにそのまま信号混合部110に供給して、混合用信号と混合させる処理を行う。   In this case, naturally, the target area sound extraction unit 109 supplies the signal after the area sound collection processing (the extracted target area sound) to the signal mixing unit 110 without performing upsampling processing. , A process of mixing with the mixing signal.

100…収音装置、M1、M2…マイクロホン、MA1、MA2…マイクロホンアレイ、サンプリング周波数設定部101、収音処理用信号入力部102、混合用信号入力部103、雑音抑圧部104、指向性形成部105、遅延補正部106、空間座標データ107、補正係数算出部108、目的エリア音抽出部109、信号混合部110、信号出力部111。   Reference numeral 100: sound collection device, M1, M2: microphone, MA1, MA2: microphone array, sampling frequency setting unit 101, sound collection processing signal input unit 102, mixing signal input unit 103, noise suppression unit 104, directivity forming unit 105, delay correction unit 106, spatial coordinate data 107, correction coefficient calculation unit 108, target area sound extraction unit 109, signal mixing unit 110, and signal output unit 111.

第1の本発明は、(1)複数のマイクロホンアレイから入力された入力信号に基づいて、それぞれの前記マイクロホンアレイのビームフォーマ出力取得し、取得したビームフォーマ出力を用いて目的エリアを音源とする目的エリア音を抽出する目的エリア音抽出手段と、(2)前記入力信号に基づく信号であって、前記目的エリア音抽出手段が抽出する前記目的エリア音よりも有効なサンプリング周波数が高い混合信号を取得する混合信号取得手段と、(3)前記目的エリア音抽出手段で抽出された前記目的エリア音に前記混合信号取得手段が取得した前記混合信号を混合する信号混合手段と、(4)前記信号混合手段が混合した混合後信号を出力する出力手段とを有することを特徴とする。 According to a first aspect of the present invention, (1) a beamformer output of each of the microphone arrays is obtained based on input signals input from a plurality of microphone arrays, and a target area is determined as a sound source by using the obtained beamformer outputs. Target area sound extracting means for extracting a target area sound to be reproduced; and (2) a mixed signal which is a signal based on the input signal and which has a higher effective sampling frequency than the target area sound extracted by the target area sound extracting means. (3) a signal mixing means for mixing the target area sound extracted by the target area sound extraction means with the mixed signal obtained by the mixing signal obtaining means; Output means for outputting the mixed signal after the mixing by the signal mixing means.

第2の本発明の収音プログラムは、コンピュータを、(1)複数のマイクロホンアレイから入力された入力信号に基づいて、それぞれの前記マイクロホンアレイのビームフォーマ出力取得し、取得したビームフォーマ出力を用いて目的エリアを音源とする目的エリア音を抽出する目的エリア音抽出手段と、(2)前記入力信号に基づく信号であって、前記目的エリア音抽出手段が抽出する前記目的エリア音よりも有効なサンプリング周波数が高い混合信号を取得する混合信号取得手段と、(3)前記目的エリア音抽出手段で抽出された前記目的エリア音に前記混合信号取得手段が取得した前記混合信号を混合する信号混合手段と、(4)前記信号混合手段が混合した混合後信号を出力する出力手段として機能させることを特徴とする。 A sound collection program according to a second aspect of the present invention provides a computer which (1) acquires beamformer outputs of the respective microphone arrays based on input signals input from a plurality of microphone arrays, and outputs the acquired beamformer outputs. A target area sound extracting means for extracting a target area sound using the target area as a sound source, and (2) a signal based on the input signal, which is more effective than the target area sound extracted by the target area sound extracting means. Signal mixing means for obtaining a mixed signal having a high sampling frequency, and (3) signal mixing for mixing the mixed signal obtained by the mixed signal obtaining means with the target area sound extracted by the target area sound extracting means. And (4) functioning as output means for outputting the mixed signal mixed by the signal mixing means.

第3の本発明は、収音装置が行う収音方法において、(1)目的エリア音抽出手段、混合信号取得手段、信号混合手段、及び出力手段を有し、(2)前記目的エリア音抽出手段は、複数のマイクロホンアレイから入力された入力信号に基づいて、それぞれの前記マイクロホンアレイのビームフォーマ出力取得し、取得したビームフォーマ出力を用いて目的エリアを音源とする目的エリア音を抽出し、(3)前記混合信号取得手段は、前記入力信号に基づく信号であって、前記目的エリア音抽出手段が抽出する前記目的エリア音よりも有効なサンプリング周波数が高い混合信号を取得し、(4)前記信号混合手段は、前記目的エリア音抽出手段で抽出された前記目的エリア音に前記混合信号取得手段が取得した前記混合信号を混合し、(5)前記出力手段は、前記信号混合手段が混合した混合後信号を出力することを特徴とする。 According to a third aspect of the present invention, there is provided a sound collecting method performed by the sound collecting apparatus, comprising (1) a target area sound extracting unit, a mixed signal acquiring unit, a signal mixing unit, and an output unit; and (2) the target area sound extracting unit. means, based on the input signals input from a plurality of microphone array to obtain the beamformer output of each of the microphone array, a target area extracting a target area sound the sound source using the acquired beamformer output (3) the mixed signal obtaining means obtains a mixed signal having a higher effective sampling frequency than the target area sound extracted by the target area sound extracting means, the mixed signal being a signal based on the input signal; (5) The signal mixing means mixes the target area sound extracted by the target area sound extraction means with the mixed signal acquired by the mixed signal acquisition means, and (5) Serial output means, and outputs the mixed signal after said signal mixing means is mixed.

Claims (5)

複数のマイクロホンアレイから入力された入力信号に基づいて、それぞれの前記マイクロホンアレイのビームフォーマ出力取得し、取得したビームフォーマ出力を用いて目的エリアを音源とする目的エリア音を抽出する目的エリア音抽出手段と、
前記入力信号に基づく信号であって、前記目的エリア音抽出手段が抽出する前記目的エリア音よりも有効なサンプリング周波数が高い混合信号を取得する混合信号取得手段と、
前記目的エリア音抽出手段で抽出された前記目的エリア音に前記混合信号取得手段が取得した前記混合信号を混合する信号混合手段と、
前記信号混合手段が混合した混合後信号を出力する出力手段と
を有することを特徴とする収音装置。
Target area sound extraction for obtaining a beamformer output of each of the microphone arrays based on input signals input from a plurality of microphone arrays, and extracting a target area sound having a target area as a sound source using the obtained beamformer outputs. Means,
A mixed signal acquisition unit that is a signal based on the input signal and acquires a mixed signal having a higher effective sampling frequency than the target area sound extracted by the target area sound extraction unit;
A signal mixing unit that mixes the mixed signal acquired by the mixed signal acquisition unit with the target area sound extracted by the target area sound extraction unit,
Output means for outputting a mixed signal mixed by the signal mixing means.
前記信号混合手段は、前記目的エリア音抽出手段が抽出する前記目的エリア音を、前記混合信号取得手段が取得した前記混合信号と同じサンプリング周波数とするアップサンプリング処理を施してから前記混合信号と混合することを特徴とする請求項1に記載の収音装置。   The signal mixing unit mixes the target area sound extracted by the target area sound extraction unit with the mixed signal after performing an up-sampling process at the same sampling frequency as the mixed signal acquired by the mixed signal acquisition unit. The sound pickup device according to claim 1, wherein 前記混合信号取得手段が取得した前記混合信号の一部の周波数帯の成分を選択して抽出するフィルタ処理を施したフィルタ処理済混合信号を取得する混合帯域選択手段をさらに備え、
前記信号混合手段は、前記目的エリア音抽出手段で抽出された前記目的エリア音に、前記混合帯域選択手段が抽出した前記フィルタ処理済混合信号を混合する
ことを特徴とする請求項1又は2に記載の収音装置。
Mixing band selection means for obtaining a filtered mixed signal subjected to a filtering process for selecting and extracting a component of a part of the frequency band of the mixed signal obtained by the mixed signal obtaining means,
The said signal mixing means mixes the said filtered processed mixed signal which the said mixing band selection means extracted with the said target area sound extracted by the said target area sound extraction means. The said 1 or 2 characterized by the above-mentioned. A sound pickup device as described.
コンピュータを、
複数のマイクロホンアレイから入力された入力信号に基づいて、それぞれの前記マイクロホンアレイのビームフォーマ出力取得し、取得したビームフォーマ出力を用いて目的エリアを音源とする目的エリア音を抽出する目的エリア音抽出手段と、
前記入力信号に基づく信号であって、前記目的エリア音抽出手段が抽出する前記目的エリア音よりも有効なサンプリング周波数が高い混合信号を取得する混合信号取得手段と、
前記目的エリア音抽出手段で抽出された前記目的エリア音に前記混合信号取得手段が取得した前記混合信号を混合する信号混合手段と、
前記信号混合手段が混合した混合後信号を出力する出力手段と
して機能させることを特徴とする収音プログラム。
Computer
Target area sound extraction for obtaining a beamformer output of each of the microphone arrays based on input signals input from a plurality of microphone arrays, and extracting a target area sound having a target area as a sound source using the obtained beamformer outputs. Means,
A mixed signal acquisition unit that is a signal based on the input signal and acquires a mixed signal having a higher effective sampling frequency than the target area sound extracted by the target area sound extraction unit;
A signal mixing unit that mixes the mixed signal acquired by the mixed signal acquisition unit with the target area sound extracted by the target area sound extraction unit,
A sound collection program, which functions as output means for outputting a mixed signal mixed by the signal mixing means.
収音装置が行う収音方法において、
目的エリア音抽出手段、混合信号取得手段、信号混合手段、及び出力手段を有し、
前記目的エリア音抽出手段は、複数のマイクロホンアレイから入力された入力信号に基づいて、それぞれの前記マイクロホンアレイのビームフォーマ出力取得し、取得したビームフォーマ出力を用いて目的エリアを音源とする目的エリア音を抽出し、
前記混合信号取得手段は、前記入力信号に基づく信号であって、前記目的エリア音抽出手段が抽出する前記目的エリア音よりも有効なサンプリング周波数が高い混合信号を取得し、
前記信号混合手段は、前記目的エリア音抽出手段で抽出された前記目的エリア音に前記混合信号取得手段が取得した前記混合信号を混合し、
前記出力手段は、前記信号混合手段が混合した混合後信号を出力する
ことを特徴とする収音方法。
In the sound pickup method performed by the sound pickup device,
Having a target area sound extraction means, a mixed signal acquisition means, a signal mixing means, and an output means,
The target area sound extraction means obtains a beamformer output of each of the microphone arrays based on input signals input from a plurality of microphone arrays, and uses the obtained beamformer output to set a target area as a sound source to the target area. Extract sound,
The mixed signal acquiring unit is a signal based on the input signal, and acquires a mixed signal having a higher effective sampling frequency than the target area sound extracted by the target area sound extracting unit,
The signal mixing unit mixes the mixed signal acquired by the mixed signal acquisition unit with the target area sound extracted by the target area sound extraction unit,
The sound pickup method, wherein the output means outputs a mixed signal mixed by the signal mixing means.
JP2018165461A 2018-09-04 2018-09-04 Sound pickup device, program and method Active JP6669219B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018165461A JP6669219B2 (en) 2018-09-04 2018-09-04 Sound pickup device, program and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018165461A JP6669219B2 (en) 2018-09-04 2018-09-04 Sound pickup device, program and method

Publications (2)

Publication Number Publication Date
JP2020039055A true JP2020039055A (en) 2020-03-12
JP6669219B2 JP6669219B2 (en) 2020-03-18

Family

ID=69738297

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018165461A Active JP6669219B2 (en) 2018-09-04 2018-09-04 Sound pickup device, program and method

Country Status (1)

Country Link
JP (1) JP6669219B2 (en)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06188682A (en) * 1992-12-15 1994-07-08 Sony Corp Adaptive signal processing unit
JP2007089058A (en) * 2005-09-26 2007-04-05 Yamaha Corp Microphone array controller
US20090141907A1 (en) * 2007-11-30 2009-06-04 Samsung Electronics Co., Ltd. Method and apparatus for canceling noise from sound input through microphone
JP2012129652A (en) * 2010-12-13 2012-07-05 Canon Inc Sound processing device and method, and imaging apparatus
JP2014072708A (en) * 2012-09-28 2014-04-21 Oki Electric Ind Co Ltd Sound collecting device and program
JP2017183902A (en) * 2016-03-29 2017-10-05 沖電気工業株式会社 Sound collection device and program

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06188682A (en) * 1992-12-15 1994-07-08 Sony Corp Adaptive signal processing unit
JP2007089058A (en) * 2005-09-26 2007-04-05 Yamaha Corp Microphone array controller
US20090141907A1 (en) * 2007-11-30 2009-06-04 Samsung Electronics Co., Ltd. Method and apparatus for canceling noise from sound input through microphone
JP2012129652A (en) * 2010-12-13 2012-07-05 Canon Inc Sound processing device and method, and imaging apparatus
JP2014072708A (en) * 2012-09-28 2014-04-21 Oki Electric Ind Co Ltd Sound collecting device and program
JP2017183902A (en) * 2016-03-29 2017-10-05 沖電気工業株式会社 Sound collection device and program

Also Published As

Publication number Publication date
JP6669219B2 (en) 2020-03-18

Similar Documents

Publication Publication Date Title
JP6187626B1 (en) Sound collecting device and program
JP6540730B2 (en) Sound collection device, program and method, determination device, program and method
DE102009052539B4 (en) Signal processing unit and signal processing method
KR20220076518A (en) Spectral orthogonal audio component processing
JP6096956B2 (en) Method for suppressing noise of input signal depending on frequency
JP6943120B2 (en) Sound collectors, programs and methods
JP6436180B2 (en) Sound collecting apparatus, program and method
CN114885260A (en) Systems, methods, apparatus, and media for crosstalk cancellation for speaker systems
JP6624256B1 (en) Sound pickup device, program and method
JP6669219B2 (en) Sound pickup device, program and method
US11095979B2 (en) Sound pick-up apparatus, recording medium, and sound pick-up method
WO2021019844A1 (en) Sound pick-up device, storage medium, and sound pick-up method
WO2018042773A1 (en) Sound pickup device, recording medium and method
JP2016163135A (en) Sound collection device, program and method
JP6260666B1 (en) Sound collecting apparatus, program and method
JP6624255B1 (en) Sound pickup device, program and method
JP2017181761A (en) Signal processing device and program, and gain processing device and program
JP6863004B2 (en) Sound collectors, programs and methods
JP6725014B1 (en) Sound collecting device, sound collecting program, and sound collecting method
JP6923025B1 (en) Sound collectors, programs and methods
JP7207170B2 (en) Sound collection device, sound collection program, sound collection method, and sound collection system
JP7158976B2 (en) Sound collecting device, sound collecting program and sound collecting method
JP2024027617A (en) Speech recognition device, speech recognition program, speech recognition method, sound collection device, sound collection program, and sound collection method
JP2020167530A (en) Sound collection device, sound collection program, and sound collection method
Kociński et al. Convolutive Blind Signal Separation Spatial Effectiveness in Speech Intelligibility Improvement

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180904

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190903

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191101

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200128

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200210

R150 Certificate of patent or registration of utility model

Ref document number: 6669219

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150