JP6863004B2 - Sound collectors, programs and methods - Google Patents

Sound collectors, programs and methods Download PDF

Info

Publication number
JP6863004B2
JP6863004B2 JP2017068515A JP2017068515A JP6863004B2 JP 6863004 B2 JP6863004 B2 JP 6863004B2 JP 2017068515 A JP2017068515 A JP 2017068515A JP 2017068515 A JP2017068515 A JP 2017068515A JP 6863004 B2 JP6863004 B2 JP 6863004B2
Authority
JP
Japan
Prior art keywords
sound
target area
feature amount
area
frequency component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017068515A
Other languages
Japanese (ja)
Other versions
JP2018170718A (en
Inventor
大 藤枝
大 藤枝
一浩 片桐
一浩 片桐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2017068515A priority Critical patent/JP6863004B2/en
Publication of JP2018170718A publication Critical patent/JP2018170718A/en
Application granted granted Critical
Publication of JP6863004B2 publication Critical patent/JP6863004B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、収音装置、プログラム及び方法に関し、例えば、特定のエリアの音のみを強調し、それ以外のエリアの音を抑圧する場合に適用し得る。 The present invention relates to a sound collecting device, a program and a method, and can be applied to, for example, a case where only a sound in a specific area is emphasized and a sound in another area is suppressed.

特定の方向に存在する音(音声や音響;以下、音声及び音響をまとめて「音響」と呼ぶこともある)を強調し、それ以外の音を抑圧する技術として、マイクアレイを用いたビームフォーマがある。ビームフォーマとは、各マイクに到達する信号の時間差を利用して指向性や死角を形成する技術である(非特許文献1、非特許文献2参照)。 A beam former using a microphone array as a technique for emphasizing sounds existing in a specific direction (voice and sound; hereinafter, voice and sound are sometimes collectively referred to as "sound") and suppressing other sounds. There is. The beam former is a technique for forming directivity and blind spots by utilizing the time difference between signals arriving at each microphone (see Non-Patent Document 1 and Non-Patent Document 2).

しかし、単純にビームフォーマの指向性を収音目的とするエリア(以下、「目的エリア」と呼ぶ)に向けただけでは、目的エリアの周囲に雑音源が存在する場合、目的エリア内に存在する音源(以下、「目的エリア音」と呼ぶ)だけでなく、目的エリア外に存在する雑音源(以下、「非目的エリア音」と呼ぶ)も同時に収音してしまうという問題が存在する。 However, if the directivity of the beam former is simply directed to an area for sound collection purposes (hereinafter referred to as "target area"), if there is a noise source around the target area, it exists in the target area. There is a problem that not only the sound source (hereinafter referred to as "target area sound") but also the noise source existing outside the target area (hereinafter referred to as "non-purpose area sound") is picked up at the same time.

この問題に対して、従来、複数のマイクアレイを用いて、別々の方向から指向性を目的エリアに向けて交差させ、目的エリア音を収音する方式が提案されている(特許文献1)。特許文献1に記載された方式では、各マイクアレイのビームフォーマ出力を同時に処理することで、目的エリアを抽出する。 To solve this problem, conventionally, a method has been proposed in which directivity is crossed from different directions toward a target area by using a plurality of microphone arrays, and sound in the target area is picked up (Patent Document 1). In the method described in Patent Document 1, the target area is extracted by simultaneously processing the beamformer output of each microphone array.

図6は、従来の複数のマイクアレイを用いた収音処理の例について示した説明図である。 FIG. 6 is an explanatory diagram showing an example of sound collection processing using a plurality of conventional microphone arrays.

図6では、2つのマイクアレイMA(MA、MA)の指向性を目的エリアに向けた場合の例について示している。 FIG. 6 shows an example in which the directivity of the two microphone arrays MA (MA 1 and MA 2) is directed toward the target area.

図6(a)は、2つのマイクアレイMA、MAの指向性を目的エリアに向けた場合の各マイクアレイMAや、目的エリア音の音源との位置関係について示している。また、図6(a)では、マイクアレイMA、MAに対応する指向性(ビームフォーマの指向性)Z1、Z2についても図示している。さらに、図6(a)の例では、目的エリアの音源の周囲に非目的エリア音の音源が存在している。従って、図6(a)の状態では、マイクアレイMA、MAのビームフォーマ出力には、共に、目的エリアにある音源による目的エリア音だけでなく、同じ指向性方向の非目的エリアにある音源による非目的エリア音が含まれてしまうことになる。 FIG. 6A shows the positional relationship between each microphone array MA and the sound source of the target area sound when the directivity of the two microphone arrays MA 1 and MA 2 is directed toward the target area. Further, FIG. 6A also illustrates the directivity (directivity of the beam former) Z1 and Z2 corresponding to the microphone arrays MA 1 and MA 2. Further, in the example of FIG. 6A, a sound source of the non-purpose area sound exists around the sound source of the target area. Therefore, in the state of FIG. 6A, both the beamformer outputs of the microphone arrays MA 1 and MA 2 are not only in the target area sound by the sound source in the target area but also in the non-purpose area in the same directivity direction. The non-purpose area sound from the sound source will be included.

図6(b)、図6(c)は、それぞれ、2つのマイクアレイMA、MAのビームフォーマ出力の周波数成分を示している。音声のスパース性を仮定すると、図6(b)、図6(c)に示すように、一つの周波数成分には一つの音源(目的エリア音又は非目的エリア音)しか含まれない。そして、目的エリアは全てのマイクアレイの指向性に含まれているため、目的エリア音の周波数成分は、全てのビームフォーマ出力に、同じ割合、同じ分布で含まれる。これと比較して、非目的エリア音の周波数成分は、ビームフォーマ出力ごとに異なっている。このような特徴から、各ビームフォーマ出力に共通に含まれる周波数成分は、目的エリア音が有する成分と推定することができ、これに基づいて、特許文献1等に記載された従来の目的エリア音の収音方法が実現されている。 6 (b) and 6 (c) show the frequency components of the beamformer outputs of the two microphone arrays MA 1 and MA 2, respectively. Assuming the sparsity of speech, as shown in FIGS. 6 (b) and 6 (c), one frequency component includes only one sound source (target area sound or non-target area sound). Since the target area is included in the directivity of all the microphone arrays, the frequency components of the target area sound are included in all the beam former outputs in the same proportion and with the same distribution. In comparison, the frequency component of the non-purpose area sound is different for each beamformer output. From these characteristics, the frequency component commonly included in each beamformer output can be estimated to be a component of the target area sound, and based on this, the conventional target area sound described in Patent Document 1 and the like can be estimated. The sound collection method of is realized.

図7は、従来の収音方法を適用した収音装置10の機能的構成について示したブロック図である。 FIG. 7 is a block diagram showing a functional configuration of the sound collecting device 10 to which the conventional sound collecting method is applied.

図7に示す従来の収音装置10は、データ入力部2、周波数領域変換部3、指向性形成部4、伝搬遅延差補正部5、パワー補正部6、第1の減算部7、及び第2の減算部8を有している。 The conventional sound collecting device 10 shown in FIG. 7 includes a data input unit 2, a frequency domain conversion unit 3, a directivity forming unit 4, a propagation delay difference correction unit 5, a power correction unit 6, a first subtraction unit 7, and a first subtraction unit 7. It has a subtraction unit 8 of 2.

マイクアレイMA、MAからの捕捉信号は、それぞれ、データ入力部2においてアナログ信号からデジタル信号(データ)に変換され、周波数領域変換部3において時間領域から周波数領域へと変換されて捕捉信号群X及びXが得られる。そして、指向性形成部4において図6(a)の指向性Z1、指向性Z2のような指向性を有するビームフォーマが適用されてビームフォーマ出力信号Xma1(f)及びXma2(f)が得られる。そして、伝搬遅延差補正部5において各マイクアレイと目的エリアとの距離(既知の情報)に基づいていずれかのビームフォーマ出力信号Xma1(f)及びXma2(f)を遅延させてタイミングを合わせて、遅延補正信号X’ma1(f)及びX’ma2(f)が得られる。 The captured signals from the microphone arrays MA 1 and MA 2 are converted from analog signals to digital signals (data) in the data input unit 2 and converted from the time domain to the frequency domain in the frequency domain conversion unit 3, respectively, and captured signals. Groups X 1 and X 2 are obtained. Then, a beam former having directivity such as the directivity Z1 and the directivity Z2 of FIG. 6A is applied to the directivity forming unit 4, and the beamformer output signals X ma1 (f) and X ma2 (f) are generated. can get. Then, the propagation delay difference correction unit 5 delays one of the beamformer output signals X ma1 (f) and X ma2 (f) based on the distance (known information) between each microphone array and the target area to adjust the timing. together, the delay correction signal X 'ma1 (f) and X' ma2 (f) is obtained.

パワー補正部6では、各マイクアレイと目的エリアとの距離による振幅差に加えて、目的エリア内の話者の向きに適応するため、(1)式によって振幅補正係数αma1(アルファ)を算出する。なお、(1)式中の演算子mode(A(f))は、変数fにより値が変わる関数値A(f)のうち最も多く出現した値(最頻値)を得る演算子である。また、最頻値に代えて、(2)式のように中央値を用いても良い。なお、(2)式中の演算子median(A(f))は、変数fにより値が変わる関数値A(f)の中央値を得る演算子である。

Figure 0006863004
In the power correction unit 6, in addition to the amplitude difference due to the distance between each microphone array and the target area, the amplitude correction coefficient α ma1 (alpha) is calculated by the equation (1) in order to adapt to the direction of the speaker in the target area. To do. The operator mode f (A (f)) in the equation (1) is an operator that obtains the most frequently occurring value (mode) of the function values A (f) whose values change depending on the variable f. .. Further, instead of the mode value, the median value may be used as in Eq. (2). The operator median f (A (f)) in the equation (2) is an operator that obtains the median value of the function value A (f) whose value changes depending on the variable f.
Figure 0006863004

そして、第1の減算部7において、マイクアレイMAに係る遅延補正信号X’ma1(f)から振幅補正係数αma1によって振幅を補正したマイクアレイMAに係る遅延補正信号X’ma2(f)をスペクトル減算することにより、両ビームフォーマ出力で重なっている目的エリア音成分が消去され、マイクアレイMAに係る遅延補正信号X’ma1(f)に含まれている非目的エリア音成分Nma1(f)が抽出される。(3)式は、概ねこのような考え方に従っている算出式である。
ma1=X’ma1−αma1・X’ma2 …(3)
Then, in the first subtracting unit 7, 'delay correction signal X according ma1 from (f) to the microphone array MA 2 obtained by correcting the amplitude by the amplitude correction coefficient alpha ma1' ma2 delay correction signal X according to the microphone array MA 1 (f ) by spectral subtraction to both beamformer erased object area sound components overlapping in the output, the delay correction signal X 'ma1 (f) non-target area sound components contained in the N of the microphone array MA 1 ma1 (f) is extracted. Equation (3) is a calculation equation that generally follows this way of thinking.
N ma1 = X 'ma1 -α ma1 · X' ma2 ... (3)

そして、第2の減算部8において、マイクアレイMAに係る遅延補正信号X’ma1(f)から非目的エリア音成分Nma1(f)をスペクトル減算することにより、目的エリア音Yma1(f)が抽出される。(4)式は、概ねこのような考え方に従っている算出式である。なお、(4)式中のβma1(ベータ)は、非目的エリア音の除去強度を定めている一定値を取る係数である。
ma1=X’ma1−βma1・Nma1…(4)
Then, in the second subtracting unit 8, by spectral subtraction of the non-target area sound component N ma1 (f) from the delay correction signal X 'ma1 according to the microphone array MA 1 (f), sound object area Y ma1 (f ) Is extracted. Equation (4) is a calculation equation that generally follows this way of thinking. Note that β ma1 (beta) in Eq. (4) is a coefficient that takes a constant value that determines the removal intensity of non-purpose area sound.
Y ma1 = X'ma1- β ma1 · N ma1 ... (4)

以上のように、従来の収音方法を用いれば、目的エリアの周囲に非目的エリア音源が存在していても、目的エリア音のみを収音することができる。 As described above, by using the conventional sound collection method, even if a non-purpose area sound source exists around the target area, only the target area sound can be collected.

特開2014−72708号公報Japanese Unexamined Patent Publication No. 2014-722708

浅野太著、“音のアレイ信号処理−音源の定位・追跡と分離”、社団法人日本音響学会、コロナ社、2011年2月25日発行Tadashi Asano, "Sound Array Signal Processing-Localization, Tracking and Separation of Sound Source", Acoustical Society of Japan, Corona Publishing Co., Ltd., February 25, 2011 矢頭隆、森戸誠、山田圭、小川哲司共著、“正方形マイクロホンアレイによる音源分離技術(<特集>音声認識技術の実用化への取り組み)”、一般社団法人情報処理学会、情報処理51(11)、pp.1410−1416.2010年Takashi Yato, Makoto Morito, Kei Yamada, Tetsuji Ogawa, "Square Microphone Array Sound Separation Technology (<Special Feature> Efforts to Practical Use of Speech Recognition Technology)", Information Processing Society of Japan, Information Processing 51 (11) , Pp. 1410-1416.2010

しかし、従来の収音方法では、目的エリア音のみを収音するために、2回のスペクトル減算を行っているため、抽出された目的エリア音に音質の問題が生じる可能性がある。 However, in the conventional sound picking method, since the spectrum subtraction is performed twice in order to pick up only the target area sound, there is a possibility that the extracted target area sound has a problem of sound quality.

スペクトル減算は、目的音成分と雑音成分が混在する観測信号と、適当な方法で推定した雑音成分とがあるときに、周波数成分ごとに、観測信号の振幅又はパワーから推定雑音成分の振幅又はパワーを減じることで、目的音の振幅又はパワーを推定する方法である。推定雑音成分は、実環境では推定誤差を必ず含んでしまう。そのため、スペクトル減算は、雑音成分が過大推定された周波数成分では目的音の成分までも減衰させてしまうため、目的音がひずむ課題と、雑音成分が過小推定された周波数成分では雑音成分を減衰させきれないため、雑音成分が残留する課題を有する。またさらに、周波数成分ごとにおいて、真の目的音の振幅又はパワーと真の雑音の振幅又はパワーとの和は、観測信号の振幅又はパワーと一致するとは限らないため、仮に推定雑音成分が推定誤差を含まなかったとしても、スペクトル減算は目的音がひずむ課題と雑音成分が残留する課題を有する。 In spectrum subtraction, when there is an observation signal in which the target sound component and noise component are mixed and a noise component estimated by an appropriate method, the amplitude or power of the estimated noise component is extracted from the amplitude or power of the observation signal for each frequency component. Is a method of estimating the amplitude or power of the target sound by subtracting. The estimated noise component always includes an estimation error in the real environment. Therefore, spectrum subtraction attenuates even the target sound component in the frequency component where the noise component is overestimated, so that the problem that the target sound is distorted and the noise component is attenuated in the frequency component where the noise component is underestimated. Since it cannot be cut off, there is a problem that the noise component remains. Furthermore, for each frequency component, the sum of the true target sound amplitude or power and the true noise amplitude or power does not always match the amplitude or power of the observed signal, so the estimated noise component is assumed to be an estimation error. Even if the noise component is not included, the spectrum subtraction has a problem that the target sound is distorted and a problem that the noise component remains.

なお、残留した雑音成分は、ミュージカルノイズと呼ばれる極めて不快な雑音として知覚されるため、スペクトル減算の最大の課題として一般的に周知されている。ミュージカルノイズは雑音成分が強くひずんだ雑音である。 Since the remaining noise component is perceived as extremely unpleasant noise called musical noise, it is generally known as the greatest problem of spectrum subtraction. Musical noise is noise in which the noise component is strongly distorted.

従来の収音方法では、以上のような課題を有するスペクトル減算を2回適用するため、強調された目的エリア音がひずむ場合があるという課題があった。 In the conventional sound collecting method, since the spectrum subtraction having the above problems is applied twice, there is a problem that the emphasized target area sound may be distorted.

そのため、より少ないひずみで目的エリア音のみを強調する収音装置、プログラム及び方法が望まれている。 Therefore, a sound collecting device, a program, and a method that emphasize only the target area sound with less distortion are desired.

第1の本発明の収音装置は、(1)2つのマイクから成る複数のマイクアレイごとに、音の到来方向に応じて変化するものであって、目的エリア方向から到来する音響に対して大きな値を取り、目的エリア方向以外の方向から到来する音響に対して小さな値を取る特徴を備える到来方向特徴量を算出する特徴量算出手段と、(2)周波数成分ごとに、それぞれの前記マイクアレイの前記到来方向特徴量を統合したエリア特徴量を取得する特徴量統合手段と、(3)前記エリア特徴量を用いて、前記マイクアレイが出力する捕捉信号に基づく信号から目的エリア音を抽出する目的エリア音抽出手段とを有し、(4)前記目的エリア音抽出手段は、前記エリア特徴量の大小に応じて、前記捕捉信号に基づく信号から目的エリア音を抽出し、(5)前記目的エリア音抽出手段は、周波数成分ごとの閾値を予め保持しておき、前記捕捉信号に基づく信号から、前記エリア特徴量が前記閾値より小さい周波数成分を減衰させることで目的エリア音を抽出することを特徴とする。 The first sound collecting device of the present invention is (1) for each of a plurality of microphone arrays composed of two microphones, which changes according to the direction of arrival of sound, with respect to sound arriving from the direction of the target area. A feature amount calculation means for calculating an arrival direction feature amount having a feature of taking a large value and taking a small value for a sound arriving from a direction other than the target area direction, and (2) each of the above-mentioned microphones for each frequency component. Using the feature quantity integration means for acquiring the area feature quantity that integrates the arrival direction feature quantity of the array and (3) the area feature quantity, the target area sound is extracted from the signal based on the captured signal output by the microphone array. possess the destination area sound extracting means for, (4) the target area sound extracting means, in accordance with the magnitude of the area feature quantity, and extract the target area sound the signal based on the acquired signal, (5) the The target area sound extraction means holds a threshold value for each frequency component in advance, and extracts the target area sound by attenuating a frequency component whose area feature amount is smaller than the threshold value from the signal based on the captured signal. It is characterized by.

第2の本発明の収音プログラムは、コンピュータを、(1)2つのマイクから成る複数のマイクアレイごとに、音の到来方向に応じて変化するものであって、目的エリア方向から到来する音響に対して大きな値を取り、目的エリア方向以外の方向から到来する音響に対して小さな値を取る特徴を備える到来方向特徴量を算出する特徴量算出手段と、(2)周波数成分ごとに、それぞれの前記マイクアレイの前記到来方向特徴量を統合したエリア特徴量を取得する特徴量統合手段と、(3)前記エリア特徴量を用いて、前記マイクアレイが出力する捕捉信号に基づく信号から目的エリア音を抽出する目的エリア音抽出手段として機能させ、(4)前記目的エリア音抽出手段は、前記エリア特徴量の大小に応じて、前記捕捉信号に基づく信号から目的エリア音を抽出し、(5)前記目的エリア音抽出手段は、周波数成分ごとの閾値を予め保持しておき、前記捕捉信号に基づく信号から、前記エリア特徴量が前記閾値より小さい周波数成分を減衰させることで目的エリア音を抽出することを特徴とする。 The second sound collection program of the present invention is to change the computer according to the direction of arrival of sound for each of (1) a plurality of microphone arrays composed of two microphones, and the sound coming from the direction of the target area. A feature amount calculation means for calculating an arrival direction feature amount having a feature of taking a large value for the sound coming from a direction other than the target area direction and taking a small value for the sound coming from a direction other than the target area direction, and (2) for each frequency component, respectively. The target area from the signal based on the captured signal output by the microphone array by using the feature amount integrating means for acquiring the area feature amount in which the arrival direction feature amount of the microphone array is integrated and (3) the area feature amount. It functions as a target area sound extracting means for extracting sound , and (4) the target area sound extracting means extracts a target area sound from a signal based on the captured signal according to the magnitude of the area feature amount, and (5). The target area sound extraction means holds a threshold value for each frequency component in advance, and extracts a target area sound from a signal based on the captured signal by attenuating a frequency component whose area feature amount is smaller than the threshold value. vinegar Rukoto and features.

第3の本発明の収音方法は、(1)特徴量算出手段、特徴量統合手段、及び目的エリア音抽出手段を備え、(2)前記特徴量算出手段は、2つのマイクから成る複数のマイクアレイごとに、音の到来方向に応じて変化するものであって、目的エリア方向から到来する音響に対して大きな値を取り、目的エリア方向以外の方向から到来する音響に対して小さな値を取る特徴を備える到来方向特徴量を算出し、(3)前記特徴量統合手段は、周波数成分ごとに、それぞれの前記マイクアレイの前記到来方向特徴量を統合したエリア特徴量を取得し、(5)前記目的エリア音抽出手段は、前記エリア特徴量を用いて、前記マイクアレイが出力する捕捉信号に基づく信号から目的エリア音を抽出し、(5)前記目的エリア音抽出手段は、前記エリア特徴量の大小に応じて、前記捕捉信号に基づく信号から目的エリア音を抽出し、(6)前記目的エリア音抽出手段は、周波数成分ごとの閾値を予め保持しておき、前記捕捉信号に基づく信号から、前記エリア特徴量が前記閾値より小さい周波数成分を減衰させることで目的エリア音を抽出することを特徴とする。 The third sound collecting method of the present invention includes (1) a feature amount calculating means, a feature amount integrating means, and a target area sound extracting means, and (2) the feature amount calculating means includes a plurality of microphones. For each microphone array, it changes according to the direction of arrival of sound, and takes a large value for sound arriving from the direction of the target area and a small value for sound arriving from a direction other than the direction of the target area. The arrival direction feature amount having the feature to be taken is calculated, and (3) the feature amount integration means acquires an area feature amount in which the arrival direction feature amount of each of the microphone arrays is integrated for each frequency component, and (5). ) The target area sound extracting means extracts the target area sound from the signal based on the captured signal output by the microphone array using the area feature amount , and (5) the target area sound extracting means is the area feature. The target area sound is extracted from the signal based on the captured signal according to the magnitude of the amount. (6) The target area sound extracting means holds a threshold value for each frequency component in advance, and the signal based on the captured signal. Therefore, the target area sound is extracted by attenuating a frequency component whose area feature amount is smaller than the threshold value.

本発明によれば、より少ないひずみで目的エリア音のみを強調する収音装置、プログラム及び方法を提供することができる。 According to the present invention, it is possible to provide a sound collecting device, a program and a method for emphasizing only the target area sound with less distortion.

実施形態に係る収音装置の機能的構成について示したブロック図である。It is a block diagram which showed the functional structure of the sound collecting apparatus which concerns on embodiment. 実施形態に係る第1の到来方向特徴量の例について示した説明図である。It is explanatory drawing which showed the example of the 1st arrival direction feature quantity which concerns on embodiment. 実施形態に係る第2の到来方向特徴量の例について示した説明図である。It is explanatory drawing which showed the example of the 2nd arrival direction feature quantity which concerns on embodiment. 実施形態に係るエリア特徴量の例について示した説明図である。It is explanatory drawing which showed the example of the area feature amount which concerns on embodiment. 実施形態に収音装置で求められる目的エリアの判定結果の例について示した説明図である。It is explanatory drawing which showed the example of the determination result of the target area required by the sound collecting apparatus in an embodiment. 従来の収音方法の例について示した説明図である。It is explanatory drawing which showed the example of the conventional sound collection method. 従来の収音装置の機能的構成について示したブロック図である。It is a block diagram which showed the functional structure of the conventional sound collecting apparatus.

(A)主たる実施形態
以下、本発明による収音装置、プログラム及び方法の一実施形態を、図面を参照しながら詳述する。
(A) Main Embodiments Hereinafter, one embodiment of a sound collecting device, a program and a method according to the present invention will be described in detail with reference to the drawings.

(A−1)実施形態の構成
図1は、この実施形態の収音装置100の機能的構成について示したブロック図である。
(A-1) Configuration of the Embodiment FIG. 1 is a block diagram showing a functional configuration of the sound collecting device 100 of the embodiment.

収音装置100は、M個のマイクアレイMA(MA〜MA)から供給される音響信号を用いて、目的エリアの音源からの目的エリア音を収音する目的エリア音収音処理を行う。 The sound collecting device 100 uses the acoustic signals supplied from the M microphone arrays MA (MA 1 to MA M) to perform the target area sound collecting process for collecting the target area sound from the sound source in the target area. ..

各マイクアレイMAは、目的エリアが存在する空間の、目的エリアを指向できる場所に配置される。各マイクアレイMAは、2つのマイク1(1、1)により構成されている。各マイクアレイMAでは、2つのマイク1、1によって捕捉された音響に基づく音響信号がデータ入力部102に供給される。 Each microphone array MA is arranged in a space where the target area exists so that the target area can be directed. Each microphone array MA is composed of two microphones 1 (1 1 , 1 2). In each microphone array MA, an acoustic signal based on the sound captured by the two microphones 1 1 and 12 is supplied to the data input unit 102.

次に、収音装置100の内部構成について図1を用いて説明する。 Next, the internal configuration of the sound collecting device 100 will be described with reference to FIG.

図1に示すように、この実施形態に係る収音装置100は、データ入力部102、周波数領域変換部103、特徴量算出部104、特徴量統合部105、及び目的エリア音抽出部106を有している。収音装置100内部の各構成要素の詳細については後述する。 As shown in FIG. 1, the sound collecting device 100 according to this embodiment includes a data input unit 102, a frequency domain conversion unit 103, a feature amount calculation unit 104, a feature amount integration unit 105, and a target area sound extraction unit 106. doing. Details of each component inside the sound collecting device 100 will be described later.

収音装置100において、デジタル信号に変換された後の処理構成を、プロセッサやメモリ等を備えるコンピュータにプログラム(実施形態に係る収音プログラムを含む)を実行させるようにしてもよいが、その場合であっても、機能的には、図1で表すことができる。 In the sound collecting device 100, a computer having a processor, a memory, or the like may execute a program (including a sound collecting program according to the embodiment) for the processing configuration after being converted into a digital signal. Even so, functionally, it can be represented in FIG.

(A−2)実施形態の動作
次に、以上のような構成を有するこの実施形態の収音装置100の動作(この実施形態の収音方法)を説明する。
(A-2) Operation of Embodiment Next, the operation of the sound collecting device 100 of this embodiment having the above configuration (sound collecting method of this embodiment) will be described.

データ入力部102は、マイクアレイMA〜MAで捕捉した音響信号を、マイク1ごとにアナログ信号からデジタル信号(データ)に変換する。データ入力部102は、得られた捕捉信号を、周波数領域変換部103に与える。 The data input unit 102 converts the acoustic signal captured by the microphone arrays MA 1 to M M from an analog signal to a digital signal (data) for each microphone 1. The data input unit 102 gives the obtained captured signal to the frequency domain conversion unit 103.

以下では、マイクアレイMA〜MAのマイク1で捕捉された捕捉信号をそれぞれx1,1(t)〜xM,1(t)と表し、マイクアレイMA〜MAのマイク1で捕捉された捕捉信号をそれぞれ、x1,2(t)〜xM,2(t)と表す。 In the following, the microphone array MA 1 to MA M of the captured captured signal by the microphone 1 1 each represent x 1,1 (t) ~x M, 1 (t), the microphone 1 of the microphone array MA 1 to MA M The captured signals captured in 2 are represented as x 1, 2, (t) to x M, 2 (t), respectively.

周波数領域変換部103は、捕捉信号x1,1(t)〜xM,1(t)、x1,2(t)〜xM,2(t)をそれぞれ時間領域から周波数領域へと変換する。 The frequency domain conversion unit 103 converts the captured signals x 1 , 1 (t) to x M, 1 (t), x 1 , 2, (t) to x M, 2 (t) from the time domain to the frequency domain, respectively. To do.

以下では、捕捉信号x1,1(t)〜xM,1(t)、x1,2(t)〜xM,2(t)を周波数領域に変換した信号を、X1,1(t)〜XM,1(t)、X1,2(t)〜XM,2(t)と表す。 In the following, the signals obtained by converting the captured signals x 1 , 1 (t) to x M, 1 (t), x 1 , 2, (t) to x M, 2 (t) into the frequency domain are converted into X 1 , 1 (t). It is expressed as t) to X M, 1 (t), X 1, 2, (t) to X M, 2 (t).

周波数領域変換部103は、得られた周波数領域の捕捉信号X1,1(t)〜XM,1(t)、X1,2(t)〜XM,2(t)を、特徴量算出部104及び目的エリア音抽出部106に供給する。 The frequency domain conversion unit 103 features the acquired frequency domain capture signals X 1, 1 (t) to X M, 1 (t), X 1, 2, (t) to X M, 2 (t). It is supplied to the calculation unit 104 and the target area sound extraction unit 106.

周波数領域変換部103が行う変換には、高速フーリエ変換(FFT:Fast Fourier Transformation)やウェーブレット変換、フィルタバンクなどを利用することができるが、FFTが最も好適である。ここで、FFTを行う際、ハミング窓などの各種窓関数を用いるようにしても良い。 For the conversion performed by the frequency domain transforming unit 103, a fast Fourier transform (FFT), a wavelet transform, a filter bank, or the like can be used, but the FFT is the most preferable. Here, various window functions such as a humming window may be used when performing the FFT.

特徴量算出部104は、捕捉信号X1,1(t)〜XM,1(t)、X1,2(t)〜XM,2(t)から、マイクアレイMAごとに、到来方向特徴量D(f)〜D(f)を算出する。特徴量算出部104は、得られた到来方向特徴量D(f)〜D(f)を、特徴量統合部105に供給する。 The feature amount calculation unit 104 is the arrival direction for each microphone array MA from the captured signals X 1, 1 (t) to X M, 1 (t), X 1, 2, (t) to X M, 2 (t). The feature quantities D 1 (f) to D M (f) are calculated. The feature amount calculation unit 104 supplies the obtained feature amounts D 1 (f) to D M (f) in the arrival direction to the feature amount integration unit 105.

特徴量算出部104において、到来方向特徴量D(f)〜D(f)は捕捉信号X1,1(t)〜XM,1(t)、X1,2(t)〜XM,2(t)からマイクアレイMAごとに同様の算出方法によって算出される。以下ではi番目(iは1〜Mのいずれか)のマイクアレイMAにおける捕捉信号Xi,1(f)、Xi,2(f)と到来方向特徴量D(f)について説明する。 In the feature amount calculation unit 104, the arrival direction feature amount D 1 (f) ~D M ( f) is captured signal X 1,1 (t) ~X M, 1 (t), X 1,2 (t) ~X It is calculated from M, 2 (t) for each microphone array MA by the same calculation method. I-th (i is any of 1 to M) acquired signal X i, 1 (f) in the microphone array MA i of, X i, 2 (f) and DOA feature amount D i (f) is described in the following ..

到来方向特徴量D(f)は、目的エリア方向に対して大きな値を取り、目的エリア方向以外の方向に対して小さな値を取るような特徴を持つことが好ましい。到来方向特徴量D(f)にそのような特徴を持たせられる算出方法であれば、どのような算出方法を用いても良い。目的エリアが、全てのマイクアレイMAの正面方向に位置している場合は、例えば(5)式を用いるのが好適である。

Figure 0006863004
The arrival direction feature amount Di (f) preferably has a feature that takes a large value with respect to the target area direction and a small value with respect to a direction other than the target area direction. Any calculation method may be used as long as it is a calculation method that allows the arrival direction feature amount Di (f) to have such a feature. When the target area is located in the front direction of all the microphone arrays MA, it is preferable to use the equation (5), for example.
Figure 0006863004

捕捉信号Xi,1(f)、Xi,2(f)は、目的エリア音と非目的エリア音とが混在した信号であるが、音声のスパース性を仮定すると、各周波数成分には目的エリア音と非目的エリア音のいずれかしか含まれないことになる。したがって、ある音源があるマイクアレイMAに到来する角度をθ(シータ)と定義すると、(5)式は(6)式のように展開できる。(6)式において、cは音速、dはマイクアレイを構成する2つのマイク1、1の間の距離である。なお、同様に音声のスパース性を仮定すると、到来方向特徴量D(f)の算出方法として(7)式のような到来方向を明示的に求める算出方法を用いることもできる。(7)式の絶対値の内側が到来方向θの正弦関数の値(sinθ)となっている。

Figure 0006863004
The captured signals X i, 1 (f) and X i, 2 (f) are signals in which the target area sound and the non-target area sound are mixed. Only area sounds and non-purpose area sounds will be included. Therefore, if the angle at which a certain sound source reaches the microphone array MA is defined as θ (theta), equation (5) can be expanded as equation (6). In equation (6), c is the speed of sound, and d is the distance between the two microphones 1 1 , 12 that make up the microphone array. Similarly, assuming the sparsity of voice, a calculation method for explicitly obtaining the arrival direction, such as Eq. (7), can be used as the calculation method for the arrival direction feature amount Di (f). The inside of the absolute value in Eq. (7) is the value (sin θ) of the sine function in the arrival direction θ.
Figure 0006863004

次に、到来方向特徴量D(f)の具体例について図2、図3を用いて説明する。 Next, a specific example of the arrival direction feature amount Di (f) will be described with reference to FIGS. 2 and 3.

図2(a)、図3(a)は、それぞれマイクアレイMA、MAに対応する到来方向特徴量D(f)、D(f)を(5)式を用いて求めた場合の例を3次元(縦、横、高さ)のグラフで示している。 2 (a) and 3 (a) show the cases where the arrival direction features D 1 (f) and D 2 (f) corresponding to the microphone arrays MA 1 and MA 2 are obtained by using the equation (5), respectively. Is shown in a three-dimensional (vertical, horizontal, height) graph.

図2(a)、図3(a)のグラフは、マイクアレイMAからの距離を縦位置(グラフの縦方向の軸)とし、マイクアレイMAからの距離を横位置(グラフの横方向の軸)とし、到来方向特徴量D(f)、D(f)の値を高さ(グラフの高さ方向(上下方向)の軸)としている。そして、図2(a)、図3(a)のグラフは、f=3kHzとしたときの様々な縦位置と横位置から目的エリア音や非目的エリア音が到来した場合における到来方向特徴量D(f)、D(f)の値を示している。 In the graphs of FIGS. 2 (a) and 3 (a), the distance from the microphone array MA 1 is the vertical position (vertical axis of the graph), and the distance from the microphone array MA 2 is the horizontal position (horizontal direction of the graph). Axis), and the values of the feature quantities D 1 (f) and D 2 (f) in the arrival direction are the height (the axis in the height direction (vertical direction) of the graph). The graphs of FIGS. 2 (a) and 3 (a) show the arrival direction feature amount D when the target area sound or the non-target area sound arrives from various vertical and horizontal positions when f = 3 kHz. The values of 1 (f) and D 2 (f) are shown.

図2(b)は、図2(a)に図示したP411〜P416の各位置における到来方向特徴量D(f)の値を示している。図2(b)に示す通り、P411〜P416のそれぞれの位置の到来方向特徴量D(f)の値は、−0.13、1、−0.13、0.72、1、0.72となる。 FIG. 2 (b) shows the value of the incoming direction feature amount D 1 (f) at each position of P411~P416 illustrated in FIG. 2 (a). As shown in FIG. 2B, the values of the arrival direction feature amounts D 1 (f) at the respective positions of P411 to P416 are −0.13, 1, −0.13, 0.72, 1, 0. It becomes 72.

なお、図2(a)は、マイクアレイMAを横位置1.5m、縦位置0mに設置したときの、マイクアレイMAに関するf=3kHzの音の到来方向特徴量D(f)のグラフとなっている。図2(a)、図2(b)に示すように、マイクアレイMAの正面方向(横位置が1.5mの場合)において、到来方向特徴量D(f)がピーク値となっていることがわかる。 Incidentally, FIG. 2 (a), the lateral position 1.5m microphone array MA 1, when installed in a vertical position 0 m, the arrival of sound f = 3 kHz about the microphone array MA 1 direction feature amount D 1 of the (f) It is a graph. As shown in FIGS. 2 (a) and 2 (b), the feature amount D 1 (f) in the arrival direction becomes the peak value in the front direction (when the lateral position is 1.5 m) of the microphone array MA 1. You can see that there is.

図3(b)は、図3(a)に図示したP421〜P426の各位置における到来方向特徴量D(f)の値を示している。図3(b)に示す通り、P421〜P426のそれぞれの位置の到来方向特徴量D(f)の値は、0.72、−0.13、1、−0.13、0.72、1となる。 FIG. 3 (b) shows the values of the arrival direction feature amount D 2 (f) at each position of P421 to P426 illustrated in FIG. 3 (a). As shown in FIG. 3 (b), the values of the arrival direction feature amounts D 2 (f) at the respective positions of P421 to P426 are 0.72, −0.13, 1, −0.13, 0.72, It becomes 1.

なお、図3(a)は、マイクアレイMAを横位置0m、縦位置1.5mに設置したときの、マイクアレイMAに関するf=3kHzにおける到来方向特徴量D(f)のグラフである。図3(a)、図3(b)に示すように、マイクアレイMAの正面方向(縦位置が1.5mの場合)において、到来方向特徴量D(f)がピーク値となっていることがわかる。 3 (a) is, the microphone array MA 2 lateral position 0 m, when placed in a vertical position 1.5 m, a graph of the arrival direction feature amount D 2 (f) in f = 3 kHz about the microphone array MA 2 is there. As shown in FIGS. 3 (a) and 3 (b), the feature amount D 2 (f) in the arrival direction becomes the peak value in the front direction (when the vertical position is 1.5 m) of the microphone array MA 2. You can see that there is.

特徴量統合部105は、周波数成分ごとに、到来方向特徴量D(f)〜D(f)を統合してエリア特徴量E(f)を算出する。得られたエリア特徴量E(f)は、目的エリア音抽出部106に与えられる。 The feature amount integration unit 105 integrates the arrival direction feature amounts D 1 (f) to D M (f) for each frequency component to calculate the area feature amount E (f). The obtained area feature amount E (f) is given to the target area sound extraction unit 106.

エリア特徴量E(f)の算出方法(統合方法)は、全ての到来方向特徴量D(f)〜D(f)が大きいときにエリア特徴量E(f)も大きくなるような算出方法(統合方法)であれば、どのような算出方法を用いても良いが、例えば、(8)式のように、周波数成分ごとに、全てのマイクアレイに関して最小となる到来方向特徴量D(f)〜D(f)を選択してエリア特徴量E(f)とするようにしてもよい。
E(f)=min[D(f),…,D(f)] …(8)
The calculation method (integration method) of the area feature amount E (f) is such that when all the arrival direction feature amounts D 1 (f) to D M (f) are large, the area feature amount E (f) is also large. Any calculation method may be used as long as it is a method (integration method). For example, as in Eq. (8), the minimum arrival direction feature amount D 1 for all microphone arrays for each frequency component. (f) ~D M (f) may be used as the select by area feature quantity E (f).
E (f) = min [D 1 (f), ..., D M (f)] ... (8)

次に、エリア特徴量E(f)の具体例について図4を用いて説明する。 Next, a specific example of the area feature amount E (f) will be described with reference to FIG.

図4(a)は、(8)式を用いて、エリア特徴量E(f)を求めた場合の例を3次元(縦、横、高さ)のグラフで示している。 FIG. 4A is a three-dimensional (vertical, horizontal, height) graph showing an example in which the area feature amount E (f) is obtained using the equation (8).

図4(a)は、図6のようにマイクアレイMA、MA(マイク1が2個の)を配置した場合において、到来方向特徴量D(f)、D(f)をそれぞれ(5)式で算出し、算出した到来方向特徴量D(f)、D(f)を(8)式に適用してエリア特徴量E(f)を算出した場合の例を示している。すなわち、図4(a)は、図2(a)、図3(a)に示す到来方向特徴量D(f)、D(f)を(8)式により統合したエリア特徴量E(f)を示している。 FIG. 4A shows the arrival direction features D 1 (f) and D 2 (f) when the microphone arrays MA 1 and MA 2 (two microphones 1) are arranged as shown in FIG. 6, respectively. An example is shown in which the area feature amount E (f) is calculated by applying the arrival direction feature amounts D 1 (f) and D 2 (f) calculated by the formula (5) to the formula (8). There is. That is, FIG. 4A shows the area feature amount E (8) in which the arrival direction feature amounts D 1 (f) and D 2 (f) shown in FIGS. 2 (a) and 3 (a) are integrated by the equation (8). f) is shown.

図4(a)のグラフは、マイクアレイMAからの距離を縦位置(グラフの縦方向の軸)とし、マイクアレイMAからの距離を横位置(グラフの横方向の軸)とし、エリア特徴量E(f)の値を高さ(グラフの高さ方向(上下方向)の軸)としている。なお、図4(a)は、f=3kHzのときの様々な縦位置と横位置におけるエリア特徴量E(f)の値を示している。 In the graph of FIG. 4A, the distance from the microphone array MA 1 is the vertical position (vertical axis of the graph), and the distance from the microphone array MA 2 is the horizontal position (horizontal axis of the graph). The value of the feature amount E (f) is defined as the height (the axis in the height direction (vertical direction) of the graph). Note that FIG. 4A shows the values of the area feature amounts E (f) at various vertical and horizontal positions when f = 3 kHz.

図4(b)は、図4(a)に図示したP51〜59の各位置におけるエリア特徴量E(f)の値を示している。図4(b)に示す通り、P51〜59のそれぞれの位置のエリア特徴量E(f)の値は、−0.13、0.36、−0.13、0.36、−0.13、0.36、0.72、0.36、1となっている。 FIG. 4B shows the value of the area feature amount E (f) at each position of P51 to 59 shown in FIG. 4A. As shown in FIG. 4B, the values of the area feature amounts E (f) at the respective positions of P51 to 59 are -0.13, 0.36, -0.13, 0.36, and -0.13. , 0.36, 0.72, 0.36, 1.

図4(a)、図4(b)に示すように、マイクアレイMAとマイクアレイMAの正面方向(横位置と縦位置が共に1.5mとなる点の周辺)において、エリア特徴量E(f)が大きな値となっていることがわかる。 As shown in FIGS. 4 (a) and 4 (b ), the area feature amount in the front direction of the microphone array MA 1 and the microphone array MA 2 (around the point where both the horizontal position and the vertical position are 1.5 m). It can be seen that E (f) is a large value.

目的エリア音抽出部106は、捕捉信号X1,1(t)〜XM,1(t)、X1,2(t)〜XM,2(t)とエリア特徴量E(f)とに基づいて目的エリア強調音Y(f)を算出する。そして、目的エリア音抽出部106は、得られた目的エリア強調音Y(f)を次段に供給(出力)する。 The target area sound extraction unit 106 includes captured signals X 1, 1 (t) to X M, 1 (t), X 1, 2, (t) to X M, 2 (t) and an area feature amount E (f). The target area emphasis sound Y (f) is calculated based on. Then, the target area sound extraction unit 106 supplies (outputs) the obtained target area emphasis sound Y (f) to the next stage.

目的エリア音抽出部106において、目的エリア音の抽出(強調)対象となる捕捉信号の選択(X1,1(t)〜XM,1(t)、X1,2(t)〜XM,2(t)のいずれかの選択)は任意であり、例えば先頭のX1,1(f)としても良いし、最も目的エリアに近いマイクに係る捕捉信号としても良いし、最も目的エリアに近いマイクアレイMAの捕捉信号群に遅延和ビームフォーマを適用して目的エリア音を少しだけ強調した信号(統合捕捉信号と呼ぶ)としても良い。以下、選択された捕捉信号又は統合捕捉信号を抽出対象信号X’(f)と呼ぶ。 In the target area sound extraction unit 106, selection of the captured signal to be extracted (emphasized) of the target area sound (X 1, 1 (t) to X M, 1 (t), X 1, 2, (t) to X M , 2 (t) is optional), for example, it may be the first X 1, 1 (f), it may be the captured signal related to the microphone closest to the target area, or it may be the closest target area. A delay sum beam former may be applied to a group of captured signals of a nearby microphone array MA to provide a signal (called an integrated captured signal) in which the target area sound is slightly emphasized. Hereinafter, the selected capture signal or the integrated capture signal is referred to as an extraction target signal X'(f).

目的エリア音抽出部106において、目的エリア音の抽出(強調)は、抽出対象信号X’(f)の周波数成分の内、目的エリア音以外の周波数成分を減衰させることで達成される。そして、エリア特徴量E(f)は目的エリアに近いほど大きな値となっていることから、目的エリア音抽出部106では、エリア特徴量E(f)の大小に応じて抽出対象信号X’(f)を減衰させることで、目的エリア音を抽出(強調)することができる。目的エリア音抽出部106では、例えば、(9)式のように、周波数成分ごとに所定の閾値F(f)を事前に定めておいて、エリア特徴量E(f)が閾値F(f)より小さければ抽出対象信号X’(f)の当該周波数成分を減衰させる(例えば、ゼロとする)ことで、目的エリア音の周波数成分だけが残った目的エリア強調音Y(f)を得ることができる。

Figure 0006863004
In the target area sound extraction unit 106, extraction (emphasis) of the target area sound is achieved by attenuating the frequency components other than the target area sound among the frequency components of the extraction target signal X'(f). Since the area feature amount E (f) has a larger value as it is closer to the target area, the target area sound extraction unit 106 determines the extraction target signal X'(in accordance with the magnitude of the area feature amount E (f). By attenuating f), the target area sound can be extracted (emphasized). In the target area sound extraction unit 106, for example, as in Eq. (9), a predetermined threshold value F (f) is set in advance for each frequency component, and the area feature amount E (f) is the threshold value F (f). If it is smaller, the frequency component of the extraction target signal X'(f) is attenuated (for example, set to zero), so that the target area emphasized sound Y (f) in which only the frequency component of the target area sound remains can be obtained. it can.
Figure 0006863004

目的エリア音抽出部106において、閾値F(f)は、周波数成分によらず一定値としても良いが、その場合、周波数成分によって抽出(強調)されるエリアの範囲が変化してしまう。これは、目的エリアは、周波数が低いほど広く、周波数が高いほど狭くなるためである。そこで、目的エリア音抽出部106では、例えば(10)式のように、周波数成分ごとに閾値F(f)を定めることで、周波数の高低によらず目的エリア(周波数成分が減衰されない範囲)を一定の範囲に定めることができる。(10)式において、φ(ファイ)は、各マイクアレイから見た目的エリアの広さ(角度)である。 In the target area sound extraction unit 106, the threshold value F (f) may be a constant value regardless of the frequency component, but in that case, the range of the area extracted (emphasized) by the frequency component changes. This is because the target area becomes wider as the frequency is lower and narrower as the frequency is higher. Therefore, in the target area sound extraction unit 106, for example, by setting the threshold value F (f) for each frequency component as in Eq. (10), the target area (range in which the frequency component is not attenuated) can be set regardless of the frequency level. It can be set within a certain range. In equation (10), φ (phi) is the size (angle) of the target area as seen from each microphone array.

図5は、図2〜図4と同様に、図6のようにマイクアレイMA、MAを配置した場合において、φ=π/10としたときに、目的エリアであると判定される範囲を示している。 Similar to FIGS. 2 to 4, FIG. 5 shows a range determined to be the target area when φ = π / 10 when the microphone arrays MA 1 and MA 2 are arranged as shown in FIG. Is shown.

図5において、黒色に塗りつぶされた領域が閾値に基づき目的エリアでないと判定された範囲を示し、それ以外の領域(黒く塗りつぶされていない領域)が閾値に基づき目的エリアであると判定された範囲を示している。 In FIG. 5, the area filled in black indicates the range determined not to be the target area based on the threshold value, and the other area (the area not filled in black) is determined to be the target area based on the threshold value. Is shown.

図5に示すように、縦横共に、およそ1〜2mの範囲が閾値に基づき目的エリアであると判定されていることがわかる。

Figure 0006863004
As shown in FIG. 5, it can be seen that the range of about 1 to 2 m is determined to be the target area based on the threshold value in both the vertical and horizontal directions.
Figure 0006863004

(A−3)実施形態の効果
この実施形態によれば、以下のような効果を奏することができる。
(A-3) Effect of Embodiment According to this embodiment, the following effects can be achieved.

この実施形態の収音装置100では、スペクトル減算を行わないので、目的エリアが非目的エリア音源に囲まれている状況でも、少ないひずみで目的エリア音のみを強調することができる。 In the sound collecting device 100 of this embodiment, since spectrum subtraction is not performed, only the target area sound can be emphasized with a small amount of distortion even in a situation where the target area is surrounded by a non-target area sound source.

(B)他の実施形態
本発明は、上記の実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。
(B) Other Embodiments The present invention is not limited to the above embodiments, and modified embodiments as illustrated below can also be mentioned.

(B−1)特徴量算出部104において、到来方向特徴量D(f)の算出方法には、(11)式や(12)式も適用し得る。 (B-1) In the feature amount calculation unit 104, the equations (11) and (12) can also be applied to the calculation method of the feature amount Di (f) in the arrival direction.

また、特徴量統合部105において、エリア特徴量E(f)の算出方法(到来方向特徴量D(f)〜D(f)の統合方法)には、(13)式や(14)式も適用し得る。

Figure 0006863004
Further, the feature quantity integration unit 105, the method of calculating the area feature quantity E (f) (a method of integrating the arrival direction feature amount D 1 (f) ~D M ( f)), (13) type or (14) Expressions can also be applied.
Figure 0006863004

(B−2)目的エリア音抽出部106において、閾値F(f)のある周波数(例えば250Hz)より小さい周波数成分では一定値としても良い。例えば250Hz未満におけるF(f)の値として250HzにおけるF(f)を用いると、250Hz未満の周波数成分では目的エリアであると判定される範囲が広くなり、周波数の低い周波数成分がひずみにくくなり、よりひずみの少ない目的エリア強調音Y(f)を得られる。 (B-2) In the target area sound extraction unit 106, a constant value may be set for a frequency component smaller than a certain frequency (for example, 250 Hz) having a threshold value F (f). For example, when F (f) at 250 Hz is used as the value of F (f) below 250 Hz, the range determined to be the target area is widened for frequency components below 250 Hz, and low frequency components are less likely to be distorted. The target area emphasis sound Y (f) with less distortion can be obtained.

また、目的エリア音抽出部106において、2つの閾値F(f)、F(f)を用意して、エリア強調ゲインG(f)を算出して、得られたエリア強調ゲインG(f)を抽出対象信号X’(f)に乗じることで、目的エリア強調音Y(f)を算出しても良い。例えば、2つの閾値F(f)、F(f)を(15)式にしたがって算出するものとして、φ=π/9、φ−π/11として、(16)式によってエリア強調ゲインを算出しても良い。これにより、抽出対象信号X’(f)の周波数成分の中で、目的エリアと非目的エリアの境界付近に存在する音源に由来する成分の減衰度合が緩やかになるため、よりひずみの少ない目的エリア強調音Y(f)が得られる。

Figure 0006863004
Further, in the target area sound extraction unit 106, two threshold values F 1 (f) and F 2 (f) are prepared, the area emphasis gain G (f) is calculated, and the obtained area emphasis gain G (f) is calculated. ) May be multiplied by the extraction target signal X'(f) to calculate the target area emphasis sound Y (f). For example, assuming that the two threshold values F 1 (f) and F 2 (f) are calculated according to the equation (15), the area is emphasized by the equation (16) with φ 1 = π / 9 and φ 2-π / 11. The gain may be calculated. As a result, among the frequency components of the extraction target signal X'(f), the degree of attenuation of the components derived from the sound source existing near the boundary between the target area and the non-target area becomes gentle, so that the target area with less distortion. The emphasis sound Y (f) is obtained.
Figure 0006863004

100…収音装置、102…データ入力部、103…周波数領域変換部、104…特徴量算出部、105…特徴量統合部、106…目的エリア音抽出部。 100 ... Sound collecting device, 102 ... Data input unit, 103 ... Frequency domain conversion unit, 104 ... Feature amount calculation unit, 105 ... Feature amount integration unit, 106 ... Target area sound extraction unit.

Claims (6)

2つのマイクから成る複数のマイクアレイごとに、音の到来方向に応じて変化するものであって、目的エリア方向から到来する音響に対して大きな値を取り、目的エリア方向以外の方向から到来する音響に対して小さな値を取る特徴を備える到来方向特徴量を算出する特徴量算出手段と、
周波数成分ごとに、それぞれの前記マイクアレイの前記到来方向特徴量を統合したエリア特徴量を取得する特徴量統合手段と、
前記エリア特徴量を用いて、前記マイクアレイが出力する捕捉信号に基づく信号から目的エリア音を抽出する目的エリア音抽出手段とを有し、
前記目的エリア音抽出手段は、前記エリア特徴量の大小に応じて、前記捕捉信号に基づく信号から目的エリア音を抽出し、
前記目的エリア音抽出手段は、周波数成分ごとの閾値を予め保持しておき、前記捕捉信号に基づく信号から、前記エリア特徴量が前記閾値より小さい周波数成分を減衰させることで目的エリア音を抽出する
ことを特徴とする収音装置。
Each of a plurality of microphone arrays consisting of two microphones changes according to the direction of arrival of sound, takes a large value for the sound arriving from the direction of the target area, and arrives from a direction other than the direction of the target area. A feature amount calculation means for calculating an arrival direction feature amount having a feature that takes a small value with respect to sound, and
For each frequency component, a feature quantity integrating means for acquiring an area feature quantity by integrating the arrival direction feature quantity of each microphone array, and a feature quantity integrating means.
It has a target area sound extraction means for extracting a target area sound from a signal based on a captured signal output by the microphone array using the area feature amount .
The target area sound extraction means extracts the target area sound from the signal based on the captured signal according to the magnitude of the area feature amount.
The target area sound extraction means holds a threshold value for each frequency component in advance, and extracts a target area sound from a signal based on the captured signal by attenuating a frequency component whose area feature amount is smaller than the threshold value. A sound collecting device characterized by that.
前記特徴量統合手段は、周波数成分ごとに、すべての前記到来方向特徴量が大きいときに大きな値を取り、いずれかの前記到来方向特徴量が小さいときに小さな値を取ることで前記エリア特徴量を取得することを特徴とする請求項1に記載の収音装置。 The feature quantity integrating means takes a large value for each frequency component when all the arrival direction features are large, and takes a small value when any of the arrival direction features is small, thereby causing the area feature quantity. The sound collecting device according to claim 1, wherein the sound collecting device is obtained. 前記特徴量統合手段は、周波数成分ごとに、全ての前記マイクアレイに関する前記到来方向特徴量の最小値を前記エリア特徴量として取得することを特徴とする請求項2に記載の収音装置。 The sound collecting device according to claim 2, wherein the feature amount integrating means acquires the minimum value of the arrival direction feature amount for all the microphone arrays as the area feature amount for each frequency component. 周波数成分ごとの前記閾値は、周波数の高低によらず、周波数成分が減衰されない範囲を一定範囲とするように定められていることを特徴とする請求項に記載の収音装置。 The sound collecting device according to claim 1 , wherein the threshold value for each frequency component is set so as to set a range in which the frequency component is not attenuated, regardless of the frequency level. コンピュータを、
2つのマイクから成る複数のマイクアレイごとに、音の到来方向に応じて変化するものであって、目的エリア方向から到来する音響に対して大きな値を取り、目的エリア方向以外の方向から到来する音響に対して小さな値を取る特徴を備える到来方向特徴量を算出する特徴量算出手段と、
周波数成分ごとに、それぞれの前記マイクアレイの前記到来方向特徴量を統合したエリア特徴量を取得する特徴量統合手段と、
前記エリア特徴量を用いて、前記マイクアレイが出力する捕捉信号に基づく信号から目的エリア音を抽出する目的エリア音抽出手段として機能させ、
前記目的エリア音抽出手段は、前記エリア特徴量の大小に応じて、前記捕捉信号に基づく信号から目的エリア音を抽出し、
前記目的エリア音抽出手段は、周波数成分ごとの閾値を予め保持しておき、前記捕捉信号に基づく信号から、前記エリア特徴量が前記閾値より小さい周波数成分を減衰させることで目的エリア音を抽出する
ことを特徴とする収音プログラム。
Computer,
Each of a plurality of microphone arrays consisting of two microphones changes according to the direction of arrival of sound, takes a large value for the sound arriving from the direction of the target area, and arrives from a direction other than the direction of the target area. A feature amount calculation means for calculating an arrival direction feature amount having a feature that takes a small value with respect to sound, and a feature amount calculation means.
For each frequency component, a feature quantity integrating means for acquiring an area feature quantity by integrating the arrival direction feature quantity of each microphone array, and a feature quantity integrating means.
Using the area feature amount, it is made to function as a target area sound extraction means for extracting a target area sound from a signal based on a captured signal output by the microphone array.
The target area sound extraction means extracts the target area sound from the signal based on the captured signal according to the magnitude of the area feature amount.
The target area sound extraction means holds a threshold value for each frequency component in advance, and extracts a target area sound from a signal based on the captured signal by attenuating a frequency component whose area feature amount is smaller than the threshold value. A sound collection program characterized by that.
収音方法において、
特徴量算出手段、特徴量統合手段、及び目的エリア音抽出手段を備え、
前記特徴量算出手段は、2つのマイクから成る複数のマイクアレイごとに、音の到来方向に応じて変化するものであって、目的エリア方向から到来する音響に対して大きな値を取り、目的エリア方向以外の方向から到来する音響に対して小さな値を取る特徴を備える到来方向特徴量を算出し、
前記特徴量統合手段は、周波数成分ごとに、それぞれの前記マイクアレイの前記到来方向特徴量を統合したエリア特徴量を取得し、
前記目的エリア音抽出手段は、前記エリア特徴量を用いて、前記マイクアレイが出力する捕捉信号に基づく信号から目的エリア音を抽出し、
前記目的エリア音抽出手段は、前記エリア特徴量の大小に応じて、前記捕捉信号に基づく信号から目的エリア音を抽出し、
前記目的エリア音抽出手段は、周波数成分ごとの閾値を予め保持しておき、前記捕捉信号に基づく信号から、前記エリア特徴量が前記閾値より小さい周波数成分を減衰させることで目的エリア音を抽出する
ことを特徴とする収音方法。
In the sound collection method
It is equipped with a feature amount calculation means, a feature amount integration means, and a target area sound extraction means.
The feature amount calculation means changes according to the direction of arrival of sound for each of a plurality of microphone arrays composed of two microphones, takes a large value for the sound arriving from the direction of the target area, and takes a large value for the target area. Calculate the arrival direction feature amount, which has a feature that takes a small value for the sound coming from a direction other than the direction.
The feature quantity integrating means acquires an area feature quantity that integrates the arrival direction feature quantity of each microphone array for each frequency component.
The target area sound extraction means extracts the target area sound from the signal based on the captured signal output by the microphone array using the area feature amount .
The target area sound extraction means extracts the target area sound from the signal based on the captured signal according to the magnitude of the area feature amount.
The target area sound extraction means holds a threshold value for each frequency component in advance, and extracts a target area sound from a signal based on the captured signal by attenuating a frequency component whose area feature amount is smaller than the threshold value. A sound collection method characterized by that.
JP2017068515A 2017-03-30 2017-03-30 Sound collectors, programs and methods Active JP6863004B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017068515A JP6863004B2 (en) 2017-03-30 2017-03-30 Sound collectors, programs and methods

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017068515A JP6863004B2 (en) 2017-03-30 2017-03-30 Sound collectors, programs and methods

Publications (2)

Publication Number Publication Date
JP2018170718A JP2018170718A (en) 2018-11-01
JP6863004B2 true JP6863004B2 (en) 2021-04-21

Family

ID=64019248

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017068515A Active JP6863004B2 (en) 2017-03-30 2017-03-30 Sound collectors, programs and methods

Country Status (1)

Country Link
JP (1) JP6863004B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114578289B (en) * 2022-04-26 2022-09-27 浙江大学湖州研究院 High-resolution spectrum estimation acoustic array imaging method
JP7529065B1 (en) 2023-01-20 2024-08-06 沖電気工業株式会社 Sound collection device, sound collection program, and sound collection method

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3548706B2 (en) * 2000-01-18 2004-07-28 日本電信電話株式会社 Zone-specific sound pickup device
US9905243B2 (en) * 2013-05-23 2018-02-27 Nec Corporation Speech processing system, speech processing method, speech processing program, vehicle including speech processing system on board, and microphone placing method

Also Published As

Publication number Publication date
JP2018170718A (en) 2018-11-01

Similar Documents

Publication Publication Date Title
JP5482854B2 (en) Sound collecting device and program
JP6187626B1 (en) Sound collecting device and program
JP6763332B2 (en) Sound collectors, programs and methods
JP6065028B2 (en) Sound collecting apparatus, program and method
JP6131989B2 (en) Sound collecting apparatus, program and method
JP6540730B2 (en) Sound collection device, program and method, determination device, program and method
KR20090037845A (en) Method and apparatus for extracting the target sound signal from the mixed sound
JP6863004B2 (en) Sound collectors, programs and methods
JP6436180B2 (en) Sound collecting apparatus, program and method
JP6943120B2 (en) Sound collectors, programs and methods
JP2016163135A (en) Sound collection device, program and method
JP6822505B2 (en) Sound collecting device, sound collecting program and sound collecting method
JP2020053920A (en) Sound collection device, sound collection program, and sound collection method
JP6260666B1 (en) Sound collecting apparatus, program and method
JP6241520B1 (en) Sound collecting apparatus, program and method
JP2020076907A (en) Signal processing device, signal processing program and signal processing method
JP6065029B2 (en) Sound collecting apparatus, program and method
JP6879340B2 (en) Sound collecting device, sound collecting program, and sound collecting method
JP6624256B1 (en) Sound pickup device, program and method
JP6725014B1 (en) Sound collecting device, sound collecting program, and sound collecting method
JP2017181761A (en) Signal processing device and program, and gain processing device and program
JP6923025B1 (en) Sound collectors, programs and methods
JP6908142B1 (en) Sound collecting device, sound collecting program, and sound collecting method
JP7529065B1 (en) Sound collection device, sound collection program, and sound collection method
JP6624255B1 (en) Sound pickup device, program and method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191115

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200713

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200811

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201008

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210302

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210315

R150 Certificate of patent or registration of utility model

Ref document number: 6863004

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150