JP6436180B2 - Sound collecting apparatus, program and method - Google Patents
Sound collecting apparatus, program and method Download PDFInfo
- Publication number
- JP6436180B2 JP6436180B2 JP2017059400A JP2017059400A JP6436180B2 JP 6436180 B2 JP6436180 B2 JP 6436180B2 JP 2017059400 A JP2017059400 A JP 2017059400A JP 2017059400 A JP2017059400 A JP 2017059400A JP 6436180 B2 JP6436180 B2 JP 6436180B2
- Authority
- JP
- Japan
- Prior art keywords
- sound
- target area
- area sound
- frequency
- extracted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
本発明は、収音装置、プログラム及び方法に関し、例えば、目的エリアの音を強調し、それ以外のエリアの音を抑圧する処理に適用し得る。 The present invention relates to a sound collection device, a program, and a method, and can be applied, for example, to a process of emphasizing sounds in a target area and suppressing sounds in other areas.
複数の音源が存在する環境下において、ある特定の方向の音のみ分離し収音する技術として、マイクロホンアレイを用いたビームフォーマ(Beam Former;以下「BF」と表す)がある。BFとは、各マイクロホンに到達する信号の時間差を利用して指向性を形成する技術である(非特許文献1参照)。 As a technique for separating and collecting only sound in a specific direction in an environment where a plurality of sound sources exist, there is a beam former (Beam Former; hereinafter referred to as “BF”) using a microphone array. BF is a technique for forming directivity using the time difference between signals reaching each microphone (see Non-Patent Document 1).
BFは、加算型と減算型の大きく2つの種類に分けられる。特に減算型BFは、加算型BFに比べ、少ないマイクロホン数で指向性を形成できるという利点がある。 BF is roughly divided into two types, an addition type and a subtraction type. In particular, the subtraction type BF has an advantage that directivity can be formed with a smaller number of microphones than the addition type BF.
図5は、従来の減算型BFに係る構成を示すブロック図である。 FIG. 5 is a block diagram showing a configuration related to a conventional subtraction type BF.
図5に示す従来の減算型BFでは、マイクロホン数が2個となっている。 In the conventional subtraction type BF shown in FIG. 5, the number of microphones is two.
従来の減算型BFは、まず遅延器により目的とする方向に存在する音(以下、「目的音」とも呼ぶ)が各マイクロホンに到来する信号の時間差を算出し、遅延を加えることにより目的音の位相を合わせる。従来の減算型BFの遅延器では、時間差は下記(1)式により算出される。 The conventional subtractive BF first calculates the time difference between signals arriving at each microphone by sounds that are present in a target direction (hereinafter also referred to as “target sound”) by a delay device, and adds a delay to the target sound. Match the phase. In the conventional subtractor BF delay unit, the time difference is calculated by the following equation (1).
下記の(1)式において、dはマイクロホン間の距離、cは音速、τiは遅延量である。また、下記の(1)式において、θLは、各マイクロホンを結んだ直線に対する垂直方向から目的方向への角度である。
τL=(dsinθL)/c …(1)
In the following formula (1), d is the distance between the microphones, c is the speed of sound, and τ i is the delay amount. In the following equation (1), θ L is an angle from a vertical direction to a target direction with respect to a straight line connecting the microphones.
τ L = (dsin θ L ) / c (1)
ここで、死角が第1のマイクロホンと第2のマイクロホンの中心に対し、第1のマイクロホンの方向に存在する場合、従来の減算型BFにおける遅延器は、第1のマイクロホンの入力信号x1(t)に対し遅延処理を行う。その後、遅延処理された入力信号x1(t)は、(2)式に従い減算処理される。
A(t)=x2(t)−x1(t−τL) …(2)
Here, when the blind spot exists in the direction of the first microphone with respect to the center of the first microphone and the second microphone, the delay unit in the conventional subtractive BF has the input signal x 1 ( Delay processing is performed for t). Thereafter, the input signal x 1 (t) subjected to the delay process is subjected to a subtraction process according to the equation (2).
A (t) = x 2 (t) −x 1 (t−τ L ) (2)
減算処理は周波数領域でも同様に行うことができ、その場合(2)式は以下のように変更される。
ここでθL=±π/2の場合、形成される指向性は図6(A)に示すように、カージオイド型の単一指向性となり、θL=0,πの場合は、図6(B)のような8の字型の双指向性となる。ここでは、入力信号から単一指向性を形成するフィルタを単一指向性フィルタ、双指向性を形成するフィルタを双指向性フィルタと呼ぶものとする。 Here, when θ L = ± π / 2, the formed directivity is cardioid unidirectional as shown in FIG. 6A, and when θ L = 0, π, FIG. As shown in (B), the figure is bi-directional. Here, a filter that forms unidirectionality from an input signal is called a unidirectional filter, and a filter that forms bidirectionality is called a bidirectional filter.
またスペクトル減算法(Spectral Subtraction;以下、「SS」とも呼ぶ)を用いることで、双指向性の死角に強い指向性を形成することもできる。SSによる指向性の形成は、(4)式に従う。(4)式では、第1のマイクロホンM1の入力信号X1を用いているが、第2のマイクロホンM2の入力信号X2でも同様の効果を得ることができる。(4)式において、βはSSの強度を調節するための係数である。減算時に値がマイナスなった場合は、0または元の値を小さくした値に置き換えるフロアリング処理を行う。この方式は、双指向性フィルタにより目的方向以外に存在する音(以下、「非目的音」とも呼ぶ)を抽出し、抽出した非目的音のパワースペクトルを入力信号のパワースペクトルから減算することで、目的音を強調することができる。
Y1=X1−βA1 …(4)
Further, by using a spectral subtraction (hereinafter also referred to as “SS”), directivity that is strong against a blind spot of bi-directionality can be formed. The formation of directivity by SS follows equation (4). In the equation (4), the input signal X1 of the first microphone M1 is used, but the same effect can be obtained with the input signal X2 of the second microphone M2. In the equation (4), β is a coefficient for adjusting the strength of SS. If the value becomes negative during subtraction, flooring processing is performed in which 0 or the original value is replaced with a smaller value. This method uses a bi-directional filter to extract sound that exists outside the target direction (hereinafter also referred to as “non-target sound”), and subtracts the power spectrum of the extracted non-target sound from the power spectrum of the input signal. The target sound can be emphasized.
Y 1 = X 1 −βA 1 (4)
ある特定のエリア内に存在する音(以下、「目的エリア音」と呼ぶ)だけを収音したい場合、減算型BFを用いるだけでは、そのエリアの周囲に存在する音源(以下、「非目的エリア音」とも呼ぶ)も収音してしまう可能性がある。そこで特許文献1では、複数のマイクロホンアレイを用い、それぞれ別々の方向から目的エリアへ指向性を向け、指向性を目的エリアで交差させることで目的エリア音を収音する手法を提案している。
When it is desired to pick up only sound existing in a certain area (hereinafter referred to as “target area sound”), the sound source (hereinafter referred to as “non-target area”) around that area is simply obtained by using the subtractive BF. (Also called “sound”) may be picked up. Thus,
図7は、2つのマイクロホンアレイMA1、MA2を用いて、目的エリアの音源からの目的エリア音を収音する場合における各マイクロホンアレイの構成例について示した説明図である。 FIG. 7 is an explanatory diagram showing a configuration example of each microphone array in a case where the target area sound from the sound source in the target area is collected using the two microphone arrays MA1 and MA2.
図8は、図7に示すマイクロホンアレイMA1、MA2のそれぞれのBF出力について周波数領域で示した説明図(グラフ)である。図8(a)、図8(b)は、それぞれマイクロホンアレイMA1、MA2のBF出力について周波数領域で示したグラフ(イメージ図)である。 FIG. 8 is an explanatory diagram (graph) showing the BF outputs of the microphone arrays MA1 and MA2 shown in FIG. 7 in the frequency domain. FIGS. 8A and 8B are graphs (image diagrams) showing the BF outputs of the microphone arrays MA1 and MA2 in the frequency domain, respectively.
特許文献1に記載された手法では、まずまず各マイクロホンアレイMA1、MA2のBF出力に含まれる目的エリア音のパワーの比率を推定し、それを補正係数とする。例として2つのマイクロホンアレイMA1、MA2を使用する場合、目的エリア音パワーの補正係数は、(5)、(6)式または(7)、(8)式により算出される。
ここで|Y1k|,|Y2k|はマイクロホンアレイMA1、MA2のBF出力の周波数kのパワー、Nは周波数ビンの総数、αはBF出力に対するパワー補正係数である。また、modeは最頻値、medianは中央値を表している。その後、補正係数により各BF出力を補正し、SSすることで、目的エリア方向に存在する非目的エリア音を抽出する。更に抽出した非目的エリア音を各BFの出力からSSすることにより自的エリア音を抽出することができる。 Here, | Y 1k |, | Y 2k | is the power of the frequency k of the BF outputs of the microphone arrays MA1 and MA2, N is the total number of frequency bins, and α is a power correction coefficient for the BF output. Further, mode represents the mode value and median represents the median value. Thereafter, each BF output is corrected by the correction coefficient, and SS is performed to extract the non-target area sound existing in the target area direction. Further, by extracting the extracted non-target area sound from the output of each BF, the own area sound can be extracted.
図9は、図7に示すマイクロホンアレイMA1、MA2を用いて取得したBF出力に基づいてエリア収音処理した場合における各周波数成分のパワースペクトルの変化について示した説明図(イメージを図)である。 FIG. 9 is an explanatory diagram (image is a diagram) showing a change in the power spectrum of each frequency component when area sound collection processing is performed based on the BF output acquired using the microphone arrays MA1 and MA2 shown in FIG. .
まず、マイクロホンアレイMA1の入力信号X1から、非目的エリア音N2を抑圧したBF出力Y1を得る(図9(a)参照)。 First, the input signal X 1 of the microphone array MA1, obtain BF output Y 1 that suppresses the non-target area sound N 2 (see FIG. 9 (a)).
マイクロホンアレイMA1からみた目的エリア方向に存在する非目的エリア音N1(n)を抽出するには、(7)式に示すように、マイクロホンアレイMA1のBF出力Y2(n)からマイクロホンアレイMA2のBF出力Y2(n)にパワー補正係数αを掛けたものをSSする(図9(b)参照)。その後、(8)式に従い、各BF出力から非目的エリア音をSSして目的エリア音を抽出する(図9(c)参照)。γ(n)はSS時の強度を変更するための係数である。
N1=Y1−αY2 …(7)
Z1=Y1−γN1 …(8)
In order to extract the non-target area sound N 1 (n) existing in the direction of the target area viewed from the microphone array MA1, the microphone array MA2 is extracted from the BF output Y 2 (n) of the microphone array MA1 as shown in the equation (7). SS obtained by multiplying the BF output Y 2 (n) by the power correction coefficient α (see FIG. 9B). After that, according to the equation (8), the non-target area sound is SS from each BF output to extract the target area sound (see FIG. 9C). γ (n) is a coefficient for changing the strength at the time of SS.
N 1 = Y 1 −αY 2 (7)
Z 1 = Y 1 −γN 1 (8)
以上のように、特許文献1に記載された手法では、目的エリア音を抽出するために、(4)式と(8)式で非線形処理であるSSを行っているため、高雑音環境下ではミュージカルノイズと呼ばれる不快な異音が発生する恐れがある。
As described above, in the method described in
そこで特許文献2では、目的エリア音が存在している区間と存在していない区間を判定し、存在していない区間ではエリア収音処理した音を出力しないことにより、ミュージカルノイズなどの異音を抑えている。目的エリア音が存在しているかどうかを判定するために、まず(9)式に従い入力信号と目的エリア音を抽出した出力データ(以後、「エリア音出力データ」とも呼ぶ)間のパワースペクトル比(エリア音出力データ/入力信号)を算出する。目的エリア内に音源が存在する場合、入力信号X1とエリア音出力データZ1には目的エリア音が共通に含まれるため、目的エリア音成分のパワースペクトル比は1に近い値となる。逆に非目的エリア音成分は、エリア音出力データでは抑圧されているため、パワースペクトル比は小さい値となる。また、特許文献2に記載の装置では、その他の背景雑音成分に関してもエリア収音処理では複数回のSSを行うため、専用の雑音抑圧処理を事前にしなくてもある程度抑圧され、パワースペクトル比は小さい値となる。逆に目的エリア音が存在しない場合、エリア音出力データには、入力信号と比べて消し残りの弱い雑音しか含まれていないため、パワースペクトル比は全体域で小さい値となる。この特徴により、(10)式に従い各周波数で求めたパワースペクトル比の平均を取ると、目的エリア音が存在するときと存在しないときとで大きな差が生まれることになる。ここで、mとnは、それぞれ処理帯域の上限と下限であり、例えば音声情報が十分に含まれる100Hzから6kHzとする。そして、特許文献2に記載された装置では、平均パワースペクトル比を予め設定した閾値で判定し、目的エリア音が存在しないと判定された場合は、エリア音出力データを出力せずに無音、もしくは入力音のゲインを小さくした音を出力する。
特許文献1に記載の手法を用いれば、目的とするエリアの周囲に非目的エリア音が存在していても、目的エリア音を収音することができる。すなわち、特許文献1の手法を用いれば、高騒音下においてもエリア内に存在する音だけを抽出することができる。しかしながら、SN比が0dB以下のような状況では、目的エリア音成分と非目的エリア音成分の一部が重なっている可能性がある。この状態でSSにより目的エリア音を抽出すると、目的エリア音成分と重なっている非目的エリア音成分の影響で目的エリア音成分が削られ、結果として抽出された目的エリア音が歪んでしまうことになり、さらにミュージカルノイズも強くなる恐れがある。
If the method described in
また、特許文献2に記載の手法を用いれば、エリア収音処理で発生するミュージカルノイズの影響を抑えることができる。しかしながら、イベント会場など人が多い場所、や周囲で音楽などが流れている場所などの高雑音環境下ではSN比が悪化し、エリア収音により出力される音のパワースペクトルが小さくなる可能性がある。このような状況では、エリア収音出力と入力信号の平均パワースペクトル比も小さくなってしまう。特に無声子音の様なもともとパワーが小さい成分では、目的エリア音の判定精度が悪くなり、目的エリア音の一部が欠落してしまう恐れがある。また入力信号を混合して音質を改善する場合、目的エリア音の判定精度が悪くなると、目的エリア音が存在しないときも出力され、入力信号に含まれる非目的エリア音だけが聞こえてしまう恐れがある。
Moreover, if the method described in
以上のような問題に鑑みて、背景雑音が強い環境下において、目的エリア音の判定精度を向上させることができる収音装置、プログラム及び方法、並びに、判定装置、プログラム及び方法が望まれている。 In view of the above problems, a sound collection device, a program, and a method, and a determination device, a program, and a method that can improve the determination accuracy of a target area sound in an environment with strong background noise are desired. .
第1の本発明は、(1)入力信号からビームフォーマにより目的エリア方向に指向性を形成する指向性形成手段と、(2)前記指向性形成手段で形成された指向性による目的エリア方向に存在する非目的エリア音を抽出する非目的エリア音抽出手段と、(3)前記ビームフォーマの出力から、前記非目的エリア音抽出手段が抽出した目的エリア方向に存在する非目的エリア音を利用して目的エリア音を抽出した結果の抽出音を出力する目的エリア音抽出手段と、(4)周波数成分ごとに前記入力信号と前記抽出音のパワースペクトル比を算出するパワースペクトル比算出手段と、(5)前記パワースペクトル比算出手段が算出したパワースペクトル比を用いて、周波数成分ごとに目的エリア音が存在するか否かを判定する判定手段と、(6)前記判定手段で目的エリア音が存在すると判定された周波数成分については前記抽出音の当該周波数成分を出力する出力手段とを有し、(7)前記出力手段は、すべての周波数成分に対して、前記判定手段が前記入力信号に目的エリア音が存在しないと判断した周波数成分の割合が、第2の閾値を超える場合、全周波数成分で前記抽出音を出力しないことを特徴とする。 The first aspect of the present invention is: (1) directivity forming means for forming directivity in the target area direction from the input signal by a beam former; and (2) in the target area direction by directivity formed by the directivity forming means. Non-target area sound extraction means for extracting existing non-target area sound; and (3) using non-target area sound existing in the target area direction extracted by the non-target area sound extraction means from the output of the beamformer. (4) power spectrum ratio calculating means for calculating a power spectrum ratio between the input signal and the extracted sound for each frequency component; 5) Determination means for determining whether or not there is a target area sound for each frequency component using the power spectrum ratio calculated by the power spectrum ratio calculation means; and (6) The determined frequency components with sound object area is present in serial determination means possess and output means for outputting the frequency components of said extracted sound, (7) and the output means, with respect to all frequency components, When the ratio of the frequency components determined by the determining means that the target area sound does not exist in the input signal exceeds a second threshold, the extracted sound is not output with all frequency components .
第2の本発明の収音プログラムは、コンピュータを、(1)入力信号からビームフォーマにより目的エリア方向に指向性を形成する指向性形成手段と、(2)前記指向性形成手段で形成された指向性による目的エリア方向に存在する非目的エリア音を抽出する非目的エリア音抽出手段と、(3)前記ビームフォーマの出力から、前記非目的エリア音抽出手段が抽出した目的エリア方向に存在する非目的エリア音を利用して目的エリア音を抽出した結果の抽出音を出力する目的エリア音抽出手段と、(4)周波数成分ごとに前記入力信号と前記抽出音のパワースペクトル比を算出するパワースペクトル比算出手段と、(5)前記パワースペクトル比算出手段が算出したパワースペクトル比を用いて、周波数成分ごとに目的エリア音が存在するか否かを判定する判定手段と、(6)前記判定手段で目的エリア音が存在すると判定された周波数成分については前記抽出音の当該周波数成分を出力する出力手段として機能させ、(7)前記出力手段は、すべての周波数成分に対して、前記判定手段が前記入力信号に目的エリア音が存在しないと判断した周波数成分の割合が、第2の閾値を超える場合、全周波数成分で前記抽出音を出力しないことを特徴とする。 The sound collecting program of the second aspect of the present invention is formed by (1) directivity forming means for forming directivity in the direction of a target area by a beam former from an input signal, and (2) the directivity forming means. Non-target area sound extracting means for extracting non-target area sound existing in the target area direction due to directivity; and (3) existing in the target area direction extracted by the non-target area sound extracting means from the output of the beamformer. A target area sound extraction means for outputting an extracted sound obtained by extracting a target area sound using a non-target area sound; and (4) a power for calculating a power spectrum ratio of the input signal and the extracted sound for each frequency component. (5) Whether there is a target area sound for each frequency component using the power spectrum ratio calculated by the power spectrum ratio calculation means; Determination means for determining, (6) the determination for the determined frequency components with sound object area is present in means to function as output means for outputting the frequency components of said extracted sound, (7) the output means Outputs the extracted sound with all frequency components when the ratio of the frequency components determined by the determining means that the target area sound does not exist in the input signal exceeds the second threshold for all frequency components It is characterized by not .
第3の本発明は、収音装置が行う収音方法において、(1)指向性形成手段、非目的エリア音抽出手段、目的エリア音抽出手段、パワースペクトル比算出手段、判定手段、及び出力手段を備え、(2)前記指向性形成手段は、入力信号からビームフォーマにより目的エリア方向に指向性を形成し、(3)前記非目的エリア音抽出手段は、前記指向性形成手段で形成された指向性による目的エリア方向に存在する非目的エリア音を抽出し、(4)前記目的エリア音抽出手段は、前記ビームフォーマの出力から、前記非目的エリア音抽出手段が抽出した目的エリア方向に存在する非目的エリア音を利用して目的エリア音を抽出した結果の抽出音を出力し、(5)前記パワースペクトル比算出手段は、周波数成分ごとに前記入力信号と前記抽出音のパワースペクトル比を算出すると、(6)前記判定手段は、前記パワースペクトル比算出手段が算出したパワースペクトル比を用いて、周波数成分ごとに目的エリア音が存在するか否かを判定し、(7)前記出力手段は、前記判定手段で目的エリア音が存在すると判定された周波数成分については前記抽出音の当該周波数成分を出力し、(8)前記出力手段は、すべての周波数成分に対して、前記判定手段が前記入力信号に目的エリア音が存在しないと判断した周波数成分の割合が、第2の閾値を超える場合、全周波数成分で前記抽出音を出力しないことを特徴とする。 According to a third aspect of the present invention, there is provided a sound collection method performed by the sound collection device. (1) Directivity forming means, non-target area sound extraction means, target area sound extraction means, power spectrum ratio calculation means, determination means, and output means (2) The directivity forming means forms directivity in the direction of the target area from the input signal by a beam former, and (3) the non-target area sound extracting means is formed by the directivity forming means. (4) The target area sound extraction means is present in the target area direction extracted by the non-target area sound extraction means from the output of the beamformer. (5) The power spectrum ratio calculation means outputs the input signal and the extracted sound for each frequency component. When the power spectrum ratio is calculated, (6) the determination means determines whether there is a target area sound for each frequency component using the power spectrum ratio calculated by the power spectrum ratio calculation means, and (7 ) The output means outputs the frequency component of the extracted sound for the frequency component determined by the determination means that the target area sound exists , and (8) the output means for all frequency components, When the ratio of the frequency components determined by the determining means that the target area sound does not exist in the input signal exceeds a second threshold, the extracted sound is not output with all frequency components .
本発明によれば、背景雑音が強い環境下において、目的エリア音の判定精度を向上させることができる。 ADVANTAGE OF THE INVENTION According to this invention, the determination precision of the target area sound can be improved in the environment where background noise is strong.
(A)第1の実施形態
以下、本発明による収音装置、プログラム及び方法の第1の実施形態を、図面を参照しながら詳述する。
(A) First Embodiment Hereinafter, a first embodiment of a sound collection device, a program, and a method according to the present invention will be described in detail with reference to the drawings.
(A−1)第1の実施形態の構成
図1は、この実施形態の収音装置100の機能的構成について示したブロック図である。
(A-1) Configuration of the First Embodiment FIG. 1 is a block diagram showing the functional configuration of the
収音装置100は、2つのマイクロホンアレイMA(MA1、MA2)を用いて、目的エリアの音源からの目的エリア音を収音する目的エリア音収音処理を行う。
The
マイクロホンアレイMA1、MA2は、目的エリアが存在する空聞の任意の場所に配置される。目的エリアに対するマイクロホンアレイMA1、MA2の位置は、例えば、図7に示すように、指向性が目的エリアでのみ重なればどこでも良く、例えば目的エリアを挟んで対向に配置しても良い。各マイクロホンアレイMAは2つ以上のマイクロホンMから構成され、各マイクロホンMにより音響信号を収音する。この実施形態では、各マイクロホンアレイMAに、音響信号を収音する2つのマイクロホンM(M1、M2)が配置されるものとして説明する。すなわち、各マイクロホンアレイMAは、2chマイクロホンアレイを構成している。なお、マイクロホンアレイMAの数は2つに限定するものではなく、目的エリアが複数存在する場合、全てのエリアをカバーできる数のマイクロホンアレイMAを配置する必要がある。 The microphone arrays MA1 and MA2 are arranged at any place in the air where the target area exists. For example, as shown in FIG. 7, the positions of the microphone arrays MA1 and MA2 with respect to the target area may be anywhere as long as the directivities overlap only in the target area. Each microphone array MA is composed of two or more microphones M, and an acoustic signal is collected by each microphone M. In this embodiment, description will be made assuming that two microphones M (M1, M2) that collect sound signals are arranged in each microphone array MA. That is, each microphone array MA constitutes a 2ch microphone array. The number of microphone arrays MA is not limited to two. When there are a plurality of target areas, it is necessary to arrange a number of microphone arrays MA that can cover all areas.
収音装置は、データ入力部1、エリア収音処理部2、周波数別パワー比算出部3、及び周波数別エリア音判定部4を有している。
The sound collection device includes a
図2は、エリア収音処理部2の機能的構成の例ついて示したブロック図である。
FIG. 2 is a block diagram showing an example of a functional configuration of the area sound
この実施形態の例では、エリア収音処理部2は、指向性形成部2−1、遅延補正部2−2、空間座標データ2−3、目的エリア音パワー補正係数算出部2−4、及び目的エリア音抽出部2−5を有しているものとして説明する。
In the example of this embodiment, the area sound
収音装置100を構成する各機能ブロックの詳細処理については後述する。
Detailed processing of each functional block constituting the
収音装置100は、全てハードウェア(例えば、専用チップ等)により構成するようにしてもよいし一部又は全部についてソフトウェア(プログラム)として構成するようにしてもよい。収音装置100は、例えば、プロセッサ及びメモリを有するコンピュータにプログラム(実施形態の判定プログラムや収音プログラムを含む)をインストールすることにより構成するようにしてもよい。
The
(A−2)第1の実施形態の動作
次に、以上のような構成を有する第1の実施形態の収音装置100の動作(実施形態に係る収音方法)を説明する。
(A-2) Operation of First Embodiment Next, the operation (sound collection method according to the embodiment) of the
データ入力部1は、各マイクロホンアレイMA1、MA2で収音した音響信号をアナログ信号からデジタル信号に変換する。そして、データ入力部1は、当該デジタル信号について、変換処理(例えば、高速フーリエ変換等を用いて時間領域から周波数領域へ変換する処理)を行う。
The
エリア収音処理部2は、データ入力部1から取得したマイクロホンアレイの入力信号をもとに、マイクロホンアレイ毎に指向性を形成し、それら指向性に同時に含まれる成分を目的エリア音として抽出する。
The area sound
この実施形態において、エリア収音処理部2によるエリア収音処理は、例えば、図4に示す構成により実現されるものとして説明するが、その他の方式を用いて目的エリア音を抽出する構成を適用するようにしてもよい。
In this embodiment, the area sound collection processing by the area sound
以下では、図2に示すエリア収音処理部2の各構成要素の動作について説明する。
Below, operation | movement of each component of the area sound
指向性形成部2−1は、マイクロホンアレイMA毎に、目的方向以外に存在する非目的エリア音を抽出(例えば、双指向性フィルタにより抽出)し、抽出した非目的エリア音のパワースペクトルを入力信号のパワースペクトルから減算することで、目的エリア方向に指向性を形成した音(BF出力)を取得する。具体的には、指向性形成部2−1は、マイクロホンアレイMA毎に、(4)式に従いBFにより目的エリア方向に指向性を形成した音をBF出力として取得する。 The directivity forming unit 2-1 extracts, for each microphone array MA, non-target area sounds that exist in directions other than the target direction (for example, extraction by a bi-directional filter), and inputs the power spectrum of the extracted non-target area sounds. By subtracting from the power spectrum of the signal, a sound (BF output) having directivity in the direction of the target area is acquired. Specifically, the directivity forming unit 2-1 acquires, as a BF output, a sound in which directivity is formed in the direction of the target area by BF according to the equation (4) for each microphone array MA.
遅延補正部2−2は、目的エリアと各マイクロホンアレイの距離の違いにより発生する遅延を算出して補正する。遅延補正部2−2は、空間座標データ2−3から目的エリアの位置とマイクロホンアレイの位置を取得し、各マイクロホンアレイMA(MA1、MA2)への目的エリア音の到達時間の差を算出する。そして、遅延補正部2−2は、最も目的エリアから遠い位置に配置されたマイクロホンアレイMA(MA1、MA2)を基準として、全てのマイクロホンアレイMA(MA1、MA2)に目的エリア音が同時に到達するように遅延を加える。 The delay correction unit 2-2 calculates and corrects a delay caused by a difference in distance between the target area and each microphone array. The delay correction unit 2-2 acquires the position of the target area and the position of the microphone array from the spatial coordinate data 2-3, and calculates the difference in arrival time of the target area sound to each microphone array MA (MA1, MA2). . Then, the delay correction unit 2-2 makes the target area sound reach all the microphone arrays MA (MA1, MA2) simultaneously with reference to the microphone array MA (MA1, MA2) arranged farthest from the target area. To add delay.
空間座標データ2−3は、全ての目的エリアと各マイクロホンアレイMA(MA1、MA2)と各マイクロホンアレイMA(MA1、MA2)を構成するマイクロホンM(M1、M2)の位置情報を保持する。 The spatial coordinate data 2-3 holds position information of all the target areas, the microphone arrays MA (MA1, MA2), and the microphones M (M1, M2) constituting the microphone arrays MA (MA1, MA2).
目的エリア音パワー補正係数算出部2−4は、各BF出力に含まれる目的エリア音成分のパワーを同じにするための補正係数を(5)式または(6)式に従い算出する。 The target area sound power correction coefficient calculation unit 2-4 calculates a correction coefficient for making the power of the target area sound component included in each BF output the same according to the equation (5) or (6).
目的エリア音抽出部2−5は、目的エリア音パワー補正係数算出部2−4で算出した補正係数により補正した各BF出力データを(7)式に従いSSし、目的エリア方向に存在する雑音を抽出する。さらに、目的エリア音抽出部2−5は、抽出した雑音を各BFの出力から(8)式に従いSSすることにより目的エリア音を抽出する。 The target area sound extraction unit 2-5 performs SS on each BF output data corrected by the correction coefficient calculated by the target area sound power correction coefficient calculation unit 2-4 according to the equation (7), and removes noise present in the target area direction. Extract. Further, the target area sound extraction unit 2-5 extracts the target area sound by performing SS on the extracted noise from the output of each BF according to the equation (8).
周波数別パワー比算出部3は、周波数毎に、データ入力部1から供給される入力信号X1と、エリア収音処理部2から供給されるエリア音出力データZ1を用いて、周波数毎のパワー比|Rk|を算出する。具体的には、周波数別パワー比算出部3は、(11)式に基づき周波数毎のパワー比を算出する。ここで、|X1k|は、マイクロホンアレイMA1の入力信号X1(第1のマイクロホンM1の入力信号)における周波数kのパワーであり、|Z1k|はエリア音出力データにおける周波数kのパワーである。また、mは処理対象の周波数の下限、nは周波数の上限である。
周波数別エリア音判定部4は、周波数別パワー比算出部3により算出したパワー比|R|を予め設定された閾値T1と周波数毎に比較し、エリア音成分を判定する。具体的には、周波数別エリア音判定部4は、周波数ごとに、パワー比|R|と閾値T1とを比較し、パワー比|R|が閾値T1を超える成分を抽出する。
The frequency-specific area sound determination unit 4 compares the power ratio | R | calculated by the frequency-specific power
周波数別エリア音判定部4において、閾値T1は全周波数で同じ値にしても良いし、周波数毎に異なる値を適用するようにしてもよい。周波数別エリア音判定部4では、例えば、T1について、低域から高域に行くに従って小さくなる値を適用するようにしてもよい。また、周波数別エリア音判定部4では、例えば、低域(例えば100Hz以下)について、低域以外(例えば、100Hzより高い周波数)よりも大きな値をT1に設定するようにしてもよい。 In the frequency-specific area sound determination unit 4, the threshold value T1 may be the same value for all frequencies, or a different value may be applied for each frequency. In the frequency-specific area sound determination unit 4, for example, a value that decreases with increasing frequency from low to high may be applied to T <b> 1. In addition, the frequency-specific area sound determination unit 4 may set, for example, a value larger than the low frequency (for example, a frequency higher than 100 Hz) to T1 for the low frequency (for example, 100 Hz or less).
この実施形態では、周波数別エリア音判定部4は、パワー比|R|が閾値T1を超える(|R|>T1)周波数(周波数成分)については、エリア音成分が存在する(入力信号X1及びエリア音出力データZ1に目的エリア音の成分が存在する)と判定するものとして説明する。 In this embodiment, the frequency-specific area sound determination unit 4 has an area sound component for the frequency (frequency component) where the power ratio | R | exceeds the threshold T1 (| R |> T1) (input signal X 1 and there are components of the objective area sound area sound output data Z 1) and is described as being determined.
周波数別エリア音判定部4は、エリア音成分が存在すると判定された周波数(周波数成分)について、エリア収音処理部2から供給されたエリア音出力データZ1をそのまま出力し、エリア音成分が存在しないと判定した周波数については、エリア音出力データZ1は出力せずに所定の音声データ(例えば、予め設定された無音のデータ)を出力する。
Frequency-area sound determination unit 4, for a determined frequency area sound components are present (frequency components), and directly outputs the area sound output data Z 1 supplied from the area sound-
なお、周波数別エリア音判定部4は、エリア音成分が存在しないと判定された周波数について、無音の代わりに、エリア音出力データZ1もしくは入力信号X1のゲインを弱めて出力するようにしてもよい。 Note that the frequency-specific area sound determination unit 4 outputs the frequency determined to have no area sound component by decreasing the gain of the area sound output data Z 1 or the input signal X 1 instead of silence. Also good.
(A−3)第1の実施形態の効果
この実施形態によれば、以下のような効果を奏することができる。
(A-3) Effects of First Embodiment According to this embodiment, the following effects can be achieved.
この実施形態の収音装置100では、周波数毎(周波数成分ごと)にエリア音出力データと入力信号のパワー比を求め、目的エリア音成分であるかどうかの判定を行う。そして、この実施形態の収音装置100では、各周波数のパワー比を予め設定した閾値T1と比較し、パワー比が閾値T1を上回った周波数については、目的エリア音成分として判定し、その周波数のエリア音出力データを出力する。また、この実施形態の収音装置100では、パワー比が閾値T1を下回った周波数については、目的エリア音成分でないと判定し、その周波数では何も出力しない、もしくはエリア音出力データのゲインを下げて出力する。エリア音出力データにおいて目的エリア音の主要な成分では値が大きくなるため、この実施形態の収音装置100では、目的エリア音が存在する成分についてはそのまま出力される。また、この実施形態の収音装置100では、値が小さく目的エリア音成分でないと判定された成分は出力されないが、目的エリア音には関与しないため影響はない。全帯域の平均パワーが小さい無声子音であっても、パワースペクトルにはピークがあるが、この実施形態の収音装置100では、周波数毎にパワー比を求めるため、無声子音の主要な成分は大きな値となり、目的エリア音成分であると判定されることになる。
In the
以上のように、この実施形態の収音装置100では、周波数成分毎にエリア音出力データと入力信号のパワー比を求め、目的エリア音成分の有無を判定し、目的音成分と判定された周波数成分のみ出力することにより、高雑音環境下においても目的エリア音の欠落を防ぐことができる。
As described above, in the
(B)第2の実施形態
以下、本発明による収音装置、プログラム及び方法の第2の実施形態を、図面を参照しながら詳述する。
(B) Second Embodiment Hereinafter, a second embodiment of the sound collection device, program and method according to the present invention will be described in detail with reference to the drawings.
(B−1)第2の実施形態の構成
図3は、この実施形態の収音装置100Aの機能的構成について示したブロック図である。図3では、上述の図1と同一部分又は対応部分に同一符号又は対応符号を付している。
(B-1) Configuration of Second Embodiment FIG. 3 is a block diagram showing a functional configuration of the
以下では、第2の実施形態の収音装置100Aについて、第1の実施形態との差異を説明する。
Hereinafter, the difference from the first embodiment will be described for the
収音装置100Aでは、周波数別エリア音判定部4の後段に、エリア音判定部5が追加されている点で、第1の実施形態と異なっている。
The
(B−2)第2の実施形態の動作
次に、以上のような構成を有する第2の実施形態の収音装置100Aの動作(実施形態に係る収音方法)について第1の実施形態との差異を説明する。
(B-2) Operation of the Second Embodiment Next, the operation of the
上述の通り、収音装置100Aでは、エリア音判定部5が追加されている点で第1の実施形態と異なる。以下では、エリア音判定部5を中心とした目的エリア音の判定処理について説明する。
As described above, the
エリア音判定部5は、周波数別エリア音判定部4の全周波数の判定結果から目的エリア音が存在する区間かどうか(入力信号X1及びエリア音出力データZ1において目的エリア音が存在する区間であるか否か)を判定し、目的エリア音が存在する区間であると判定した場合は全周波数でエリア音出力データZ1を出力し、存在しないと判定した場合は全周波数で所定のデータ(例えば、無音のデータ)を出力するものとする。
Area
以下に、エリア音判定部5の動作の具体例について説明する。
Below, the specific example of operation | movement of the area
エリア音判定部5は、まず周波数別エリア音判定部4の判定結果において、目的エリア音成分であると判定された周波数と目的エリア音成分でないと判定された周波数の割合を算出する。
The area
例えば、目的エリア音成分であると判定された周波数(パワー比|R|が閾値T1を超える周波数)の数をC1、目的エリア音成分でないと判定された周波数(パワー比|R|が閾値T1以下の周波数)の数をC2とした場合、目的エリア音成分であると判定された周波数の割合P1は、P1=C1/(C1+C2)となり、目的エリア音成分でないと判定された周波数の割合P2は、P2=C2/(C1+C2)となる。なお、C1とC2を合計した値は、全周波数成分の数(例えば、周波数ビンの数)となる。 For example, C1 is the number of frequencies determined to be the target area sound component (frequency where the power ratio | R | exceeds the threshold T1), and the frequency determined that is not the target area sound component (the power ratio | R | is the threshold T1). When the number of the following frequencies) is C2, the frequency ratio P1 determined to be the target area sound component is P1 = C1 / (C1 + C2), and the frequency ratio P2 determined not to be the target area sound component Is P2 = C2 / (C1 + C2). Note that the sum of C1 and C2 is the number of all frequency components (for example, the number of frequency bins).
そして、目的エリア音成分でないと判定された周波数の割合P2が閾値T2[%]を超えた場合(P2>T2の場合;すなわちP1<(100[%]−T2[%])の場合)、エリア音判定部5は、全周波数(全成分)で目的エリア音成分でないという判定に更新し、全周波数について無音データを出力する。
When the frequency ratio P2 determined not to be the target area sound component exceeds the threshold T2 [%] (when P2> T2; that is, when P1 <(100 [%] − T2 [%])), The area
また、目的エリア音成分でないと判定された周波数の割合P2が閾値T2を下回った場合(P2<T2の場合;すなわちP1>(100[%]−T2[%])の場合)、エリア音判定部5は、P2と閾値T3とを比較する。なお、T3はT2より小さい値である(T2>T3)。
When the frequency ratio P2 determined not to be the target area sound component falls below the threshold T2 (when P2 <T2; that is, when P1> (100 [%] − T2 [%])), the area sound determination The
そして、目的エリア音成分でないと判定された周波数の割合P2がT3を下回った場合(P2<T3の場合;すなわちP1>(100%−T3[%])の場合)、エリア音判定部5は、全周波数で目的エリア音成分であるという判定に更新し、全周波数についてエリア音出力データZ1を出力する。
When the frequency ratio P2 determined not to be the target area sound component is lower than T3 (when P2 <T3; that is, when P1> (100% −T3 [%])), the area
なお、P2がT3を下回らなかった場合(T3≦P2≦T2の場合;すなわち(100%−T3[%])≧P1≧(100%−T2[%])の場合)、エリア音判定部5は、周波数別エリア音判定部4の判定に従い周波数毎の出力を行う。すなわち、この場合、エリア音判定部5は、前段(周波数別エリア音判定部4)から供給された内容をそのまま出力することになる。
When P2 does not fall below T3 (when T3 ≦ P2 ≦ T2; that is, when (100% −T3 [%]) ≧ P1 ≧ (100% −T2 [%])), the area
T2とT3の値は、限定されないものであるが、例えば、例えばT2=80%、T3=20%としてもよい。 The values of T2 and T3 are not limited, but may be T2 = 80% and T3 = 20%, for example.
(B−3)第2の実施形態の効果
第2の実施形態によれば、第1の実施形態の効果に加えて、以下のような効果を奏することができる。
(B-3) Effects of Second Embodiment According to the second embodiment, the following effects can be obtained in addition to the effects of the first embodiment.
第2の実施形態の収音装置100Aでは、周波数別エリア音判定部4により周波数毎に目的エリア音成分の有無を判定した後、さらにエリア音判定部5により、全周波数での目的エリア音成分の割合から最終的な出力を決定している。そして、エリア音判定部5では、全周波数の内、目的エリア音成分が存在しないと判定された周波数が一定割合以上になった場合、全ての周波数で目的エリア音成分が存在しないと再度判定し、無音のデータを出力する。これにより、収音装置100Aでは、目的エリア音が存在しないときに、目的エリア音が存在すると誤判定された周波数があったとしても、その影響を抑えることが出来る。
In the
(C)第3の実施形態
以下、本発明による収音装置、プログラム及び方法の第3の実施形態を、図面を参照しながら詳述する。
(C) Third Embodiment Hereinafter, a third embodiment of the sound collection device, program and method according to the present invention will be described in detail with reference to the drawings.
(C−1)第3の実施形態の構成
図4は、この実施形態の収音装置100Bの機能的構成について示したブロック図である。図4では、上述の図1と同一部分又は対応部分に同一符号又は対応符号を付している。
(C-1) Configuration of Third Embodiment FIG. 4 is a block diagram showing a functional configuration of the
以下では、第3の実施形態の収音装置100Bについて、第1の実施形態との差異を説明する。
Below, the difference with 1st Embodiment is demonstrated about the
収音装置100Bでは、信号混合部6及び混合レベル算出部7が追加されている点で、第1の実施形態と異なっている。なお、収音装置100Bにおいて、信号混合部6は、周波数別エリア音判定部4の後段に挿入されている。
The
(C−2)第3の実施形態の動作
次に、以上のような構成を有する第3の実施形態の収音装置100Bの動作(実施形態に係る収音方法)について第1の実施形態との差異を説明する。
(C-2) Operation of the Third Embodiment Next, the operation of the
上述の通り、収音装置100Bでは、信号混合部6及び混合レベル算出部7が追加されている点で第1の実施形態と異なる。以下では、信号混合部6及び混合レベル算出部7を中心とした目的エリア音の判定処理について説明する。
As described above, the
混合レベル算出部7は、エリア音出力データZ1と非目的エリア音N1の比(以下、「SN比」と呼ぶ)から、出力する目的エリア音(出力データ)に混合する入力信号X1の音量レベルを決定する。なお、非目的エリア音N1のパワースペクトルO1は、例えば、式(3)に従い、入力信号X1からエリア音出力データZ1をSSすることにより抽出するようにしてもよい。すなわち、O1は、(12)式のように示すことができえる。入力信号X1の混合音量レベルを調節する混合レベル係数δ1は、エリア音出力データZ1と非目的エリア音N1のSN比Z1/O1に比例する変数であり、例えばSN比0dBでX1を−20dBにする値とする。δ1により混合音量レベルはδ1X1となる。またδ1は、全周波数一定値ではなく周波数毎に重み付けをし、δ1Φ1としても良い。ここでΦ1は、例えば低域から高域に行くに従って小さくなる値とするようにしてもよい。その場合、混合音量レベルはδ1Φ1X1となる。
O1=X1−Z1 …(12)
The mixing
O 1 = X 1 −Z 1 (12)
信号混合部6は、周波数別エリア音判定部4において目的エリア音成分であると判定された周波数で、エリア収音処理部2で抽出したエリア音出力データに、データ入力部1で取得した入力信号を、混合レベル算出部7において算出したレベルに基づき混合する。最終的な出力|W1k|は以下の(13)式に従い混合されるものとする。ここでkは、周波数別エリア音判定部4において目的エリア音成分であると判定された周波数である。
|W1k|=|Z1k|+δ1|X1k| …(13)
The signal mixing unit 6 uses the frequency acquired by the
| W 1k | = | Z 1k | + δ 1 | X 1k | (13)
(C−3)第3の実施形態の効果
第3の実施形態によれば、第1の実施形態の効果に加えて以下のような効果を奏することができる。
(C-3) Effects of the Third Embodiment According to the third embodiment, the following effects can be obtained in addition to the effects of the first embodiment.
第3の実施形態の収音装置100Bでは、周波数別エリア音判定部4により周波数毎に目的エリア音成分の有無を判定した後、信号混合部6及び混合レベル算出部7により、目的エリア音成分であると判定された周波数にのみ、入力信号のゲインを調節、加算して出力する。これにより、収音装置100Bでは、目的エリア収音成分にのみ入力信号が加算されるため、非目的エリア音の混入を防ぎ、かつ目的エリア音の歪みを補正することができる。
In the
言い換えると、第3の実施形態の収音装置100Bでは、目的エリア音の歪み補正のために入力信号を混合する際は、目的エリア音成分と判定された周波数にのみ入力信号を加算する。入力信号に非目的エリア音が存在していても、各周波数で目的エリア音成分と非目的エリア音成分が重なる確率が低い。そのため、第3の実施形態の収音装置100Bでは、出力(収音結果)に非目的エリア音成分は加算されず、最終的に目的エリア音成分のみ出力される。
In other words, in the
また目的エリア音の歪みを補正するために入力信号を混合する際、非目的エリア音が存在していても、第3の実施形態の収音装置100Bでは、目的エリア音成分だけを出力するため、エリア収音の性能を保ったまま音質を改善することができる。
In addition, when mixing input signals to correct distortion of the target area sound, the
(D)他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。
(D) Other Embodiments The present invention is not limited to the above-described embodiments, and may include modified embodiments as exemplified below.
(D−1)第1の実施形態のエリア音判定部5において、またパワー比が閾値T1よりも一定以上大きい成分が存在する場合、その後の数秒間は、当該成分についてパワー比の値に関わらず目的エリア音成分が存在すると判定する機能(ハングオーバー機能)を追加するようにしてもよい。
(D-1) In the area
(D−2)第2の実施形態の収音装置100A(エリア音判定部5)において、全周波数(全帯域)ではなく、全周波数(全帯域)を複数の帯域に分割(以下、この分割した帯域を「分割帯域」とも呼ぶ)し、各分割帯域の各成分についてパワー比を算出し、分割帯域ごとに目的エリア音の有無を判定し、分割帯域ごとに出力の有無(収音結果に加算するか否か)を判定するようにしてもよい。
(D-2) In the
具体的には、例えば、エリア音判定部5は、ある分割帯域において目的エリア音成分でないと判定された周波数(パワー比が閾値T1を超えた周波数)の割合が閾値T2を超えた場合、その分割帯域全体が目的エリア音成分でないという判定に更新し、無音データを出力するようにしてもよい。
Specifically, for example, when the ratio of the frequency (frequency at which the power ratio exceeds the threshold T1) determined as not being the target area sound component in a certain divided band exceeds the threshold T2, the area
また、例えば、エリア音判定部5は、ある分割帯域において、目的エリア音成分でないと判定された周波数の割合が閾値T2を下回った場合は、当該割合を閾値T3と比較する(T2>T3)。そして、エリア音判定部5は、当該分割帯域の当該割合がT3を下回った場合は、当該分割帯域全体で目的エリア音成分が存在するという判定に更新し、当該分割帯域全体のエリア音出力データを出力するようにしてもよい。
For example, when the ratio of the frequency determined not to be the target area sound component in a certain divided band falls below the threshold T2, the area
また、エリア音判定部5は、当該分割帯域の当該割合がT3を下回らなかった場合は、周波数別エリア音判定部4の判定結果(周波数毎の判定結果)に従って出力(当該分割帯域については周波数別エリア音判定部4の出力結果をそのまま出力)するようにしてもよい。
In addition, when the ratio of the divided band does not fall below T3, the area
さらに、エリア音判定部5は、分割帯域のうち、一つでも目的エリア音成分であるという判定になった周波数があった場合、当該分割帯域全体で、目的エリア音成分が存在するという判定に更新し、当該分割帯域の全周波数についてエリア音出力データを出力するようにしてもよい。
Furthermore, when there is a frequency determined to be the target area sound component in one of the divided bands, the area
(D−3)第2の実施形態と第3の実施形態を組み合わせた構成としてもよい。具体的には、収音装置100Aに、信号混合部6及び混合レベル算出部7を追加するようにしてもよい。この場合、エリア音判定部5の後段に信号混合部6を挿入するようにしてもよい。
(D-3) It is good also as a structure which combined 2nd Embodiment and 3rd Embodiment. Specifically, the signal mixing unit 6 and the mixing
100…収音装置、1…データ入力部、2…エリア収音処理部、3…周波数別パワー比算出部、4…周波数別エリア音判定部、5…エリア音判定部、2−1…指向性形成部、2−2…遅延補正部、2−3…空間座標データ、2−4…目的エリア音パワー補正係数算出部、2−5…目的エリア音抽出部。
DESCRIPTION OF
Claims (6)
前記指向性形成手段で形成された指向性による目的エリア方向に存在する非目的エリア音を抽出する非目的エリア音抽出手段と、
前記ビームフォーマの出力から、前記非目的エリア音抽出手段が抽出した目的エリア方向に存在する非目的エリア音を利用して目的エリア音を抽出した結果の抽出音を出力する目的エリア音抽出手段と、
周波数成分ごとに前記入力信号と前記抽出音のパワースペクトル比を算出するパワースペクトル比算出手段と、
前記パワースペクトル比算出手段が算出したパワースペクトル比を用いて、周波数成分ごとに目的エリア音が存在するか否かを判定する判定手段と、
前記判定手段で目的エリア音が存在すると判定された周波数成分については前記抽出音の当該周波数成分を出力する出力手段とを有し、
前記出力手段は、すべての周波数成分に対して、前記判定手段が前記入力信号に目的エリア音が存在しないと判断した周波数成分の割合が、第2の閾値を超える場合、全周波数成分で前記抽出音を出力しない
ことを特徴とする収音装置。 Directivity forming means for forming directivity in the direction of the target area by a beamformer from an input signal;
Non-target area sound extracting means for extracting non-target area sound existing in the target area direction due to directivity formed by the directivity forming means;
A target area sound extraction means for outputting a sound extracted as a result of extracting a target area sound using a non-target area sound existing in a target area direction extracted by the non-target area sound extraction means from the output of the beam former; ,
Power spectrum ratio calculating means for calculating a power spectrum ratio of the input signal and the extracted sound for each frequency component;
Determination means for determining whether or not a target area sound exists for each frequency component, using the power spectrum ratio calculated by the power spectrum ratio calculation means;
An output means for outputting the frequency component of the extracted sound for the frequency component determined by the determination means that the target area sound exists ;
The output means extracts all frequency components when the ratio of the frequency components determined by the determining means that the target area sound does not exist in the input signal exceeds a second threshold with respect to all frequency components. A sound collecting device characterized by not outputting sound.
前記出力手段は、前記判定手段で目的エリア音が存在すると判定された周波数成分について、前記混合レベル算出手段で算出した音量レベルに基づいてゲイン調節した前記入力信号を混合して出力する
ことを特徴とする請求項1〜3のいずれかに記載の収音装置。 Mixing level calculation means for calculating a volume level of the input signal to be mixed with an output sound based on a ratio between the input signal and a non-target area sound extracted based on the extracted sound and the extracted sound. ,
The output means mixes and outputs the input signal gain-adjusted based on the volume level calculated by the mixing level calculation means for the frequency component determined by the determination means that the target area sound exists. sound collection device according to any one of claims 1 to 3,.
入力信号からビームフォーマにより目的エリア方向に指向性を形成する指向性形成手段と、
前記指向性形成手段で形成された指向性による目的エリア方向に存在する非目的エリア音を抽出する非目的エリア音抽出手段と、
前記ビームフォーマの出力から、前記非目的エリア音抽出手段が抽出した目的エリア方向に存在する非目的エリア音を利用して目的エリア音を抽出した結果の抽出音を出力する目的エリア音抽出手段と、
周波数成分ごとに前記入力信号と前記抽出音のパワースペクトル比を算出するパワースペクトル比算出手段と、
前記パワースペクトル比算出手段が算出したパワースペクトル比を用いて、周波数成分ごとに目的エリア音が存在するか否かを判定する判定手段と、
前記判定手段で目的エリア音が存在すると判定された周波数成分については前記抽出音の当該周波数成分を出力する出力手段として機能させ、
前記出力手段は、すべての周波数成分に対して、前記判定手段が前記入力信号に目的エリア音が存在しないと判断した周波数成分の割合が、第2の閾値を超える場合、全周波数成分で前記抽出音を出力しない
ことを特徴とする収音プログラム。 Computer
Directivity forming means for forming directivity in the direction of the target area by a beamformer from an input signal;
Non-target area sound extracting means for extracting non-target area sound existing in the target area direction due to directivity formed by the directivity forming means;
A target area sound extraction means for outputting a sound extracted as a result of extracting a target area sound using a non-target area sound existing in a target area direction extracted by the non-target area sound extraction means from the output of the beam former; ,
Power spectrum ratio calculating means for calculating a power spectrum ratio of the input signal and the extracted sound for each frequency component;
Determination means for determining whether or not a target area sound exists for each frequency component, using the power spectrum ratio calculated by the power spectrum ratio calculation means;
To function as an output unit for outputting the frequency components of said extracted sound for the determined frequency components with sound object area is present in the determination unit,
The output means extracts all frequency components when the ratio of the frequency components determined by the determining means that the target area sound does not exist in the input signal exceeds a second threshold with respect to all frequency components. Sound collection program characterized by not outputting sound.
指向性形成手段、非目的エリア音抽出手段、目的エリア音抽出手段、パワースペクトル比算出手段、判定手段、及び出力手段を備え、
前記指向性形成手段は、入力信号からビームフォーマにより目的エリア方向に指向性を形成し、
前記非目的エリア音抽出手段は、前記指向性形成手段で形成された指向性による目的エリア方向に存在する非目的エリア音を抽出し、
前記目的エリア音抽出手段は、前記ビームフォーマの出力から、前記非目的エリア音抽出手段が抽出した目的エリア方向に存在する非目的エリア音を利用して目的エリア音を抽出した結果の抽出音を出力し、
前記パワースペクトル比算出手段は、周波数成分ごとに前記入力信号と前記抽出音のパワースペクトル比を算出すると、
前記判定手段は、前記パワースペクトル比算出手段が算出したパワースペクトル比を用いて、周波数成分ごとに目的エリア音が存在するか否かを判定し、
前記出力手段は、前記判定手段で目的エリア音が存在すると判定された周波数成分については前記抽出音の当該周波数成分を出力し、
前記出力手段は、すべての周波数成分に対して、前記判定手段が前記入力信号に目的エリア音が存在しないと判断した周波数成分の割合が、第2の閾値を超える場合、全周波数成分で前記抽出音を出力しない
ことを特徴とする収音方法。 In the sound collection method performed by the sound collection device,
Directivity forming means, non-target area sound extraction means, target area sound extraction means, power spectrum ratio calculation means, determination means, and output means,
The directivity forming means forms directivity in the direction of the target area by a beamformer from an input signal,
The non-target area sound extracting means extracts non-target area sound existing in the target area direction due to the directivity formed by the directivity forming means,
The target area sound extraction means extracts the extracted sound as a result of extracting the target area sound from the output of the beamformer using the non-target area sound existing in the target area direction extracted by the non-target area sound extraction means. Output,
The power spectrum ratio calculating means calculates the power spectrum ratio of the input signal and the extracted sound for each frequency component,
The determination means determines whether or not there is a target area sound for each frequency component, using the power spectrum ratio calculated by the power spectrum ratio calculation means,
The output means outputs the frequency component of the extracted sound for the frequency component determined by the determining means that the target area sound exists ,
The output means extracts all frequency components when the ratio of the frequency components determined by the determining means that the target area sound does not exist in the input signal exceeds a second threshold with respect to all frequency components. A sound collection method characterized by not outputting sound.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017059400A JP6436180B2 (en) | 2017-03-24 | 2017-03-24 | Sound collecting apparatus, program and method |
US15/847,598 US10085087B2 (en) | 2017-02-17 | 2017-12-19 | Sound pick-up device, program, and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017059400A JP6436180B2 (en) | 2017-03-24 | 2017-03-24 | Sound collecting apparatus, program and method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018164156A JP2018164156A (en) | 2018-10-18 |
JP6436180B2 true JP6436180B2 (en) | 2018-12-12 |
Family
ID=63859382
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017059400A Active JP6436180B2 (en) | 2017-02-17 | 2017-03-24 | Sound collecting apparatus, program and method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6436180B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6725014B1 (en) * | 2019-01-23 | 2020-07-15 | 沖電気工業株式会社 | Sound collecting device, sound collecting program, and sound collecting method |
JP6822505B2 (en) | 2019-03-20 | 2021-01-27 | 沖電気工業株式会社 | Sound collecting device, sound collecting program and sound collecting method |
JP7380783B1 (en) | 2022-08-29 | 2023-11-15 | 沖電気工業株式会社 | Sound collection device, sound collection program, sound collection method, determination device, determination program, and determination method |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4886616B2 (en) * | 2007-06-25 | 2012-02-29 | 日本電信電話株式会社 | Sound collection device, sound collection method, sound collection program using the method, and recording medium |
BR112012031656A2 (en) * | 2010-08-25 | 2016-11-08 | Asahi Chemical Ind | device, and method of separating sound sources, and program |
JP5691804B2 (en) * | 2011-04-28 | 2015-04-01 | 富士通株式会社 | Microphone array device and sound signal processing program |
JP2014194437A (en) * | 2011-06-24 | 2014-10-09 | Nec Corp | Voice processing device, voice processing method and voice processing program |
US9781508B2 (en) * | 2015-01-05 | 2017-10-03 | Oki Electric Industry Co., Ltd. | Sound pickup device, program recorded medium, and method |
JP6065030B2 (en) * | 2015-01-05 | 2017-01-25 | 沖電気工業株式会社 | Sound collecting apparatus, program and method |
JP6065028B2 (en) * | 2015-01-05 | 2017-01-25 | 沖電気工業株式会社 | Sound collecting apparatus, program and method |
JP2016163135A (en) * | 2015-02-27 | 2016-09-05 | 沖電気工業株式会社 | Sound collection device, program and method |
JP6131989B2 (en) * | 2015-07-07 | 2017-05-24 | 沖電気工業株式会社 | Sound collecting apparatus, program and method |
-
2017
- 2017-03-24 JP JP2017059400A patent/JP6436180B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018164156A (en) | 2018-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6065030B2 (en) | Sound collecting apparatus, program and method | |
JP6187626B1 (en) | Sound collecting device and program | |
JP6065028B2 (en) | Sound collecting apparatus, program and method | |
JP5482854B2 (en) | Sound collecting device and program | |
JP6540730B2 (en) | Sound collection device, program and method, determination device, program and method | |
JP6131989B2 (en) | Sound collecting apparatus, program and method | |
JP6436180B2 (en) | Sound collecting apparatus, program and method | |
US10085087B2 (en) | Sound pick-up device, program, and method | |
JP6943120B2 (en) | Sound collectors, programs and methods | |
JP2016163135A (en) | Sound collection device, program and method | |
JP6241520B1 (en) | Sound collecting apparatus, program and method | |
JP6065029B2 (en) | Sound collecting apparatus, program and method | |
JP6879340B2 (en) | Sound collecting device, sound collecting program, and sound collecting method | |
JP6260666B1 (en) | Sound collecting apparatus, program and method | |
JP6822505B2 (en) | Sound collecting device, sound collecting program and sound collecting method | |
JP6624256B1 (en) | Sound pickup device, program and method | |
JP6863004B2 (en) | Sound collectors, programs and methods | |
JP6624255B1 (en) | Sound pickup device, program and method | |
JP6725014B1 (en) | Sound collecting device, sound collecting program, and sound collecting method | |
JP6669219B2 (en) | Sound pickup device, program and method | |
JP7158976B2 (en) | Sound collecting device, sound collecting program and sound collecting method | |
JP2024027617A (en) | Speech recognition device, speech recognition program, speech recognition method, sound collection device, sound collection program, and sound collection method | |
JP2021125851A (en) | Sound collecting device, sound collecting program, and sound collecting method | |
JP2021136528A (en) | Sound collection device, program, and method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180713 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181016 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181029 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6436180 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |