JP4483105B2 - Microphone device - Google Patents
Microphone deviceInfo
- Publication number
- JP4483105B2 JP4483105B2 JP2001063628A JP2001063628A JP4483105B2 JP 4483105 B2 JP4483105 B2 JP 4483105B2 JP 2001063628 A JP2001063628 A JP 2001063628A JP 2001063628 A JP2001063628 A JP 2001063628A JP 4483105 B2 JP4483105 B2 JP 4483105B2
- Authority
- JP
- Japan
- Prior art keywords
- microphone
- output
- microphones
- pair
- intermediate generation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【0001】
【発明の属する技術分野】
本発明は、例えば、目的音源である話者の位置が絶えず変動するような家庭の居間やオフィスの会議室などのような環境において、簡単に指向性の向きを変えることができる音声収録や音声認識のためのマイクロホン装置に関するものである。
【0002】
【従来の技術】
後述する参考文献[1]は、[2]に記載される3マイクロホンによるマイクロホンシステムを拡張し、無指向性マイクカプセル5つを用いて、300Hz〜5kHz,ビーム幅約120度の広帯域狭角度指向性マイクロホンの作成に成功している。図15に従来のマイクロホンシステムのブロック図を示す。図15において、マイクロホンMIC0,MIC2,MIC3,MIC1A,MIC1Bは、4cm×7cmの平面領域に収納されている。そして、加算器150、151により2つのマイクロホンMIC2およびMIC3、MIC1AおよびMIC1Bの差分を用いている。さらに、上述の減算器150、151の差分出力に対して、積分器156、152を用いて位相成分の排除と広帯域化を図っている。また、求める指向性の関数を先に求めて、これに対してフーリエ級数を用いて必要な成分152および153を求めている。また、共振点を有するローパスフィルタ(LPF)155を用いて、さらに高域の補正を行っている。
【0003】
参考文献[1]河野、中村、大和、高島、゛広帯域狭角度指向性マイクロホンシステム゜信学技報 EA99−85 1999年12月
参考文献[2]Nakamura,Kouno,Yamato,Sakiyama,゛Realization of Wide−Band Directivity with Three Microphones″,IEICE Trans,Fundamentals,vol.E82−A,No.4,April 1999
【0004】
【発明が解決しようとする課題】
しかし、上述した従来のマイクロホンシステムでは、トランジスタやオペアンプなどのハードウエアで構成したため、指向性の主軸が固定となり、特にビーム主軸を任意に制御することができないという不都合があった。
【0005】
また、抵抗器やコンデンサなどの定数の誤差が指向性の制御に影響するという不都合があった。
【0006】
そこで、本発明は、かかる点に鑑みてなされたものであり、指向性の主軸を任意に制御することができ、指向性の鋭度を向上させることができると共に、1つのマイクロホン装置のみを使用するだけで、例えばマイクロホンを中心とする左右の音源を分離してリアルタイムに音声収録または音声認識をすることができるマイクロホン装置を提供することを課題とする。
【0007】
【課題を解決するための手段】
本発明のマイクロホン装置は、音源からの音波が入力されるマイクロホンを用いてマイクロホンの指向特性を制御するマイクロホン装置において、基準マイクロホンと、基準マイクロホンを中心に等間隔に配置される第1の1対のマイクロホンと、基準マイクロホンを中心に第1の1対のマイクロホンに直交して等間隔に配置される第2の1対のマイクロホンと、基準マイクロホンを中心に第1の1対のマイクロホンおよび第2の1対のマイクロホンに対して45度傾けて等間隔に配置される第3の1対のマイクロホンと、基準マイクロホン、第1、第2および第3の1対の各マイクロホンの出力をそれぞれディジタル信号に変換するA/D変換部と、A/D変換部からのディジタル信号に対して信号処理を施す演算処理部とを備え、基準マイクロホン、第1、第2および第3の1対の各マイクロホンは同一平面上に配置され、演算処理部は、第1の1対のマイクロホンの出力の差を求め、この差をフーリエ変換することにより、基準マイクロホンの出力と位相を合わせ且つ基準マイクロホンの出力に対してcosθで振幅が変化する第1の中間生成出力を得る処理と、第2の1対のマイクロホンの出力の差を求め、この差をフーリエ変換することにより、基準マイクロホンの出力と位相を合わせ且つ基準マイクロホンの出力に対してsinθで振幅が変化する第2の中間生成出力を得る処理と、第2の1対のマイクロホンの出力の和を求め、この和をフーリエ変換することにより、基準マイクロホンの出力に対してcos2θで振幅が変化する第3の中間生成出力を得る処理と、第3の1対のマイクロホンの出力の和を求め、この和をフーリエ変換することにより、基準マイクロホンの出力に対してsin2θで振幅が変化する第4の中間生成出力を得る処理と、目標とする指向特性を、次数が2次のフーリエ級数の係数α0,α1,β1,α2,β2によって表し、基準マイクロホンの出力,第1の中間生成出力,第2の中間生成出力,第3の中間生成出力,第4の中間生成出力を、それぞれ係数α0,α1,β1,α2,β2を用いて重み付けして加算する処理とを行うようにしたものである。
【0008】
従って本発明によれば、以下の作用をする。基準マイクロホン、第1、第2および第3の1対の各マイクロホンの出力に対してA/D変換部により各ディジタル信号を得た後に、演算処理部により各ディジタル信号に対して信号処理を施す。
【0009】
演算処理部において施される信号処理は、次のとおりである。
第1の1対のマイクロホンの出力の差を求め、この差をフーリエ変換することにより、基準マイクロホンの出力と位相を合わせ且つ基準マイクロホンの出力に対してcosθで振幅が変化する第1の中間生成出力を得る。
第2の1対のマイクロホンの出力の差を求め、この差をフーリエ変換することにより、基準マイクロホンの出力と位相を合わせ且つ基準マイクロホンの出力に対してsinθで振幅が変化する第2の中間生成出力を得る。
第2の1対のマイクロホンの出力の和を求め、この和をフーリエ変換することにより、基準マイクロホンの出力に対してcos2θで振幅が変化する第3の中間生成出力を得る。
第3の1対のマイクロホンの出力の和を求め、この和をフーリエ変換することにより、基準マイクロホンの出力に対してsin2θで振幅が変化する第4の中間生成出力を得る。
目標とする指向特性を、次数が2次のフーリエ級数の係数α0,α1,β1,α2,β2によって表し、基準マイクロホンの出力,第1の中間生成出力,第2の中間生成出力,第3の中間生成出力,第4の中間生成出力を、それぞれ係数α0,α1,β1,α2,β2を用いて重み付けして加算する。
【0013】
これらの演算処理部での処理により、容易に指向性の主軸を任意に制御することができ、さらに指向性の鋭度を向上させる。
【0014】
【発明の実施の形態】
以下に、本発明の実施の形態を説明する。
本実施の形態のマイクロホン装置は、3つ〜7つのマイクロホンを組み合わせ、これらをディジタル信号処理することにより、主軸を容易に可変することができ、音声認識に適した広帯域、狭指向性を実現すると共に、複数の主軸方向からの音声を分離して取得することができるため、音声認識システムやテレビ会議の収録システムに最適なものである。
【0015】
図1は、本実施の形態が適用されるマイクカプセルの配置図である。
図1において、基準マイクロホンMIC0と、基準マイクロホンMIC0を中心に配置される第1の1対のマイクロホンMIC1,MIC2と、基準マイクロホンMIC0を中心に第1の1対のマイクロホンMIC1,MIC2に直交して配置される第2の1対のマイクロホンMIC3,MIC4と、基準マイクロホンMIC0を中心に第1の1対のマイクロホンMIC1,MIC2および第2の1対のマイクロホンMIC3,MIC4に対して45度傾けて配置される第3の1対のマイクロホンMIC5,MIC6とがそれぞれ配置される。これらのマイクロホンMIC0〜MIC6は、平面空間に配置されている。また、MIC1,MIC0,MIC2に基づく基準軸に対する音波の入射角度をs度とする。
【0016】
ここで、基準マイクロホンMIC0の位置Pに対して、第1の1対のマイクロホンMIC1,MIC2はそれぞれ等間隔d1で配置され、第2の1対のマイクロホンMIC3,MIC4はそれぞれ等間隔d2で配置され、第3の1対のマイクロホンMIC5,MIC6はそれぞれ等間隔d3で配置される。
【0017】
図2は、各マイクロホンの配置に応じた音源からの距離差を示す図である。
図2Aは第1の1対のマイクロホンMIC1,MIC2の配置に応じた音源からの時間差を示す。図2Aにおいて、入射角s度で入射した音源からの音声は、基準マイクロホンMIC0の位置Pに対して、マイクロホンMIC1には距離(+d1cos(s))に対応した時間だけ短い時間で到達し、マイクロホンMIC2には距離(+d1cos(s))に対応した時間だけ長い時間で到達する。
【0018】
図2Bは第2の1対のマイクロホンMIC3,MIC4の配置に応じた音源からの距離差を示す。図2Bにおいて、入射角s度で入射した音源からの音声は、基準マイクロホンMIC0の位置Pに対して、マイクロホンMIC3には距離(+d2sin(s))に対応した時間だけ短い時間で到達し、マイクロホンMIC3には距離(+d2sin(s))に対応した時間だけ長い時間で到達する。
【0019】
図2Cは第3の1対のマイクロホンMIC5,MIC6の配置に応じた音源からの距離差を示す。図2Cにおいて、入射角s度で入射した音源からの音声は、基準マイクロホンMIC0の位置Pに対して、マイクロホンMIC6には距離(+d3sin(45−s))に対応した時間だけ短い時間で到達し、マイクロホンMIC5には距離(+d3sin(45−s))に対応した時間だけ長い時間で到達する。
【0020】
図3は、上述したマイクロホンを用いたマイクロホン装置のハードウエア構成図である。図3において、マイクロホン装置は、MIC0(1),MIC1(2),MIC2(3),MIC3(4),MIC4(5),MIC5(6),MIC6(7)と、各MIC0(1),MIC1(2),MIC2(3),MIC3(4),MIC4(5),MIC5(6),MIC6(7)からの信号を信号処理可能に増幅するアンプ8、アンプ9、アンプ10、アンプ11、アンプ12、アンプ13、アンプ14と、各アンプ8、アンプ9、アンプ10、アンプ11、アンプ12、アンプ13、アンプ14で増幅された信号をディジタル信号に変換するA/D変換器15、A/D変換器16、A/D変換器17、A/D変換器18、A/D変換器19、A/D変換器20、A/D変換器21と、各A/D変換器15、A/D変換器16、A/D変換器17、A/D変換器18、A/D変換器19、A/D変換器20、A/D変換器21で変換されたディジタル信号に対して信号処理を施す演算処理装置22と、演算処理装置22で信号処理された結果を収録処理または音声認識処理する収録機器または音声認識装置23とを有して構成される。
【0021】
各マイクロホンに入力される信号に対して、演算処理装置22において施される信号処理を図4のフローチャートに示す。図4において、ステップS1で、既にi=0とする処理の初期化が行われれている。
【0022】
ここで、MIC0からRだけ離れた音源からの音をまとめると、以下の数1式、数2式、数3式、数4式、数5式、数6式、数7式、数8式のようになる。上述において、数1式のXs(t)は音源信号を表し、数2式のx MIC0(t)はMIC0の位置で時刻tに観測される信号であり、数3式のx MIC1(t)はMIC1の位置で時刻tに観測される信号であり、数4式のx MIC2(t)はMIC2の位置で時刻tに観測される信号であり、数5式のx MIC3(t)はMIC3の位置で時刻tに観測される信号であり、数6式のx MIC4(t)はMIC4の位置で時刻tに観測される信号であり、数7式のx MIC5(t)はMIC5の位置で時刻tに観測される信号であり、数8式のx MIC6(t)はMIC6の位置で時刻tに観測される信号である。ここで、k=ω/c、ωは信号の角周波数を表し、cは音速を表し、θは音源のマイクロホンの基準軸に対する入射角を表す。
【0023】
【数1】
【0024】
【数2】
【0025】
【数3】
【0026】
【数4】
【0027】
【数5】
【0028】
【数6】
【0029】
【数7】
【0030】
【数8】
【0031】
これらの音声信号は、各MIC0(1),MIC1(2),MIC2(3),MIC3(4),MIC4(5),MIC5(6),MIC6(7)において、電気信号に変換され、各アンプ8、アンプ9、アンプ10、アンプ11、アンプ12、アンプ13、アンプ14で増幅された後に、各A/D変換器15、A/D変換器16、A/D変換器17、A/D変換器18、A/D変換器19、A/D変換器20、A/D変換器21でディジタル信号に変換される。ただし、上述した各マイクロホンの感度および各アンプのゲインは、一定であると仮定する。
【0032】
このディジタル信号は、演算処理装置22の中で以下のような処理が施される。図4においてステップS2でサンプリングが行われる。具体的には、フレーム期間毎にディジタル信号のサンプリングが行われる。ステップS3でマイクロホン出力のミキシングが行われる。具体的には、各マイクロホンから得られたディジタル信号は、演算処理装置22により以下の数9式、数10式、数11式、数12式に示すようなミキシング処理が施されることにより、x A(t)、x B(t)、x C(t)、x D(t)に変換される。
【0033】
【数9】
【0034】
【数10】
【0035】
【数11】
【0036】
【数12】
【0037】
上述した数9式、数10式、数11式、数12式に示すx A(t)、x B(t)、x C(t)、x D(t)の各信号は、MIC0での信号に対して、それぞれ以下の数13式、数14式、数15式、数16式に示すような信号である。
【0038】
【数13】
【0039】
【数14】
【0040】
【数15】
【0041】
【数16】
【0042】
すなわち、数13式、数14式、数15式、数16式に示すx A(t)、xB(t)、x C(t)、x D(t)の各信号は、MIC0で観測される数2式のx MIC0(t)信号に対して、それぞれ、jsin(kd1cosθ)、jsin(kd2sinθ)、cos(kd2sinθ)、cos(kd3sin(π/4−θ)の特性が加わっていることが分かる。
【0043】
すなわち、数13式、数14式、数15式、数16式に示すx A(t)、xB(t)、x C(t)、x D(t)の各信号は、入力される信号の角周波数ω(ただし、k=ω/c)と入射角θによって特性が変化することになる。また、虚数成分jを含む数13式に示すx A(t)および数14式に示すx B(t)は、MIC0で観測される数2式のx MIC0(t)信号に対して、位相が90度進んでいることが分かる。
【0044】
ステップS4で、ミキシングされた各信号はバッファーにストアーされる。具体的には、数13式、数14式、数15式、数16式に示すx A(t)、x B(t)、x C(t)、x D(t)の各信号は、それぞれフレーム処理で用いられるサンプル数Nに応じたバッファー数Nのフレームバッファに蓄えられる。
【0045】
ステップS5で、処理の回数を示すiをインクリメントする。ステップS6で、i=Nであるか否かを判断する。ステップS6でi=Nでないときは、ステップS2へ戻り、ステップS2〜ステップS6までの処理および判断を繰り返す。
【0046】
ステップS6でi=Nとなったときは、ステップS7で前処理を行う。具体的には、バッファー数Nのフレームバッファがすべてに数13式、数14式、数15式、数16式に示すx A(t)、x B(t)、x C(t)、x D(t)の各信号を蓄えられているが、このフレームバッファがすべて埋まった時点で、フレーム処理の前処理として、連続音声のフレーミングの影響を軽減するためのハミング窓またはハニング窓などの窓処理が行われる。
【0047】
ステップS8で、フレーム処理が行われる。具体的には、高速フーリエ変換(FFT)を用いて、位相変換および振幅特性の補正の各処理が行われる。
【0048】
まず、数13式に示すx A(t)に対するFFTの出力X A(ω)について説明する。x A(t)の振幅成分であるsin(kd1cosθ)(ここで、d1=0.008mとする。)の入射角度依存特性を図5に示す。図5において、sin(kd1cosθ)の入射角度依存特性は、信号の角周波数ω(ただし、k=ω/c)(1000Hz、2000Hz、3000Hz、4000Hz、5000Hz、6000Hz)に応じて変化していることが分かる。
【0049】
そこで、sin(kd1cosθ)/sin(kd)の入射角度依存特性を図6に示す。いま、X A(ω)/sin(kd1)について考えてみる。図6において、sin(kd1cosθ)/sin(kd1)の入射角度依存特性は、信号の角周波数ω(ただし、k=ω/c)(1000Hz、2000Hz、3000Hz、4000Hz、5000Hz、6000Hz)による変動がほぼなくなることが分かる。
【0050】
また、上述したように、虚数成分jを含む数13式に示すx A(t)は、MIC0で観測される数2式のx MIC0(t)信号に対して、位相が90度進んでいるので、数17式、数18式のようにX’RA(ω)、X’IA(ω)とすると、位相進みがなくなる。ここで、数17式、数18式におけるφA (ω)は、XA (ω)の位相を表わすものである。
【0051】
【数17】
【0052】
【数18】
【0053】
ここで、X’A(ω)=X’RA(ω)+jX’IA(ω)であり、数17式、数18式は位相変換後のスペクトルを表す。さらに、kd1<<1とすると、sin(kd1cos(θ))はkd1cosθに近似できるので、以下の数19式の関係となり、数13式に示すx A(t)に対するFFTの出力X A(ω)から、MIC0で入力される信号に対して、cosθで振幅が変化する成分を得ることができる。
【0054】
【数19】
【0055】
同様にして、MIC0で入力される信号に対して考えると以下のようになる。数14式に示すx B(t)に対するFFTの出力X B(ω)について説明する。x B(t)の振幅成分であるsin(kd2sin(θ))(ここで、d1=0.008mとする。)の入射角度依存特性を図7に示す。図7において、sin(kd2sin(θ))の入射角度依存特性は、信号の角周波数ω(ただし、k=ω/c)(1000Hz、2000Hz、3000Hz、4000Hz、5000Hz、6000Hz)に応じて変化していることが分かる。
【0056】
そこで、sin(kd2sin(θ))/sin(kd2)の入射角度依存特性を図8に示す。いま、X B(ω)/sin(kd2)について考えてみる。図8において、sin(kd2sinθ)/sin(kd2)の入射角度依存特性は、信号の角周波数ω(ただし、k=ω/c)(1000Hz、2000Hz、3000Hz、4000Hz、5000Hz、6000Hz)による変動がほぼなくなることが分かる。
【0057】
また、上述したように、虚数成分jを含む数14式に示すx B(t)は、MIC0で観測される数2式のx MIC0(t)信号に対して、位相が90度進んでいるので、数20式、数21式のようにX’RB(ω)、X’IB(ω)とすると、位相進みがなくなる。ここで、数20式、数21式におけるφB (ω)は、XB (ω)の位相を表わすものである。
【0058】
【数20】
【0059】
【数21】
【0060】
ここで、X’B(ω)=X’RB(ω)+jX’IB(ω)であり、数20式、数21式は、位相変換後のスペクトルを表す。従って、kd2<<1とすると、sin(kd2sinθ)はkd2sinθに近似できるので、以下の数22式の関係となり、数14式に示すx B(t)に対するFFTの出力X B(ω)から、MIC0で入力される信号に対して、sinθで振幅が変化する成分を得ることができる。
【0061】
【数22】
【0062】
次に、数15式に示すx C(t)に対するFFTの出力X C(ω)について説明する。x C(t)の振幅成分であるcos(kd2sin(θ))は、テーラー展開を使って、以下の数23式のように表される。ここで、λは近似誤差を示す。
【0063】
【数23】
【0064】
これより、数24式の関係となり、数15式に示すx C(t)に対するFFTの出力x C(ω)から、MIC0で入力される信号に対して、cos2θで振幅が変化する成分を得ることができる。なお、λは参考文献[1]を用いている。
【0065】
【数24】
【0066】
次に、数16式に示すx D(t)に対するFFTの出力X D(ω)について説明する。x D(t)の振幅成分であるcos(kd3sin(π/4−θ))は、テーラー展開を使って、以下の数25式のように表される。ここで、γは近似誤差を示す。
【0067】
【数25】
【0068】
これより、数26式の関係となり、数16式に示すx D(t)に対するFFTの出力X D(ω)から、MIC0で入力される信号に対して、sin2θで振幅が変化する成分を得ることができる。なお、γは参考文献[1]を用いている。
【0069】
【数26】
【0070】
図9に、フーリエ級数で近似目標とする指向特性ψ(θ)を示す。図9に示す指向特性ψ(θ)とMIC0の出力を加えたとき、指向性D(θ)=1+ψ(θ)が得られれば、ビーム以外の感度を抑えることができる。ここで、主軸の中心角をθc(度)、また、ビームの幅をθw(度)とする。このとき、ψ(θ)はフーリエ級数展開により、以下の数27式のように表される。
【0071】
【数27】
【0072】
実際には、上述の数13式〜数26式までの処理では、cosθ、sinθ、cos2θ、sin2θまでしか求められていないので、θw=60度がビーム外の感度を抑制するために適した値である。各係数α0、αi、βiは以下の数28式、数29式、数30式により求められる。
【0073】
【数28】
【0074】
【数29】
【0075】
【数30】
【0076】
θc=60度及びθw=60度としたときのフーリエ級数でのψ(θ)の例を図10に示す。
【0077】
上述した数27式において、M=2として、数31式に示すように、上述の中間生成出力を重み付き加算すると、主軸方向のみに指向性を持たせる特性とすることができる。
【0078】
【数31】
【0079】
ただし、数31式において、各中間生成出力Ycos(ω)、Y Rcos(ω)、Y Icos(ω)は、それぞれ以下の数32式、数33式、数34式で表される。また、各中間生成出力Ysin(ω)、Y Rsin(ω)、Y Isin(ω)は、それぞれ以下の数35式、数36式、数37式で表される。ここで、φA(ω)、φB(ω)は、それぞれ、X A(ω)、X B(ω)の位相を示す。
【0080】
【数32】
【0081】
【数33】
【0082】
【数34】
【0083】
【数35】
【0084】
【数36】
【0085】
【数37】
【0086】
また、数31式において、各中間生成出力Y cos(2ω)、Y sin(2ω)は、それぞれ以下の数38式、数39式で表される。
【0087】
【数38】
【0088】
【数39】
【0089】
ここで、d1=d2=d3=0.008mとしたときのシミュレーション結果を図11、図12に示す。図11は、θc=0度としたときの指向特性のシミュレーション結果、図12は、θc=135度としたときの指向特性のシミュレーション結果である。それぞれ、周波数依存性のない指向性を示していることが分かる。また、これらの指向性は最終的にフーリエ級数の係数αi、βiで決定しているので、予めθcについて複数のαi、βiの組を用意しておけば、各中間生成信号の重み付け加算を行うだけで、リアルタイムに複数の主軸からの音声を分離して取得することが可能となる。
【0090】
また、上述の処理においては、基準マイクロホンMIC0を使用しているが、これらの機能は、MIC1〜MIC4までを使用することにより、基準マイクロホンMIC0の代用をすることができる。すなわち、数40式にMIC1〜MIC4までの出力和を示す。
【0091】
【数40】
【0092】
ここで、d1=d2=0.008mとしたとき、上述した数40式における振幅成分である(cos(kd1cosθ)+cos(kd2sinθ))/2の値は、図13に示すMIC1〜MIC4の出力和の入射角度依存特性に示すとおりである。これにより、MIC1〜MIC4の出力和は、高域では入射角度θによる値の依存性があるものの、信号の角周波数ω(ただし、k=ω/c)(1000Hz、2000Hz、3000Hz、4000Hz、5000Hz、6000Hz)についてほぼ一定した値をとることが分かる。これらはθ=22.5度で平均値をとるので、以下の数41式で示すような補正を行うことで角周波数ωについてもほぼ依存しない特性を得ることができ、近似を行うことができる。
【0093】
【数41】
【0094】
これにより、基準マイクロホンMIC0を省略して、MIC1〜MIC6までの6つのマイクロホンを使用することにより、指向特性の主軸を可変に制御して、目的とする音源に指向性を容易に向けることができる。
【0095】
このようにして得られた数31式で示すY(ω)は、図4においてステップS9で、出力の処理が行われる。具体的には、出力Y(ω)は周波数分析されたものであるので演算処理装置22の中で、そのまま音声の分析結果として扱ったり、またはさらなる音声分析の入力として使用することができ、または音声認識装置23により音声認識のための音声分析に使用することができる。またY(ω)を、逆フーリエ変換することにより、周波数領域の信号から時間領域の波形信号に戻すことにより、収録機器23により音声収録などに使用することができる。
【0096】
その後、ステップS10で、i=0として初期化処理が行われた後に、ステップS2へ戻って、ステップS2〜ステップS6までの処理および判断を繰り返す。
【0097】
また、図14にMICの省略を示す。
以下に、図14Aに示すMIC5、6の省略、および図14Cに示すMIC3、4の省略について説明する。
【0098】
以下に示す数42式、数43式、数44式、数45式から、数46式が得られる。
【0099】
【数42】
【0100】
【数43】
【0101】
【数44】
【0102】
【数45】
【0103】
【数46】
【0104】
このようにして、数46式により、数14式に示すx B(t)に対するFFTの出力X B(ω)は、X A(ω)を用いて表すことにより、sinθ成分を生成することができる。
【0105】
また、以下に示す数47式、数48式から、数26式に示すX D(ω)は数49式のように、X A(ω)を用いて表すことにより、倍角成分であるsin2θ成分を生成することができ、また、数24式に示すX MIC0(ω)cos2θは数50式のように、X A(ω)を用いて表すことにより、倍角成分であるcos2θ成分を生成することができる。
【0106】
これにより、数49式により数26式によるsin2θ成分の算出が不要となるため、x MIC5(t),x MIC6(t)のミキシング出力が不要となるため、図14Aに示すようにMIC5、6を省略することができる。
【0107】
これにより、MIC5、6を省略して、MIC0〜MIC4までの5つのマイクロホンを使用することにより、簡易に指向特性の主軸を可変に制御して、目的とする音源に指向性を容易に向けることができる。
【0108】
なお、上述した数41式により、MIC0は不要となるため、図14Bに示すMIC0を省略することができる。
【0109】
これにより、MIC0、5、6を省略して、MIC1〜MIC4までの4つのマイクロホンを使用することにより、より簡易に指向特性の主軸を可変に制御して、目的とする音源に指向性を容易に向けることができる。
【0110】
また、数46式により数22式によるsinθ成分の算出が不要となる共に、数50式により数24式におけるcos2θ成分の算出が不要となるため、x MIC3(t),x MIC4(t)のミキシング出力が不要となるため、図14Cに示すMIC3、4を省略することができる。
【0111】
これにより、MIC5、6、3、4を省略して、MIC0〜MIC2までの3つのマイクロホンを使用することにより、さらに簡易に指向特性の主軸を可変に制御して、目的とする音源に指向性を容易に向けることができる。
【0112】
【数47】
【0113】
【数48】
【0114】
【数49】
【0115】
【数50】
【0116】
なお、図14Cにおいて、MIC3、4を省略した際に、MIC0を新たに設けたのは、MIC0の信号をMIC1〜MIC4の信号から求めていたがMIC3、4を省略したことから、必要となったためである。
【0117】
なお、上述した本実施の形態では、倍角成分を示す2次のフーリエ級数展開について説明したが、これに限らず、3次以上のフーリエ級数展開に適用するようにしても良い。
【0118】
つまり、数51式、数52式を利用することにより、数53式のように、X A(ω)を用いて表すことにより、3倍角成分であるcos3θ成分を生成することができ、また、数54式に示すように、X A(ω)を用いて表すことにより、3倍角成分であるsin3θ成分を生成することができる。
【0119】
これにより、3倍角以上の成分を生成することができ、これにより、フーリエ級数を3倍角以上に近似することができるので、さらに高次のフーリエ級数展開を可能とすることができる。
【0120】
【数51】
【0121】
【数52】
【0122】
【数53】
【0123】
【数54】
【0124】
【発明の効果】
この発明のマイクロホン装置は、音源からの音波が入力されるマイクロホンを用いてマイクロホンの指向特性を制御するマイクロホン装置において、基準マイクロホンと、基準マイクロホンを中心に等間隔に配置される第1の1対のマイクロホンと、基準マイクロホンを中心に第1の1対のマイクロホンに直交して等間隔に配置される第2の1対のマイクロホンと、基準マイクロホンを中心に第1の1対のマイクロホンおよび第2の1対のマイクロホンに対して45度傾けて等間隔に配置される第3の1対のマイクロホンと、基準マイクロホン、第1、第2および第3の1対の各マイクロホンの出力をそれぞれディジタル信号に変換するA/D変換部と、A/D変換部からのディジタル信号に対して信号処理を施す演算処理部とを備え、基準マイクロホン、第1、第2および第3の1対の各マイクロホンは同一平面上に配置され、演算処理部は、第1の1対のマイクロホンの出力の差を求め、この差をフーリエ変換することにより、基準マイクロホンの出力と位相を合わせ且つ基準マイクロホンの出力に対してcosθで振幅が変化する第1の中間生成出力を得る処理と、第2の1対のマイクロホンの出力の差を求め、この差をフーリエ変換することにより、基準マイクロホンの出力と位相を合わせ且つ基準マイクロホンの出力に対してsinθで振幅が変化する第2の中間生成出力を得る処理と、第2の1対のマイクロホンの出力の和を求め、この和をフーリエ変換することにより、基準マイクロホンの出力に対してcos2θで振幅が変化する第3の中間生成出力を得る処理と、第3の1対のマイクロホンの出力の和を求め、この和をフーリエ変換することにより、基準マイクロホンの出力に対してsin2θで振幅が変化する第4の中間生成出力を得る処理と、目標とする指向特性を、次数が2次のフーリエ級数の係数α0,α1,β1,α2,β2によって表し、基準マイクロホンの出力,第1の中間生成出力,第2の中間生成出力,第3の中間生成出力,第4の中間生成出力を、それぞれ係数α0,α1,β1,α2,β2を用いて重み付けして加算する処理とを行うようにしたので、指向性の主軸を任意に制御することができ、指向性の精度を向上させることができるという効果を奏する。
【0125】
また、この発明のマイクロホン装置は、上述において、演算処理部は、予め複数の主軸の中心角についてそれぞれ係数α1,β1,α2,β2の組を用意しておき、それらの組のうち音声を分離しようとする主軸の中心角に応じた係数を用いて第1乃至第4の中間生成出力を重み付けすることにより、リアルタイムに複数の主軸からの音声を分離して取得することが可能となるので、1つのマイクロホン装置のみを使用するだけで、例えばマイクホンを中心とする左右の音源を分離してリアルタイムに音声収録または音声認識をすることができるという効果を奏する。
【0126】
また、この発明のマイクロホン装置は、上述において、基準マイクロホンを省略して、演算処理部により、第1および第2の1対の各マイクロホンの出力和で基準マイクロホンの出力を近似するので、マイクロホン装置を小型化かつ容易に構成することができると共に、基準マイクロホンを省略して6つのマイクロホンを使用することにより、指向特性の主軸を可変に制御して、目的とする音源に指向性を容易に向けることができるという効果を奏する。
【0127】
また、この発明のマイクロホン装置は、上述において、第3の1対のマイクロホンを省略して、演算処理部により、第4の中間生成出力を、第1の中間生成出力を用いて表すので、マイクロホン装置を小型化かつ容易に構成することができると共に、第3の1対のマイクロホンを省略して5つのマイクロホンを使用することにより、簡易に指向特性の主軸を可変に制御して、目的とする音源に指向性を容易に向けることができるという効果を奏する。
【0128】
また、この発明のマイクロホン装置は、上述において、第3の1対のマイクロホンを省略して、演算処理部により、第4の中間生成出力を、第1の中間生成出力を用いて表すので、基準マイクロホンおよび第3の1対のマイクロホンを省略して、4つのマイクロホンを使用することにより、より簡易に指向特性の主軸を可変に制御して、目的とする音源に指向性を容易に向けることができるという効果を奏する。
【0129】
また、この発明のマイクロホン装置は、上述において、第2の1対のマイクロホンを省略して、演算処理部により、第2の中間生成出力を、第1の中間生成出力を用いて表すとともに、基準マイクロホンの出力に対してcos2θで振幅が変化する成分を、第1の中間生成出力を用いて表すので、第2および第3の1対のマイクロホンを省略して、3つのマイクロホンを使用することにより、さらに簡易に指向特性の主軸を可変に制御して、目的とする音源に指向性を容易に向けることができるという効果を奏する。
【図面の簡単な説明】
【図1】本実施の形態が適用されるマイクカプセルの配置図である。
【図2】各マイクロホンの配置に応じたMIC0からの距離差を示す図であり、図2Aは第1の1対のマイクロホンMIC1,MIC2の配置に応じたMIC0からの距離差、図2Bは第2の1対のマイクロホンMIC3,MIC4の配置に応じたMIC0からの距離差、図2Cは第3の1対のマイクロホンMIC5,MIC6の配置に応じたMIC0からの距離差である。
【図3】マイクロホン装置のハードウエア構成図である。
【図4】演算処理装置における信号処理のフローチャートである。
【図5】sin(kdcosθ)の入射角度依存特性を示す図である。
【図6】sin(kdcosθ)/sin(kd)の入射角度依存特性を示す図である。
【図7】sin(kdsinθ)の入射角度依存特性を示す図である。
【図8】sin(kdsinθ)/sin(kd)の入射角度依存特性を示す図である。
【図9】フーリエ級数で近似目標とする指向特性を示す図である。
【図10】フーリエ級数での指向特性例を示す図である。
【図11】θc=0度としたときの指向特性のシミュレーション結果を示す図である。
【図12】θc=135度としたときの指向特性のシミュレーション結果を示す図である。
【図13】MIC1〜MIC4の出力和の入射角度依存特性を示す図である。
【図14】MICの省略を示す図であり、図14AはMIC5、6の省略した5つのMIC、図14BはMIC0、5、6を省略した4つのMIC、図14CはMIC3、4、5、6を省略した3つのMICを示す。
【図15】従来のマイクロホンシステムのブロック図である。
【符号の説明】
1……MIC0、2……MIC1、3……MIC2、4……MIC3、5……MIC4、6……MIC5、7……MIC6、8〜14……アンプ、15〜21……A/D変換器、22……演算処理装置、23……収録機器または音声認識装置[0001]
BACKGROUND OF THE INVENTION
The present invention provides audio recording and audio that can easily change the direction of directivity in an environment such as a living room in a home or an office meeting room where the position of a speaker as a target sound source constantly changes. The present invention relates to a microphone device for recognition.
[0002]
[Prior art]
Reference [1], which will be described later, expands the microphone system using three microphones described in [2], and uses five omnidirectional microphone capsules to provide a wide-band narrow-angle directivity of 300 Hz to 5 kHz and a beam width of about 120 degrees. Has succeeded in creating a directional microphone. FIG. 15 shows a block diagram of a conventional microphone system. In FIG. 15, the microphones MIC0, MIC2, MIC3, MIC1A, and MIC1B are housed in a 4 cm × 7 cm plane area. The
[0003]
Reference [1] Kono, Nakamura, Yamato, Takashima, “Broadband Narrow Angle Directive Microphone System 信 Science Technical Report EA99-85 December 1999
Reference [2] Nakamura, Kouno, Yamato, Sakiyama, “Realization of Wide-Directivity with Three Microphones”, IEICE Trans, Fundamentals, Vol.
[0004]
[Problems to be solved by the invention]
However, since the conventional microphone system described above is configured by hardware such as a transistor and an operational amplifier, the directivity principal axis is fixed, and in particular, the beam principal axis cannot be arbitrarily controlled.
[0005]
In addition, there is a disadvantage that errors in constants such as resistors and capacitors affect the directivity control.
[0006]
Therefore, the present invention has been made in view of the above points, and can control the main axis of directivity arbitrarily, improve directivity sharpness, and use only one microphone device. It is an object of the present invention to provide a microphone device that can separate sound sources centered on a microphone, for example, and perform voice recording or voice recognition in real time.
[0007]
[Means for Solving the Problems]
The microphone device of the present invention is a microphone device that controls the directivity characteristics of a microphone using a microphone to which sound waves from a sound source are input.Equally spacedA first pair of microphones disposed and orthogonal to the first pair of microphones about a reference microphoneEqually spacedA second pair of microphones to be disposed, and a tilt of 45 degrees with respect to the first pair of microphones and the second pair of microphones around the reference microphone.Equally spacedA third pair of microphones disposed;The A / D converter for converting the outputs of the reference microphone, the first, second and third pair of microphones into digital signals, respectively, and the signal processing for the digital signals from the A / D converter Arithmetic processing unitAnd the reference microphone, the first, second and third pair of microphones are arranged on the same plane,The arithmetic processing unit obtains a difference between the outputs of the first pair of microphones, and performs Fourier transform on the difference to match the phase with the output of the reference microphone and change the amplitude at cos θ with respect to the output of the reference microphone. The difference between the output of the first intermediate generation output and the output of the second pair of microphones is obtained, and the difference is Fourier transformed to match the phase of the reference microphone output and the output of the reference microphone. The process of obtaining the second intermediate generation output whose amplitude changes with sin θ and the sum of the outputs of the second pair of microphones are obtained, and this sum is subjected to Fourier transform, whereby the amplitude at cos 2θ with respect to the output of the reference microphone Is obtained by calculating the sum of the outputs of the third intermediate generation output in which the V is changed and the outputs of the third pair of microphones, and performing Fourier transform on the sum. The process of obtaining the fourth intermediate generation output whose amplitude changes with sin 2θ with respect to the output of the microphone, and the target directivity are represented by coefficients α0, α1, β1, α2, β2 of the second order Fourier series. , The output of the reference microphone, the first intermediate generation output, the second intermediate generation output, the third intermediate generation output, and the fourth intermediate generation output are weighted using coefficients α0, α1, β1, α2, and β2, respectively. And addIt is what I did.
[0008]
Therefore, according to the present invention, the following operations are performed. After obtaining each digital signal by the A / D converter with respect to the output of each microphone of the reference microphone, the first, second, and third pair,Arithmetic processing sectionBy each digital signalApply signal processing to.
[0009]
The signal processing performed in the arithmetic processing unit is as follows.
A first intermediate generation in which the difference between the outputs of the first pair of microphones is obtained and the difference is Fourier transformed to match the phase with the output of the reference microphone and the amplitude changes with cos θ with respect to the output of the reference microphone. Get the output.
A second intermediate generation in which the difference between the outputs of the second pair of microphones is obtained and the difference is Fourier transformed to match the phase of the output of the reference microphone and the amplitude changes with sin θ with respect to the output of the reference microphone. Get the output.
A sum of outputs of the second pair of microphones is obtained, and a Fourier transform is performed on the sum to obtain a third intermediate generation output whose amplitude changes at cos 2θ with respect to the output of the reference microphone.
The sum of the outputs of the third pair of microphones is obtained, and the sum is subjected to Fourier transform to obtain a fourth intermediate generation output whose amplitude changes with sin 2θ with respect to the output of the reference microphone.
The target directivity is represented by the coefficients α0, α1, β1, α2, β2 of the second order Fourier series, and the output of the reference microphone, the first intermediate generation output, the second intermediate generation output, and the third The intermediate generation output and the fourth intermediate generation output are weighted and added using coefficients α0, α1, β1, α2, and β2, respectively.
[0013]
theseProcessing in the processing unitThus, the main axis of directivity can be arbitrarily controlled and the directivity sharpness is further improved.
[0014]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, embodiments of the present invention will be described.
The microphone device of the present embodiment can combine three to seven microphones and digitally process them, thereby easily changing the main axis and realizing a wide band and narrow directivity suitable for speech recognition. At the same time, since voices from a plurality of main axis directions can be obtained separately, it is optimal for a voice recognition system and a video conference recording system.
[0015]
FIG. 1 is a layout diagram of microphone capsules to which the present exemplary embodiment is applied.
In FIG. 1, the reference microphone MIC0, the first pair of microphones MIC1 and MIC2 arranged around the reference microphone MIC0, and the first pair of microphones MIC1 and MIC2 around the reference microphone MIC0 are orthogonal. The second pair of microphones MIC3 and MIC4 and the first pair of microphones MIC1 and MIC2 and the second pair of microphones MIC3 and MIC4 are inclined at 45 degrees with respect to the reference microphone MIC0. A third pair of microphones MIC5 and MIC6 are arranged. These microphones MIC0 to MIC6 are arranged in a planar space. Further, the incident angle of the sound wave with respect to the reference axis based on MIC1, MIC0, and MIC2 is s degrees.
[0016]
Here, with respect to the position P of the reference microphone MIC0, the first pair of microphones MIC1 and MIC2 are arranged at equal intervals d1, and the second pair of microphones MIC3 and MIC4 are arranged at equal intervals d2. The third pair of microphones MIC5 and MIC6 are arranged at equal intervals d3.
[0017]
FIG. 2 is a diagram illustrating a difference in distance from the sound source according to the arrangement of each microphone.
FIG. 2A shows a time difference from the sound source according to the arrangement of the first pair of microphones MIC1 and MIC2. In FIG. 2A, the sound from the sound source incident at the incident angle s degrees reaches the microphone MIC1 in a short time corresponding to the distance (+ d1cos (s)) with respect to the position P of the reference microphone MIC0. MIC2 is reached in a long time corresponding to the distance (+ d1cos (s)).
[0018]
FIG. 2B shows the distance difference from the sound source according to the arrangement of the second pair of microphones MIC3 and MIC4. In FIG. 2B, the sound from the sound source incident at the incident angle s degrees reaches the microphone MIC3 with respect to the position P of the reference microphone MIC0 in a short time corresponding to the distance (+ d2sin (s)). The
[0019]
FIG. 2C shows the distance difference from the sound source according to the arrangement of the third pair of microphones MIC5 and MIC6. In FIG. 2C, the sound from the sound source incident at the incident angle s degree reaches the microphone MIC6 in a short time corresponding to the distance (+ d3sin (45−s)) with respect to the position P of the reference microphone MIC0. The microphone MIC5 is reached in a longer time corresponding to the distance (+ d3sin (45−s)).
[0020]
FIG. 3 is a hardware configuration diagram of a microphone device using the above-described microphone. In FIG. 3, the microphone device includes MIC0 (1), MIC1 (2), MIC2 (3), MIC3 (4), MIC4 (5), MIC5 (6), MIC6 (7), and each MIC0 (1), MIC1 (2), MIC2 (3), MIC3 (4), MIC4 (5), MIC5 (6), MIC6 (7), an amplifier 8, an
[0021]
The signal processing performed in the
[0022]
Here, when the sounds from the sound source separated by R from MIC0 are collected, the following
[0023]
[Expression 1]
[0024]
[Expression 2]
[0025]
[Equation 3]
[0026]
[Expression 4]
[0027]
[Equation 5]
[0028]
[Formula 6]
[0029]
[Expression 7]
[0030]
[Equation 8]
[0031]
These audio signals are converted into electrical signals in the MIC0 (1), MIC1 (2), MIC2 (3), MIC3 (4), MIC4 (5), MIC5 (6), and MIC6 (7), respectively. After being amplified by the amplifier 8, the
[0032]
The digital signal is subjected to the following processing in the
[0033]
[Equation 9]
[0034]
[Expression 10]
[0035]
## EQU11 ##
[0036]
[Expression 12]
[0037]
The signals xA (t), xB (t), xC (t), and xD (t) shown in the above-mentioned
[0038]
[Formula 13]
[0039]
[Expression 14]
[0040]
[Expression 15]
[0041]
[Expression 16]
[0042]
That is, the signals xA (t), xB (t), xC (t), and xD (t) shown in Equation 13, Equation 14,
[0043]
That is, the signals of xA (t), xB (t), xC (t), and xD (t) shown in Equation 13, Equation 14,
[0044]
In step S4, each mixed signal is stored in a buffer. Specifically, the signals xA (t), xB (t), xC (t), and xD (t) shown in Formula 13, Formula 14,
[0045]
In step S5, i indicating the number of processes is incremented. In step S6, it is determined whether i = N. If i = N is not satisfied in step S6, the process returns to step S2, and the processes and determinations from step S2 to step S6 are repeated.
[0046]
When i = N in step S6, pre-processing is performed in step S7. Specifically, the frame buffers having the number N of buffers all have x A (t), x B (t), x C (t), x shown in Equation 13, Equation 14,
[0047]
In step S8, frame processing is performed. Specifically, each process of phase conversion and amplitude characteristic correction is performed using fast Fourier transform (FFT).
[0048]
First, the output X A (ω) of the FFT for x A (t) shown in Equation 13 will be described. FIG. 5 shows incident angle dependence characteristics of sin (kd1cos θ) (here, d1 = 0.008 m) which is the amplitude component of xA (t). In FIG. 5, the incident angle dependence characteristic of sin (kd1 cos θ) varies according to the angular frequency ω of the signal (where k = ω / c) (1000 Hz, 2000 Hz, 3000 Hz, 4000 Hz, 5000 Hz, 6000 Hz). I understand.
[0049]
Therefore, FIG. 6 shows the incident angle dependence characteristics of sin (kd1cos θ) / sin (kd). Now consider XA (ω) / sin (kd1). In FIG. 6, the incident angle dependence characteristic of sin (kd1cosθ) / sin (kd1) varies depending on the angular frequency ω of the signal (where k = ω / c) (1000 Hz, 2000 Hz, 3000 Hz, 4000 Hz, 5000 Hz, 6000 Hz). You can see that it is almost gone.
[0050]
Further, as described above, the phase of x A (t) shown in Equation 13 including the imaginary component j is advanced by 90 degrees with respect to the signal x MIC0 (t) of
[0051]
[Expression 17]
[0052]
[Expression 18]
[0053]
Here, X′A (ω) = X′RA (ω) + jX′IA (ω), and
[0054]
[Equation 19]
[0055]
Similarly, a signal input from MIC0 is considered as follows. The FFT output XB (ω) for xB (t) shown in Equation 14 will be described. FIG. 7 shows incident angle dependence characteristics of sin (kd2sin (θ)) (here, d1 = 0.008 m), which is the amplitude component of xB (t). In FIG. 7, the incident angle dependence characteristic of sin (kd2sin (θ)) changes according to the angular frequency ω of the signal (where k = ω / c) (1000 Hz, 2000 Hz, 3000 Hz, 4000 Hz, 5000 Hz, 6000 Hz). I understand that
[0056]
Therefore, FIG. 8 shows the incident angle dependence characteristics of sin (kd2sin (θ)) / sin (kd2). Now consider XB (ω) / sin (kd2). In FIG. 8, the incident angle dependence characteristic of sin (kd2sinθ) / sin (kd2) varies depending on the angular frequency ω of the signal (where k = ω / c) (1000 Hz, 2000 Hz, 3000 Hz, 4000 Hz, 5000 Hz, 6000 Hz). You can see that it is almost gone.
[0057]
Further, as described above, the phase of xB (t) shown in Equation 14 including the imaginary component j is advanced by 90 degrees with respect to the signal xMIC0 (t) of
[0058]
[Expression 20]
[0059]
[Expression 21]
[0060]
Here, X′B (ω) = X′RB (ω) + jX′IB (ω), and
[0061]
[Expression 22]
[0062]
Next, the FFT output X C (ω) for x C (t) shown in
[0063]
[Expression 23]
[0064]
From this, the relationship of Equation 24 is obtained, and a component whose amplitude changes with cos 2θ is obtained from the output x C (ω) of the FFT with respect to x C (t) shown in
[0065]
[Expression 24]
[0066]
Next, the output X D (ω) of the FFT with respect to x D (t) shown in
[0067]
[Expression 25]
[0068]
From this, the relationship of Equation 26 is obtained, and from the output X D (ω) of the FFT with respect to x D (t) shown in
[0069]
[Equation 26]
[0070]
FIG. 9 shows the directivity characteristic ψ (θ) as an approximation target in the Fourier series. If the directivity D (θ) = 1 + ψ (θ) is obtained when the directivity characteristic ψ (θ) and the output of MIC0 shown in FIG. 9 are added, the sensitivity other than the beam can be suppressed. Here, the central angle of the main axis is θc (degrees), and the beam width is θw (degrees). At this time, ψ (θ) is expressed by the following series 27 by Fourier series expansion.
[0071]
[Expression 27]
[0072]
Actually, in the processing from the above formulas 13 to 26, only cos θ, sin θ, cos 2θ, and sin 2θ are obtained, so θw = 60 degrees is a value suitable for suppressing the sensitivity outside the beam. It is. The coefficients α0, αi, and βi are obtained by the following equations 28, 29, and 30.
[0073]
[Expression 28]
[0074]
[Expression 29]
[0075]
[30]
[0076]
FIG. 10 shows an example of ψ (θ) in the Fourier series when θc = 60 degrees and θw = 60 degrees.
[0077]
In the above equation 27, when M = 2 and the above intermediate generation output is weighted and added, as shown in equation 31, it is possible to obtain a characteristic that gives directivity only in the main axis direction.
[0078]
[31]
[0079]
However, in Expression 31, each intermediate generation output Ycos (ω), Y Rcos (ω), and Y Icos (ω) is expressed by the following Expression 32, Expression 33, and Expression 34, respectively. The intermediate generation outputs Ysin (ω), YRsin (ω), and YIsin (ω) are expressed by the following formulas 35, 36, and 37, respectively. Here, φA (ω) and φB (ω) indicate the phases of XA (ω) and XB (ω), respectively.
[0080]
[Expression 32]
[0081]
[Expression 33]
[0082]
[Expression 34]
[0083]
[Expression 35]
[0084]
[Expression 36]
[0085]
[Expression 37]
[0086]
Further, in Expression 31, each intermediate generation output Y cos (2ω) and Y sin (2ω) is expressed by the following Expression 38 and Expression 39, respectively.
[0087]
[Formula 38]
[0088]
[39]
[0089]
Here, simulation results when d1 = d2 = d3 = 0.008 m are shown in FIGS. FIG. 11 shows a simulation result of directivity when θc = 0 degrees, and FIG. 12 shows a simulation result of directivity characteristics when θc = 135 degrees. It can be seen that each shows directivity without frequency dependency. Since these directivities are finally determined by the coefficients αi and βi of the Fourier series, if a plurality of sets of αi and βi are prepared in advance for θc, weighted addition of each intermediate generation signal is performed. It becomes possible to separate and acquire sounds from a plurality of spindles in real time.
[0090]
In the above-described processing, the reference microphone MIC0 is used, but these functions can substitute for the reference microphone MIC0 by using MIC1 to MIC4. That is, the output sum from MIC1 to MIC4 is shown in Equation 40.
[0091]
[Formula 40]
[0092]
Here, when d1 = d2 = 0.008 m, the value of (cos (kd1cosθ) + cos (kd2sinθ)) / 2, which is the amplitude component in Equation 40, is the output sum of MIC1 to MIC4 shown in FIG. As shown in the incident angle dependence characteristics of As a result, the output sum of MIC1 to MIC4 is dependent on the value depending on the incident angle θ in the high range, but the angular frequency ω of the signal (where k = ω / c) (1000 Hz, 2000 Hz, 3000 Hz, 4000 Hz, 5000 Hz). 6000 Hz), it can be seen that the value is almost constant. Since these take an average value at θ = 22.5 degrees, it is possible to obtain characteristics that do not substantially depend on the angular frequency ω by performing correction as shown in the following formula 41, and approximation can be performed. .
[0093]
[Expression 41]
[0094]
Thus, by omitting the reference microphone MIC0 and using six microphones MIC1 to MIC6, the main axis of the directivity can be variably controlled, and directivity can be easily directed to the target sound source. .
[0095]
Y (ω) shown in the equation 31 obtained in this way is output in step S9 in FIG. Specifically, since the output Y (ω) has been subjected to frequency analysis, it can be treated as it is as a speech analysis result in the
[0096]
Then, after initialization processing is performed with i = 0 in step S10, the process returns to step S2 to repeat the processing and determination from step S2 to step S6.
[0097]
FIG. 14 shows the MIC omitted.
Hereinafter, the omission of the
[0098]
Equation 46 is obtained from Equation 42,
[0099]
[Expression 42]
[0100]
[Equation 43]
[0101]
(44)
[0102]
[Equation 45]
[0103]
[Equation 46]
[0104]
In this way, by expressing the output X B (ω) of the FFT with respect to x B (t) shown in the equation 14 using the equation 46, the sin θ component can be generated. it can.
[0105]
In addition, from the following equations 47 and 48, X D (ω) shown in equation 26 is expressed using X A (ω) as shown in equation 49, so that a sin 2θ component that is a double angle component X MIC0 (ω) cos2θ shown in Formula 24 can be expressed using XA (ω) as shown in Formula 50, thereby generating a cos2θ component that is a double angle component. Can do.
[0106]
This eliminates the need to calculate the sin 2θ component according to equation (26) from equation (49), which eliminates the need for mixing outputs of x MIC5 (t) and x MIC6 (t), and therefore, as shown in FIG. Can be omitted.
[0107]
Thus, by omitting the
[0108]
In addition, since MIC0 becomes unnecessary according to the above-described equation 41, MIC0 shown in FIG.
[0109]
As a result, by omitting
[0110]
In addition, since the calculation of the sin θ component according to the
[0111]
Thus, by omitting MIC5, 6, 3, and 4 and using three microphones from MIC0 to MIC2, the main axis of the directional characteristic can be controlled more easily and directivity to the target sound source. Can be easily directed.
[0112]
[Equation 47]
[0113]
[Formula 48]
[0114]
[Formula 49]
[0115]
[Equation 50]
[0116]
In FIG. 14C, when MIC3 and 4 are omitted, MIC0 is newly provided because the MIC0 signal is obtained from the signals of MIC1 to MIC4, but MIC3 and 4 are omitted. This is because.
[0117]
In the above-described embodiment, the second-order Fourier series expansion indicating a double angle component has been described. However, the present invention is not limited to this, and may be applied to third-order or higher-order Fourier series expansion.
[0118]
In other words, by using Equation 51 and Equation 52, the cos 3θ component that is a triple angle component can be generated by using X A (ω) as shown in Equation 53, and As expressed in Equation 54, a sin 3θ component that is a triple angle component can be generated by using XA (ω).
[0119]
As a result, it is possible to generate a component having a triple angle or more, and thereby a Fourier series can be approximated to a triple angle or more, thereby enabling higher-order Fourier series expansion.
[0120]
[Formula 51]
[0121]
[Formula 52]
[0122]
[Equation 53]
[0123]
[Formula 54]
[0124]
【The invention's effect】
A microphone device according to the present invention is a microphone device that controls the directivity characteristics of a microphone using a microphone to which a sound wave from a sound source is input. The reference microphone and the reference microphone are mainly used.Equally spacedA first pair of microphones disposed and orthogonal to the first pair of microphones about a reference microphoneEqually spacedA second pair of microphones to be disposed, and a tilt of 45 degrees with respect to the first pair of microphones and the second pair of microphones around the reference microphone.Equally spacedA third pair of microphones disposed;The A / D converter for converting the outputs of the reference microphone, the first, second and third pair of microphones into digital signals, respectively, and the signal processing for the digital signals from the A / D converter Arithmetic processing unitAnd the reference microphone, the first, second and third pair of microphones are arranged on the same plane,The arithmetic processing unit obtains a difference between the outputs of the first pair of microphones, and performs Fourier transform on the difference to match the phase with the output of the reference microphone and change the amplitude at cos θ with respect to the output of the reference microphone. The difference between the output of the first intermediate generation output and the output of the second pair of microphones is obtained, and the difference is Fourier transformed to match the phase of the reference microphone output and the output of the reference microphone. The process of obtaining the second intermediate generation output whose amplitude changes with sin θ and the sum of the outputs of the second pair of microphones are obtained, and this sum is subjected to Fourier transform, whereby the amplitude at cos 2θ with respect to the output of the reference microphone Is obtained by calculating the sum of the outputs of the third intermediate generation output in which the V is changed and the outputs of the third pair of microphones, and performing Fourier transform on the sum. The process of obtaining the fourth intermediate generation output whose amplitude changes with sin 2θ with respect to the output of the microphone, and the target directivity are represented by coefficients α0, α1, β1, α2, β2 of the second order Fourier series. , The output of the reference microphone, the first intermediate generation output, the second intermediate generation output, the third intermediate generation output, and the fourth intermediate generation output are weighted using coefficients α0, α1, β1, α2, and β2, respectively. And addAs a result, the main axis of directivity can be controlled arbitrarily and the accuracy of directivity can be improved.WhenThere is an effect.
[0125]
Further, the microphone device of the present invention is as described above.The arithmetic processing unit prepares a set of coefficients α1, β1, α2, and β2 for the central angles of a plurality of main axes in advance, and sets a coefficient corresponding to the central angle of the main axis from which the voice is to be separated. By using and weighting the first to fourth intermediate generation outputs, it becomes possible to separate and acquire sounds from a plurality of main axes in real time, so that only using one microphone device, for example, Separates left and right sound sources centered on a microphone and records or recognizes sound in real timeThere is an effect that can be.
[0126]
The microphone device of the present invention omits the reference microphone in the above,The arithmetic processing unit approximates the output of the reference microphone with the sum of the outputs of the first and second pairs of microphones.Therefore, the microphone device can be reduced in size and easily configured, and by using six microphones by omitting the reference microphone, the main axis of the directional characteristic can be variably controlled, and the directivity can be set to the target sound source. The effect that can be directed easily.
[0127]
Further, in the microphone device of the present invention, in the above description, the third pair of microphones is omitted,The arithmetic processing unit represents the fourth intermediate generation output using the first intermediate generation output.Therefore, the microphone device can be reduced in size and easily configured, and by omitting the third pair of microphones and using five microphones, the main axis of directivity can be easily variably controlled, There is an effect that directivity can be easily directed to the target sound source.
[0128]
Further, in the microphone device of the present invention, in the above description, the third pair of microphones is omitted,The arithmetic processing unit represents the fourth intermediate generation output using the first intermediate generation output.Therefore, by omitting the reference microphone and the third pair of microphones and using four microphones, the main axis of the directional characteristic can be variably controlled and the directivity can be easily set to the target sound source. There is an effect that it can be directed.
[0129]
The microphone device of the present invention omits the second pair of microphones in the above description,The arithmetic processing unit expresses the second intermediate generation output using the first intermediate generation output, and uses the first intermediate generation output to express a component whose amplitude changes by cos 2θ with respect to the output of the reference microphone. To expressTherefore, by omitting the second and third pair of microphones and using three microphones, the main axis of the directivity characteristic can be controlled more easily and directivity can be easily set to the target sound source. There is an effect that it can be directed.
[Brief description of the drawings]
FIG. 1 is a layout diagram of microphone capsules to which the exemplary embodiment is applied;
FIG. 2 is a diagram illustrating a distance difference from MIC0 according to the arrangement of each microphone, FIG. 2A is a distance difference from MIC0 according to the arrangement of the first pair of microphones MIC1 and MIC2, and FIG. FIG. 2C shows the distance difference from MIC0 according to the arrangement of the third pair of microphones MIC5 and MIC6.
FIG. 3 is a hardware configuration diagram of the microphone device.
FIG. 4 is a flowchart of signal processing in the arithmetic processing unit.
FIG. 5 is a graph showing an incident angle dependency characteristic of sin (kdcos θ).
FIG. 6 is a graph showing an incident angle dependency characteristic of sin (kdcos θ) / sin (kd).
FIG. 7 is a graph showing incident angle dependence characteristics of sin (kdsinθ).
FIG. 8 is a graph showing incident angle dependence characteristics of sin (kdsinθ) / sin (kd).
FIG. 9 is a diagram showing directivity characteristics that are approximate targets in a Fourier series.
FIG. 10 is a diagram illustrating an example of directivity characteristics in a Fourier series.
FIG. 11 is a diagram showing a simulation result of directivity when θc = 0 degrees.
12 is a diagram showing a simulation result of directivity when θc = 135 degrees. FIG.
FIG. 13 is a diagram showing incident angle dependence characteristics of output sums of MIC1 to MIC4.
14A is a diagram showing omission of MICs, FIG. 14A is five MICs in which
FIG. 15 is a block diagram of a conventional microphone system.
[Explanation of symbols]
1 ... MIC0, 2 ... MIC1, 3 ... MIC2, 4 ... MIC3, 5 ... MIC4, 6 ... MIC5, 7 ... MIC6, 8-14 ... Amplifier, 15-21 ... A / D Converter, 22 ... arithmetic processing device, 23 ... recording device or voice recognition device
Claims (6)
基準マイクロホンと、
上記基準マイクロホンを中心に等間隔に配置される第1の1対のマイクロホンと、
上記基準マイクロホンを中心に上記第1の1対のマイクロホンに直交して等間隔に配置される第2の1対のマイクロホンと、
上記基準マイクロホンを中心に上記第1の1対のマイクロホンおよび上記第2の1対のマイクロホンに対して45度傾けて等間隔に配置される第3の1対のマイクロホンと、
上記基準マイクロホン、第1、第2および第3の1対の各マイクロホンの出力をそれぞれディジタル信号に変換するA/D変換部と、
上記A/D変換部からのディジタル信号に対して信号処理を施す演算処理部と、を備え、
上記基準マイクロホン、上記第1、第2および第3の1対の各マイクロホンは同一平面上に配置され、
上記演算処理部は、
上記第1の1対のマイクロホンの出力の差を求め、該差をフーリエ変換することにより、上記基準マイクロホンの出力と位相を合わせ且つ上記基準マイクロホンの出力に対してcosθで振幅が変化する第1の中間生成出力を得る処理と、
上記第2の1対のマイクロホンの出力の差を求め、該差をフーリエ変換することにより、上記基準マイクロホンの出力と位相を合わせ且つ上記基準マイクロホンの出力に対してsinθで振幅が変化する第2の中間生成出力を得る処理と、
上記第2の1対のマイクロホンの出力の和を求め、該和をフーリエ変換することにより、上記基準マイクロホンの出力に対してcos2θで振幅が変化する第3の中間生成出力を得る処理と、
上記第3の1対のマイクロホンの出力の和を求め、該和をフーリエ変換することにより、上記基準マイクロホンの出力に対してsin2θで振幅が変化する第4の中間生成出力を得る処理と、
目標とする指向特性を、次数が2次のフーリエ級数の係数α0,α1,β1,α2,β2によって表し、上記基準マイクロホンの出力,上記第1の中間生成出力,上記第2の中間生成出力,上記第3の中間生成出力,上記第4の中間生成出力を、それぞれ上記係数α0,α1,β1,α2,β2を用いて重み付けして加算する処理とを行う
マイクロホン装置。In a microphone device that controls the directional characteristics of a microphone using a microphone to which sound waves from a sound source are input,
A reference microphone;
A first pair of microphones arranged at equal intervals around the reference microphone;
A second pair of microphones that are equally spaced orthogonal to the first pair of microphone mainly the reference microphone,
A third pair of microphones arranged at equal intervals with an inclination of 45 degrees with respect to the first pair of microphones and the second pair of microphones around the reference microphone;
An A / D converter that converts the output of each of the reference microphone, the first, second, and third pair of microphones into a digital signal;
An arithmetic processing unit that performs signal processing on the digital signal from the A / D conversion unit ,
The reference microphone and the first, second, and third pair of microphones are arranged on the same plane,
The arithmetic processing unit is
A difference between the outputs of the first pair of microphones is obtained, and the difference is Fourier transformed to match the phase of the output of the reference microphone and the amplitude changes with cos θ with respect to the output of the reference microphone. Processing to obtain the intermediate generation output of
A difference between the outputs of the second pair of microphones is obtained, and the difference is Fourier transformed to match the phase with the output of the reference microphone and the amplitude changes with sin θ with respect to the output of the reference microphone. Processing to obtain the intermediate generation output of
A process of obtaining a third intermediate generation output whose amplitude changes at cos 2θ with respect to the output of the reference microphone by obtaining a sum of outputs of the second pair of microphones and performing a Fourier transform on the sum;
A process of obtaining a fourth intermediate generation output whose amplitude changes with sin 2θ with respect to the output of the reference microphone by obtaining a sum of outputs of the third pair of microphones and performing a Fourier transform on the sum.
The target directivity is represented by the coefficients α0, α1, β1, α2, β2 of the second order Fourier series, and the output of the reference microphone, the first intermediate generation output, the second intermediate generation output, A microphone device that performs processing of weighting and adding the third intermediate generation output and the fourth intermediate generation output using the coefficients α0, α1, β1, α2, and β2, respectively .
上記演算処理部は、予め複数の主軸の中心角についてそれぞれ上記係数α1,β1,α2,β2の組を用意しておき、それらの組のうち音声を分離しようとする主軸の中心角に応じた係数を用いて上記第1乃至第4の中間生成出力を重み付けする
マイクロホン装置。The microphone device according to claim 1, wherein
The arithmetic processing unit prepares a set of coefficients α1, β1, α2, and β2 for the central angles of a plurality of main axes in advance, and according to the central angle of the main axis from which the voice is to be separated. A microphone device that weights the first to fourth intermediate generation outputs using a coefficient .
上記基準マイクロホンを省略して、
上記演算処理部により、上記第1および第2の1対の各マイクロホンの出力和で上記基準マイクロホンの出力を近似する
マイクロホン装置。The microphone device according to claim 1 , wherein
Omit the reference microphone,
A microphone device that approximates the output of the reference microphone by the sum of outputs of the first and second pairs of microphones by the arithmetic processing unit .
上記第3の1対のマイクロホンを省略して、
上記演算処理部により、上記第4の中間生成出力を、上記第1の中間生成出力を用いて表す
マイクロホン装置。The microphone device according to claim 1 , wherein
Omitting the third pair of microphones,
A microphone device that expresses the fourth intermediate generation output by using the first intermediate generation output by the arithmetic processing unit .
上記第3の1対のマイクロホンを省略して、
上記演算処理部により、上記第4の中間生成出力を、上記第1の中間生成出力を用いて表す
マイクロホン装置。The microphone device according to claim 3, wherein
Omitting the third pair of microphones,
A microphone device that expresses the fourth intermediate generation output by using the first intermediate generation output by the arithmetic processing unit .
上記第2の1対のマイクロホンを省略して、
上記演算処理部により、上記第2の中間生成出力を、上記第1の中間生成出力を用いて表すとともに、上記基準マイクロホンの出力に対してcos2θで振幅が変化する成分を、上記第1の中間生成出力を用いて表す
マイクロホン装置。The microphone device according to claim 4, wherein
Omitting the second pair of microphones,
The arithmetic processing unit represents the second intermediate generation output using the first intermediate generation output, and a component whose amplitude changes at cos 2θ with respect to the output of the reference microphone is represented by the first intermediate output. A microphone device that represents the generated output .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001063628A JP4483105B2 (en) | 2001-03-07 | 2001-03-07 | Microphone device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001063628A JP4483105B2 (en) | 2001-03-07 | 2001-03-07 | Microphone device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002271885A JP2002271885A (en) | 2002-09-20 |
JP4483105B2 true JP4483105B2 (en) | 2010-06-16 |
Family
ID=18922587
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001063628A Expired - Fee Related JP4483105B2 (en) | 2001-03-07 | 2001-03-07 | Microphone device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4483105B2 (en) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005333211A (en) | 2004-05-18 | 2005-12-02 | Sony Corp | Sound recording method, sound recording and reproducing method, sound recording apparatus, and sound reproducing apparatus |
JP4873913B2 (en) * | 2004-12-17 | 2012-02-08 | 学校法人早稲田大学 | Sound source separation system, sound source separation method, and acoustic signal acquisition apparatus |
JP4066197B2 (en) * | 2005-02-24 | 2008-03-26 | ソニー株式会社 | Microphone device |
JP2006304209A (en) * | 2005-04-25 | 2006-11-02 | Sony Corp | Array microphone apparatus and method for changing main shaft thereof |
JP2006304124A (en) * | 2005-04-25 | 2006-11-02 | V-Cube Inc | Apparatus and method for confirming direction of sound source |
US8189806B2 (en) | 2005-11-01 | 2012-05-29 | Panasonic Corporation | Sound collection apparatus |
JP4512028B2 (en) * | 2005-11-28 | 2010-07-28 | 日本電信電話株式会社 | Transmitter |
-
2001
- 2001-03-07 JP JP2001063628A patent/JP4483105B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2002271885A (en) | 2002-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6696011B2 (en) | Method and apparatus for rendering an audio field representation for audio playback | |
EP1856948B1 (en) | Position-independent microphone system | |
JP5229053B2 (en) | Signal processing apparatus, signal processing method, and program | |
JP4066197B2 (en) | Microphone device | |
CN1115663C (en) | Audio processing arrangement with multiple sources | |
CN110557710B (en) | Low complexity multi-channel intelligent loudspeaker with voice control | |
JP2015159598A (en) | Method and device for decoding audio soundfield representation for audio playback | |
KR102191736B1 (en) | Method and apparatus for speech enhancement with artificial neural network | |
JP4483105B2 (en) | Microphone device | |
JP2010124370A (en) | Signal processing device, signal processing method, and signal processing program | |
JP5734329B2 (en) | Sound field recording / reproducing apparatus, method, and program | |
Poletti et al. | Generation of half-space sound fields with application to personal sound systems | |
EP3761665B1 (en) | Acoustic signal processing device, acoustic signal processing method, and acoustic signal processing program | |
Leng et al. | A new method to design steerable first-order differential beamformers | |
WO2018167921A1 (en) | Signal processing device | |
EP2757811A1 (en) | Modal beamforming | |
JP2004279845A (en) | Signal separating method and its device | |
JP2016092562A (en) | Audio processing device and method, and program | |
Zhao et al. | Optimal Design of Symmetric and Asymmetric Beampatterns with Circular Microphone Arrays | |
JP2012109799A (en) | Noise suppression type microphone | |
JP5734327B2 (en) | Sound field recording / reproducing apparatus, method, and program | |
Ozawa et al. | Superdirective microphone array based on DOA and waveform estimations of noise | |
JP2014116822A (en) | Acoustic field sound acquisition/reproduction device, method, and program | |
Hongsen et al. | Acoustic direction of arrival estimation based on spatial circular prediction | |
JPH03113998A (en) | Array microphone |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080207 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20091022 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091027 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091218 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100302 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100315 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130402 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |