JP2007006353A

JP2007006353A - マイクロフォンアレイ

Info

Publication number: JP2007006353A
Application number: JP2005186681A
Authority: JP
Inventors: Masuzo Yanagida; 益造柳田
Original assignee: Doshisha Co Ltd
Current assignee: Doshisha Co Ltd
Priority date: 2005-06-27
Filing date: 2005-06-27
Publication date: 2007-01-11

Abstract

【課題】補間計算を必要としないで遅延加算処理できるようなマイクロフォンアレイを提供する。
【解決手段】本発明のマイクロフォンアレイは、サンプリング間隔に音が進む距離の整数倍の間隔で隣接するマイクロフォンを配置する。すなわち、音のサンプリング間隔をT、音速をv、整数をkとした場合に、「d=kvT」の間隔で各マイクロフォンを並べるようにする。そして、このように構成されたマイクロフォンアレイを目的音源の方向へ向けるようにする。
【選択図】図４

Description

本発明は、マイクロフォンアレイの構造に関するもので、より詳しくは、遅延加算処理を行う際に必要となる補間処理を排除することのできるマイクロフォンアレイの構造に関するものである。

現在の音声認識システムは、理想的な環境のもとで接話マイクを用いれば、ほぼ実用化できるレベルに達しているといえる。しかし、実環境において、マイクロフォンから離れて発話された音声を受音する場合、音エネルギーの減衰、背景雑音、部屋の残響によりＳ／Ｎが劣化し、認識率は急速に低下する。このことから、音声認識システムの実用化には、雑音や壁からの反射音などに対する頑健さが求められる。

音声認識を行うシステムにおいては、一般に、マイクロフォンアレイが広く用いられている（非特許文献１、特許文献１など）。このマイクロフォンアレイは、マイクロフォンを一定の間隔毎に直線状、或いは、平面状等に並べたものであり、目的の方向からきた音のみを強調できるようにしたものである。このマイクロフォンアレイの原理を図３に示す。図３において、Ｍ_a、Ｍ_bは主軸上に間隔ｄをもって配置されたマイクロフォンである。このマイクロフォンに無限遠方から音波が角度θをもって到達すると、隣り合うマイクロフォンへの到達時間差はそれぞれ「ｄcosθ／v」になる（ここで、「v」は音速である）。このため、これらの到達時間差をずらしながら各マイクロフォンで受音した信号を加算処理すれば、指定された角度θからの信号のみを強調することができる。
特開２００３−３３３６８３号公報 J.L.Flanagan、 J.D.Johnston、 R.Zahn and G.W.Elko、 "Computer - Steered Microphone Arrays for Sound Transduction in Large Rooms"、 J.Acoust. Soc.Am.、 Vol.78、 No.5、 pp.1508-1518、 1985.

ところで、このようなマイクロフォンアレイを用いて信号処理を行う場合、一般に、デジタル処理がなされる。しかしながら、このようなデジタル処理によって信号を取得する場合、サンプリング周期に基づく離散的な信号しか得ることができず、それぞれのマイクロフォンで受音した信号の加算処理の対象となる点とサンプリング点が一致しない場合がある。この状態を図８に示すと、マイクロフォンＭ_aで受音した信号（図８（ａ））は、マイクロフォンＭ_bに対して遅延時間「dcosθ／v」だけ遅れて受音される。このとき、マイクロフォンＭ_aによる受音波形のサンプリング時刻における値は、下図（ｂ）におけるマイクロフォンＭ_bでの丸印に対応する。しかしながら、マイクロフォンＭ_bでのサンプリング時刻は、加算対象となる時刻と一般的には一致しないため、加算対象となる値をサンプリング値から補間計算しなければならない。しかしながら、このような補間計算は、高速に行う方法もあるが、一般的には、処理に手間がかかるうえ、どうしても計算に誤差を生じてしまい、音声認識率を低下させてしまう可能性がある。

そこで、本発明は上記課題に着目してなされたもので、補間計算を必要としないで遅延加算処理できるようなマイクロフォンアレイを提供することを目的とする。

すなわち、本発明は上記課題を解決するために、複数のマイクロフォンを直線上に並べてなるマイクロフォンアレイにおいて、サンプリング間隔に音が進む距離の整数倍（kを整数、vを音速、Tをサンプリング間隔とすると、「d=kvT」）上にマイクロフォンを配置するようにしたものである。

このような間隔をもってマイクロフォンを配置すれば、マイクロフォンアレイを目的の音源方向へ向けることで、図８（ｃ）（ｄ）のように各マイクロフォンのサンプリング点の信号をすべて一致させることができ、遅延加算処理を行う際の補間計算を排除することができる。これによって、音響処理の頑健性を確保することができ、最終的には目的音声の認識率を向上させることができるようになる。

また、初期状態において到来方向を瞬時にあるいはごく短時間内に検出するために、マイクロフォンが並べられた直線方向に対して、互いに直交する方向に複数のマイクロフォンを設けるようにする。

一般に、主軸だけにマイクロフォンを配列した場合、そのマイクロフォンアレイの軸方向に対する音波の入射角θが分かったとしても、その主軸に対して頂角θとする円錐のどの方向から音波が到達したのか分からない。これに対して、上述のように、互いに直交する方向にマイクロフォンを設ければ、各軸に対して音源の方向を示す円錐が３つ得られ、これら３つの円錐の交線（正確には２つの円錐の２本の交線のうちのどちらか一方）によって音源の方向を一意的に特定することができる。

本発明のマイクロフォンアレイは、音のサンプリング間隔をT、音速をv、整数をkとした場合に、「d=kvT」の間隔で各マイクロフォンを並べるようにしたので、このマイクロフォンアレイの主軸を目的の音源方向へ向けることで、遅延加算処理を行う際に必要であった補間計算を排除することができる。これにより、音響処理の頑健性を確保することができ、最終的には目的音声の認識率を向上させることができるようになる。

以下、本発明の一実施の形態におけるマイクロフォンアレイについて図面を参照して説明する。

図１ａは、本実施の形態におけるマイクロフォンアレイ２の斜視図を示したものであり、図１ｂはその側面図、図１ｃは平面図を示している。図１において、マイクロフォンは、主軸上（Ｘ軸とする）に少なくとも２つ以上設けられ、また、この主軸に対して直交するＹ軸方向およびＺ軸方向にも少なくとも１つ以上のマイクロフォンが設けられる。各マイクロフォンは、後述する数１を満足するような関係をもって等間隔で設けられる。そして、全体として主軸の方向を音源の方向に向けられるように構成されている。

図２は、マイクロフォンアレイが接続されるマイクロフォン装置１の機能ブロック図を示している。図２において、１はマイクロフォン装置であり、２はマイクロフォンアレイ、３はＡ／Ｄ変換器、４は遅延加算処理部である。このマイクロフォンアレイ２によって受音された信号は、Ａ／Ｄ変換器３にてデジタル信号に変換され、遅延加算処理部４にて遅延加算処理が行われた後、音声認識装置５に出力される。そして、その音声認識装置５で音声認識が行われる。

次に、このマイクロフォンアレイ２の構造について説明する。このように構成されたマイクロフォンアレイ２に角度θで無限遠から音波が入力すると、図３に示すように、各音波は経路Ｌ（=dcosθ）に対応する時間差をもって各マイクロフォンで受音される。しかし、正確な音源の方向が分かっている場合は、サンプリング間隔に音が進む距離の整数倍の間隔で隣接するマイクロフォンを配置すれば、従来の遅延加算処理を行う際に必要となっていた補間計算を排除することが可能となる。この遅延加算で補間処理を排除するには、次の２つの条件が必要となる。
（１）サンプリング間隔に音が進む距離の整数倍（kを整数、vを音速、Tをサンプリング間隔とすると、kvTで表現される）の間隔にマイクロフォンを直線状に並べる。
（２）マイクロフォンアレイ２を正確に目的音源の方向に向ける。

このような条件を満たせば、遅延加算の対象となる時間とサンプリング時間のずれをなくすことがで、補間計算の必要性をなくすことができるようになる。すなわち、上述のような間隔でマイクロフォンを配置すれば、図８の下図（ｃ）（ｄ）に示すように、各マイクロフォンで受音される信号の遅延時間は、サンプリング間隔の整数倍となるため、サンプリング時間と加算対象となる時間を一致させることができ、補間計算を行う必要性がなくなる。

次に、マイクロフォンアレイ２を目的音源の方向に向ける方法について説明する。主軸を目的音源の方向に向けるためには、音源方向を推定しなければならないが、この実施の形態では、まず、音源方向を推定する方法としてＣＳＰ（Cross Spectrum Phase analysis）法を用いる。この方法は、２素子のマイクロフォンで実現可能である上、計算量も少ない。このＣＳＰ法は、図３に示すマイクロフォンＭａ、Ｍｂで受音した信号s_a（n）、s_b（n）から計算される下記のＣＳＰ関数から、その最大を与えるkをk₁として、到来時間差Δτ₁(=k₁T)を推定し、音源方向θ_１を求める方法である。具体的には、下記の数式によってC_a,b(k)、k_1、θ₁は計算される。

つまり２つのマイクロフォンＭａ、Ｍｂで受音された信号をフーリエ変換して、位相に関する相互関数としてＣＳＰ関数を求め、ＣＳＰ関数の大きくなる時間差（相関の強い時間遅れ）k₁を求め、そのk₁に基づいて到来方向を推定する。

また、図４のように、マイクロフォンを直線状に配置した場合、数３で角度θ₁がわかったとしてもマイクロフォンアレイ２に対して周回方向のどの方向から音が来ているのかわからない。

そこで、主軸に対して直交するＹ軸方向およびＺ軸方向に２つのマイクロフォンを設け、同様にして角度θ、θ_y、θ_z（θはｘ軸とのなす角度、θ_y,zはｙ軸・ｚ座標軸とのなす角度）を推定する。すると、図４のような、音源の方向を示す円錐が３つ得られ、３つの円錐の交線を決めることができる。この直線の方向に音源が存在することになり、いかなる方向から到来する音に対しても、その到来方向を一回のデータ取得で求めることが可能となる。

音源が１つの場合、ＣＳＰ法は音源方向を推定する方法としては非常に優れている。しかし、複数の音源から、目的となる音源を一つ見つける場合、音響処理だけでは推定した音源が目的音であるのか、或いは、雑音であるのかの判断が非常に困難である。そこで、音源の判別は画像処理で行うことにし、ＣＳＰ関数がＣ_a，b（k）が最大となるk₁から得られる方向θ₁が必ずしも目的音源方向であるとは限らないことを想定して、m番目（m≦音源数）に大きな相関となるk_m-1も求める。音源の数が未知の場合には、ＣＳＰが一定の値（経験的に0.2）以上をとる時間遅れをすべて求めておく。ここで相関が最大となる標本点k₁の前後の標本点k₁±１も相関が大きくなっている可能性がある。そのため、次に大きな相関となる標本点が標本点k₁から１サンプル以上離れていない場合は、その標本点を無視する。一般に音源方向は遅延時間とマイクロフォン間隔によって決まるが、仮に、３次元に配置したマイクロフォンの間隔をd=10ｃｍとすると、上記の条件ＣＳＰ関数Ｃ_a,b（k）から求められる音源方向の誤差の最大幅は10度になる。

マイクロフォン間隔をkvTと固定した場合、マイクロフォンアレイ２上に存在する音源から来る音だけが、補間処理を除いて遅延加算することが可能となる。しかし、上記の方法では、おおよその目的音源の方向は判明するが、θやθ_y、θ_zの推定に誤差が生じてしまう。そこで、マイクロフォンで受音した音を補間せずに遅延加算処理するために、より正確な音源方向を推定することが必要となる。

そこで、本実施の形態では、カメラを使用し、ある短い時間間隔で撮影した画像間の差分情報によって目的音源の方向を正確に捉える。但し、前述の音響処理によってマイクロフォンアレイ２はほぼ目的音源の方向を向いており、カメラの視野内に人物がいて、その人物が目的音声の話者であることを想定する。話者は、声を出しているので少なくとも口元は動いており、差分情報は得られる。また、話者のいる位置はマイクロフォンから数ｍ以内とし、残響が少ない音場環境を想定する。図５のように、カメラで撮影した画像の大きさは、横i∈I、 j∈Ｊとする。

時刻tでカメラが撮る画像Ｇを座標（i, j）、色c（c=r，g，b）及び時刻ｔの関数Ｇ（i, j，c，ｔ）とし、差分画像Ｄ(i, j）を次式で定義する（時刻ｔは省略）

Ｄ(i, j）が、あらかじめ決めた閾値αを超える場合、座標（i, j）に「閾値差分がある」と表現する。

差分画像Ｄに基づいて、話者の方向を次のように推定することができる。
（１）３つの円錐の共通する領域から、大雑把に目的音源の方向を推定し、主軸の方向をその目的音源の方向に向ける。
（２）マイクロフォンアレイ２の軸方向に取り付けたカメラを使用してΔｔ間隔で捉えた２つの静止画像の差分Ｄ(i, j）を求める。
（３）閾値以上の差分をもつピクセルによって構成される画像（閾値差分画像と呼ぶ）の重心がカメラ視野の中心に来るようにマイクロフォンアレイ２の向きを微調整する。

人間が動いた場合、画像間の差分をとると、Ｄが閾値を超える最も上の位置（数５、数６）が人間の頭頂であると考えられる。ここで、数７で表される閾値差分画像の重心を（i_c、j_c）とする。また、人物とカメラは数ｍ離れており、（i₀、j₀）から、下方に10度、左右に5度の範囲内には、人物の頭部が収まると考えられる。

カメラの水平方向の視野角が、例えば、45度になっている場合、カメラが捉えた画像を３等分すると、分けられた各部分は水平角でおよそ15度分の領域を映し出していることになる。水平視野角が15度であることは、ＣＳＰ法による方向推定誤差平均4.6度以内にあり、音響処理によって求めた音源方向にマイクロフォンアレイ２の向きを変えた場合に、話者はカメラで捉えた画像の中央部分に来る可能性が高い。よって、差分画像の中央部分に閾値差分として顔の輪郭（Ｄ(i, j)≧αとなる（i, j）を結ぶと得られる）が現れると期待できる。また、閾値差分があらわれる方向には人物が存在していると仮定する。この人物が必ずしも発話者であるとは限らない。つまり、音響処理で求めた音源方向θ_p（pは整数）にマイクロフォンアレイ２を向けて差分をとった場合、閾値以上の差分をもつピクセルによる画像の中心部分（15度分の領域）に閾値を超える差分があらわれず、両端部分に閾値差分画像があらわれる場合は、画面上に映っている人物は発話者ではないと言える。

上記の方法を用いて求めた口の方向とカメラで撮った画像の中心（I/2，J/2）との差を詰めるようにマイクロフォンアレイ２の向きを変えることによって、マイクロフォンアレイ２を正確に話者の口の方向に向けることができる。画像処理を利用したマイクロフォンアレイ方向修正システムの操作画面を図６に示す。

図６中の画面Ａは、マイクロフォンアレイ２と同じ向きに設置したカメラで捉えたリアルタイム画像、画面Ｂと画面Ｃは、数秒差で撮影された画像（画面Ｃの方が数秒遅い状態を撮影した画像）、画面Ｄは画面Ｂと画面Ｃの閾値α以上となった閾値差分画像である。最後に、差分画像から求めた重心とカメラで撮った画像の中心との差が角度としてＥに示されている。

雑音源は、動かないで音を発生するもの（たとえば、PCやエアコンなど）を想定している。また、大きな物音を立てず、言葉を発しない人間は発話者と見なさない。始めに、発話者に何か言葉（「こっち」「ここだよ」などの単語）を発してもらい、３次元的に配置したマイクロフォンを使用することで音の到来方向を推定し、マイクロフォンアレイ２を推定方向に向ける。しかし、上述のように、マイクロフォンアレイ２が雑音方向に向いてしまう可能性がある。そこで、画像処理（差分情報）により、主軸の方向に人物がいないことを判断する。人物がいないことが分かると再度主軸の向きを変える。主軸が発話者のいる方向に向けば、画像処理（差分情報）から主軸の方向を正確に発話者方向に向ける。最後に、再度発話者に認識してもらいたい単語を発してもらう。図７に、各処理手順（ステップ１〜１０）を簡単に説明する。

ステップ１〜２：発話者の位置を大まかに掴むため、発話者の音声をマイクロフォンで受音し、ＣＳＰが最も大きくなる時間遅れk₁Tを検出する。しかし、ＣＳＰ法で得た最大となる時間遅れk₁Tが目的音源（目的とする音源は1つ）からの信号とは限らず、雑音からの信号という可能性もあるので、最大となるk₁T以外も求める。ステップ２において、求めるpの個数は、上述した通りとする。

ステップ3：音源方向θ_pを求める。音源から来る信号が各マイクロフォンに到達する時間差vk_pTをvk₁T（ＣＳＰが最大となる時間差、p=1）とおく。このときの音源方向θ₁を数３により求め、マイクロフォンアレイ２を音源方向に向ける。

ステップ４〜７：図６中の画像Ｄに差分情報が得られなければ、現在向いている音源方向は目的音源ではなく雑音源ということになる。そこで、２番目に大きな相関となる時間差Δτ₂（p←p+1）から、別の推定音源方向θ₂を計算し、主軸をθ₂の方向に向ける。以下同様に、取り込んだ時系列画像間の閾値差分画像があらわれるまで繰り返す。

ステップ８：時間的にΔｔ間ずれた画像間にD(i, j)≧αの点の集合が画像の中心部分にある場合、その重心（i_c、j_c）が画像の中心に来るように主軸の方向を微調整する。これによりマイクロフォンアレイ２は正確に目的音源の方向に向くことになる。

ステップ９〜１０：再度話者に発話してもらい、マイクロフォンで受音した音声を遅延加算する。一度発話者方向にマイクロフォンアレイ２を向けておけば、あとは話者は大きく移動しないので画像処理でターゲットを追跡することが可能となる。ここではマイクロフォンの間隔を2vT（２サンプリング分の間隔）に固定して配置しているので、音源に一番近いマイクロフォンを基準として２×ｎサンプリング点分ずらして加算する方法なので、補間計算の必要はない。なお、「ｎ」は、最後尾のマイクロフォンから数えたインターバルの数（ｎ=1〜7）である。最後に、音声認識システムを用いて認識率を算出する。

上述のように、本実施の形態よれば、マイクロフォンの間隔を、サンプリング間隔に音が進む距離の整数倍となるようにしたので、このようなマイクロフォンアレイ２を音源方向に向けることで、従来の遅延加算処理の際に必要であった補間計算を排除することができるようになる。

なお、本発明は上記実施の形態に限定されることなく、種々の態様で実施することができる。

すなわち、例えば上記実施の形態では、Ｙ軸方向やＺ軸方向にもマイクロフォンを設けるようにしているが、これは音源方向を推定するために設けたものであり、他の手段によって目的音源の方向を正確に特定することができれば、主軸上にのみマイクロフォンを配置すればよい。

補間処理を排除することによる効果を調べるため、一般的な遅延加算で必要となる補間処理を施す場合と、遅延加算で補間処理を必要としない場合を比較する。具体的には、図９のように補間を必要としない方法（マイクロフォンアレイが正確に目的音源方向に向いており、マイクロフォンを整数k、サンプリング間隔で並べる）を利用し補間処理排除の効果を調べる。

補間処理によって認識精度にどれほど影響があるのかを調べるため、補間処理を必要とする場合(A)と補間処理を排除した場合(B)について認識率を比較する。
(A)マイクロフォンを直線状に等間隔に並べる。音源方向を様々に設定する。
(B)マイクロフォンを直線状に等間隔（サンプリング間隔に音が進む距離の整数倍の間隔）に並べ、マイクロフォンアレイの向く方向は正確に目的音源方向に向いている。

補間処理が必要となる場合としてＡ１、Ａ２を想定する。Ａ１はＣＳＰが最大になる時間差の方向に強制的に目的音源を想定する場合で、Ａ２は、画像間の差分を用いて、雑音源と目的音源を区別する場合である。

Ａ１：ＣＳＰ関数が最大となる方向が目的信号であると想定して遅延加算処理をする（雑音方向に相関が最大となる場合でも、強制的に加算処理してしまう）

Ａ２：ＣＳＰ関数と画像（差分）を使って目的音源であることを確認した上で通常の遅延加算処理をする。

実験に用いた音声データは、防音室で接話マイクロフォンを用いて収録したもので、ライン入力での認識率は100%である。音声データの内訳は、男性2名、女性1名の計3名がそれぞれ50発話を発声した計150発話である。音声データの発声内容はテレビ操作コマンドで、例えば、「テレビON」や「テレビアサヒ」などである。目的音声としては、これを防音室内でスピーカー再生した。雑音源としては、ホワイトノイズと音楽を用い、別のスピーカーから流した。音源でのS/Nは10ｄB、音声データの収録条件は、16Ksamples/sec、16bitsである。図９での配置をL=100cm、θ=60°、d=4.25cm(=2vT)とした。音声認識に用いる辞書のサイズは99、文法ルール数は13である。音声認識デコーダは「Julian」を用いている。

図１０は、補間処理が必要な場合と、補間を排除した手法の認識率を示す。手法Ａ２とＢでは、1本のマイクロフォンで認識した結果よりマイクロフォンを複数用いて遅延加算処理をした方が必ず良い結果となった、しかし手法Ａ１ではマイクロフォン1本のみの処理結果が最も良い。理由として、Ａ１では、ＣＳＰ関数が最も大きくなる方向からの音を目的信号と想定して強制的に強調してしまうので、雑音源からのから音を強調してしまう場合があるためと考えられる。以上の結果から、補間処理を排除した遅延加算する手法が最もよい認識率を与えており、補間処理を排除することの効果があったと言える。

表1には、1本のマイクロフォンで収録された音声の認識率と上記3種類（Ａ１、Ａ２、Ｂ）の手法を、それぞれ使用マイクロフォン数２、４、８本すべてを平均した認識率との差より、認識できた単語の増減数を示した。これについて符号検定を行ったところ、手法Ｂのホワイトノイズを用いた認識率に関しては有意水準5％で有意差有りとなった。

音響処理だけで求めた音源方向と、音響処理と画像処理を併用して求めた音源方向の推定誤差を比較し、さらに方向推定誤差の認識率への影響を調べる。図１１のようにマイクロフォンアレイが向く方向を目的音源に対して角度θずらして認識率の違いを調べることで、音源方向の推定誤差およびそれが認識率にどの程度影響を与えるのかを調べる。

音声データは、上述の「テレビＯＮ」「テレビアサヒ」などと同じものを用い、雑音は、ホワイトノイズを使用した。雑実験では、図１０での配置を、L=100cm、ψ=60°、d=4.25(=2vT)、マイクロフォンアレイを動かす角度θを5度刻みとした。

図１２は、音響処理のみと画像処理を併用したときの、目的音源からの推定誤差を示す。音響処理のみの誤差（4.6度）と比べると画像処理を併用した場合の誤差は、約１/４の1.18度に縮小された。

図１３は、音源方向の推定誤差と音声認識率の関係を示す。この結果より、目的音源と主軸の方向との誤差が少ないほど認識率が高いことが分かる。つまり、高い認識率を得るためには、音源方向の推定を正確に捕捉することが必要となる。

次に、音響処理と画像処理を併用して音源方向を推定した場合の認識率の改善を調べる。補間処理を用いる一般的な方法1をベースラインとして、マイクロフォンアレイを音源方向に向ける処理を音響処理だけを用いた場合（方法２）と、画像処理併用した場合（方法３）を比較する。
１．ＣＳＰ関数と画像（差分）を使って目的音源であることを確認した上で遅延加算処理をする。
２．補間なしの遅延加算（音響処理のみ）
３．補間なしの遅延加算（音響処理と画像処理の併用）

音声データは、上記データ（「テレビＯＮ」「テレビアサヒ」など）と同じデータを用いた。雑音にはホワイトノイズを用いた。

図１４のように、提案手法（音響処理と画像処理の利用）を利用することにより、より高い認識率が得られた。ここでも、上記の3つの方法1、2、3を符号検定したところ、平均値に差は認められるが有意差なしという結果になった。

また、使用したマイクロフォンの数と音声認識率のとの関係（図１０、１３、１４）において、遅延加算処理を行うマイクロフォンの使用数を4本と8本で比較すると、同じような認識率か、むしろ8本で遅延加算処理した方が低くなってしまう。この理由として、音の減衰、マイクロフォンの干渉、マイクロフォンの間隔の誤差などが考えられる。

本実施例では、音響処理と画像処理を併用し、複数のマイクロフォンを使い、補間処理を排除する遅延加算方法を提案した。認識実験の結果、ライン入力で認識率100%の音声が認識率約60%に低下する雑音環境において、4本のマイクロフォンを使った遅延加算で約8%の音声認識率の改善が得られた。

本実施の形態におけるマイクロフォンアレイの構成図同形態におけるマイクロフォン装置の機能ブロック図マイクロフォンと音の入力方向との関係を示す図音の到来方向を示す図同形態における知己位置差分画像から重心を求める図同形態におけるアレイ方向修正システムの操作画面例同形態における処理手順を示すフローチャート音声信号とサンプリング時間との関係を示す図本実施例における目的音源を強調するための並べ方を示す図同実施例における補完処理排除の効果を示す図同実施例における方向推定誤差による認識率の変化を調べるための配置を示す図同実施例における方向誤差の比較を示す図同実施例における目的音源とアレイの向きの誤差と認識率の関係を示す図本実施例における音声認識率を示す実験結果

符号の説明

１ …マイクロフォンアレイ装置
２ …マイクロフォンアレイ
３ …Ａ／Ｄ変換器
４ …遅延加算処理部
５ …音声認識装置
Ｍa、Ｍb・・・Ｍy、Ｍz …マイクロフォン

Claims

複数のマイクロフォンを備えてなるマイクロフォンアレイにおいて、音のサンプリング間隔をT、音速をv、整数をkとした場合に、kvTの間隔をもって直線上にマイクロフォンを並べたことを特徴とするマイクロフォンアレイ。
前記直線方向に対して互いに直交する方向に複数のマイクロフォンを設けた請求項１に記載のマイクロフォンアレイ。