JP2007006353A - マイクロフォンアレイ - Google Patents
マイクロフォンアレイ Download PDFInfo
- Publication number
- JP2007006353A JP2007006353A JP2005186681A JP2005186681A JP2007006353A JP 2007006353 A JP2007006353 A JP 2007006353A JP 2005186681 A JP2005186681 A JP 2005186681A JP 2005186681 A JP2005186681 A JP 2005186681A JP 2007006353 A JP2007006353 A JP 2007006353A
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- microphone array
- microphone
- microphones
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
Abstract
【課題】補間計算を必要としないで遅延加算処理できるようなマイクロフォンアレイを提供する。
【解決手段】本発明のマイクロフォンアレイは、サンプリング間隔に音が進む距離の整数倍の間隔で隣接するマイクロフォンを配置する。すなわち、音のサンプリング間隔をT、音速をv、整数をkとした場合に、「d=kvT」の間隔で各マイクロフォンを並べるようにする。そして、このように構成されたマイクロフォンアレイを目的音源の方向へ向けるようにする。
【選択図】図4
【解決手段】本発明のマイクロフォンアレイは、サンプリング間隔に音が進む距離の整数倍の間隔で隣接するマイクロフォンを配置する。すなわち、音のサンプリング間隔をT、音速をv、整数をkとした場合に、「d=kvT」の間隔で各マイクロフォンを並べるようにする。そして、このように構成されたマイクロフォンアレイを目的音源の方向へ向けるようにする。
【選択図】図4
Description
本発明は、マイクロフォンアレイの構造に関するもので、より詳しくは、遅延加算処理を行う際に必要となる補間処理を排除することのできるマイクロフォンアレイの構造に関するものである。
現在の音声認識システムは、理想的な環境のもとで接話マイクを用いれば、ほぼ実用化できるレベルに達しているといえる。しかし、実環境において、マイクロフォンから離れて発話された音声を受音する場合、音エネルギーの減衰、背景雑音、部屋の残響によりS/Nが劣化し、認識率は急速に低下する。このことから、音声認識システムの実用化には、雑音や壁からの反射音などに対する頑健さが求められる。
音声認識を行うシステムにおいては、一般に、マイクロフォンアレイが広く用いられている(非特許文献1、特許文献1など)。このマイクロフォンアレイは、マイクロフォンを一定の間隔毎に直線状、或いは、平面状等に並べたものであり、目的の方向からきた音のみを強調できるようにしたものである。このマイクロフォンアレイの原理を図3に示す。図3において、Ma、Mbは主軸上に間隔dをもって配置されたマイクロフォンである。このマイクロフォンに無限遠方から音波が角度θをもって到達すると、隣り合うマイクロフォンへの到達時間差はそれぞれ「dcosθ/v」になる(ここで、「v」は音速である)。このため、これらの到達時間差をずらしながら各マイクロフォンで受音した信号を加算処理すれば、指定された角度θからの信号のみを強調することができる。
特開2003−333683号公報
J.L.Flanagan、 J.D.Johnston、 R.Zahn and G.W.Elko、 "Computer - Steered Microphone Arrays for Sound Transduction in Large Rooms"、 J.Acoust. Soc.Am.、 Vol.78、 No.5、 pp.1508-1518、 1985.
ところで、このようなマイクロフォンアレイを用いて信号処理を行う場合、一般に、デジタル処理がなされる。しかしながら、このようなデジタル処理によって信号を取得する場合、サンプリング周期に基づく離散的な信号しか得ることができず、それぞれのマイクロフォンで受音した信号の加算処理の対象となる点とサンプリング点が一致しない場合がある。この状態を図8に示すと、マイクロフォンMaで受音した信号(図8(a))は、マイクロフォンMbに対して遅延時間「dcosθ/v」だけ遅れて受音される。このとき、マイクロフォンMaによる受音波形のサンプリング時刻における値は、下図(b)におけるマイクロフォンMbでの丸印に対応する。しかしながら、マイクロフォンMbでのサンプリング時刻は、加算対象となる時刻と一般的には一致しないため、加算対象となる値をサンプリング値から補間計算しなければならない。しかしながら、このような補間計算は、高速に行う方法もあるが、一般的には、処理に手間がかかるうえ、どうしても計算に誤差を生じてしまい、音声認識率を低下させてしまう可能性がある。
そこで、本発明は上記課題に着目してなされたもので、補間計算を必要としないで遅延加算処理できるようなマイクロフォンアレイを提供することを目的とする。
すなわち、本発明は上記課題を解決するために、複数のマイクロフォンを直線上に並べてなるマイクロフォンアレイにおいて、サンプリング間隔に音が進む距離の整数倍(kを整数、vを音速、Tをサンプリング間隔とすると、「d=kvT」)上にマイクロフォンを配置するようにしたものである。
このような間隔をもってマイクロフォンを配置すれば、マイクロフォンアレイを目的の音源方向へ向けることで、図8(c)(d)のように各マイクロフォンのサンプリング点の信号をすべて一致させることができ、遅延加算処理を行う際の補間計算を排除することができる。これによって、音響処理の頑健性を確保することができ、最終的には目的音声の認識率を向上させることができるようになる。
また、初期状態において到来方向を瞬時にあるいはごく短時間内に検出するために、マイクロフォンが並べられた直線方向に対して、互いに直交する方向に複数のマイクロフォンを設けるようにする。
一般に、主軸だけにマイクロフォンを配列した場合、そのマイクロフォンアレイの軸方向に対する音波の入射角θが分かったとしても、その主軸に対して頂角θとする円錐のどの方向から音波が到達したのか分からない。これに対して、上述のように、互いに直交する方向にマイクロフォンを設ければ、各軸に対して音源の方向を示す円錐が3つ得られ、これら3つの円錐の交線(正確には2つの円錐の2本の交線のうちのどちらか一方)によって音源の方向を一意的に特定することができる。
本発明のマイクロフォンアレイは、音のサンプリング間隔をT、音速をv、整数をkとした場合に、「d=kvT」の間隔で各マイクロフォンを並べるようにしたので、このマイクロフォンアレイの主軸を目的の音源方向へ向けることで、遅延加算処理を行う際に必要であった補間計算を排除することができる。これにより、音響処理の頑健性を確保することができ、最終的には目的音声の認識率を向上させることができるようになる。
以下、本発明の一実施の形態におけるマイクロフォンアレイについて図面を参照して説明する。
図1aは、本実施の形態におけるマイクロフォンアレイ2の斜視図を示したものであり、図1bはその側面図、図1cは平面図を示している。図1において、マイクロフォンは、主軸上(X軸とする)に少なくとも2つ以上設けられ、また、この主軸に対して直交するY軸方向およびZ軸方向にも少なくとも1つ以上のマイクロフォンが設けられる。各マイクロフォンは、後述する数1を満足するような関係をもって等間隔で設けられる。そして、全体として主軸の方向を音源の方向に向けられるように構成されている。
図2は、マイクロフォンアレイが接続されるマイクロフォン装置1の機能ブロック図を示している。図2において、1はマイクロフォン装置であり、2はマイクロフォンアレイ、3はA/D変換器、4は遅延加算処理部である。このマイクロフォンアレイ2によって受音された信号は、A/D変換器3にてデジタル信号に変換され、遅延加算処理部4にて遅延加算処理が行われた後、音声認識装置5に出力される。そして、その音声認識装置5で音声認識が行われる。
次に、このマイクロフォンアレイ2の構造について説明する。このように構成されたマイクロフォンアレイ2に角度θで無限遠から音波が入力すると、図3に示すように、各音波は経路L(=dcosθ)に対応する時間差をもって各マイクロフォンで受音される。しかし、正確な音源の方向が分かっている場合は、サンプリング間隔に音が進む距離の整数倍の間隔で隣接するマイクロフォンを配置すれば、従来の遅延加算処理を行う際に必要となっていた補間計算を排除することが可能となる。この遅延加算で補間処理を排除するには、次の2つの条件が必要となる。
(1)サンプリング間隔に音が進む距離の整数倍(kを整数、vを音速、Tをサンプリング間隔とすると、kvTで表現される)の間隔にマイクロフォンを直線状に並べる。
(2)マイクロフォンアレイ2を正確に目的音源の方向に向ける。
(1)サンプリング間隔に音が進む距離の整数倍(kを整数、vを音速、Tをサンプリング間隔とすると、kvTで表現される)の間隔にマイクロフォンを直線状に並べる。
(2)マイクロフォンアレイ2を正確に目的音源の方向に向ける。
このような条件を満たせば、遅延加算の対象となる時間とサンプリング時間のずれをなくすことがで、補間計算の必要性をなくすことができるようになる。すなわち、上述のような間隔でマイクロフォンを配置すれば、図8の下図(c)(d)に示すように、各マイクロフォンで受音される信号の遅延時間は、サンプリング間隔の整数倍となるため、サンプリング時間と加算対象となる時間を一致させることができ、補間計算を行う必要性がなくなる。
次に、マイクロフォンアレイ2を目的音源の方向に向ける方法について説明する。主軸を目的音源の方向に向けるためには、音源方向を推定しなければならないが、この実施の形態では、まず、音源方向を推定する方法としてCSP(Cross Spectrum Phase analysis)法を用いる。この方法は、2素子のマイクロフォンで実現可能である上、計算量も少ない。このCSP法は、図3に示すマイクロフォンMa、Mbで受音した信号sa(n)、sb(n)から計算される下記のCSP関数から、その最大を与えるkをk1として、到来時間差Δτ1(=k1T)を推定し、音源方向θ1を求める方法である。具体的には、下記の数式によってCa,b(k)、k1、θ1は計算される。
つまり2つのマイクロフォンMa、Mbで受音された信号をフーリエ変換して、位相に関する相互関数としてCSP関数を求め、CSP関数の大きくなる時間差(相関の強い時間遅れ)k1を求め、そのk1に基づいて到来方向を推定する。
また、図4のように、マイクロフォンを直線状に配置した場合、数3で角度θ1がわかったとしてもマイクロフォンアレイ2に対して周回方向のどの方向から音が来ているのかわからない。
そこで、主軸に対して直交するY軸方向およびZ軸方向に2つのマイクロフォンを設け、同様にして角度θ、θy、θz(θはx軸とのなす角度、θy,zはy軸・z座標軸とのなす角度)を推定する。すると、図4のような、音源の方向を示す円錐が3つ得られ、3つの円錐の交線を決めることができる。この直線の方向に音源が存在することになり、いかなる方向から到来する音に対しても、その到来方向を一回のデータ取得で求めることが可能となる。
音源が1つの場合、CSP法は音源方向を推定する方法としては非常に優れている。しかし、複数の音源から、目的となる音源を一つ見つける場合、音響処理だけでは推定した音源が目的音であるのか、或いは、雑音であるのかの判断が非常に困難である。そこで、音源の判別は画像処理で行うことにし、CSP関数がCa,b(k)が最大となるk1から得られる方向θ1が必ずしも目的音源方向であるとは限らないことを想定して、m番目(m≦音源数)に大きな相関となるkm-1も求める。音源の数が未知の場合には、CSPが一定の値(経験的に0.2)以上をとる時間遅れをすべて求めておく。ここで相関が最大となる標本点k1の前後の標本点k1±1も相関が大きくなっている可能性がある。そのため、次に大きな相関となる標本点が標本点k1から1サンプル以上離れていない場合は、その標本点を無視する。一般に音源方向は遅延時間とマイクロフォン間隔によって決まるが、仮に、3次元に配置したマイクロフォンの間隔をd=10cmとすると、上記の条件CSP関数Ca,b(k)から求められる音源方向の誤差の最大幅は10度になる。
マイクロフォン間隔をkvTと固定した場合、マイクロフォンアレイ2上に存在する音源から来る音だけが、補間処理を除いて遅延加算することが可能となる。しかし、上記の方法では、おおよその目的音源の方向は判明するが、θやθy、θzの推定に誤差が生じてしまう。そこで、マイクロフォンで受音した音を補間せずに遅延加算処理するために、より正確な音源方向を推定することが必要となる。
そこで、本実施の形態では、カメラを使用し、ある短い時間間隔で撮影した画像間の差分情報によって目的音源の方向を正確に捉える。但し、前述の音響処理によってマイクロフォンアレイ2はほぼ目的音源の方向を向いており、カメラの視野内に人物がいて、その人物が目的音声の話者であることを想定する。話者は、声を出しているので少なくとも口元は動いており、差分情報は得られる。また、話者のいる位置はマイクロフォンから数m以内とし、残響が少ない音場環境を想定する。図5のように、カメラで撮影した画像の大きさは、横i∈I、 j∈Jとする。
時刻tでカメラが撮る画像Gを座標(i, j)、色c(c=r,g,b)及び時刻tの関数G(i, j,c,t)とし、差分画像D(i, j)を次式で定義する(時刻tは省略)
D(i, j)が、あらかじめ決めた閾値αを超える場合、座標(i, j)に「閾値差分がある」と表現する。
差分画像Dに基づいて、話者の方向を次のように推定することができる。
(1)3つの円錐の共通する領域から、大雑把に目的音源の方向を推定し、主軸の方向をその目的音源の方向に向ける。
(2)マイクロフォンアレイ2の軸方向に取り付けたカメラを使用してΔt間隔で捉えた2つの静止画像の差分D(i, j)を求める。
(3)閾値以上の差分をもつピクセルによって構成される画像(閾値差分画像と呼ぶ)の重心がカメラ視野の中心に来るようにマイクロフォンアレイ2の向きを微調整する。
(1)3つの円錐の共通する領域から、大雑把に目的音源の方向を推定し、主軸の方向をその目的音源の方向に向ける。
(2)マイクロフォンアレイ2の軸方向に取り付けたカメラを使用してΔt間隔で捉えた2つの静止画像の差分D(i, j)を求める。
(3)閾値以上の差分をもつピクセルによって構成される画像(閾値差分画像と呼ぶ)の重心がカメラ視野の中心に来るようにマイクロフォンアレイ2の向きを微調整する。
人間が動いた場合、画像間の差分をとると、Dが閾値を超える最も上の位置(数5、数6)が人間の頭頂であると考えられる。ここで、数7で表される閾値差分画像の重心を(ic、jc)とする。また、人物とカメラは数m離れており、(i0、j0)から、下方に10度、左右に5度の範囲内には、人物の頭部が収まると考えられる。
カメラの水平方向の視野角が、例えば、45度になっている場合、カメラが捉えた画像を3等分すると、分けられた各部分は水平角でおよそ15度分の領域を映し出していることになる。水平視野角が15度であることは、CSP法による方向推定誤差平均4.6度以内にあり、音響処理によって求めた音源方向にマイクロフォンアレイ2の向きを変えた場合に、話者はカメラで捉えた画像の中央部分に来る可能性が高い。よって、差分画像の中央部分に閾値差分として顔の輪郭(D(i, j)≧αとなる(i, j)を結ぶと得られる)が現れると期待できる。また、閾値差分があらわれる方向には人物が存在していると仮定する。この人物が必ずしも発話者であるとは限らない。つまり、音響処理で求めた音源方向θp(pは整数)にマイクロフォンアレイ2を向けて差分をとった場合、閾値以上の差分をもつピクセルによる画像の中心部分(15度分の領域)に閾値を超える差分があらわれず、両端部分に閾値差分画像があらわれる場合は、画面上に映っている人物は発話者ではないと言える。
上記の方法を用いて求めた口の方向とカメラで撮った画像の中心(I/2,J/2)との差を詰めるようにマイクロフォンアレイ2の向きを変えることによって、マイクロフォンアレイ2を正確に話者の口の方向に向けることができる。画像処理を利用したマイクロフォンアレイ方向修正システムの操作画面を図6に示す。
図6中の画面Aは、マイクロフォンアレイ2と同じ向きに設置したカメラで捉えたリアルタイム画像、画面Bと画面Cは、数秒差で撮影された画像(画面Cの方が数秒遅い状態を撮影した画像)、画面Dは画面Bと画面Cの閾値α以上となった閾値差分画像である。最後に、差分画像から求めた重心とカメラで撮った画像の中心との差が角度としてEに示されている。
雑音源は、動かないで音を発生するもの(たとえば、PCやエアコンなど)を想定している。また、大きな物音を立てず、言葉を発しない人間は発話者と見なさない。始めに、発話者に何か言葉(「こっち」「ここだよ」などの単語)を発してもらい、3次元的に配置したマイクロフォンを使用することで音の到来方向を推定し、マイクロフォンアレイ2を推定方向に向ける。しかし、上述のように、マイクロフォンアレイ2が雑音方向に向いてしまう可能性がある。そこで、画像処理(差分情報)により、主軸の方向に人物がいないことを判断する。人物がいないことが分かると再度主軸の向きを変える。主軸が発話者のいる方向に向けば、画像処理(差分情報)から主軸の方向を正確に発話者方向に向ける。最後に、再度発話者に認識してもらいたい単語を発してもらう。図7に、各処理手順(ステップ1〜10)を簡単に説明する。
ステップ1〜2:発話者の位置を大まかに掴むため、発話者の音声をマイクロフォンで受音し、CSPが最も大きくなる時間遅れk1Tを検出する。しかし、CSP法で得た最大となる時間遅れk1Tが目的音源(目的とする音源は1つ)からの信号とは限らず、雑音からの信号という可能性もあるので、最大となるk1T以外も求める。ステップ2において、求めるpの個数は、上述した通りとする。
ステップ3:音源方向θpを求める。音源から来る信号が各マイクロフォンに到達する時間差vkpTをvk1T(CSPが最大となる時間差、p=1)とおく。このときの音源方向θ1を数3により求め、マイクロフォンアレイ2を音源方向に向ける。
ステップ4〜7:図6中の画像Dに差分情報が得られなければ、現在向いている音源方向は目的音源ではなく雑音源ということになる。そこで、2番目に大きな相関となる時間差Δτ2(p←p+1)から、別の推定音源方向θ2を計算し、主軸をθ2の方向に向ける。以下同様に、取り込んだ時系列画像間の閾値差分画像があらわれるまで繰り返す。
ステップ8:時間的にΔt間ずれた画像間にD(i, j)≧αの点の集合が画像の中心部分にある場合、その重心(ic、jc)が画像の中心に来るように主軸の方向を微調整する。これによりマイクロフォンアレイ2は正確に目的音源の方向に向くことになる。
ステップ9〜10:再度話者に発話してもらい、マイクロフォンで受音した音声を遅延加算する。一度発話者方向にマイクロフォンアレイ2を向けておけば、あとは話者は大きく移動しないので画像処理でターゲットを追跡することが可能となる。ここではマイクロフォンの間隔を2vT(2サンプリング分の間隔)に固定して配置しているので、音源に一番近いマイクロフォンを基準として2×nサンプリング点分ずらして加算する方法なので、補間計算の必要はない。なお、「n」は、最後尾のマイクロフォンから数えたインターバルの数(n=1〜7)である。最後に、音声認識システムを用いて認識率を算出する。
上述のように、本実施の形態よれば、マイクロフォンの間隔を、サンプリング間隔に音が進む距離の整数倍となるようにしたので、このようなマイクロフォンアレイ2を音源方向に向けることで、従来の遅延加算処理の際に必要であった補間計算を排除することができるようになる。
なお、本発明は上記実施の形態に限定されることなく、種々の態様で実施することができる。
すなわち、例えば上記実施の形態では、Y軸方向やZ軸方向にもマイクロフォンを設けるようにしているが、これは音源方向を推定するために設けたものであり、他の手段によって目的音源の方向を正確に特定することができれば、主軸上にのみマイクロフォンを配置すればよい。
補間処理を排除することによる効果を調べるため、一般的な遅延加算で必要となる補間処理を施す場合と、遅延加算で補間処理を必要としない場合を比較する。具体的には、図9のように補間を必要としない方法(マイクロフォンアレイが正確に目的音源方向に向いており、マイクロフォンを整数k、サンプリング間隔で並べる)を利用し補間処理排除の効果を調べる。
補間処理によって認識精度にどれほど影響があるのかを調べるため、補間処理を必要とする場合(A)と補間処理を排除した場合(B)について認識率を比較する。
(A)マイクロフォンを直線状に等間隔に並べる。音源方向を様々に設定する。
(B)マイクロフォンを直線状に等間隔(サンプリング間隔に音が進む距離の整数倍の間隔)に並べ、マイクロフォンアレイの向く方向は正確に目的音源方向に向いている。
(A)マイクロフォンを直線状に等間隔に並べる。音源方向を様々に設定する。
(B)マイクロフォンを直線状に等間隔(サンプリング間隔に音が進む距離の整数倍の間隔)に並べ、マイクロフォンアレイの向く方向は正確に目的音源方向に向いている。
補間処理が必要となる場合としてA1、A2を想定する。A1はCSPが最大になる時間差の方向に強制的に目的音源を想定する場合で、A2は、画像間の差分を用いて、雑音源と目的音源を区別する場合である。
A1:CSP関数が最大となる方向が目的信号であると想定して遅延加算処理をする(雑音方向に相関が最大となる場合でも、強制的に加算処理してしまう)
A2:CSP関数と画像(差分)を使って目的音源であることを確認した上で通常の遅延加算処理をする。
実験に用いた音声データは、防音室で接話マイクロフォンを用いて収録したもので、ライン入力での認識率は100%である。音声データの内訳は、男性2名、女性1名の計3名がそれぞれ50発話を発声した計150発話である。音声データの発声内容はテレビ操作コマンドで、例えば、「テレビON」や「テレビアサヒ」などである。目的音声としては、これを防音室内でスピーカー再生した。雑音源としては、ホワイトノイズと音楽を用い、別のスピーカーから流した。音源でのS/Nは10dB、音声データの収録条件は、16Ksamples/sec、16bitsである。図9での配置をL=100cm、θ=60°、d=4.25cm(=2vT)とした。音声認識に用いる辞書のサイズは99、文法ルール数は13である。音声認識デコーダは「Julian」を用いている。
図10は、補間処理が必要な場合と、補間を排除した手法の認識率を示す。手法A2とBでは、1本のマイクロフォンで認識した結果よりマイクロフォンを複数用いて遅延加算処理をした方が必ず良い結果となった、しかし手法A1ではマイクロフォン1本のみの処理結果が最も良い。理由として、A1では、CSP関数が最も大きくなる方向からの音を目的信号と想定して強制的に強調してしまうので、雑音源からのから音を強調してしまう場合があるためと考えられる。以上の結果から、補間処理を排除した遅延加算する手法が最もよい認識率を与えており、補間処理を排除することの効果があったと言える。
表1には、1本のマイクロフォンで収録された音声の認識率と上記3種類(A1、A2、B)の手法を、それぞれ使用マイクロフォン数2、4、8本すべてを平均した認識率との差より、認識できた単語の増減数を示した。これについて符号検定を行ったところ、手法Bのホワイトノイズを用いた認識率に関しては有意水準5%で有意差有りとなった。
音響処理だけで求めた音源方向と、音響処理と画像処理を併用して求めた音源方向の推定誤差を比較し、さらに方向推定誤差の認識率への影響を調べる。図11のようにマイクロフォンアレイが向く方向を目的音源に対して角度θずらして認識率の違いを調べることで、音源方向の推定誤差およびそれが認識率にどの程度影響を与えるのかを調べる。
音声データは、上述の「テレビON」「テレビアサヒ」などと同じものを用い、雑音は、ホワイトノイズを使用した。雑実験では、図10での配置を、L=100cm、ψ=60°、d=4.25(=2vT)、マイクロフォンアレイを動かす角度θを5度刻みとした。
図12は、音響処理のみと画像処理を併用したときの、目的音源からの推定誤差を示す。音響処理のみの誤差(4.6度)と比べると画像処理を併用した場合の誤差は、約1/4の1.18度に縮小された。
図13は、音源方向の推定誤差と音声認識率の関係を示す。この結果より、目的音源と主軸の方向との誤差が少ないほど認識率が高いことが分かる。つまり、高い認識率を得るためには、音源方向の推定を正確に捕捉することが必要となる。
次に、音響処理と画像処理を併用して音源方向を推定した場合の認識率の改善を調べる。補間処理を用いる一般的な方法1をベースラインとして、マイクロフォンアレイを音源方向に向ける処理を音響処理だけを用いた場合(方法2)と、画像処理併用した場合(方法3)を比較する。
1.CSP関数と画像(差分)を使って目的音源であることを確認した上で遅延加算処理をする。
2.補間なしの遅延加算(音響処理のみ)
3.補間なしの遅延加算(音響処理と画像処理の併用)
1.CSP関数と画像(差分)を使って目的音源であることを確認した上で遅延加算処理をする。
2.補間なしの遅延加算(音響処理のみ)
3.補間なしの遅延加算(音響処理と画像処理の併用)
音声データは、上記データ(「テレビON」「テレビアサヒ」など)と同じデータを用いた。雑音にはホワイトノイズを用いた。
図14のように、提案手法(音響処理と画像処理の利用)を利用することにより、より高い認識率が得られた。ここでも、上記の3つの方法1、2、3を符号検定したところ、平均値に差は認められるが有意差なしという結果になった。
また、使用したマイクロフォンの数と音声認識率のとの関係(図10、13、14)において、遅延加算処理を行うマイクロフォンの使用数を4本と8本で比較すると、同じような認識率か、むしろ8本で遅延加算処理した方が低くなってしまう。この理由として、音の減衰、マイクロフォンの干渉、マイクロフォンの間隔の誤差などが考えられる。
本実施例では、音響処理と画像処理を併用し、複数のマイクロフォンを使い、補間処理を排除する遅延加算方法を提案した。認識実験の結果、ライン入力で認識率100%の音声が認識率約60%に低下する雑音環境において、4本のマイクロフォンを使った遅延加算で約8%の音声認識率の改善が得られた。
1 …マイクロフォンアレイ装置
2 …マイクロフォンアレイ
3 …A/D変換器
4 …遅延加算処理部
5 …音声認識装置
Ma、Mb・・・My、Mz …マイクロフォン
2 …マイクロフォンアレイ
3 …A/D変換器
4 …遅延加算処理部
5 …音声認識装置
Ma、Mb・・・My、Mz …マイクロフォン
Claims (2)
- 複数のマイクロフォンを備えてなるマイクロフォンアレイにおいて、音のサンプリング間隔をT、音速をv、整数をkとした場合に、kvTの間隔をもって直線上にマイクロフォンを並べたことを特徴とするマイクロフォンアレイ。
- 前記直線方向に対して互いに直交する方向に複数のマイクロフォンを設けた請求項1に記載のマイクロフォンアレイ。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005186681A JP2007006353A (ja) | 2005-06-27 | 2005-06-27 | マイクロフォンアレイ |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005186681A JP2007006353A (ja) | 2005-06-27 | 2005-06-27 | マイクロフォンアレイ |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007006353A true JP2007006353A (ja) | 2007-01-11 |
Family
ID=37691491
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005186681A Pending JP2007006353A (ja) | 2005-06-27 | 2005-06-27 | マイクロフォンアレイ |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007006353A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014071789A1 (zh) * | 2012-11-08 | 2014-05-15 | 广州市锐丰音响科技股份有限公司 | 一种声接收装置 |
WO2014071788A1 (zh) * | 2012-11-08 | 2014-05-15 | 广州市锐丰音响科技股份有限公司 | 一种声接收系统 |
-
2005
- 2005-06-27 JP JP2005186681A patent/JP2007006353A/ja active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014071789A1 (zh) * | 2012-11-08 | 2014-05-15 | 广州市锐丰音响科技股份有限公司 | 一种声接收装置 |
WO2014071788A1 (zh) * | 2012-11-08 | 2014-05-15 | 广州市锐丰音响科技股份有限公司 | 一种声接收系统 |
US9521482B2 (en) | 2012-11-08 | 2016-12-13 | Guangzhou Ruifeng Audio Technology Corporation Ltd. | Sound receiving device |
US9736562B2 (en) | 2012-11-08 | 2017-08-15 | Guangzhou Ruifeng Audio Technology Corporation Ltd. | Sound receiving system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6185152B1 (en) | Spatial sound steering system | |
US7305095B2 (en) | System and process for locating a speaker using 360 degree sound source localization | |
TWI530201B (zh) | 經由自抵達方向估值提取幾何資訊之聲音擷取技術 | |
JP4812302B2 (ja) | 音源方向推定システム、音源方向推定方法及び音源方向推定プログラム | |
JP6467736B2 (ja) | 音源位置推定装置、音源位置推定方法および音源位置推定プログラム | |
Weinstein et al. | A 1020-node modular microphone array and beamformer for intelligent computing spaces | |
Saxena et al. | Learning sound location from a single microphone | |
JP2008236077A (ja) | 目的音抽出装置,目的音抽出プログラム | |
JP2006304124A (ja) | 音源方向確定装置および音源方向確定方法 | |
KR101884446B1 (ko) | 다자간 회의에서의 화자 인식 및 화자 추적 방법 | |
CA2485728C (en) | Detecting acoustic echoes using microphone arrays | |
JP3531084B2 (ja) | 指向性マイクロフォン装置 | |
JP2007006353A (ja) | マイクロフォンアレイ | |
JP2005049153A (ja) | 音声方向推定装置及びその方法 | |
JP3862685B2 (ja) | 音源方向推定装置、信号の時間遅延推定装置及びコンピュータプログラム | |
KR101424911B1 (ko) | 음향 센서 어레이를 포함하는 실시간 자동 영상 감시 시스템 | |
JP2004325127A (ja) | 音源検出方法、音源分離方法、およびこれらを実施する装置 | |
Berdugo et al. | Speakers’ direction finding using estimated time delays in the frequency domain | |
EP1266538B1 (en) | Spatial sound steering system | |
TW201506915A (zh) | 針對空間中多音源進行萃取出單一音源的方法及裝置 | |
JP2009200569A (ja) | 音源方向推定方法および装置 | |
JP2006304125A (ja) | 音声信号補正装置および音声信号補正方法 | |
Ramnath et al. | Robust speech direction detection for low cost robotics applications | |
Wang et al. | Robust distant speech recognition based on position dependent CMN | |
Levi et al. | A new algorithm for the estimation of talker azimuthal orientation using a large aperture microphone array |