JP4191518B2

JP4191518B2 - 直交円形マイクアレイシステム及びこれを用いた音源の３次元方向検出方法

Info

Publication number: JP4191518B2
Application number: JP2003086679A
Authority: JP
Inventors: 先 ▲壽▼ 田; 載 ▲祐▼ 金; ▲尚▼ 龍金
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2002-03-27
Filing date: 2003-03-27
Publication date: 2008-12-03
Anticipated expiration: 2023-03-27
Also published as: US7158645B2; DE60303338D1; EP1349419A2; KR100499124B1; EP1349419B1; KR20030077797A; DE60303338T2; EP1349419A3; JP2003304589A; US20030185410A1

Description

【０００１】
【発明の属する技術分野】
本発明は音源の３次元方向を検出するシステム及び方法に関する。
【０００２】
【従来の技術】
本発明への理解のために、以下では、本発明の方向推定の対象である音源を話者と指称して例示的に説明する。
【０００３】
一般にマイクは音響信号を全ての方向で受信する特性を有する。このような特性を有するマイクは、通常、無指向性（全方向性）マイクと呼ばれ、使用されているが、受信しようとする音声信号以外に周りの雑音及び反響まで受信してしまい、所望の音声信号が歪められるという問題がある。かかる通常のマイクの問題点を解決するために使われるのが指向性マイクである。
【０００４】
指向性マイクはマイクの軸方向から一定の角度（指向角）内に受信される音響だけを受信する特性を有するので、話者が指向性マイクの指向角内でマイクに向かって話をすれば、話者の音声が周りの雑音に比べて大きくマイクを介して受信され、指向角内に存在しない雑音は受信されない。
【０００５】
最近、このような指向性マイクは、遠隔会議においてよく使われる。しかし、指向性マイクを遠隔会議に使う場合、指向性マイクの特性のゆえに、話者はマイクの指向角内でマイクに向かって話さなければならないという制約がある。すなわち、話者は自分の席に座って話す場合にも設けられたマイクの指向角から外れる方向に話せず、指向角から外れて会議室内を移動しつつ話せないため、話者が自由に話せないという不具合が招かれる。
【０００６】
上述した問題点を解決するために、マイクを一定の間隔にて配列して一定の空間内で移動する話者の音声信号を受信するマイクアレイシステムが考案されている。
【０００７】
図１Ａに示すように、平面形マイクアレイシステムは、受音しようとする空間の一側面に設けられて前方で移動する話者の音声を受信する。すなわち、平面形マイクアレイシステムは前方１８０°ほどの範囲内で移動する話者の音声を受信することができる。しかし、話者がマイクアレイシステムの後方で移動する場合には話者の音声が受信できなくなるという制限が依然として残る。
【０００８】
平面形マイクアレイシステムの上述した制限を克服した円形マイクアレイを図１Ｂに示す。円形マイクアレイシステムは、マイクが設けられた平面内においてその中心から３６０°の範囲内で移動する話者の音声を受信することができる。しかし、円形マイクアレイは、マイクが設けられた平面をＸＹ平面とした時、ＸＹ平面上の話者の位置は考慮するとはいえ、Ｚ軸上の話者の位置は考慮しておらず、全ての方向から発せられる信号を受信することになり、話者の位置とは関係ないＺ軸上の方向からの雑音及び反響まで受信してしまうため、音声の歪みを引き起こすという問題点が依然として存在する。
【０００９】
【発明が解決しようとする課題】
本発明は、平面的に移動する話者の位置だけではなく、話者の３次元空間上の動きまで考慮して、話者がいかなる方向で発音しても話者の音声を受信することのできるマイクアレイシステム及び方法を提供することを課題とする。
【００１０】
本発明が解決しようとする他の課題は、受信される話者の音声を最大化し、且つ、話者の音声を除いた周りの雑音及び反響を最小化して話者の音声を明確に認識させることにより、音声認識の性能を向上させることのできるマイクアレイシステム及び方法を提供することである。
【００１１】
【課題を解決するための手段】
前記課題を達成するために、本発明は、音源の３次元方向を検出する直交円形マイクアレイシステムであって、前記音源より音声信号を受信する指向性マイクと、前記音源より音声信号を受信する所定数のマイクが前記指向性マイクの周りに配列された第１マイクアレイと、前記第１マイクアレイと直交するように、前記音源より音声信号を受信する所定数のマイクが前記指向性マイクの周りに配列された第２マイクアレイと、前記第１及び第２マイクアレイより信号を受信し、前記信号が音声信号であるか否かを識別して音源位置を推定する方向検出部と、前記方向検出部において推定された前記音源位置に応じて前記第１マイクアレイ、第２マイクアレイ及び前記指向性マイクの方向を変える回転制御部と、前記指向性マイクより受信された音声信号と前記第１または第２マイクアレイより受信された音声信号とに対して演算を行い、演算の行われた音声信号を出力する音声信号処理部と、を備えることを特徴とする直交円形マイクアレイシステムを提供する。
【００１２】
前記直交円形マイクアレイシステムは、好ましくは、前記方向検出部より入力される音声信号であって、前記第１マイクアレイより入力される受信信号または前記第２アレイマイクより入力される受信信号を前記方向検出部の制御信号に応じて選択するスイッチをさらに備える。また、前記方向検出部は、好ましくは、前記第１及び第２マイクアレイより受信された信号から音声信号を識別する音声信号識別部と、前記音声信号識別部より受信された音声信号から、前記第１及び第２マイクアレイに設けられたマイクに受信される音声信号の受信角に応じて音源の方向を推定する音源方向推定部と、前記音源方向推定部において推定された方向に前記第１及び第２マイクアレイを回転させるように制御信号を出力する制御信号生成部と、を備える。
【００１３】
さらに、前記目的を達成するために、本発明は、（ａ）第１マイクアレイより入力される信号から音声信号を識別する段階と、（ｂ）前記第１マイクアレイに設けられたマイクに音声信号が受信される角度に応じて音源の方向を推定し、前記第１マイクアレイと直交する前記第２マイクアレイに設けられたマイクが推定された方向に向かうように前記第２マイクアレイを回転させる段階と、（ｃ）前記第２マイクアレイに設けられたマイクに音声信号が入力される角度に応じて前記音源の方向を推定する段階と、（ｄ）前記超指向性マイクを（ｂ）及び（ｃ）段階において推定された音源の方向に移動させて音声信号を受信し、受信された音声信号を出力する段階と、（ｅ）音源の位置変化及び音源の音声発話が終了したか否かを検出する段階と、を含む音源の３次元方向検出方法を提供する。
【００１４】
前記直交円形マイクアレイシステム及び音源の３次元方向検出方法において、前記第１及び第２マイクアレイのうち少なくとも何れか一方は円形であり、前記第１及び第２マイクアレイに設けられたマイクは互いに一定の間隔を保持し、前記第１及び第２マイクアレイに設けられたマイクは指向性マイクであることが望ましい。
【００１５】
前記直交円形マイクアレイシステムにおける音源方向推定部において行われる前記音源の３次元方向検出方法における前記（ｂ）及び（ｃ）段階は、好ましくは、前記第１または第２マイクアレイに設けられたマイクに入力される所定レベル以上の音声信号の出力値を合計して周波数領域に変換した後、周波数領域に変換された前記音声信号の出力値の合計値を音声信号の前記マイクにおける受信角を変数として変換し、最高の電力値を示す角度を音源の方向として推定するものである。
【００１６】
前記所定レベル以上の音声信号の出力値の合計値ｙ（ｔ）は、好ましくは、アレイマイクの数がＭであり、ｃが媒質内における音速であり、アレイの中心から前記マイクまでの距離がｒであるとき、

である。
【００１７】
前記直交円形マイクアレイシステムにおける音声信号処理部において行われる前記音源の３次元方向検出方法における（ｄ）段階は、好ましくは、前記第１または第２マイクアレイに設けられたマイクの各々より受信された音声信号を前記各マイク間の位置差により生じた最大遅延時間だけ遅延させて合計し、前記指向性マイクより受信された音声信号を前記最大遅延時間だけ遅延させて前記合計値に加えて所望の音声信号の音質を改善する段階を含む。
【００１８】
【発明の実施の形態】
以下、添付した図面に基づき、本発明の好適な実施形態について説明する。
【００１９】
図２Ａは、本発明による直交円形マイクアレイの構造を示す図面であり、図２Ｂは、図２Ａの直交円形マイクアレイの構造をロボットに対して適用し具現した例である。
【００２０】
本発明において、緯度型マイクアレイ２０１と経度型マイクアレイ２０２とは物理的に互いと直交するように配され、図２Ａに示すように、３次元の形構造を有する。また、マイクアレイシステムは、図２Ｂに示すように、ロボットや人形などの様々な形態のものに対して応用可能である。
【００２１】
各円形マイクアレイ２０１、２０２は、本発明に用いられる指向性マイクの指向角及びマイクアレイが具現される物体の大きさを考慮して所定数のマイクが円形に配列されてなる。図２Ｃに示すように、ＸＹまたはＹＺ平面の話者の位置を推定するマイクアレイ構造に取り付けられる指向性マイクの指向角σ₁が９０°であり、円形マイクアレイ構造の半径がＲであるとした時、４個の指向性マイクが設けられた場合、表示された話者はマイクの指向角から外れて位置するため、話者の音声はマイクアレイに取り付けられたマイクにより受信されなくなる。
【００２２】
一方、マイクの指向角が９０°より大きい（指向角がσ₂である場合）か、あるいはマイクアレイの半径がより小さい時（半径がｒである場合）には、同じ位置の話者により発音される音声がマイクアレイに取り付けられたマイクにより受信される。図２Ｃに示すところから明らかなように、アレイに取り付けられるマイクの指向角、話者との距離及びアレイが実装される物体の大きさを考慮してマイクアレイを構成しなければならない。マイクアレイは、指向性マイクの指向角σに応じて少なくとも（２π／σ＋１）個のマイクを備えれば全体３６０°の範囲内に存在する話者の位置が検出可能になるが、マイクアレイが実装された物体と話者との間には一定の距離を保持する必要がある。
【００２３】
図２に示すマイクアレイシステムにおいて、緯度型マイクアレイ２０１は、ＸＹ平面上において話者より音声を受信するので、話者のＸＹ平面上の２次元位置が推定可能である。ＸＹ平面上において話者の２次元位置が推定されると、経度型マイクアレイ２０２は、推定された２次元位置に向かって回転して話者より音声を受信し、話者の３次元位置が推定可能となる。
【００２４】
図３を参照し、直交円形マイクアレイを用いて話者の位置を推定し、話者の音声を受信する本発明によるシステム構成について説明する。
【００２５】
本発明によるシステムは、話者の音声をＸＹ平面上において２次元的に受信する緯度型マイクアレイ２０１と、推定された話者の２次元的位置に向かって話者の音声をＹＺ平面上において３次元的に受信する経度型マイクアレイ２０２と、マイクアレイ２０１、２０２より受信された信号から話者の位置を推定し、それによる制御信号を出力する方向検出部３０４と、緯度型マイクアレイ２０１より入力される音声信号と経度型マイクアレイ２０２より入力される音声信号とを選択的に方向検出部３０４に伝えるスイッチ３０３と、推定された話者の位置から音声を受信する超指向性マイク３０８と、超指向性マイク３０８及び経度型アレイマイク２０２より受信された音質を改善する音声処理部３０５と、経度型マイクアレイ２０２の回転方向及び角度を制御する第１回転制御部３０６及び超指向性マイク３０８の回転方向及び角度を制御する第２回転制御部３０７を備える。
【００２６】
また、方向検出部３０４は、緯度型マイクアレイ２０１及び経度型マイクアレイ２０２に受信された信号から音声信号を識別する音声信号識別部３０４１と、音声信号識別部３０４１より受信された音声信号から、緯度型マイクアレイ２０１及び経度型マイクアレイ２０２より入力される音声信号の受信角に応じて音源の方向を推定する音源方向推定部３０４２と、音源方向推定部３０４２において推定された方向に経度型マイクアレイ２０２を回転させるように制御信号を出力し、スイッチ３０３に入力されるマイクアレイ信号をいつ切り換えるかを決定する制御信号を出力し、音声処理部３０５に音質改善された音声信号をいつ出力するかを決定する制御信号を出力する制御信号生成部３０４３を備える。
【００２７】
以下、図３及び図４を参照し、本発明による話者の位置推定方法について説明する。
【００２８】
本発明によるマイクアレイシステムが通電されると、まず、緯度型マイクアレイ２０１が作動して周りから信号を受信する（第４００段階）。緯度型マイクアレイ２０１に設けられた指向性マイクは指向角度内で入力される信号を受信し、受信されたアナログ信号はＡ／Ｄ変換器３１０によりデジタル信号に変換されてスイッチ３０３に出力される。最初の動作時に、スイッチ３０３は、緯度型マイクアレイ２０１より入力される信号を方向検出部３０４に伝える。
【００２９】
方向検出部３０４に組み込まれた音声信号識別部３０４１は、スイッチ３０３を介して入力されたデジタル信号中に音声信号が存在するか否かを識別する（第４１０段階）。マイクアレイを介して話者の音声をできる限りきれいに受信して音声認識の性能を向上させることが本発明の目的であるという点に鑑みるとき、音声信号識別部３０４１が現在マイク３０１より入力された信号のうち音声区間だけを正確に検出して音声処理部３０５を介して音声認識部３２０に入力することは、音声認識の性能と関連して極めて重要である。
【００３０】
音声認識は、音声のない区間が続いていて音声が入り始めたときにその瞬間をいかに正確に把握して音声信号が開始する瞬間を知らせるかという機能と、音声が続いていて音声のない区間が始まったときにこれをいかに正確に把握して音声信号が終了する瞬間を知らせるかという機能とに大きく分けられる。これら２つの機能を実現するものとして下記のような技術が公知である。
【００３１】
まず、音声信号終了の瞬間を知らせる機能を実現するための方法として、マイクを介して入力される信号を一定のフレーム区間（例えば、３０ｍｓ）に合わせて分割し、これら信号のエネルギーを計算した後にこのエネルギー値が以前のエネルギー値に比べて格段に下がったときに、音声信号がそれ以降発せられないと判断して音声信号終了の瞬間として処理する方法が知られている。この時、エネルギーが格段に小さくなることを判別する臨界値として一つの固定値を用いれば、大きく発音された音声と小さく発音された音声との差を無視できるので、過去の音声区間を観察してその臨界値を適応的に変え、この臨界値を用いて現在入力された信号が音声であるか否かを検出する方法が提案されている（Ｒ．ハリハラン（Hariharan, R.），Ｊ．ハッキネン（Hakkinen, J.），Ｋ．ローリラ（Laurila, K.）共著，「ロウバスト・エンド−オブ−アタランス・デテクション・フォー・リアルタイム・スピーチ・レコグニション・アプリケーションズ（Robust end-of-utterance detection for real-time speech recognition applications）」，２００１年度アイトリプリー・インターナショナル・コンファレンス・オン・アコースティックス・スピーチ・アンド・シグナルプロセッシング、論集（2001 IEEE International Conference on Acoustics, Speech, and Signal Processing, Proceedings），２００１年，第１巻，２４９−２５２頁参照）。
【００３２】
音声認識に関する他の方法としては、ＯＯＶ（Out-Of-Vocabulary）に該当する語彙に対してガーベージ（非音声）モデルを予め構成しておいて、実際に使う時にマイクを介して入った信号がこのモデルにいかほど適しているかを判断してガーベージであるか、それとも音声信号であるかを判別する方法が公知である。この方法は、音声ではない音にを前もって学習することによってガーベージモデルを構成し、現在入力された信号がこのガーベージモデルにいかほど適しているかを判断して音声／ガーベージ区間を決定する方法である。また、雑音入り音声と雑音の入っていない音声との関係を神経網や線形回帰分析を用いて推定した後、変換により雑音を除去する方法を用いることもある（Ｊ．カミネロ（Caminero, J.）、Ｄ．デラトッレ（De La Torre, D.），Ｌ．ヴィラルビア（Villarrubia, L.），Ｃ．マーチン（Martin, C.），Ｌ．エルナンデス（Hernandez, L.）共著，「オンライン・ガーベージ・モデリング・ウィズ・ディスクリミナント・アナリシス・フォー・アタランス・ベリフィケーション（On-line Garbage Modeling with Discriminant Analysis for Utterance Verification）」，第４回インターナショナル・コンファレンス・オン・スポークン・ランゲージ、ＩＣＳＬＰ９６論集（Fourth International Conference on Spoken Language, ICSLP 96 Proceedings）」,１９９６年，第４巻，２１１１〜２１１４頁参照）。
【００３３】
前述した方法などを用い、音声信号識別部３０４１は、緯度型マイクアレイ２０１を介して一定レベル以上の音声信号値が入力されなければ現在音声が入力されていないと見なす。緯度型マイクアレイ２０１に設けられたマイク３０１のうち一部、例えば、ｎ個のマイクから一定レベル以上の音声信号値が検出され、他のマイクからは信号値が入力されない場合には音声信号が検出されると判断し、話者が（ｎ＋１）×σ（ここで、σは指向角）内に存在すると判断して入力された信号を音源方向推定部３０４２に出力する。
【００３４】
図５Ａ及び図５Ｂを参照し、話者の方向を推定する方法について説明する。話者から本発明によるマイクアレイへと入力される音声信号は、マイクアレイ２０１、２０２に設けられた各マイク３０１、３０２に達する時、音声信号が最初に達したマイクに比べて一定の遅延時間をもって受信される。この遅延時間はマイクの指向角σ及び話者の位置、すなわち、音声信号が入力される角度θに応じて決定される。
【００３５】
本実施形態では指向性マイクの特性を考慮し、音が一定の信号レベル未満に受信されるマイクの場合には、話者が各該当マイクの指向角内にないと判断し、これらマイクが担当する角度は話者の位置推定角度から除外される。
【００３６】
音源方向推定部３０４２は、話者の位置を推定するために、図５Ａに示されたように、まず、ある指向性マイクを基準マイクとして選択し、アレイの中心から基準となる指向性マイクをつなぐ仮想の線（基準線）から話者の音声が受信される角度θを測定する。基準となるマイク以外のマイクに対しては基準線と平行な仮想の線からマイクに受信される角度を測定する。もし、アレイの実装された物体が音源よりかなり大きくなければ、音声を受信する各マイクにおける音声受信角θは実質的に同じでありうる。
【００３７】
一定レベル以上の音が受信されるマイクにおいて受信された全ての音を合計し、これを高速フーリエ変換（ＦＦＴ）を通じて周波数領域に変換した後にこれを再びθの領域に変換した時、最大の電力値を有するθが話者の位置する方向を表わす。
【００３８】
ある時間領域において一定の遅延時間をもってｎ番目のマイクに入力される受信音声信号をｘ_n（ｔ）とし、各々のマイクの音声信号値を合計した出力信号をｙ（ｔ）とした時、ｙ（ｔ）は下記式により得られる。
【００３９】
【数１】

【００４０】
ｙ（ｔ）を周波数領域に変換して得られたＹ（ｆ）は、下記の通りである。
【００４１】
【数２】

【００４２】
この時、ｃは音源から音声が伝えられる媒質における音速を表わし、δはマイクアレイに設けられたマイク間の間隔を表わし、Ｍはアレイに設けられたマイクの数を表わし、θはマイクに受信される音声信号の入射角を各々表わし、δ＝２π／Ｍが成立つ。
【００４３】
周波数領域に変換されたＹ（ｆ）を変数θにより表わし、すなわち、Ｙ（ｆ）を再びθの領域に変換し、θの領域において受信された音声信号のエネルギーを求めれば、下記の通りである。
【００４４】
【数３】

【００４５】
但し、θは０からπの値を有し、Ｙ（ｆ）を再びθの領域に変換する時、周波数領域における負の最大値がθの領域における０°に、周波数領域における０°がθの領域における（ｎ＋１）×δ／２に、周波数領域における正の最大値がθの領域における（ｎ＋１）×δにマッピングされるように周波数領域をθの領域に変換する。
【００４６】
マイクアレイの出力であるＰ（θ，ｋ；ｍ）によりθによる出力エネルギーの大きさが分かり、最大出力時のθを決定できるので、受信される音声から音声信号の直声強度が分かる。この式を全ての周波数ｋに対してまとめれば、電力スペクトル値Ｐ（θ；ｍ）は下記の通りである。
【００４７】
【数４】

【００４８】
結論的に、全ての周波数領域において最大エネルギーを有する話者の方向をθ_Sとした時、θ_S＝ａｒｇｍａｘθＰ（θ；ｍ）のように話者の方向を決定することができる（第４２０段階）。
【００４９】
上述したように、緯度型マイクアレイ２０１より入力された音声信号から話者の緯度方向の２次元位置が推定されれば、音源方向推定部３０４２は制御信号生成部３０４３に検出された話者の方向θ_Sを出力し、制御信号生成部３０４３は第１回転制御部３０６に話者の方向であるθ_Sだけ経度型マイクアレイ２０２が回転するように制御信号を出力する。第１回転制御部３０６は経度型マイクアレイ２０２をθ_Sだけ回転させて経度型マイクアレイ２０２が２次元上の話者に正面から向かうように配置される。経度型マイクアレイ２０２を話者の方向に回転させる場合、経度型マイクアレイ２０２だけが回転することも可能であるが、緯度型マイクアレイ２０１と経度型マイクアレイ２０２とが共に回転することが好ましい。この場合には、緯度型マイクアレイ２０１と経度型マイクアレイ２０２とにより共用されるマイクが話者に向かえば適当に回転されたと判断できる（第４３０段階）。
【００５０】
一方、経度型マイクアレイ２０２の回転が終了すれば、制御信号生成部３０４３はスイッチ３０３に制御信号を出力し、経度型マイクアレイ２０２より入力される話者の音声信号を音声信号識別部３０４１に伝える。方向検出部３０４は経度型マイクアレイ２０２より入力される音声信号を用い、第４２０段階における方法と同様にして話者の３次元空間上の位置を推定し、結果的に、話者の３次元空間における位置が、図５Ｂに示すように決定される。
【００５１】
話者の３次元方向が決定されれば、制御信号生成部３０４３は第２回転制御部３０７に制御信号を出力し、超指向性マイク３０８を話者の３次元方向に直接的に向かうように回転させる（第４５０段階）。
【００５２】
超指向性マイク３０８を介して受信された話者の音声信号はＡ／Ｄ変換器３０９によりデジタル信号に変換された後、音声処理部３０５に入力される。入力された超指向性マイク信号は音声処理部３０５において経度型マイクアレイより受信された話者の音声信号と共に音質改善の過程に適用できる（第４６０段階）。
【００５３】
本発明が適用される環境を示す図６及び音質改善の過程を示す図７を参照し、第４６０段階の音質改善過程について説明する。
【００５４】
図６に示すように、本発明によるシステムには、マイクアレイを介して話者の音声信号だけではなく、壁体などの反射体からの反響信号及び機械などの雑音源からの雑音が受信される。本発明においては、超指向性マイク３０８により感知された信号とアレイマイクにより処理された音声信号とを共に処理して音質改善の効果を最大限に高めることができる。
【００５５】
併せて、本発明においては、いったん話者の方向を決定し、話者の方向に超指向性マイク３０８を向かわせて超指向性マイク３０８により話者の音声信号を受信すれば、経度型マイクアレイ２０２または緯度型マイクアレイ２０１に受信された雑音や反響が音声処理部３０５に入力されることを防ぐために超指向性マイク３０８より受信された信号のみを処理することも可能である。但し、話者が位置を突然変えた場合、前述した段階を再び行って話者の変わった位置を決定するのに時間がかかり、その期間中には話者の音声が処理されない場合がある。
【００５６】
このような状況に対応し、本発明によるシステムは、図７に示すブラインド分離回路に緯度型マイクアレイ２０１または経度型マイクアレイ２０２より受信された話者の音声信号と超指向性マイク３０８より受信された音声信号とを入力することにより、各マイクより入力された話者の音声信号と周りの雑音信号とを分離し、受信された音声信号の音質を向上させる。
【００５７】
図７に示すように、マイクアレイに受信された信号だけではなく、超指向性マイク３０８に受信された音声信号が遅延時間をもって話者の音声信号を受信するアレイマイクの遅延時間まで遅延されて合計され、また処理される。
【００５８】
図７に示す回路の動作について説明すれば、音声処理部３０５は、ブラインド分離回路にマイクアレイより入力される信号ｘ^array（ｔ）と超指向性マイクより入力される信号ｘ^direction（ｔ）とを入力する。これら２つの入力信号には話者の音声成分と周りの雑音成分との２種類が存在する。これが図７のブラインド分離回路に入力されると、雑音成分と話者の音声成分とを分離してｙ₁（ｔ）及びｙ₂（ｔ）を出力する。出力されるｙ₁（ｔ）及びｙ₂（ｔ）は、下記式の通りである。
【００５９】
【数５】

【００６０】
前記式はΔｗ_array,j（ｋ）＝−μｔａｎｈ（ｙ₁（ｔ））ｙ_j（ｔ−ｋ）、Δｗ_direction,j（ｋ）＝−μｔａｎｈ（ｙ₂（ｔ））ｙ₁（ｔ−ｋ）により決定され、ウェートｗは最尤（ＭＬ：ＭａｘｉｍｕｍＬｉｋｅｌｉｈｏｏｄ）推定法に基づくものであり、相異なる信号成分が統計的に分離されるように学習された値が使われる。この時、ｔａｎｈ（）は非線形的なシグモイド（Ｓｉｇｍｏｉｄ）関数を意味し、μは収束定数であって、ウェートが最適の値を推定する度合いを決定する。
【００６１】
話者の音声が出力される間に、音源方向推定部３０４２は、緯度型マイクアレイ２０１及び経度型マイクアレイ２０２に受信される話者の音声から話者の位置が変わったか否かをチェックする。もし、話者の位置が変わったならば、第４２０段階へ進んで再び話者のＸＹ平面上の位置とＹＺ平面上の位置とを推定する。但し、本発明の実施形態により話者のＹＺ平面上の位置のみが変わったならば、第４４０段階へ直ちに進んでも良い（第４７０段階）。
【００６２】
話者の位置が変わっていない場合には、音声信号識別部３０４１は、第４１０段階における方法と同様にして話者の音声発話が終了したか否かを検出する。ここで、話者の音声発話が終了していなければ、再び話者の位置が変わったか否かを検出する（第４８０段階）。
【００６３】
【発明の効果】
上述したように、本発明によれば、指向性マイクが円形に一定の間隔をもって配置された緯度型マイクアレイと経度型マイクアレイとを互いと直交するように配置することにより、平面的に移動する話者の位置だけではなく話者の３次元空間上の動きまで考慮でき、話者がいかなる方向で発音しても話者の音声を受信できる効果がある。
【００６４】
併せて、３次元的な話者の位置が決定されれば、超指向性マイクを話者の方向に向かわせて話者の音声信号を受信することにより、受信される話者の音声を最大化し、話者が発音する時に生じる反響や周辺雑音の影響を最小化して話者の音声を明確に認識させることにより、音声認識の性能を向上させられる。
【００６５】
さらに、超指向性マイクより受信される話者の音声信号だけではなく緯度型マイクアレイまたは経度型マイクアレイより受信されてから各マイクごとに一定の遅延間隔をもって遅延されて合計された信号を超指向性マイクより受信された信号と共に出力することにより、出力効率を高められる効果がある。
【００６６】
上述した本発明の好適な実施形態は例示的なものであり、これに対するあらゆる変形及び変更は特許請求の範囲に属すると理解さるべきである。
【図面の簡単な説明】
【図１Ａ】従来の技術による平面形マイクアレイシステムの構造を示す図面である。
【図１Ｂ】従来の技術による円形マイクアレイシステムの構造を示す図面である。
【図２Ａ】本発明による直交円形マイクアレイの構造を示す図面である。
【図２Ｂ】本発明によるマイクアレイを具体的に適用した例を示す図面である。
【図２Ｃ】マイクアレイ上にマイクを配置する時の考慮事項を説明するための図面である。
【図３】本発明による直交円形マイクアレイシステムの構成を示すブロック図である。
【図４】本発明による音源の３次元方向検出方法を示すフローチャートである。
【図５Ａ】本発明により音源の方向を推定するために音源の角度を分析する例を示す図面である。
【図５Ｂ】最終的に決定された話者の位置を示す図面である。
【図６】本発明によるシステムが適用される環境を示す図面である。
【図７】音源より受信された音声信号を分離して音質の向上を図るブラインド分離回路を示す図面である。
【符号の説明】
２０１緯度型マイクアレイ
２０２経度型マイクアレイ
３０４方向検出部

Claims

音源の３次元方向を検出する直交円形マイクアレイシステムであって、
前記音源より音声信号を受信する指向性マイクと、
前記音源より音声信号を受信する所定数のマイクが前記指向性マイクの周りに配列された第１マイクアレイと、
前記第１マイクアレイと直交するように、前記音源より音声信号を受信する所定数のマイクが前記指向性マイクの周りに配列された第２マイクアレイと、
前記第１及び第２マイクアレイより信号を受信し、前記信号が音声信号であるか否かを識別して音源の位置を推定する方向検出部と、
前記方向検出部において推定された前記音源の位置に応じて前記第１マイクアレイ、第２マイクアレイ及び前記指向性マイクの方向を変える回転制御部と、
前記指向性マイクより受信された音声信号と前記第１または第２マイクアレイより受信された音声信号とに対して演算を行い、演算の行われた音声信号を出力する音声信号処理部と、を備えることを特徴とする直交円形マイクアレイシステム。
前記第１及び第２マイクアレイのうち少なくとも何れか一方は円形であることを特徴とする請求項１に記載の直交円形マイクアレイシステム。
前記第１及び第２マイクアレイに設けられたマイクは互いに一定の間隔を保持することを特徴とする請求項１に記載の直交円形マイクアレイシステム。
前記第１及び第２マイクアレイに設けられたマイクは指向性マイクであることを特徴とする請求項１に記載の直交円形マイクアレイシステム。
前記第１マイクアレイより入力される受信信号または前記第２アレイマイクより入力される受信信号を前記方向検出部の制御信号に応じて選択するスイッチをさらに備えることを特徴とする請求項１に記載の直交円形マイクアレイシステム。
前記方向検出部は、前記第１及び第２マイクアレイより受信された信号から音声信号を識別する音声信号識別部と、
前記音声信号識別部より受信された音声信号から、前記第１及び第２マイクアレイに設けられたマイクに受信される音声信号の受信角に応じて音源の方向を推定する音源方向推定部と、
前記音源方向推定部において推定された方向に前記第１及び第２マイクアレイを回転させるように制御信号を出力する制御信号生成部と、を備えることを特徴とする請求項１ないし請求項５のうち何れか１項に記載の直交円形マイクアレイシステム。
前記音源方向推定部は、前記第１または第２マイクアレイに設けられたマイクに入力される所定レベル以上の音声信号の出力値を合計して周波数領域に変換した後、周波数領域に変換された前記音声信号の出力値の合計値を音声信号の前記マイクにおける受信角を変数として変換し、最高の電力値を示す角度を音源の方向として推定することを特徴とする請求項６に記載の直交円形マイクアレイシステム。
前記所定レベル以上の音声信号の出力値の合計値ｙ（ｔ）は、アレイマイクの数がＭであり、ｃが媒質内における音速であり、アレイの中心から前記マイクまでの
距離がｒであるとき、

であることを特徴とする請求項７に記載のマイクアレイシステム。
前記音声信号処理部は、前記第１または第２マイクアレイに設けられたマイクの各々より受信された音声信号を前記各マイク間の位置差により生じた最大遅延時間まで遅延させて合計し、前記指向性マイクより受信された音声信号を前記最大遅延時間だけ遅延させて前記合計値に加えて所望の音声信号の音質を改善することを特徴とする請求項１ないし請求項５のうち何れか１項に記載の直交円形マイクアレイシステム。
所定数のマイクが配列された第１及び第２マイクアレイと指向性マイクとを用いて音源の３次元方向を検出する方法であって、
（ａ）第１マイクアレイより入力される信号から音声信号を識別する段階と、
（ｂ）前記第１マイクアレイに設けられたマイクに音声信号が受信される角度に応じて音源の方向を推定し、前記第１マイクアレイと直交する前記第２マイクアレイに設けられたマイクが推定された方向に向かうように前記第２マイクアレイを回転させる段階と、
（ｃ）前記第２マイクアレイに設けられたマイクに音声信号が入力される角度に応じて前記音源の方向を推定する段階と、
（ｄ）前記指向性マイクを（ｂ）及び（ｃ）段階において推定された音源の方向に移動させて音声信号を受信し、受信された音声信号を出力する段階と、
（ｅ）音源の位置変化及び音源の音声発話が終了したか否かを検出する段階と、を含むことを特徴とする音源の３次元方向検出方法。
前記第１及び第２マイクアレイのうち少なくとも何れか一方は円形であることを特徴とする請求項１０に記載の音源の３次元方向検出方法。
前記第１及び第２マイクアレイに設けられたマイクは互いに一定の間隔を保持することを特徴とする請求項１０に記載の音源の３次元方向検出方法。
前記第１及び第２マイクアレイに設けられたマイクは指向性マイクであることを特徴とする請求項１０に記載の音源の３次元方向検出方法。
前記（ｂ）及び（ｃ）段階は、前記第１または第２マイクアレイに設けられたマイクに入力される所定レベル以上の音声信号の出力値を合計して周波数領域に変換した後、周波数領域に変換された前記音声信号の出力値の合計値を音声信号の前記マイクにおける受信角を変数として変換し、最高の電力値を示す角度を音源の方向として推定することを特徴とする請求項１０ないし請求項１３のうち何れか１項に記載の音源の３次元方向検出方法。
前記所定レベル以上の音声信号の出力値の合計値ｙ（ｔ）は、アレイマイクの数がＭであり、ｃが媒質内における音速であり、アレイの中心から前記マイクまでの距離がｒであるとき、

であることを特徴とする請求項１４に記載の音源の３次元方向検出方法。
前記（ｄ）段階は、前記第１または第２マイクアレイに設けられたマイクの各々より受信された音声信号を前記各マイク間の位置差により生じた最大遅延時間だけ遅延させて合計し、前記指向性マイクより受信された音声信号を前記最大遅延時間だけ遅延させて前記合計値に加えて所望の音声信号の音質を改善する段階を含むことを特徴とする請求項１０ないし請求項１３のうち何れか１項に記載の音源の３次元方向検出方法。