JP5486694B2

JP5486694B2 - 音声強調方法、装置、プログラム、記録媒体

Info

Publication number: JP5486694B2
Application number: JP2012549909A
Authority: JP
Inventors: 健太丹羽; 澄宇阪内; 賢一古家; 陽一羽田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2010-12-21
Filing date: 2011-12-19
Publication date: 2014-05-07
Anticipated expiration: 2031-12-19
Also published as: US9191738B2; JPWO2012086834A1; EP2642768A1; US20130287225A1; CN103282961B; ES2670870T3; EP2642768B1; EP2642768A4; CN103282961A; WO2012086834A1

Description

本発明は、所望の狭い範囲の音声を強調可能な技術（音声強調技術）に関する。

例えばマイクロホンを備えた動画撮影装置（ビデオカメラやカムコーダ）で被写体をズームイン撮影する場合を考えると、ズームイン撮影に連動して被写体近傍のみからの音声が強調されることが動画撮影にとって好ましい。このような、所望の方向（目的方向）を含む狭い範囲の音声を強調する技術（狭指向音声強調技術）は、従来から研究・開発されている。なお、マイクロホンの周囲の方向とマイクロホンの感度との関係は指向性と呼ばれ、或る方向への指向性が鋭いほど、当該方向を含む狭い範囲の音声を強調し、当該範囲以外の範囲の音声を抑圧することができる。ここでは、まず、狭指向音声強調技術に関する３つの従来技術を例示する。なお、この明細書では、「音声」は、人の発する声に限定されるものではなく、人や動物の声はもとより楽音や環境雑音など「音」一般を指す。
［１］物理特性を用いた狭指向音声強調技術
このカテゴリの代表的な例として、音響管マイクとパラボラマイクが挙げられる。まず、図１を参照して、音響管マイク９００の原理について述べる。音響管マイク９００は音の干渉を利用して、目的方向から到来した音声を強調するマイクロホンである。図１Ａは、音響管マイク９００によって、目的方向から到来した音声が強調されることを説明するための図である。音響管マイク９００を構成する音響管９０１の開口部は目的方向に向けられる。そして、音響管９０１の開口部の正面（目的方向）から到来した音声は、そのまま音響管９０１の内部を直進するので、当該音声は低エネルギー損失で音響管マイク９００を構成するマイクロホン９０２に到達する。他方、図１Ｂに示すように、目的方向以外から到来した音声は、音響管９０１の側面に刻まれた多数のスリット９０３を通じて音響管９０１に進入するが、これらスリット９０３を通じて進入した音声は互いに干渉する。このため、目的方向以外から到来した音声がマイクロホン９０２に到達するときの音圧レベルは弱まる。
次に、図２を参照して、パラボラマイク９１０の原理について述べる。パラボラマイク９１０は音の反射を利用して、目的方向から到来した音声を強調するマイクロホンである。図２Ａは、パラボラマイク９１０によって、目的方向から到来した音声が強調されることを説明するための図である。パラボラマイク９１０を構成するパラボラ板（放物面）９１１の頂点と当該パラボラ板９１１の焦点とを結ぶ直線が目的方向と重なるように、パラボラ板９１１は目的方向に向けられる。そして、目的方向から到来した音声は、パラボラ板９１１で反射し焦点に集中する。従って、焦点に設置されたマイクロホン９１２は、たとえエネルギーが低い音声信号であってもこれを強調して収音することができる。他方、図２Ｂに示すように、目的方向以外から到来した音声のパラボラ板９１１での反射音は焦点に集中しない。従って、目的方向以外から到来した音声がマイクロホン９１２に到達するときの音圧レベルは弱まる。
［２］信号処理を用いた狭指向音声強調技術
このカテゴリの代表的な例として、フェーズドマイクロホンアレーが挙げられる（非特許文献１参照）。図３は、複数のマイクロホンで構成されたフェーズドマイクロホンアレーを用いて、目的方向の音声を強調し、目的方向以外の方向の音声を抑圧していることを説明するための図である。フェーズドマイクロホンアレーは、各マイクロホンで収音された信号に時間差や音圧レベル差の情報が含まれているフィルタを掛けて重畳する信号処理を行うことで、目的方向の音声を強調している。カテゴリ［１］で説明した音響管マイクやパラボラマイクとは異なり、フェーズドマイクロホンアレーは、信号処理によって音声強調を行うため、任意の方向の音声を強調することができる。
［３］反射音を選択収音することによる狭指向音声強調技術
このカテゴリの代表的な例として、マルチビームフォーミング法がある（非特許文献２参照）。マルチビームフォーミング法は、直接音や反射音という個々の音を寄せ集めることで、高ＳＮ比で目的方向の音声を収音することができる狭指向音声強調技術であり、音声分野よりも無線分野でよく研究されている。
以下、周波数領域でのマルチビームフォーミング法の処理内容を説明する。説明に先立ち、記号を定義する。周波数のインデックスをω、フレーム番号のインデックスをｋとする。Ｍ個のマイクロホンで受音したアナログ信号の周波数領域表現をＸ^→（ω，ｋ）＝［Ｘ_１（ω，ｋ），…，Ｘ_Ｍ（ω，ｋ）］^Ｔ、方向θ_ｓにある強調したい音源からの直接音の到来方向をθ_ｓ１、反射音の到来方向をθ_ｓ２，…，θ_ｓＲとする。Ｔは転置を表し、Ｒ−１は反射音の総数である。方向θ_ｓｒの音声を強調するフィルタをＷ^→（ω，θ_ｓｒ）とする。ここで、ｒは１≦ｒ≦Ｒを満たす各整数である。
マルチビームフォーミング法では、直接音および反射音の到来方向や到来時間が既知であることが前提である。つまり、音の反射が明らかに予想できる壁、床、反射板といった物体の数がＲ−１に等しい。また、反射音数Ｒ−１は３あるいは４という比較的小さな値に設定されることが多い。これは、直接音と低次の反射音との間に高い相関性が認められることに基づく。マルチビームフォーミング法は、各々の音声を個別に強調して同期加算する方式なので、出力信号Ｙ（ω，ｋ，θ_ｓ）は式（１）で与えられる。Ｈはエルミート転置を表す。
フィルタＷ^→（ω，θ_ｓｒ）の設計法として遅延合成法を説明する。直接音や反射音が平面波到来すると仮定すると、フィルタＷ^→（ω，θ_ｓｒ）は式（２）で与えられる。ｈ^→（ω，θ_ｓｒ）＝［ｈ_１（ω，θ_ｓｒ），…，ｈ_Ｍ（ω，θ_ｓｒ）］^Ｔは、方向θ_ｓｒから到来する音声の伝搬ベクトルである。
線形マイクロホンアレー（Ｍ個のマイクロホンが直線状に並べられたマイクロホンアレー）に平面波が到来することを仮定すると、ｈ^→（ω，θ_ｓｒ）を構成する要素ｈ_ｍ（ω，θ_ｓｒ）は式（３）で与えられる。ｍは１≦ｍ≦Ｍを満たす各整数である。ｃは音速を、ｕは隣り合うマイクロホン間の距離を表す。ｊは虚数単位である。τ（θ_ｓｒ）は、方向θ_ｓｒから到来する反射音の直接音に対する時間遅延を表す。
最後に、出力信号Ｙ（ω，ｋ，θ_ｓ）を時間領域に変換することによって、目的方向θ_ｓにある音源の音声を強調した信号が得られる。
マルチビームフォーミング法による狭指向音声強調技術の機能構成を図４に示す。
ステップ１
ＡＤ変換部１１０は、Ｍ個のマイクロホン１００−１，…，１００−Ｍの出力であるアナログ信号をディジタル信号ｘ^→（ｔ）＝［ｘ_１（ｔ），…，ｘ_Ｍ（ｔ）］^Ｔに変換する。ここでｔは離散時間のインデックスを表す。
ステップ２
周波数領域変換部１２０は、各チャネルのディジタル信号を高速離散フーリエ変換などの手法で周波数領域信号に変換する。例えば、ｍ番目（１≦ｍ≦Ｍ）のマイクロホンについて、Ｎ点の信号ｘ_ｍ（（ｋ−１）Ｎ＋１），…，ｘ_ｍ（ｋＮ）をバッファに貯める。Ｎは１６ＫＨｚサンプリングの場合で５１２程度である。バッファに貯められたＭチャネルのアナログ信号を高速離散フーリエ変換処理することによって、周波数領域信号Ｘ^→（ω，ｋ）＝［Ｘ_１（ω，ｋ），…，Ｘ_Ｍ（ω，ｋ）］^Ｔを得る。
ステップ３
各強調フィルタリング部１３０−ｒ（１≦ｒ≦Ｒ）は、周波数領域信号Ｘ^→（ω，ｋ）＝［Ｘ_１（ω，ｋ），…，Ｘ_Ｍ（ω，ｋ）］^Ｔに対して方向θ_ｓｒのフィルタＷ^→Ｈ（ω，θ_ｓｒ）を適用し、方向θ_ｓｒの音声が強調された信号Ｚ_ｒ（ω，ｋ）を出力する。つまり、各強調フィルタリング部１３０−ｒ（１≦ｒ≦Ｒ）は、式（４）で表される処理を行う。
ステップ４
加算部１４０は、信号Ｚ_１（ω，ｋ），…，Ｚ_Ｒ（ω，ｋ）を入力として、加算信号Ｙ（ω，ｋ）を出力する。加算処理は式（５）で表わされる。
ステップ５
時間領域変換部１５０は、加算信号Ｙ（ω，ｋ）を時間領域に変換して方向θ_ｓの音声が強調された時間領域信号ｙ（ｔ）を出力する。
このような狭指向音声強調技術において、例えば、ほぼ同じ方向にマイクロホンからの距離が異なる複数の音源がある場合に、各音源から発せられた音声を区別して強調することが望まれる場合がある。先の例を引用してマイクロホンを備えた動画撮影装置で或る被写体をズームイン撮影する場合を考えると、例えば、フォーカスされた当該被写体（「フォーカス音源」という）の後方であってマイクロホンの指向性の範囲内に別の音源（「後方音源」という）が存在すると、フォーカス音源からの音声と後方音源からの音声が混在したまま強調され、視聴者に違和感を与えてしまう。このように、所望の方向を含む狭い範囲の音声をマイクロホンからの距離に応じて強調可能な技術（音声スポット強調技術）が望まれる。ここでは、音声スポット強調技術に関する３つの従来技術を例示する。
（１）非特許文献３に開示される技術は、音波が球面波となる近接音場での遅延和アレーの最適設計法を開示しており、このアレーの設計の際に、音源位置における目的信号と不要音（暗騒音や残響など）とのＳＮ比が最大となるようにしている。
（２）非特許文献４に開示される技術は、小規模の２個のマイクロホンアレーを必須の構成要素とし、大型のマイクロホンアレーを使用しなくても距離に応じたスポット収音を可能としている。
（３）非特許文献５に開示される技術は、１個のマイクロホンアレーであっても、音源との距離を識別し、特定の距離範囲にある音源からの音だけを強調若しくは抑圧することで雑音を除去する。この方式は、音源から直接到来する音のパワーと反射して到来する音のパワーが距離によって変化する性質を利用して、音源の距離に応じて音声の強調を可能としている。

Ｏ．Ｌ．Ｆｒｏｓｔ，″Ａｎａｌｇｏｒｉｔｈｍｆｏｒｌｉｎｅａｒｌｙｃｏｎｓｔｒａｉｎｅｄａｄａｐｔｉｖｅａｒｒａｙｐｒｏｃｅｓｓｉｎｇ，″Ｐｒｏｃ．ＩＥＥＥ，ｖｏｌ．６０，ｐｐ．９２６−９３５，１９７２．Ｊ．Ｌ．Ｆｌａｎａｇａｎ，Ａ．Ｃ．Ｓｕｒｅｎｄｒａｎ，Ｅ．Ｅ．Ｊａｎ，″Ｓｐａｔｉａｌｌｙｓｅｌｅｃｔｉｖｅｓｏｕｎｄｃａｐｔｕｒｅｆｏｒｓｐｅｅｃｈａｎｄａｕｄｉｏｐｒｏｃｅｓｓｉｎｇ，″ＳｐｅｅｃｈＣｏｍｍｕｎｉｃａｔｉｏｎ，Ｖｏｌｕｍｅ１３，Ｉｓｓｕｅ１−２，ｐｐ．２０７−２２２，Ｏｃｔｏｂｅｒ１９９３．野村博昭、金田豊、小島順治、"近接音場型マイクロホンアレー"、日本音響学会誌、Ｖｏｌ．５３，Ｎｏ．２，ｐｐ．１１０−１１６，１９９７．ＹｕｓｕｋｅＨｉｏｋａ，ＫａｚｕｎｏｒｉＫｏｂａｙａｓｈｉ，ＫｅｎｉｃｈｉＦｕｒｕｙａａｎｄＡｋｉｔｏｓｈｉＫａｔａｏｋａ，″ＥｎｈａｎｃｅｍｅｎｔｏｆＳｏｕｎｄＳｏｕｒｃｅｓＬｏｃａｔｅｄｗｉｔｈｉｎａＰａｒｔｉｃｕｌａｒＡｒｅａＵｓｉｎｇａＰａｉｒｏｆＳｍａｌｌＭｉｃｒｏｐｈｏｎｅＡｒｒａｙｓ，″ＩＥＩＣＥＴｒａｎｓａｃｔｉｏｎｓｏｎＦｕｎｄａｍｅｎｔａｌｓ，Ｖｏｌ．Ｅ９１−Ａ，Ｎｏ．２，ｐｐ．５６１−５７４，Ａｕｇｕｓｔ２００４．日岡祐輔、丹羽健太、阪内澄宇、羽田陽一、"受音信号の直間比に基づく距離別収音の検討"、日本音響学会秋季研究発表会、ｐｐ．６３３−６３４，２００９．

カテゴリ［１］で説明した狭指向音声強調技術によると、例えば音響管マイクとパラボラマイクの例から理解できるように、目的方向にマイクロホン自体を向けないと、目的方向から到来した音声を強調することができない。つまり、目的方向が変わりえる場合には、人の身体活動に拠らないのであれば、音響管マイクやパラボラマイクそのものの向きを変更するための駆動制御手段が必要になってしまう。また、パラボラマイクは、パラボラ板で反射した音声のエネルギーを焦点に集中できるので、高ＳＮ比収音の観点から優れていると言えるが、音響管マイクとパラボラマイクは共に、例えば見込み角５°〜１０°程度の狭指向性（目的方向に対して±５°〜±１０°程度の鋭い指向性）を実現することが困難である。
カテゴリ［２］で説明した狭指向音声強調技術によると、狭指向性を実現するためには、マイクロホン数を増やし、アレーサイズ（アレーの全長）を大きくすることが必要となる。フェーズドマイクロホンアレーを設置する空間の制約、コスト、リアルタイム処理を実行可能なマイクロホン数などの観点から、無制限にアレーサイズを大きくすることは現実的ではない。例えば、市場で入手可能なマイクロホンでリアルタイム処理が可能な信号の最大値は１００程度であるところ、１００本程度のマイクロホンを用いたフェーズドマイクロホンアレーで実現可能な指向性は目的方向に対して±３０°程度であり、例えば±５°〜±１０°程度の鋭い指向性で目的方向の音声を強調することは困難である。また、カテゴリ［２］の従来技術では、目的方向以外の方向の音声に埋もれないように目的方向の音声を高ＳＮ比で収音することが難しい。
カテゴリ［３］で説明した狭指向音声強調技術によると、目的方向以外の方向の音声に埋もれないように目的方向の音声を高ＳＮ比で収音することや上述の駆動制御手段を要することなく任意の方向の音声を強調することは可能であるが、狭指向性を実現することが難しい。特に、人の声は１００Ｈｚ程度から２ｋＨｚ程度の周波数成分を多く含んでいるが、カテゴリ［３］の従来技術によって、このような低周波帯域で目的方向に対して±５°〜±１０°程度の鋭い指向性を実現することは困難である。
（１）で説明した音声スポット強調技術は、遅延和アレー方式であるため干渉源への対策が図られていない。（２）で説明した音声スポット強調技術によると、複数のマイクロホンアレーが必要なため装置規模の増大やコストの増大で不利益となりえる。マイクロホンアレーの大型化はその設置や運搬の制約となる。（３）で説明した音声スポット強調技術によると、環境変化によって残響の情報が変化するため、環境変化に頑健に対応し難い。
このような現状に鑑みて、第一に、本発明は、十分なＳＮ比で収音し、マイクロホンの物理的な移動を要することなく任意の方向の音声に追従可能でもありながら、所望の方向に対して従来よりも鋭い指向性を有し、マイクロホンアレーからの距離に応じて音声を強調可能な音声強調技術（音声スポット強調技術）を提供することを目的とする。第二に、本発明は、十分なＳＮ比で収音し、マイクロホンの物理的な移動を要することなく任意の方向の音声に追従可能でもありながら、所望の方向に対して従来よりも鋭い指向性を有する音声強調技術（狭指向音声強調技術）を提供することを目的とする。

（音声スポット強調技術）
音源位置として想定される一つまたは複数の位置に含まれる各位置（ただし、各位置を識別するための方向をｉ、距離をｇとする）からの音声の各マイクロホン（マイクロホン総数はＭ；Ｍ≧２）への伝達特性ａ_ｉ，ｇを用いて、音声強調の対象となる位置について、フィルタを求める［フィルタ設計処理］。各伝達特性ａ_ｉ，ｇは、方向ｉと距離ｇで定まる位置からの音声がＭ個のマイクロホンに直接届く直接音の伝達特性と当該音声が反射物で反射してＭ個のマイクロホンに届く一つ以上の反射音の各伝達特性との和で表される。フィルタは、Ｍ個のマイクロホンで音声を収音して得られるＭ個の収音信号がそれぞれ周波数領域に変換された周波数領域信号に対して周波数ごとに適用されるものである。フィルタ設計処理で求められたフィルタを、周波数ごとに周波数領域信号に適用して出力信号を得る［フィルタ適用処理］。この出力信号が、音声強調の対象となる位置の音声が強調された周波数領域信号である。
各伝達特性ａ_ｉ，ｇは、具体例として、直接音のステアリングベクトルと、反射による音の減衰および直接音に対する到来時間差が補正された一つ以上の反射音の各ステアリングベクトルとの和、あるいは、実環境下において実測で得られたものでもよい。
フィルタ設計処理では、音声強調の対象となる位置以外の位置からの音声のパワーが最小となるように、周波数ごとにフィルタを求めてもよい。あるいは、音声強調の対象となる位置からの音声のＳＮ比が最大となるように、周波数ごとにフィルタを求めてもよい。あるいは、Ｍ個のマイクロホンのうち一つのマイクロホンに対するフィルタ係数を一定値に固定した状態で音源位置として想定される一つまたは複数の位置以外の音声のパワーが最小となるように、周波数ごとにフィルタを求めてもよい。
あるいは、フィルタ設計処理では、（１）音声強調の対象となる位置の音声の全帯域通過、および（２）一つ以上の抑圧点の音声の全帯域抑制、の条件の下、音声強調の対象となる位置と各抑圧点以外の音声のパワーが最小となるように、周波数ごとにフィルタを求めてもよい。あるいは、音声強調の対象となる位置ｉ＝ｓ，ｇ＝ｈの伝達特性ａ_ｓ，ｈを正規化することによって、周波数ごとにフィルタを求めてもよい。あるいは、音声強調の対象となる位置以外の各位置に対応する伝達特性ａ_ｉ，ｇによって表される空間相関行列を用いて、周波数ごとにフィルタを求めてもよい。あるいは、音声強調の対象となる位置の音声の劣化量を所定量以下とする条件の下、音声強調の対象となる位置以外の音声のパワーが最小となるように、周波数ごとにフィルタを求めてもよい。あるいは、マイクロホンアレーによって観測して得られた信号を周波数領域に変換して得られる周波数領域信号によって表される空間相関行列を用いて、周波数ごとにフィルタを求めてもよい。あるいは、音源位置として想定される一つまたは複数の位置に含まれる各位置に対応する伝達特性ａ_ｉ，ｇによって表される空間相関行列を用いて、周波数ごとにフィルタを求めてもよい。
（狭指向音声強調技術）
音声の到来方向として想定される一つまたは複数の方向に含まれる各方向φの音声の各マイクロホン（マイクロホン総数はＭ；Ｍ≧２）への伝達特性ａ_φを用いて、音声強調の対象となる方向についてフィルタを求める［フィルタ設計処理］。各伝達特性ａ_φは、方向φの音声がＭ個のマイクロホンに直接届く直接音の伝達特性と当該音声が反射物で反射してＭ個のマイクロホンに届く一つ以上の反射音の各伝達特性との和で表される。フィルタは、Ｍ個のマイクロホンで音声を収音して得られるＭ個の収音信号がそれぞれ周波数領域に変換された周波数領域信号に対して周波数ごとに適用されるものである。フィルタ設計処理で求められたフィルタを、周波数ごとに周波数領域信号に適用して出力信号を得る［フィルタ適用処理］。この出力信号が、音声強調の対象となる方向の音声が強調された周波数領域信号である。
各伝達特性ａ_φは、具体例として、直接音のステアリングベクトルと、反射による音の減衰および直接音に対する到来時間差が補正された一つ以上の反射音の各ステアリングベクトルとの和、あるいは、実環境下において実測で得られたものでもよい。
フィルタ設計処理では、音声強調の対象となる方向以外の方向の音声のパワーが最小となるように、周波数ごとにフィルタを求めてもよい。あるいは、音声強調の対象となる方向でのＳＮ比が最大となるように、周波数ごとにフィルタを求めてもよい。あるいは、Ｍ個のマイクロホンのうち一つのマイクロホンに対するフィルタ係数を一定値に固定した状態で音声の到来方向として想定される一つまたは複数の方向の音声のパワーが最小となるように、周波数ごとにフィルタを求めてもよい。
あるいは、フィルタ設計処理では、（１）音声強調の対象となる方向の音声の全帯域通過、および（２）一つ以上の死角の音声の全帯域抑制、の条件の下、音声強調の対象となる方向と各死角とを除く方向の音声のパワーが最小となるように、周波数ごとにフィルタを求めてもよい。あるいは、音声強調の対象となる方向φ＝ｓの伝達特性ａ_ｓを正規化することによって、周波数ごとにフィルタを求めてもよい。あるいは、音声強調の対象となる方向以外の各方向に対応する伝達特性ａ_φによって表される空間相関行列を用いて、周波数ごとにフィルタを求めてもよい。あるいは、音声強調の対象となる方向の音声の劣化量を所定量以下とする条件の下、音声強調の対象となる方向以外の方向の音声のパワーが最小となるように、周波数ごとにフィルタを求めてもよい。あるいは、マイクロホンアレーによって観測して得られた信号を周波数領域に変換して得られる周波数領域信号によって表される空間相関行列を用いて、周波数ごとにフィルタを求めてもよい。

（音声スポット強調技術）
本発明の音声スポット強調技術に拠ると、所望の方向の直接音だけでなく反射音も利用しているため、当該方向について十分に大きいＳＮ比で収音可能であるとともに、信号処理によって音声強調を行うことからマイクロホンの物理的な移動を要することなく任意の方向の音声に追従可能でもある。さらに、詳しくは後述の《音声スポット強調技術の原理》の項目で説明するが、各伝達特性ａ_ｉ，ｇを、方向ｉと距離ｇで定まる位置からの音声がＭ個のマイクロホンに直接届く直接音の伝達特性と当該音声が反射物で反射してＭ個のマイクロホンに届く一つ以上の反射音の各伝達特性との和で表現することによって、一般的なフィルタ設計基準でフィルタを設計する際に、所望の方向の指向性の広狭を決定付けるコヒーレンスの抑圧の度合いを高くするようなフィルタを設計できる。つまり、所望の方向に対して従来よりも鋭い指向性を有することになる。さらに、詳しくは後述の《音声スポット強調技術の原理》の項目で説明するが、反射音を利用することによって、マイクロホンアレーから見てほぼ同じ方向だが距離が異なる位置からの音声について、異なる位置に対応する伝達特性間に有意な差分が生じることになる。この伝達特性間の差分をビームフォーミング法で抽出することによって所望の方向を含む狭い範囲の音声をマイクロホンアレーからの距離に応じて強調できる。
（狭指向音声強調技術）
本発明の狭指向音声強調技術に拠ると、所望の方向の直接音だけでなく反射音も利用しているため、当該方向について十分に大きいＳＮ比で収音可能であるとともに、信号処理によって音声強調を行うことからマイクロホンの物理的な移動を要することなく任意の方向の音声に追従可能でもある。さらに、詳しくは後述の《狭指向音声強調技術の原理》の項目で説明するが、各伝達特性ａ_φを、方向φの音声がＭ個のマイクロホンに直接届く直接音の伝達特性と当該音声が反射物で反射してＭ個のマイクロホンに届く一つ以上の反射音の各伝達特性との和で表現することによって、一般的なフィルタ設計基準でフィルタを設計する際に、所望の方向の指向性の広狭を決定付けるコヒーレンスの抑圧の度合いを高くするようなフィルタを設計できる。つまり、所望の方向に対して従来よりも鋭い指向性を有することになる。

図１Ａは、音響管マイクによって、目的方向から到来した音声が強調されることを説明するための図である。
図１Ｂは、音響管マイクによって、目的方向以外の方向から到来した音声が抑圧されることを説明するための図である。
図２Ａは、パラボラマイクによって、目的方向から到来した音声が強調されることを説明するための図である。
図２Ｂは、パラボラマイクによって、目的方向以外の方向から到来した音声が抑圧されることを説明するための図である。
図３は、複数のマイクロホンで構成されたフェーズドマイクロホンアレーを用いて、目的方向の音声を強調し、目的方向以外の方向の音声を抑圧していることを説明するための図である。
図４は、従来技術の一例としてマルチビームフォーミング法による狭指向音声強調技術の機能構成を示す図である。
図５Ａは、直接音だけを考慮した場合に狭指向性が十分に実現できないことを模式的に示す図である。
図５Ｂは、直接音と反射音を考慮した場合に狭指向性が十分に実現できることを模式的に示す図である。
図６は、従来技術による場合と本発明の原理による場合のコヒーレンスの方向依存性を示す図である。
図７は、狭指向音声強調装置（実施形態１）の機能構成を示す図である。
図８は、狭指向音声強調方法（実施形態１）の処理手順を示す図である。
図９は、第１の実施例の構成を示す図である。
図１０は、狭指向音声強調装置（実施形態２）の機能構成を示す図である。
図１１は、狭指向音声強調方法（実施形態２）の処理手順を示す図である。
図１２は、第１の実施例に基づく実験結果を示す図である。
図１３は、第１の実施例に基づく実験結果を示す図である。
図１４は、第１の実施例にてフィルタＷ^→（ω，θ）による指向性を示す図である。
図１５は、第２の実施例の構成を示す図である。
図１６は、実験例に基づく実験結果を示す図である。
図１７は、実験例に基づく実験結果を示す図である。
図１８Ａは、二つの音源Ａ，Ｂからマイクロホンアレーに直接音が届く様子を示す図である。
図１８Ｂは、二つの音源Ａ，Ｂからマイクロホンアレーに直接音が届く様子と、反射板によって二つの仮想音源Ａ（ξ），Ｂ（ξ）からマイクロホンアレーに反射音が届く様子を示す図である。
図１９は、音声スポット強調装置（実施形態１）の機能構成を示す図である。
図２０は、音声スポット強調方法（実施形態１）の処理手順を示す図である。
図２１は、音声スポット強調装置（実施形態２）の機能構成を示す図である。
図２２は、音声スポット強調方法（実施形態２）の処理手順を示す図である。
図２３Ａは、反射板を設置しなかった場合の最小分散ビームフォーマの指向性（２次元領域）。
図２３Ｂは、反射板を設置した場合の最小分散ビームフォーマの指向性（２次元領域）。
図２４Ａは、本発明の実施構成例を示す平面図である。
図２４Ｂは、本発明の実施構成例を示す正面図である。
図２４Ｃは、本発明の実施構成例を示す側面図である。
図２５Ａは、本発明の別の実施構成例を示す側面図である。
図２５Ｂは、本発明の別の実施構成例を示す側面図である。
図２６は、図２５Ｂに示す実施構成例における使用形態を示す図である。
図２７Ａは、本発明の実施構成例を示す平面図である。
図２７Ｂは、本発明の実施構成例を示す正面図である。
図２７Ｃは、本発明の実施構成例を示す側面図である。
図２８は、本発明の実施構成例を示す側面図である。

まず、狭指向音声強調技術について説明し、次いで、音声スポット強調技術を説明する。
《狭指向音声強調技術の原理》
本発明の狭指向音声強調技術の原理について説明する。本発明の狭指向音声強調技術は、信号処理に基づいて任意の方向の音声に追従できるというマイクロホンアレー技術の本質と、反射音を積極的に利用することによって高ＳＮ比で収音することとを基本としつつ、鋭い指向性を可能とする信号処理技術を組み合わせたことを特徴の一つとしている。
説明に先立ち、改めて記号を定義する。離散周波数のインデックスをω（周波数ｆと角周波数ωとの間にはω＝２πｆの関係があるから、離散周波数のインデックスωをこの角周波数ωと同一視してもかまわない。ωに関して「離散周波数のインデックス」を単に「周波数」ともいう）、フレーム番号のインデックスをｋとする。Ｍ個のマイクロホンで受音したアナログ信号の第ｋフレームの周波数領域表現をＸ^→（ω，ｋ）＝［Ｘ_１（ω，ｋ），…，Ｘ_Ｍ（ω，ｋ）］^Ｔ、マイクロホンアレーの中心から見て目的方向θ_ｓの音声の周波数領域信号Ｘ^→（ω，ｋ）を周波数ωで強調するフィルタをＷ^→（ω，θ_ｓ）とする。Ｍは２以上の整数とする。Ｔは転置を表す。このとき、目的方向θ_ｓの音声の周波数領域信号Ｘ^→（ω，ｋ）が周波数ωで強調された周波数領域信号（以下、出力信号と呼ぶ）Ｙ（ω，ｋ，θ_ｓ）は式（６）で与えられる。Ｈはエルミート転置を表す。
「マイクロホンアレーの中心」は任意に定めることができるが、一般的にはＭ個のマイクロホンの配置の幾何学的中心が「マイクロホンアレーの中心」とされ、例えば線形マイクロホンアレーであれば両端のマイクロホンの中間点が「マイクロホンアレーの中心」とされ、例えばｍ×ｍ（ｍ^２＝Ｍ）の正方マトリックス状に配置された平面マイクロホンアレーであれば、四隅のマイクロホンの対角線が交わる位置が「マイクロホンアレーの中心」とされる。
フィルタＷ^→（ω，θ_ｓ）の設計法としては種々あるが、ここでは最小分散無歪応答法（ＭＶＤＲｍｅｔｈｏｄ；ｍｉｎｉｍｕｍｖａｒｉａｎｃｅｄｉｓｔｏｒｔｉｏｎｒｅｓｐｏｎｓｅｍｅｔｈｏｄ）に拠る場合を説明する。最小分散無歪応答法では、フィルタＷ^→（ω，θ_ｓ）は、式（８）の拘束条件の下、空間相関行列Ｑ（ω）を用いて目的方向θ_ｓ以外の方向の音声（以下、「目的方向θ_ｓ以外の方向の音声」を「雑音」とも呼ぶ）のパワーが周波数ωで最小となるように設計される（式（７）参照）。ａ^→（ω，θ_ｓ）＝［ａ_１（ω，θ_ｓ），…，ａ_Ｍ（ω，θ_ｓ）］^Ｔは、方向θ_ｓに音源が在ると仮定した場合の、当該音源とＭ本のマイクロホンとの間の周波数ωでの伝達特性である。換言すれば、ａ^→（ω，θ_ｓ）＝［ａ_１（ω，θ_ｓ），…，ａ_Ｍ（ω，θ_ｓ）］^Ｔは、マイクロホンアレーに含まれる各マイクロホンへの方向θ_ｓの音声の周波数ωでの伝達特性である。空間相関行列Ｑ（ω）は、周波数領域信号Ｘ^→（ω，ｋ）の成分Ｘ_１（ω，ｋ），…，Ｘ_Ｍ（ω，ｋ）について周波数ωにおける相互相関関係を表す行列であり、Ｅ［Ｘ_ｉ（ω，ｋ）Ｘ_ｊ ^＊（ω，ｋ）］（１≦ｉ≦Ｍ，１≦ｊ≦Ｍ）を（ｉ，ｊ）成分に持つ。演算子Ｅ［・］は、統計的平均操作を表す演算子であり、記号＊は複素共役を表す。空間相関行列Ｑ（ω）は、観測に基づいて得られるＸ_１（ω，ｋ），…，Ｘ_Ｍ（ω，ｋ）の統計量を用いて表現することもできるが、伝達特性を用いて表現することもできる。以下、しばらくの間、空間相関行列Ｑ（ω）が伝達特性を用いて表現される場合を説明する。
式（７）の最適解であるフィルタＷ^→（ω，θ_ｓ）は式（９）で与えられることが知られている（下記参考文献１）。
空間相関行列Ｑ（ω）の逆行列が式（９）に含まれることから察せられるように、空間相関行列Ｑ（ω）の構造は鋭い指向性を実現する上で重要であることがわかる。また、式（７）から、雑音のパワーは空間相関行列Ｑ（ω）の構造に依存することもわかる。
雑音の到来方向のインデックスｐが属する集合を｛１，２，…，Ｐ−１｝とする。目的方向θ_ｓのインデックスｓは集合｛１，２，…，Ｐ−１｝に属さないとする。Ｐ−１個の雑音が任意の方向から到来すると仮定すると、空間相関行列Ｑ（ω）は式（１０ａ）で与えられる。多くの雑音が存在する中でも十分に機能するフィルタを作る観点から、Ｐはある程度大きい値であることが好ましく、Ｍ程度の整数であるとする。なお、ここでは本発明の狭指向音声強調技術の原理を分かり易く説明する観点から目的方向θ_ｓがあたかも特定の方向の如く説明しているが（それ故、目的方向θ_ｓ以外の方向を「雑音」の方向としている）、後述の実施形態で明らかになるように、実際には、目的方向θ_ｓは音声強調の対象となりえる任意の方向であり、目的方向θ_ｓになりえる方向として一般的に複数の方向が想定される。このような観点からすると、目的方向θ_ｓと雑音の方向との区別は凡そ主観的なものであり、目的音か雑音かの区別なく音声の到来方向として想定される複数の方向としてＰ個の異なる方向を予め決めておき、Ｐ個の方向のうち選択された一つの方向が目的方向であり、それ以外の方向が雑音の方向であると理解することがより正確である。そこで、集合｛１，２，…，Ｐ−１｝と集合｛ｓ｝との和集合をΦとすると、空間相関行列Ｑ（ω）は、音声の到来方向として想定される複数の方向に含まれる各方向θ_φの音声の各マイクロホンへの伝達特性ａ^→（ω，θ_φ）＝［ａ_１（ω，θ_φ），…，ａ_Ｍ（ω，θ_φ）］^Ｔ（φ∈Φ）によって表される空間相関行列であり、式（１０ｂ）で表される。なお、｜Φ｜＝Ｐである。｜Φ｜は集合Φの要素数を表す。
ここで、目的方向θ_ｓの音声の伝達特性ａ^→（ω，θ_ｓ）と、方向ｐ∈｛１，２，…，Ｐ−１｝の音声の伝達特性ａ^→（ω，θ_ｐ）＝［ａ_１（ω，θ_ｐ），…，ａ_Ｍ（ω，θ_ｐ）］^Ｔがお互いに直交すると仮定する。つまり、式（１１）で表される条件を満たすＰ個の直交基底系が存在すると仮定する。記号⊥は直交性を表す。Ａ^→⊥Ｂ^→である場合、ベクトルＡ^→とベクトルＢ^→の内積値はゼロである。ここではＰ≦Ｍを満たすとする。なお、式（１１）で表される条件を緩和し、近似的に直交基底系と見なせるＰ個の基底系が存在すると仮定できるような場合には、ＰはＭ程度、あるいはＭ以上のある程度大きい値であることが好ましい。
このとき、空間相関行列Ｑ（ω）は式（１２）のように展開できる。式（１２）は、直交性を満たすＰ個の伝達特性で構成された行列Ｖ（ω）＝［ａ^→（ω，θ_ｓ），ａ^→（ω，θ_１），…，ａ^→（ω，θ_Ｐ−１）］^Ｔと単位行列Λ（ω）によって空間相関行列Ｑ（ω）を分解できることを意味している。ρは空間相関行列Ｑ（ω）による式（１１）を満たす伝達特性ａ^→（ω，θ_φ）の固有値であり実数である。
このとき、空間相関行列Ｑ（ω）の逆行列は式（１３）で与えられる。
式（１３）を式（７）に代入すると、雑音のパワーが最小となることがわかる。雑音のパワーが最小となれば目的方向θ_ｓに対する指向性が実現する。よって、異なる方向の伝達特性の間に直交性が成り立っていることは、目的方向θ_ｓに対する指向性を実現する上で、重要な条件となる。
以下、従来技術において目的方向θ_ｓに対して鋭い指向性を実現することが困難な理由について考察する。
従来技術では、伝達特性が直接音のみで構成されると仮定してフィルタの設計を行っていた。現実には同じ音源から発せられた音声が壁や天井等で反射してマイクロホンに到達する反射音が存在するが、反射音は指向性を悪化させる要因と考えて反射音の存在を無視していたのである。方向θから到来する直接音のみのステアリングベクトルをｈ^→ _ｄ（ω，θ）＝［ｈ_ｄ１（ω，θ），…，ｈ_ｄＭ（ω，θ）］^Ｔとすると、従来では、伝達特性ａ^→ _ｃｏｎｖ（ω，θ）＝［ａ_１（ω，θ），…，ａ_Ｍ（ω，θ）］^Ｔをａ^→ _ｃｏｎｖ（ω，θ）＝ｈ^→ _ｄ（ω，θ）としていた。なお、ステアリングベクトルは、マイクロホンアレーの中心から見て方向θの音波について、基準点に対する各マイクロホンの周波数ωでの位相応答特性を並べた複素ベクトルである。
線形マイクロホンアレーに音声が平面波として到来すると仮定すると、直接音のステアリングベクトルｈ^→ _ｄ（ω，θ）を構成するｍ番目の要素ｈ_ｄｍ（ω，θ）は例えば式（１４ａ）で与えられる。ｍは１≦ｍ≦Ｍを満たす各整数である。ｃは音速を、ｕは隣り合うマイクロホン間の距離を表す。ｊは虚数単位である。基準点は線形マイクロホンアレーの全長の半分の位置（線形マイクロホンアレーの中心）である。方向θは線形マイクロホンアレーの中心から見て直接音の到来方向と線形マイクロホンアレーに含まれるマイクロホンの配列方向とがなす角度として定義した（図９参照）。なお、ステアリングベクトルの表し方は種々あり、例えば、基準点を線形マイクロホンアレーの一端にあるマイクロホンの位置とすれば、直接音のステアリングベクトルｈ^→ _ｄ（ω，θ）を構成するｍ番目の要素ｈ_ｄｍ（ω，θ）は例えば式（１４ｂ）で与えられる。以下、直接音のステアリングベクトルｈ^→ _ｄ（ω，θ）を構成するｍ番目の要素ｈ_ｄｍ（ω，θ）は式（１４ａ）で与えられるとして説明する。
方向θの伝達特性と目的方向θ_ｓの伝達特性との内積値γ_ｃｏｎｖ（ω，θ）は式（１５）で表される。なお、θ≠θ_ｓとする。
以後、γ_ｃｏｎｖ（ω，θ）をコヒーレンスと呼称する。コヒーレンスγ_ｃｏｎｖ（ω，θ）が０となる方向θは式（１６）で与えられる。ｑは０を除く任意の整数である。また、０＜θ＜π／２であるから、ｑの範囲は周波数帯域ごとに制限されることになる。
式（１６）にて、変更可能なパラメータはマイクロホンアレーのサイズに関わるパラメータ（Ｍとｕ）のみであるから、方向の差（角度差）｜θ−θ_ｓ｜が小さい場合には、マイクロホンアレーのサイズに関わるパラメータを変更することなくコヒーレンスγ_ｃｏｎｖ（ω，θ）を小さくすることは困難である。この場合、雑音のパワーは十分に小さくならず、図５Ａに模式的に示すように、目的方向θ_ｓに対して広いビーム幅を持った指向性となってしまう。
他方、本発明の狭指向音声強調技術は、このような考察に基づき、目的方向θ_ｓに対して鋭い指向性を持つためのフィルタ設計には、方向の差（角度差）｜θ−θ_ｓ｜が小さい場合でもコヒーレンスを十分に小さくできるようにすることが重要であるとの知見に基づき、従来技術と異なり反射音を積極的に考慮することを特徴とする。
マイクロホンアレーの各マイクロホンには、音源からの直接音と、当該音源からの音が反射物３００で反射した反射音との二種類の平面波が混入することになる。反射音の数をΞとする。Ξは１以上の予め定められた整数である。このとき、伝達特性ａ^→（ω，θ）＝［ａ_１（ω，θ），…，ａ_Ｍ（ω，θ）］^Ｔは、音声強調の対象となりえる方向の音声がマイクロホンアレーに直接届く直接音の伝達特性と当該音声が反射物で反射してマイクロホンアレーに届く一つ以上の反射音の各伝達特性との和、具体的には、直接音とξ番目（１≦ξ≦Ξ）の反射音との到来時間差をτ_ξ（θ）とし、α_ξ（１＜ξ≦Ξ）を反射による音の減衰を考慮するための係数とすると、式（１７ａ）のように、直接音のステアリングベクトルと、反射による音の減衰および直接音に対する到来時間差が補正されたΞ個の反射音のステアリングベクトルの和で表現できる。ｈ^→ _ｒξ（ω，θ）＝［ｈ_ｒ１ξ（ω，θ），…，ｈ_ｒＭξ（ω，θ）］^Ｔは方向θの直接音に対応する反射音のステアリングベクトルを表す。α_ξ（１≦ξ≦Ξ）は、通常、α_ξ≦１（１≦ξ≦Ξ）である。各反射音について、音源からマイクロホンに到達するまでの反射回数が１回であるならば、α_ξ（１≦ξ≦Ξ）は、ξ番目の反射音が反射した物体の音の反射率を表していると考えて差し支えない。
Ｍ個のマイクロホンで構成されるマイクロホンアレーに対して一つ以上の反射音を与えることが望まれるので、一つ以上の反射物が存在することが好ましい。このような観点からすると、目的方向に音源が在るとして、当該音源とマイクロホンアレーと一つ以上の反射物との位置関係は、当該音源からの音が少なくとも一つの反射物で反射してマイクロホンアレーに届くように、各反射物が配置されていることが好ましい。各反射物の形状は、２次元形状（例えば平板）または３次元形状（例えばパラボラ形状）である。また、各反射物の大きさはマイクロホンアレーと同等かそれ以上（１〜２倍程度）の大きさを持つことが好ましい。反射音を効果的に活用するためには、各反射物の反射率α_ξ（１≦ξ≦Ξ）は少なくとも０よりも大きく、さらに言えば、マイクロホンアレーに届いた反射音の振幅が直接音の振幅の例えば０．２倍以上であることが望ましく、例えば各反射物は剛性を有する固体とされる。反射物は移動可能な物体（例えば反射板）であっても移動不能な物体（床や壁や天井）であってもよい。なお、移動不能な物体を反射物として設定するとマイクロホンアレーの設置位置の変更などに伴って、反射音のステアリングベクトルの変更を要することとなり（後述する関数Ψ（θ）やΨ_ξ（θ）を参照のこと）、ひいてはフィルタ計算のやり直し（再設定）が余儀なくされる。そこで、環境変化に対して頑健であるためには、各反射物はマイクロホンアレーの従物であることが好ましい（この場合、想定されるΞ個の反射音は各反射物によるものであると考えることになる）。ここで「マイクロホンアレーの従物」とは、「マイクロホンアレーに対する配置関係（幾何学的関係）を維持したままマイクロホンアレーの位置や向きなどの変更に従うことができる有体物」のことである。単純な例として、マイクロホンアレーに各反射物が固定されている構成が挙げられる。
以下、本発明の狭指向音声強調技術の利点を具体的に説明する観点から、Ξ＝１とし、反射音の反射回数は１回であって、マイクロホンアレーの中心からＬメートル離れた位置に一つの反射物が存在すると仮定する。反射物は厚みのある剛体とする。この場合、Ξ＝１であるからこれを表す添え字を略することとして、式（１７ａ）は式（１７ｂ）のように表すことができる。
反射音のステアリングベクトルｈ^→ _ｒ（ω，θ）＝［ｈ_ｒ１（ω，θ），…，ｈ_ｒＭ（ω，θ）］^Ｔのｍ番目の要素は、直接音のステアリングベクトルの表し方と同様に（式（１４ａ）参照）、式（１８ａ）で表される。関数Ψ（θ）は反射音の到来方向を出力する。なお、直接音のステアリングベクトルを式（１４ｂ）で表す場合には、反射音のステアリングベクトルｈ^→ _ｒ（ω，θ）＝［ｈ_ｒ１（ω，θ），…，ｈ_ｒＭ（ω，θ）］^Ｔのｍ番目の要素は式（１８ｂ）で表される。一般的に、ξ番目（１≦ξ≦Ξ）のステアリングベクトルｈ^→ _ｒξ（ω，θ）＝［ｈ_ｒ１ξ（ω，θ），…，ｈ_ｒＭξ（ω，θ）］^Ｔのｍ番目の要素は、式（１８ｃ）や式（１８ｄ）で表される。関数Ψ_ξ（θ）はξ番目（１≦ξ≦Ξ）の反射音の到来方向を出力する。
反射物の位置は適宜に設定可能であるから、反射音の到来方向は変更可能なパラメータとして扱うことができる。
平板状の反射物がマイクロホンアレーの近傍にある（距離Ｌがマイクロホンアレーのサイズに比して極端に大きくない）と仮定すると、コヒーレンスγ（ω，θ）は式（１９）で表される。なお、θ≠θ_ｓとする。
式（１９）から、式（１５）の従来のコヒーレンスγ_ｃｏｎｖ（ω，θ）よりも式（１９）のコヒーレンスγ（ω，θ）の方が小さくなる可能性があることがわかる。反射物の置き方によって変更できるパラメータ（Ψ（θ）やＬ）が式（１９）の第２〜４項目の中に存在するので第１項目のｈ^→ _ｄ ^Ｈ（ω，θ）ｈ^→ _ｄ（ω，θ）を除去できる可能性がある。
例えば、線形マイクロホンアレーに対して、マイクロホンの配列方向が反射板の法線となるように平板の反射板を配置すると、関数Ψ（θ）についてΨ（θ）＝π−θが成立し、直接音と反射音との到来時間差τ（θ）について式（２０）が成立するので、式（１９）を構成する要素に式（２１）（２２）の各条件が生成される。記号＊は複素共役を表す演算子である。
ｈ^→ _ｄ ^Ｈ（ω，θ）ｈ^→ _ｒ（ω，θ）の絶対値はｈ^→ _ｄ ^Ｈ（ω，θ）ｈ^→ _ｄ（ω，θ）よりも十分に小さいので、式（１９）の第２項、第３項を無視すると、コヒーレンスγ（ω，θ）は式（２３）のように近似できる。
仮にｈ^→ _ｄ ^Ｈ（ω，θ）ｈ^→ _ｄ（ω，θ）≠０であるとしても、近似コヒーレンスγ^〜（ω，θ）は式（２４）の極小解θを持つ。ｑは任意の正整数である。また、ｑの範囲は周波数帯域ごとに制限される。
つまり、式（１６）で与えられる方向だけではなく、式（２４）で与えられる方向でもコヒーレンスを抑圧できる。コヒーレンスを抑圧できれば、雑音のパワーをより小さくできるので、図５Ｂに模式的に示すように、鋭い指向性の実現が可能になる。
なお、図５Ａと図５Ｂでは本発明の狭指向音声強調技術の原理に拠る場合と従来技術に拠る場合の指向性の違いを模式的に示したが、図６に、式（１６）で与えられるθと式（２４）で与えられるθの違いを具体的に示す。ω＝２π×１０００［ｒａｄ／ｓ］，Ｌ＝０．７０［ｍ］，θ_ｓ＝π／４［ｒａｄ］である。図６では両者の比較のために正規化されたコヒーレンスの方向依存性を示してあり、記号○で示された方向が式（１６）で与えられるθであり、記号＋で示された方向が式（２４）で与えられるθである。図６から明らかなように、従来技術に拠るとθ_ｓ＝π／４［ｒａｄ］に対してコヒーレンスがゼロとなるθは記号○で示された方向だけであるが、本発明の狭指向音声強調技術の原理に拠るとθ_ｓ＝π／４［ｒａｄ］に対してコヒーレンスがゼロとなるθは記号＋で示される多数の方向に存在し、特に、記号○で示された方向よりもθ_ｓ＝π／４［ｒａｄ］にはるかに近い方向に記号＋で示された方向が存在するため、従来技術に比べて鋭い指向性が実現されることが理解できる。
上述の説明から明らかなように、本発明の狭指向音声強調技術の要点は、伝達特性ａ^→（ω，θ）＝［ａ_１（ω，θ），…，ａ_Ｍ（ω，θ）］^Ｔを、例えば式（１７ａ）のように、直接音のステアリングベクトルとΞ個の反射音のステアリングベクトルの和で表現していることにある。従って、フィルタの設計コンセプト自体に影響を与えないので、最小分散無歪応答法以外の手法によってフィルタＷ^→（ω，θ_ｓ）を設計することができる。
上述の最小分散無歪応答法以外の手法として、〈１〉ＳＮ比最大化規準によるフィルタ設計法、〈２〉パワーインバージョン（ＰｏｗｅｒＩｎｖｅｒｓｉｏｎ）に基づくフィルタ設計法、〈３〉一つ以上の死角（雑音のゲインが抑圧される方向）を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法、〈４〉遅延合成（Ｄｅｌａｙ−ａｎｄ−ＳｕｍＢｅａｍＦｏｒｍｉｎｇ）法によるフィルタ設計法、〈５〉最尤法によるフィルタ設計法、〈６〉ＡＭＮＯＲ（ＡｄａｐｔｉｖｅＭｉｃｒｏｐｈｏｎｅ−ａｒｒａｙｆｏｒｎｏｉｓｅｒｅｄｕｃｔｉｏｎ）法によるフィルタ設計法を説明する。〈１〉ＳＮ比最大化規準によるフィルタ設計法と〈２〉パワーインバージョンに基づくフィルタ設計法については下記参考文献２を参照のこと。〈３〉一つ以上の死角（雑音のゲインが抑圧される方向）を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法については下記参考文献３を参照のこと。〈６〉ＡＭＮＯＲ（ＡｄａｐｔｉｖｅＭｉｃｒｏｐｈｏｎｅ−ａｒｒａｙｆｏｒｎｏｉｓｅｒｅｄｕｃｔｉｏｎ）法によるフィルタ設計法については下記参考文献４を参照のこと。
〈１〉ＳＮ比最大化規準によるフィルタ設計法
ＳＮ比最大化規準によるフィルタ設計法では、目的方向θ_ｓでのＳＮ比（ＳＮＲ）を最大化する規準でフィルタＷ^→（ω，θ_ｓ）を決定する。目的方向θ_ｓの音声の空間相関行列をＲ_ｓｓ（ω）、目的方向θ_ｓ以外の方向の音声の空間相関行列をＲ_ｎｎ（ω）とする。このとき、ＳＮＲは式（２５）で表される。なお、Ｒ_ｓｓ（ω）は式（２６）、Ｒ_ｎｎ（ω）は式（２７）で表される。伝達特性ａ^→（ω，θ_ｓ）＝［ａ_１（ω，θ_ｓ），…，ａ_Ｍ（ω，θ_ｓ）］^Ｔは式（１７ａ）で表される（正確には、式（１７ａ）のθをθ_ｓとしたものである）。
式（２５）のＳＮＲを最大にするフィルタＷ^→（ω，θ_ｓ）は、フィルタＷ^→（ω，θ_ｓ）に関する勾配をゼロとすること、つまり式（２８）によって求めることができる。
但し、
これにより、式（２５）のＳＮＲを最大にするフィルタＷ^→（ω，θ_ｓ）は式（２９）で与えられる。
式（２９）には目的方向θ_ｓ以外の方向の音声の空間相関行列Ｒ_ｎｎ（ω）の逆行列が含まれているが、Ｒ_ｎｎ（ω）の逆行列を、目的方向θ_ｓの音声と目的方向θ_ｓ以外の方向の音声を含む入力全体の空間相関行列Ｒ_ｘｘ（ω）の逆行列に置換してもよいことが知られている。なお、Ｒ_ｘｘ（ω）＝Ｒ_ｓｓ（ω）＋Ｒ_ｎｎ（ω）＝Ｑ（ω）である（式（１０ａ）、式（２６）、式（２７）参照）。つまり、式（２５）のＳＮＲを最大にするフィルタＷ^→（ω，θ_ｓ）を式（３０）で求めてもよい。
〈２〉パワーインバージョンに基づくフィルタ設計法
パワーインバージョンに基づくフィルタ設計法では、一つのマイクロホンに対するフィルタ係数を一定値に固定した状態でビームフォーマの平均出力パワーを最小化する基準でフィルタＷ^→（ω，θ_ｓ）を決定する。ここでは、一例として、Ｍ個のマイクロホンのうち１番目のマイクロホンに対するフィルタ係数を固定するとして説明する。この設計法では、フィルタＷ^→（ω，θ_ｓ）は、式（３２）の拘束条件の下、空間相関行列Ｒ_ｘｘ（ω）を用いて全方向（音声の到来方向として想定される全ての方向）の音声のパワーが最小となるように設計される（式（３１）参照）。伝達特性ａ^→（ω，θ_ｓ）＝［ａ_１（ω，θ_ｓ），…，ａ_Ｍ（ω，θ_ｓ）］^Ｔは式（１７ａ）で表される（正確には、式（１７ａ）のθをθ_ｓとしたものである）。なお、Ｒ_ｘｘ（ω）＝Ｑ（ω）である（式（１０ａ）、式（２６）、式（２７）参照）。
但し、
式（３１）の最適解であるフィルタＷ^→（ω，θ_ｓ）は式（３３）で与えられることが知られている（下記参考文献２参照）。
〈３〉一つ以上の死角を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法
上述の最小分散無歪応答法では、式（８）で表されるように目的方向θ_ｓの音声の全帯域通過を拘束条件とし、式（７）で表されるビームフォーマの平均出力パワーが最小となる（つまり、目的方向以外の方向の音声である雑音のパワーが最小となる）フィルタを求める、という単一拘束条件の下の規準でフィルタＷ^→（ω，θ_ｓ）を設計した。この方法によると、全体的に雑音のパワーを抑圧することはできるが、特定の一つまたは複数の方向に強いパワーを持ったノイズ源が存在することが予め判明している場合には必ずしも好適な方法とは言えない。このような場合、ノイズ源が存在する既知の一つまたは複数の特定方向（つまり、死角）を強く抑圧するフィルタが要求される。このため、ここで説明するフィルタ設計法では、（１）目的方向θ_ｓの音声の全帯域通過、および（２）予め判明しているＢ個（Ｂは１以上の予め定められた整数）の死角θ_Ｎ１，θ_Ｎ２，…，θ_ＮＢの音声の全帯域抑制、を拘束条件として、式（７）で表されるビームフォーマの平均出力パワーが最小となる（つまり、目的方向と各死角とを除く方向の音声のパワーが最小となる）フィルタを求める。既述のように、音声の到来方向のインデックスφが属する集合を｛１，２，…，Ｐ｝とすると、Ｎｊ∈｛１，２，…，Ｐ｝（ただし、ｊ∈｛１，２，…，Ｂ｝），Ｂ≦Ｐ−１である。
このとき、ａ^→（ω，θ_ｉ）＝［ａ_１（ω，θ_ｉ），…，ａ_Ｍ（ω，θ_ｉ）］^Ｔを、方向θ_ｉに音源が在ると仮定した場合の、当該音源とＭ本のマイクロホンとの間の周波数ωでの伝達特性、換言すれば、ａ^→（ω，θ_ｉ）＝［ａ_１（ω，θ_ｉ），…，ａ_Ｍ（ω，θ_ｉ）］^Ｔは、マイクロホンアレーに含まれる各マイクロホンへの方向θ_ｉの音声の周波数ωでの伝達特性とすると、拘束条件は式（３４）で表される。ただし、インデックスｉについて、ｉ∈｛ｓ，Ｎ１，Ｎ２，…，ＮＢ｝であり、伝達特性ａ^→（ω，θ_ｉ）＝［ａ_１（ω，θ_ｉ），…，ａ_Ｍ（ω，θ_ｉ）］^Ｔは式（１７ａ）で表される（正確には、式（１７ａ）のθをθ_ｉとしたものである）。ｆ_ｉ（ω）は、方向θ_ｉに関する周波数ωでの通過特性を表す。
式（３４）を行列形式で表現すると、例えば式（３５）のように表すことができる。ただし、Ａ^→（ω，θ_ｓ）＝［ａ^→（ω，θ_ｓ），ａ^→（ω，θ_Ｎ１），…，ａ^→（ω，θ_ＮＢ）］である。
但し、
（１）目的方向θ_ｓの音声の全帯域通過、および（２）予め判明しているＢ個の死角θ_Ｎ１，θ_Ｎ２，…，θ_ＮＢの音声の全帯域抑制、という拘束条件を考慮すると、理想的には、ｆ_ｓ（ω）＝１．０、ｆ_ｉ（ω）＝０．０（ｉ∈｛Ｎ１，Ｎ２，…，ＮＢ｝）とされるべきである。これは、目的方向θ_ｓの音声の全帯域完全通過と、予め判明しているＢ個の死角θ_Ｎ１，θ_Ｎ２，…，θ_ＮＢの音声の全帯域完全阻止を表している。しかし、現実には全帯域完全通過や全帯域完全阻止という制御が難しい場合もある。このような場合には、ｆ_ｓ（ω）の絶対値を１．０に近い値、ｆ_ｉ（ω）（ｉ∈｛Ｎ１，Ｎ２，…，ＮＢ｝）の絶対値を０．０に近い値に設定すればよい。もちろん、ｆ_ｉ（ω）とｆ_ｊ（ω）（ｉ≠ｊ、ｉ，ｊ∈｛Ｎ１，Ｎ２，…，ＮＢ｝）は等しくても異なってもよい。
ここで説明したフィルタ設計法によると、拘束条件を表す式（３５）の下での式（７）の最適解であるフィルタＷ^→（ω，θ_ｓ）は式（３６）で与えられる（下記参考文献３参照）。
〈４〉遅延合成法によるフィルタ設計法
式（２）から明らかなように、直接音や反射音が平面波到来すると仮定すると、フィルタＷ^→（ω，θ_ｓ）は式（３７）で与えられる。つまり、フィルタＷ^→（ω，θ_ｓ）は伝達特性ａ^→（ω，θ_ｓ）を正規化して得られる。伝達特性ａ^→（ω，θ_ｓ）＝［ａ_１（ω，θ_ｓ），…，ａ_Ｍ（ω，θ_ｓ）］^Ｔは式（１７ａ）で表される（正確には、式（１７ａ）のθをθ_ｓとしたものである）。この設計法によると、フィルタ精度は必ずしも良好とは言えない場合があるが、計算量が少なくて済む。
〈５〉最尤法によるフィルタ設計法
上述の最小分散無歪応答法において、空間相関行列Ｑ（ω）内に目的方向の音声の空間情報を含めないことによって、雑音を抑圧する自由度が向上し、雑音のパワーをよりいっそう抑圧できる。このため、ここで説明するフィルタ設計法では、空間相関行列Ｑ（ω）を、式（１０ａ）の右辺第二項、つまり、式（１０ｃ）で表す。フィルタＷ^→（ω，θ_ｓ）は式（９）や式（３６）で与えられる。このとき、式（９）や式（３６）に含まれるＱ（ω）あるいは式（３０）や式（３３）に含まれるＲ_ｘｘ（ω）＝Ｑ（ω）は、式（１０ｃ）で表される空間相関行列である。
〈６〉ＡＭＮＯＲ法によるフィルタ設計法
ＡＭＮＯＲ法は、目的方向の音声の劣化量Ｄとフィルタ出力信号に残留する雑音のパワーとのトレードオフ関係を踏まえて、目的方向の音声の劣化量Ｄを或る程度許容し（例えば劣化量Ｄを或る閾値Ｄ＾以下に保つようにする）、［ａ］目的方向の仮想的な信号（以下、仮想目的信号という）に音源とマイクロホンとの間の伝達特性を作用させた信号と［ｂ］（例えば目的方向の音声が無い雑音環境でのＭ個のマイクロホンによる観測によって得られる）雑音との混合信号を入力としたときのフィルタ出力信号が最小２乗誤差の観点から仮想目的信号を最も良く再現する（つまり、フィルタ出力信号に含まれる雑音のパワーが最小となる）フィルタを求める方式である。ＡＭＮＯＲ法によると、フィルタＷ^→（ω，θ_ｓ）は式（３８）で与えられる（下記参考文献４参照）。なお、Ｒ_ｓｓ（ω）は式（２６）、Ｒ_ｎｎ（ω）は式（２７）で表される。伝達特性ａ^→（ω，θ_ｓ）＝［ａ_１（ω，θ_ｓ），…，ａ_Ｍ（ω，θ_ｓ）］^Ｔは式（１７ａ）で表される（正確には、式（１７ａ）のθをθ_ｓとしたものである）。
Ｐ_ｓは、仮想目的信号のレベルを重み付けする係数であり、仮想目的信号レベルと呼称される。仮想目的信号レベルＰ_ｓは、周波数に依存しない定数である。仮想目的信号レベルＰ_ｓは、経験則に基づいて決められてもよく、あるいは、目的方向の音声の劣化量Ｄと閾値Ｄ＾との差が任意に定められた誤差範囲内となるように決定されてもよい。後者の例を説明する。周波数ωにおいて、ＡＭＮＯＲ法によるフィルタＷ^→（ω，θ_ｓ）の目的方向θ_ｓの音声の周波数応答Ｆ（ω）は、式（３９）で表される。式（３８）で与えられるフィルタＷ^→（ω，θ_ｓ）を用いたときの劣化量ＤをＤ（Ｐ_ｓ）と表記すると、劣化量Ｄ（Ｐ_ｓ）は式（４０）で定義される。ω_０は、対象となる周波数ωの上限（通常は、離散的な周波数ωに隣接する高域側周波数である）を表す。劣化量Ｄ（Ｐ_ｓ）はＰ_ｓの単調減少関数である。従って、Ｄ（Ｐ_ｓ）の単調性によって、Ｐ_ｓを変化させながら劣化量Ｄ（Ｐ_ｓ）を求めることを繰り返すことで、劣化量Ｄ（Ｐ_ｓ）と閾値Ｄ＾との差が任意に定められた誤差範囲内となる仮想目的信号レベルＰ_ｓを求めることができる。
＜変形例＞
上述の説明では、空間相関行列Ｑ（ω）、Ｒ_ｓｓ（ω）、Ｒ_ｎｎ（ω）を、伝達特性を用いて表現した。しかし、上述の周波数領域信号Ｘ^→（ω，ｋ）を用いて空間相関行列Ｑ（ω）、Ｒ_ｓｓ（ω）、Ｒ_ｎｎ（ω）を表現することもできる。以下、空間相関行列Ｑ（ω）について説明するが、Ｒ_ｓｓ（ω）、Ｒ_ｎｎ（ω）についても同様である（Ｑ（ω）をＲ_ｓｓ（ω）あるいはＲ_ｎｎ（ω）に読み替えればよい）。なお、空間相関行列Ｒ_ｓｓ（ω）は目的方向の音声のみが存在する環境でのマイクロホンアレー（Ｍ個のマイクロホンを含む）による観測によって得られたアナログ信号の周波数領域表現によって得られ、空間相関行列Ｒ_ｎｎ（ω）は目的方向の音声が無い環境（つまり雑音環境）でのマイクロホンアレー（Ｍ個のマイクロホンを含む）による観測によって得られたアナログ信号の周波数領域表現によって得られる。
周波数領域信号Ｘ^→（ω，ｋ）＝［Ｘ_１（ω，ｋ），…，Ｘ_Ｍ（ω，ｋ）］^Ｔを用いた空間相関行列Ｑ（ω）は式（４１）で表される。演算子Ｅ［・］は、統計的平均操作を表す演算子である。マイクロホンアレー（Ｍ個のマイクロホンを含む）で受音したアナログ信号の離散時系列を確率過程と見たとき、それがいわゆる広義の定常ないし２次定常である場合、演算子Ｅ［・］は算術平均値（期待値）演算となる。この場合、空間相関行列Ｑ（ω）は、例えば、メモリ等に蓄積された現在および過去の計ζ個のフレームの周波数領域信号Ｘ^→（ω，ｋ−ｉ）（ｉ＝０，１，…，ζ−１）を用いて式（４２）で表される。ｉ＝０のとき、つまり第ｋフレームが現在のフレームである。なお、式（４１）ないし式（４２）による空間相関行列Ｑ（ω）はフレーム毎に計算し直してもよいし、あるいは、定期ないし不定期の間隔で計算し直してもよいし、あるいは、後に説明する実施形態の実施の前に計算しておいてもよい（特に、フィルタ設計にＲ_ｓｓ（ω）あるいはＲ_ｎｎ（ω）を用いる場合には、実施形態の実施の前に取得された周波数領域信号を用いて空間相関行列Ｑ（ω）を事前に計算しておくことが好適である）。フレーム毎に空間相関行列Ｑ（ω）を計算し直す場合、空間相関行列Ｑ（ω）は現在と過去のフレームに依存するから、式（４１ａ）や式（４２ａ）のように明示的に空間相関行列をＱ（ω，ｋ）と表すことにする。
式（４１ａ）や式（４２ａ）で表される空間相関行列Ｑ（ω，ｋ）を用いるとフィルタＷ^→（ω，θ_ｓ）も現在と過去のフレームに依存するから、明示的にこれをＷ^→（ω，θ_ｓ，ｋ）と表すことにする。このとき、上述の種々のフィルタ設計法で説明した式（９）、式（２９）、式（３０）、式（３３）、式（３６）、式（３８）のいずれかで表されるフィルタＷ^→（ω，θ_ｓ）は、表記上、式（９ｍ）、式（２９ｍ）、式（３０ｍ）、式（３３ｍ）、式（３６ｍ）、式（３８ｍ）に修正される。
《狭指向音声強調技術の実施形態１》
本発明の狭指向音声強調技術の実施形態１の機能構成および処理フローを図７と図８に示す。この実施形態１の音声強調装置（以下、狭指向音声強調装置という）１は、ＡＤ変換部２１０、フレーム生成部２２０、周波数領域変換部２３０、フィルタ適用部２４０、時間領域変換部２５０、フィルタ設計部２６０、記憶部２９０を含む。
［ステップＳ１］
予め、フィルタ設計部２６０が音声強調の対象となりえる離散的な方向ごとに、周波数ごとのフィルタＷ^→（ω，θ_ｉ）を計算しておく。音声強調の対象となりえる離散的な方向の総数をＩ（Ｉは１以上の予め定められた整数であり、Ｉ≦Ｐを満たす）とすると、Ｗ^→（ω，θ_１），…，Ｗ^→（ω，θ_ｉ），…，Ｗ^→（ω，θ_Ｉ）（１≦ｉ≦Ｉ，ω∈Ω；ｉは整数、Ωは周波数ωの集合）を事前に計算しておくのである。
このためには、上述の＜変形例＞で説明した場合を除き、伝達特性ａ^→（ω，θ_ｉ）＝［ａ_１（ω，θ_ｉ），…，ａ_Ｍ（ω，θ_ｉ）］^Ｔ（１≦ｉ≦Ｉ，ω∈Ω）を求める必要があるが、これは、マイクロホンアレーにおけるマイクロホンの配置、反射物である例えば反射板、床、壁、天井のマイクロホンアレーに対する位置関係、直接音とξ番目（１≦ξ≦Ξ）の反射音との到来時間差、反射物の音の反射率などの環境情報を基に式（１７ａ）によって具体的に計算できる（正確には、式（１７ａ）のθをθ_ｉとしたものである）。なお、上述の〈３〉一つ以上の死角を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法に拠る場合、伝達特性ａ^→（ω，θ_ｉ）（１≦ｉ≦Ｉ，ω∈Ω）を求める際の方向のインデックスｉは、少なくともＢ個の死角の方向のインデックスＮ１，Ｎ２，…，ＮＢの全てを亘ることが望ましい。換言すれば、Ｂ個の死角の方向のインデックスＮ１，Ｎ２，…，ＮＢは、１以上Ｉ以下のいずれかの異なる整数として設定される。
反射音の数Ξは１≦Ξを満たす整数に設定されるが、Ξの値として特に限定はなく計算能力などに応じて適宜に設定すればよい。一つの反射板をマイクロホンアレーの近傍に設置する場合には、伝達特性ａ^→（ω，θ_ｉ）は式（１７ｂ）によって具体的に計算できる（正確には、式（１７ｂ）のθをθ_ｉとしたものである）。
ステアリングベクトルの計算には、例えば式（１４ａ）、式（１４ｂ）、式（１８ａ）、式（１８ｂ）、式（１８ｃ）、式（１８ｄ）を用いることができる。なお、フィルタ設計に用いる伝達特性として、式（１７ａ）や式（１７ｂ）に拠らず、例えば実環境下における実測で得られた伝達特性を用いてもよい。
そして、上述の＜変形例＞で説明した場合を除き、伝達特性ａ^→（ω，θ_ｉ）を用いて、例えば式（９）、式（２９）、式（３０）、式（３３）、式（３６）、式（３７）、式（３８）のいずれかによってＷ^→（ω，θ_ｉ）（１≦ｉ≦Ｉ）を求める。なお、上述の〈５〉最尤法によるフィルタ設計法で説明した場合を除き、式（９）または式（３０）または式（３３）または式（３６）を用いる場合には空間相関行列Ｑ（ω）（あるいはＲ_ｘｘ（ω））は式（１０ｂ）で計算できる。上述の〈５〉最尤法によるフィルタ設計法に拠って、式（９）または式（３０）または式（３３）または式（３６）を用いる場合には空間相関行列Ｑ（ω）（あるいはＲ_ｘｘ（ω））は式（１０ｃ）で計算できる。式（２９）を用いる場合には空間相関行列Ｒ_ｎｎ（ω）は式（２７）で計算できる。Ｉ×｜Ω｜個のフィルタＷ^→（ω，θ_ｉ）（１≦ｉ≦Ｉ，ω∈Ω）は記憶部２９０に記憶される。｜Ω｜は集合Ωの要素数を表す。
［ステップＳ２］
マイクロホンアレーを構成するＭ個のマイクロホン２００−１，…，２００−Ｍを用いて収音する。Ｍは２以上の整数である。
Ｍ個のマイクロホンの並べ方に制限は無い。ただし、２次元または３次元的にＭ個のマイクロホンを配置することによって、音声強調する方向の不確定性がなくなるという利点がある。つまり、Ｍ個のマイクロホンを水平方向に直線状に並べたときに例えば正面方向から到来する音声と真上から到来する音声との区別ができなくなるという問題を、マイクロホンを平面的ないし立体的に並べることで防ぐことができる。また、収音方向として設定できる方向を広くとるためには、各マイクロホンの指向性は、収音方向である目的方向θ_ｓになり得る方向にある程度の音圧で音声を収音可能な指向性を持っていたほうがよい。したがって、無指向性マイクロホンや単一指向性マイクロホンといった指向性が比較的緩やかなマイクロホンが好適である。
［ステップＳ３］
ＡＤ変換部２１０が、Ｍ個のマイクロホン２００−１，…，２００−Ｍで収音されたアナログ信号（収音信号）をディジタル信号ｘ^→（ｔ）＝［ｘ_１（ｔ），…，ｘ_Ｍ（ｔ）］^Ｔへ変換する。ｔは離散時間のインデックスを表す。
［ステップＳ４］
フレーム生成部２２０は、ＡＤ変換部２１０が出力したディジタル信号ｘ^→（ｔ）＝［ｘ_１（ｔ），…，ｘ_Ｍ（ｔ）］^Ｔを入力とし、チャネルごとにＮサンプルをバッファに貯めてフレーム単位のディジタル信号ｘ^→（ｋ）＝［ｘ^→ _１（ｋ），…，ｘ^→ _Ｍ（ｋ）］^Ｔを出力する。ｋはフレーム番号のインデックスである。ｘ^→ _ｍ（ｋ）＝［ｘ_ｍ（（ｋ−１）Ｎ＋１），…，ｘ_ｍ（ｋＮ）］（１≦ｍ≦Ｍ）である。Ｎはサンプリング周波数にもよるが、１６ｋＨｚサンプリングの場合には５１２点あたりが妥当である。
［ステップＳ５］
周波数領域変換部２３０は、各フレームのディジタル信号ｘ^→（ｋ）を周波数領域の信号Ｘ^→（ω，ｋ）＝［Ｘ_１（ω，ｋ），…，Ｘ_Ｍ（ω，ｋ）］^Ｔに変換して出力する。ωは離散周波数のインデックスである。時間領域信号を周波数領域信号に変換する方法の一つに高速離散フーリエ変換があるが、これに限定されず、周波数領域信号に変換する他の方法を用いてもよい。周波数領域信号Ｘ^→（ω，ｋ）は、各周波数ω、フレームｋごとに出力される。
［ステップＳ６］
フィルタ適用部２４０は、フレームｋごとに、各周波数ω∈Ωについて、周波数領域信号Ｘ^→（ω，ｋ）＝［Ｘ_１（ω，ｋ），…，Ｘ_Ｍ（ω，ｋ）］^Ｔに、強調したい目的方向θ_ｓに対応するフィルタＷ^→（ω，θ_ｓ）を適用して、出力信号Ｙ（ω，ｋ，θ_ｓ）を出力する（式（４３）参照）。目的方向θ_ｓのインデックスｓは、ｓ∈｛１，…，Ｉ｝であり、フィルタＷ^→（ω，θ_ｓ）は記憶部２９０に記憶されているので、例えば、ステップＳ６の処理の都度、フィルタ適用部２４０は、強調したい目的方向θ_ｓに対応するフィルタＷ^→（ω，θ_ｓ）を記憶部２９０から取得すればよい。目的方向θ_ｓのインデックスｓが集合｛１，…，Ｉ｝に属さない場合、つまり、目的方向θ_ｓに対応するフィルタＷ^→（ω，θ_ｓ）がステップＳ１の処理で計算されていない場合、臨時に目的方向θ_ｓに対応するフィルタＷ^→（ω，θ_ｓ）をフィルタ設計部２６０に計算させてもよいし、あるいは目的方向θ_ｓに近い方向θ_ｓ′に対応するフィルタＷ^→（ω，θ_ｓ′）を用いてよい。
［ステップＳ７］
時間領域変換部２５０は、第ｋフレームの各周波数ω∈Ωの出力信号Ｙ（ω，ｋ，θ_ｓ）を時間領域に変換して第ｋフレームのフレーム単位時間領域信号ｙ（ｋ）を得て、さらに、得られたフレーム単位時間領域信号ｙ（ｋ）をフレーム番号のインデックスの順番に連結して目的方向θ_ｓの音声が強調された時間領域信号ｙ（ｔ）を出力する。周波数領域信号を時間領域信号に変換する方法は、ステップＳ５の処理で用いた変換方法に対応する逆変換であり、例えば高速離散逆フーリエ変換である。
ここでは、ステップＳ１の処理で予めフィルタＷ^→（ω，θ_ｉ）を計算しておく実施形態１を説明したが、狭指向音声強調装置１の計算処理能力などに応じて、目的方向θ_ｓが定まってからフィルタ設計部２６０が周波数ごとのフィルタＷ^→（ω，θ_ｓ）を計算する実施形態を採用することもできる。
《狭指向音声強調技術の実施形態２》
本発明の狭指向音声強調技術の実施形態２の機能構成および処理フローを図１０と図１１に示す。この実施形態２の狭指向音声強調装置２は、ＡＤ変換部２１０、フレーム生成部２２０、周波数領域変換部２３０、フィルタ適用部２４０、時間領域変換部２５０、フィルタ計算部２６１、記憶部２９０を含む。
［ステップＳ１１］
マイクロホンアレーを構成するＭ個のマイクロホン２００−１，…，２００−Ｍを用いて収音する。Ｍは２以上の整数である。Ｍ個のマイクロホンの並べ方等については実施形態１で説明したとおりである。
［ステップＳ１２］
ＡＤ変換部２１０が、Ｍ個のマイクロホン２００−１，…，２００−Ｍで収音されたアナログ信号（収音信号）をディジタル信号ｘ^→（ｔ）＝［ｘ_１（ｔ），…，ｘ_Ｍ（ｔ）］^Ｔへ変換する。ｔは離散時間のインデックスを表す。
［ステップＳ１３］
フレーム生成部２２０は、ＡＤ変換部２１０が出力したディジタル信号ｘ^→（ｔ）＝［ｘ_１（ｔ），…，ｘ_Ｍ（ｔ）］^Ｔを入力とし、チャネルごとにＮサンプルをバッファに貯めてフレーム単位のディジタル信号ｘ^→（ｋ）＝［ｘ^→ _１（ｋ），…，ｘ^→ _Ｍ（ｋ）］^Ｔを出力する。ｋはフレーム番号のインデックスである。ｘ^→ _ｍ（ｋ）＝［ｘ_ｍ（（ｋ−１）Ｎ＋１），…，ｘ_ｍ（ｋＮ）］（１≦ｍ≦Ｍ）である。Ｎはサンプリング周波数にもよるが、１６ｋＨｚサンプリングの場合には５１２点あたりが妥当である。
［ステップＳ１４］
周波数領域変換部２３０は、各フレームのディジタル信号ｘ^→（ｋ）を周波数領域の信号Ｘ^→（ω，ｋ）＝［Ｘ_１（ω，ｋ），…，Ｘ_Ｍ（ω，ｋ）］^Ｔに変換して出力する。ωは離散周波数のインデックスである。時間領域信号を周波数領域信号に変換する方法の一つに高速離散フーリエ変換があるが、これに限定されず、周波数領域信号に変換する他の方法を用いてもよい。周波数領域信号Ｘ^→（ω，ｋ）は、各周波数ω、フレームｋごとに出力される。
［ステップＳ１５］
フィルタ計算部２６１が、現在の第ｋフレームで用いられる、目的方向θ_ｓに対応する周波数毎のフィルタＷ^→（ω，θ_ｓ，ｋ）（ω∈Ω；Ωは周波数ωの集合）を計算する。
このためには、伝達特性ａ^→（ω，θ_ｓ）＝［ａ_１（ω，θ_ｓ），…，ａ_Ｍ（ω，θ_ｓ）］^Ｔ（ω∈Ω）を用意する必要があるが、これは、マイクロホンアレーにおけるマイクロホンの配置、反射物である例えば反射板、床、壁、天井のマイクロホンアレーに対する位置関係、直接音とξ番目（１≦ξ≦Ξ）の反射音との到来時間差、反射物の音の反射率などの環境情報を基に式（１７ａ）によって具体的に計算できる（正確には、式（１７ａ）のθをθ_ｓとしたものである）。なお、上述の〈３〉一つ以上の死角を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法に拠る場合、伝達特性ａ^→（ω，θ_Ｎｊ）（１≦ｊ≦Ｂ，ω∈Ω）も求める必要があるが、これらはマイクロホンアレーにおけるマイクロホンの配置、反射物である例えば反射板、床、壁、天井のマイクロホンアレーに対する位置関係、直接音とξ番目（１≦ξ≦Ξ）の反射音との到来時間差、反射物の音の反射率などの環境情報を基に式（１７ａ）によって具体的に計算できる（正確には、式（１７ａ）のθをθ_Ｎｊとしたものである）。
反射音の数Ξは１≦Ξを満たす整数に設定されるが、Ξの値として特に限定はなく計算能力などに応じて適宜に設定すればよい。一つの反射板をマイクロホンアレーの近傍に設置する場合には、伝達特性ａ^→（ω，θ_ｓ）は式（１７ｂ）によって具体的に計算できる（正確には、式（１７ｂ）のθをθ_ｓとしたものである）。この場合、同様に、伝達特性ａ^→（ω，θ_Ｎｊ）（１≦ｊ≦Ｂ，ω∈Ω）は式（１７ｂ）によって具体的に計算できる（正確には、式（１７ｂ）のθをθ_Ｎｊとしたものである）。
ステアリングベクトルの計算には、例えば式（１４ａ）、式（１４ｂ）、式（１８ａ）、式（１８ｂ）、式（１８ｃ）、式（１８ｄ）を用いることができる。なお、フィルタ設計に用いる伝達特性として、式（１７ａ）や式（１７ｂ）に拠らず、例えば実環境下における実測で得られた伝達特性を用いてもよい。
そして、フィルタ計算部２６１は、伝達特性ａ^→（ω，θ_ｓ）（ω∈Ω）や必要に応じて伝達特性ａ^→（ω，θ_Ｎｊ）（１≦ｊ≦Ｂ，ω∈Ω）を用いて、フィルタＷ^→（ω，θ_ｓ，ｋ）（ω∈Ω）を、式（９ｍ）、式（２９ｍ）、式（３０ｍ）、式（３３ｍ）、式（３６ｍ）、式（３８ｍ）のいずれかに従って求める。なお、空間相関行列Ｑ（ω）（あるいはＲ_ｘｘ（ω））は例えば式（４１ａ）や式（４２ａ）で計算できる。空間相関行列Ｑ（ω）の計算には、記憶部２９０に蓄積された現在および過去の計ζ個のフレームの周波数領域信号Ｘ^→（ω，ｋ−ｉ）（ｉ＝０，１，…，ζ−１）が用いられる。
［ステップＳ１６］
フィルタ適用部２４０は、フレームｋごとに、各周波数ω∈Ωについて、周波数領域信号Ｘ^→（ω，ｋ）＝［Ｘ_１（ω，ｋ），…，Ｘ_Ｍ（ω，ｋ）］^Ｔに、強調したい目的方向θ_ｓに対応するフィルタＷ^→（ω，θ_ｓ，ｋ）を適用して、出力信号Ｙ（ω，ｋ，θ_ｓ）を出力する（式（４４）参照）。
［ステップＳ１７］
時間領域変換部２５０は、第ｋフレームの各周波数ω∈Ωの出力信号Ｙ（ω，ｋ，θ_ｓ）を時間領域に変換して第ｋフレームのフレーム単位時間領域信号ｙ（ｋ）を得て、さらに、得られたフレーム単位時間領域信号ｙ（ｋ）をフレーム番号のインデックスの順番に連結して目的方向θ_ｓの音声が強調された時間領域信号ｙ（ｔ）を出力する。周波数領域信号を時間領域信号に変換する方法は、ステップＳ１４の処理で用いた変換方法に対応する逆変換であり、例えば高速離散逆フーリエ変換である。
［狭指向音声強調技術の実験例］
本発明の狭指向音声強調技術の実施形態１（単一拘束条件の最小分散無歪応答法）による実験結果を説明する。図９に示すように、２４本のマイクロホンを直線的に配置し、この線形マイクロホンアレーに含まれるマイクロホンの配列方向が反射板３００の法線となるように反射板３００を配置した。反射板３００の形状に制限はないが、反射面が平面であって、１．０ｍ×１．０ｍのサイズと適度な厚みと剛性を持つ平板の反射板を用いた。隣り合うマイクロホンの間隔を４ｃｍ、反射板３００の反射率αを０．８とした。目的方向θ_ｓを４５度に設定した。線形マイクロホンアレーに音声が平面波として到来すると仮定し、伝達特性を式（１７ｂ）（式（１４ａ）、式（１８ａ）を参照）で算出して、生成されるフィルタの指向性を検証した。比較対象として、２つの従来法（反射板無しの最小分散無歪応答法と反射板有りの遅延合成法）を用いた。
実験結果を図１２、図１３に示す。２つの従来法と比較して、どの周波数帯域でも本発明の狭指向音声強調技術の実施形態１の方が、目的方向に対して鋭い指向性を実現できていることが分かる。特に、低周波数帯域ほど本発明の狭指向音声強調技術の有用性が理解される。また、図１４には、本発明の狭指向音声強調技術の実施形態１に従って生成したフィルタＷ^→（ω，θ）による指向性を示した。図１４から、直接音だけでなく、反射音も強調していることが分かる。
また、図１５に示すように、線形マイクロホンアレーに含まれるマイクロホンの配列方向と反射板３００の平面とのなす角が４５度になるように反射板３００を配置した場合についても上述の実験と同様の実験を行った。目的方向θ_ｓを２２．５度に設定し、その他の実験条件は線形マイクロホンアレーに含まれるマイクロホンの配列方向が反射板３００の法線となるように反射板３００を配置した場合と同じとした。
実験結果を図１６、図１７に示す。２つの従来法と比較して、どの周波数帯域でも本発明の狭指向音声強調技術の実施形態１の方が、目的方向に対して鋭い指向性を実現できていることが分かる。特に、低周波数帯域ほど本発明の狭指向音声強調技術の有用性が理解される。
＜応用例＞
狭指向音声強調技術は、画像に譬えて表現すれば、不鮮明な惚けた画像から鮮明な画像を生成することに対応し、音場の情報をより詳細に得ることに役立つ。以下、本発明の狭指向音声強調技術が有用なサービス例について述べる。
第１の例として、映像と組み合わせたコンテンツ制作が挙げられる。本発明の狭指向音声強調技術の実施形態を利用すると、雑音（目的外音声等）が多い雑音環境でも遠方の目的音声をクリアに強調することができるので、例えば、フィールド外から撮影したサッカー選手がドリブルするズームイン映像に対応した音声付けを行うことができる。
第２の例として、ＴＶ会議システム（音声会議システムでもよい）への応用が挙げられる。狭い部屋で会議する場合には、従来技術でも、数本のマイクロホンを用いて発言者の音声を強調することがそれなりに可能であったが、広い会議室（例えばマイクロホンから５ｍ以上離れた位置に話者が存在するような広い空間）では、クリアに遠方話者の音声を強調することが困難であり、このため、各発言者の前にマイクロホンを設置する必要があった。しかし、本発明の狭指向音声強調技術の実施形態を利用すると、遠方の音をクリアに強調することが可能であるため、各発言者の前にマイクロホンを設置することなく、広い会議室に対応したＴＶ会議システムを構築することが可能となる。
《音声スポット強調技術の原理》
次に、本発明の音声スポット強調技術の原理について説明する。本発明の音声スポット強調技術は、信号処理に基づいて任意の方向の音声に追従できるというマイクロホンアレー技術の本質と、反射音を積極的に利用することによって高ＳＮ比で収音することとを基本としつつ、鋭い指向性を可能とする信号処理技術を組み合わせたことを特徴の一つとしている。特に、マイクロホンアレーから見た方向がほぼ同じで距離だけが異なる音源とマイクロホンアレーとの間の伝達特性はかなり類似していることに鑑みて、反射物を利用することによって、異なる音源とマイクロホンアレーとの間の伝達特性の差分を大きくすることが本発明の音声スポット強調技術の顕著な特徴の一つと言える。伝達特性の差分を信号処理によって抽出することによって、マイクロホンアレーからの距離に応じて音声を強調可能な音声スポット強調技術が実現する。
説明に先立ち、改めて記号を定義する。離散周波数のインデックスをω（周波数ｆと角周波数ωとの間にはω＝２πｆの関係があるから、離散周波数のインデックスωをこの角周波数ωと同一視してもかまわない。ωに関して「離散周波数のインデックス」を単に「周波数」ともいう）、フレーム番号のインデックスをｋとする。Ｍ個のマイクロホンで受音したアナログ信号の第ｋフレームの周波数領域表現をＸ^→（ω，ｋ）＝［Ｘ_１（ω，ｋ），…，Ｘ_Ｍ（ω，ｋ）］^Ｔ、マイクロホンアレーの中心から見て方向θ_ｓ且つマイクロホンアレーの中心から見て距離Ｄ_ｈだけ離れた位置に在ると想定される音源からの音声の周波数領域信号Ｘ^→（ω，ｋ）を周波数ωで強調するフィルタをＷ^→（ω，θ_ｓ，Ｄ_ｈ）とする。Ｍは２以上の整数とする。Ｔは転置を表す。以下、しばらくの間、距離Ｄ_ｈを固定して考える。
「マイクロホンアレーの中心」は任意に定めることができるが、一般的にはＭ個のマイクロホンの配置の幾何学的中心が「マイクロホンアレーの中心」とされ、例えば線形マイクロホンアレーであれば両端のマイクロホンの中間点が「マイクロホンアレーの中心」とされ、例えばｍ×ｍ（ｍ^２＝Ｍ）の正方マトリックス状に配置された平面マイクロホンアレーであれば、四隅のマイクロホンの対角線が交わる位置が「マイクロホンアレーの中心」とされる。
また、「〜の位置に在ると想定される音源」と説明している理由は、実際に当該位置に音源が存在することが本発明の音声スポット強調技術では必須でないからである。つまり、詳しくは後の説明で明らかになるが、本発明の音声スポット強調技術は周波数表現の信号に対するフィルタ適用という信号処理を内実としており、離散的な距離Ｄ_ｈごとにフィルタを予め作成しておく実施形態が可能であるから、実際に音声スポット強調処理を行う段階でも当該位置に音源が実在することは要求されないのである。例えば、実際に音声スポット強調処理を行う段階で、マイクロホンアレーから見て方向θ_ｓ、距離Ｄ_ｈの位置に実際に音源が実在する場合、当該位置に応じた適切なフィルタを選択することによって当該音源からの音声を強調できることになり、当該位置に音源が実在しない場合、仮に雑音すら存在しない完全無音を想定すると当該フィルタによって強調された音声は理想的に完全無音であることになるが、“当該位置からの音声”を強調したことに変わりはないのである。
このような下では、マイクロホンアレーの中心から見て（方向θ_ｓ，距離Ｄ_ｈ）の位置（以下、特に断りの無い限り「位置（θ_ｓ，Ｄ_ｈ）」と呼称する）に在ると想定される音源からの音声の周波数領域信号Ｘ^→（ω，ｋ）が周波数ωで強調された周波数領域信号（以下、出力信号と呼ぶ）Ｙ（ω，ｋ，θ_ｓ，Ｄ_ｈ）は式（１０６）で与えられる。Ｈはエルミート転置を表す。
フィルタＷ^→（ω，θ_ｓ，Ｄ_ｈ）の設計法としては種々あるが、ここでは最小分散無歪応答法（ＭＶＤＲｍｅｔｈｏｄ；ｍｉｎｉｍｕｍｖａｒｉａｎｃｅｄｉｓｔｏｒｔｉｏｎｒｅｓｐｏｎｓｅｍｅｔｈｏｄ）に拠る場合を説明する。最小分散無歪応答法では、フィルタＷ^→（ω，θ_ｓ，Ｄ_ｈ）は、式（１０８）の拘束条件の下、空間相関行列Ｑ（ω）を用いて方向θ_ｓ以外の方向の音声（以下、「方向θ_ｓ以外の方向の音声」を「雑音」とも呼ぶ）のパワーが周波数ωで最小となるように設計される（式（１０７）参照。ここでは距離Ｄ_ｈを固定して考えているので、空間相関行列Ｑ（ω）をＱ（ω，Ｄ_ｈ）と明記していることに留意すること）。ａ^→（ω，θ_ｓ，Ｄ_ｈ）＝［ａ_１（ω，θ_ｓ，Ｄ_ｈ），…，ａ_Ｍ（ω，θ_ｓ，Ｄ_ｈ）］^Ｔは、位置（θ_ｓ，Ｄ_ｈ）に音源が在ると仮定した場合の、当該音源とＭ本のマイクロホンとの間の周波数ωでの伝達特性である。換言すれば、ａ^→（ω，θ_ｓ，Ｄ_ｈ）＝［ａ_１（ω，θ_ｓ，Ｄ_ｈ），…，ａ_Ｍ（ω，θ_ｓ，Ｄ_ｈ）］^Ｔは、マイクロホンアレーに含まれる各マイクロホンへの位置（θ_ｓ，Ｄ_ｈ）からの音声の周波数ωでの伝達特性である。空間相関行列Ｑ（ω）は、周波数領域信号Ｘ^→（ω，ｋ）の成分Ｘ_１（ω，ｋ），…，Ｘ_Ｍ（ω，ｋ）について周波数ωにおける相互相関関係を表す行列であり、Ｅ［Ｘ_ｉ（ω，ｋ）Ｘ_ｊ ^＊（ω，ｋ）］（１≦ｉ≦Ｍ，１≦ｊ≦Ｍ）を（ｉ，ｊ）成分に持つ。演算子Ｅ［・］は、統計的平均操作を表す演算子であり、記号＊は複素共役を表す。空間相関行列Ｑ（ω）は、観測に基づいて得られるＸ_１（ω，ｋ），…，Ｘ_Ｍ（ω，ｋ）の統計量を用いて表現することもできるが、伝達特性を用いて表現することもできる。以下、しばらくの間、空間相関行列Ｑ（ω）が伝達特性を用いて表現される場合を説明する。
式（１０７）の最適解であるフィルタＷ^→（ω，θ_ｓ，Ｄ_ｈ）は式（１０９）で与えられることが知られている（下記参考文献１）。
空間相関行列Ｑ（ω，Ｄ_ｈ）の逆行列が式（１０９）に含まれることから察せられるように、空間相関行列Ｑ（ω，Ｄ_ｈ）の構造は鋭い指向性を実現する上で重要であることがわかる。また、式（１０７）から、雑音のパワーは空間相関行列Ｑ（ω，Ｄ_ｈ）の構造に依存することもわかる。
雑音の到来方向のインデックスｐが属する集合を｛１，２，…，Ｐ−１｝とする。方向θ_ｓのインデックスｓは集合｛１，２，…，Ｐ−１｝に属さないとする。Ｐ−１個の雑音が任意の方向から到来すると仮定すると、空間相関行列Ｑ（ω，Ｄ_ｈ）は式（１１０ａ）で与えられる。多くの雑音が存在する中でも十分に機能するフィルタを作る観点から、Ｐはある程度大きい値であることが好ましく、Ｍ程度の整数であるとする。なお、ここでは本発明の音声スポット強調技術の原理を分かり易く説明する観点から方向θ_ｓがあたかも特定の方向の如く説明しているが（それ故、方向θ_ｓ以外の方向を「雑音」の方向としている）、後述の実施形態で明らかになるように、実際には、方向θ_ｓは音声強調の対象となりえる任意の位置に対応する方向であり、このため方向θ_ｓになりえる方向として一般的に複数の方向が想定される。このような観点からすると、方向θ_ｓと雑音の方向との区別は凡そ主観的なものであり、目的音か雑音かの区別なく音声の到来方向として想定される複数の方向としてＰ個の異なる方向を予め決めておき、Ｐ個の方向のうち選択された一つの方向が音声強調の対象の位置に対応する方向であり、それ以外の方向が雑音の方向であると理解することがより正確である。そこで、集合｛１，２，…，Ｐ−１｝と集合｛ｓ｝との和集合をΦとすると、空間相関行列Ｑ（ω，Ｄ_ｈ）は、マイクロホンアレーの中心からの距離がＤ_ｈであって音声の到来方向として想定される複数の方向に含まれる各方向θ_φに対応する各位置からの音声の各マイクロホンへの伝達特性ａ^→（ω，θ_φ，Ｄ_ｈ）＝［ａ_１（ω，θ_φ，Ｄ_ｈ），…，ａ_Ｍ（ω，θ_φ，Ｄ_ｈ）］^Ｔ（φ∈Φ）によって表される空間相関行列であり、式（１１０ｂ）で表される。なお、｜Φ｜＝Ｐである。｜Φ｜は集合Φの要素数を表す。
ここで、方向θ_ｓの音声の伝達特性ａ^→（ω，θ_ｓ，Ｄ_ｈ）と、方向ｐ∈｛１，２，…，Ｐ−１｝の音声の伝達特性ａ^→（ω，θ_ｐ，Ｄ_ｈ）＝［ａ_１（ω，θ_ｐ，Ｄ_ｈ），…，ａ_Ｍ（ω，θ_ｐ，Ｄ_ｈ）］^Ｔがお互いに直交すると仮定する。つまり、式（１１１）で表される条件を満たすＰ個の直交基底系が存在すると仮定する。記号⊥は直交性を表す。Ａ^→⊥Ｂ^→である場合、ベクトルＡ^→とベクトルＢ^→の内積値はゼロである。ここではＰ≦Ｍを満たすとする。なお、式（１１１）で表される条件を緩和し、近似的に直交基底系と見なせるＰ個の基底系が存在すると仮定できるような場合には、ＰはＭ程度、あるいはＭ以上のある程度大きい値であることが好ましい。
このとき、空間相関行列Ｑ（ω，Ｄ_ｈ）は式（１１２）のように展開できる。式（１１２）は、直交性を満たすＰ個の伝達特性で構成された行列Ｖ（ω，Ｄ_ｈ）＝［ａ^→（ω，θ_ｓ，Ｄ_ｈ），ａ^→（ω，θ_１，Ｄ_ｈ），…，ａ^→（ω，θ_Ｐ−１，Ｄ_ｈ）］^Ｔと単位行列Λ（ω，Ｄ_ｈ）によって空間相関行列Ｑ（ω，Ｄ_ｈ）を分解できることを意味している。ρは空間相関行列Ｑ（ω，Ｄ_ｈ）による式（１１１）を満たす伝達特性ａ^→（ω，θ_φ，Ｄ_ｈ）の固有値であり実数である。
このとき、空間相関行列Ｑ（ω，Ｄ_ｈ）の逆行列は式（１１３）で与えられる。
式（１１３）を式（１０７）に代入すると、雑音のパワーが最小となることがわかる。雑音のパワーが最小となれば方向θ_ｓに対する指向性が実現する。よって、異なる方向の伝達特性の間に直交性が成り立っていることは、方向θ_ｓに対する指向性を実現する上で、重要な条件となる。
以下、従来技術において方向θ_ｓに対して鋭い指向性を実現することが困難な理由について考察する。
従来技術では、伝達特性が直接音のみで構成されると仮定してフィルタの設計を行っていた。現実には同じ音源から発せられた音声が壁や天井等で反射してマイクロホンに到達する反射音が存在するが、反射音は指向性を悪化させる要因と考えて反射音の存在を無視していたのである。線形マイクロホンアレーに音声が平面波として到来すると仮定し、方向θから到来する直接音のみのステアリングベクトルをｈ^→ _ｄ（ω，θ）＝［ｈ_ｄ１（ω，θ），…，ｈ_ｄＭ（ω，θ）］^Ｔとすると、従来では、伝達特性ａ^→ _ｃｏｎｖ（ω，θ）＝［ａ_１（ω，θ），…，ａ_Ｍ（ω，θ）］^Ｔをａ^→ _ｃｏｎｖ（ω，θ）＝ｈ^→ _ｄ（ω，θ）としていた（音波を平面波と考えるのでステアリングベクトルは距離Ｄに依存しない）。なお、ステアリングベクトルは、マイクロホンアレーの中心から見て方向θの音波について、基準点に対する各マイクロホンの周波数ωでの位相応答特性を並べた複素ベクトルである。
以下、しばらくの間、線形マイクロホンアレーに音声が平面波として到来すると仮定する。直接音のステアリングベクトルｈ^→ _ｄ（ω，θ）を構成するｍ番目の要素ｈ_ｄｍ（ω，θ）が例えば式（１１４ｃ）で与えられるとする。ｕは隣り合うマイクロホン間の距離を表す。ｊは虚数単位である。この場合、基準点は線形マイクロホンアレーの全長の半分の位置（線形マイクロホンアレーの中心）である。方向θは線形マイクロホンアレーの中心から見て直接音の到来方向と線形マイクロホンアレーに含まれるマイクロホンの配列方向とがなす角度として定義した（図９参照）。なお、ステアリングベクトルの表し方は種々あり、例えば、基準点を線形マイクロホンアレーの一端にあるマイクロホンの位置とすれば、直接音のステアリングベクトルｈ^→ _ｄ（ω，θ）を構成するｍ番目の要素ｈ_ｄｍ（ω，θ）は例えば式（１１４ｄ）で与えられる。以下、直接音のステアリングベクトルｈ^→ _ｄ（ω，θ）を構成するｍ番目の要素ｈ_ｄｍ（ω，θ）は式（１１４ｃ）で与えられるとして説明する。
方向θの伝達特性と方向θ_ｓの伝達特性との内積値γ_ｃｏｎｖ（ω，θ）は式（１１５）で表される。なお、θ≠θ_ｓとする。
以後、γ_ｃｏｎｖ（ω，θ）をコヒーレンスと呼称する。コヒーレンスγ_ｃｏｎｖ（ω，θ）が０となる方向θは式（１１６）で与えられる。ｑは０を除く任意の整数である。また、０＜θ＜π／２であるから、ｑの範囲は周波数帯域ごとに制限されることになる。
式（１１６）にて、変更可能なパラメータはマイクロホンアレーのサイズに関わるパラメータ（Ｍとｕ）のみであるから、方向の差（角度差）｜θ−θ_ｓ｜が小さい場合には、マイクロホンアレーのサイズに関わるパラメータを変更することなくコヒーレンスγ_ｃｏｎｖ（ω，θ）を小さくすることは困難である。この場合、雑音のパワーは十分に小さくならず、図５Ａに模式的に示すように、方向θ_ｓに対して広いビーム幅を持った指向性となってしまう。
他方、本発明の音声スポット強調技術は、このような考察に基づき、方向θ_ｓに対して鋭い指向性を持つためのフィルタ設計には、方向の差（角度差）｜θ−θ_ｓ｜が小さい場合でもコヒーレンスを十分に小さくできるようにすることが重要であるとの知見に基づき、従来技術と異なり反射音を積極的に考慮することを特徴とする。
マイクロホンアレーの各マイクロホンには、音源からの直接音と、当該音源からの音が反射物３００で反射した反射音との二種類の平面波が混入することになる。反射音の数をΞとする。Ξは１以上の予め定められた整数である。このとき、伝達特性ａ^→（ω，θ）＝［ａ_１（ω，θ），…，ａ_Ｍ（ω，θ）］^Ｔは、音声強調の対象となりえる方向の音声がマイクロホンアレーに直接届く直接音の伝達特性と当該音声が反射物で反射してマイクロホンアレーに届く一つ以上の反射音の各伝達特性との和、具体的には、直接音とξ番目（１≦ξ≦Ξ）の反射音との到来時間差をτ_ξ（θ）とし、α_ξ（１≦ξ≦Ξ）を反射による音の減衰を考慮するための係数とすると、式（１１７ａ）のように、直接音のステアリングベクトルと、反射による音の減衰および直接音に対する到来時間差が補正されたΞ個の反射音のステアリングベクトルの和で表現できる。ｈ^→ _ｒξ（ω，θ）＝［ｈ_ｒ１ξ（ω，θ），…，ｈ_ｒＭξ（ω，θ）］^Ｔは方向θの直接音に対応する反射音のステアリングベクトルを表す。α_ξ（１≦ξ≦Ξ）は、通常、α_ξ≦１（１≦ξ≦Ξ）である。各反射音について、音源からマイクロホンに到達するまでの反射回数が１回であるならば、α_ξ（１≦ξ≦Ξ）は、ξ番目の反射音が反射した物体の音の反射率を表していると考えて差し支えない。
Ｍ個のマイクロホンで構成されるマイクロホンアレーに対して一つ以上の反射音を与えることが望まれるので、一つ以上の反射物が存在することが好ましい。このような観点からすると、音声強調の対象位置に音源が在るとして、当該音源とマイクロホンアレーと一つ以上の反射物との位置関係は、当該音源からの音が少なくとも一つの反射物で反射してマイクロホンアレーに届くように、各反射物が配置されていることが好ましい。各反射物の形状は、２次元形状（例えば平板）または３次元形状（例えばパラボラ形状）である。また、各反射物の大きさはマイクロホンアレーと同等かそれ以上（１〜２倍程度）の大きさを持つことが好ましい。反射音を効果的に活用するためには、各反射物の反射率α_ξ（１≦ξ≦Ξ）は少なくとも０よりも大きく、さらに言えば、マイクロホンアレーに届いた反射音の振幅が直接音の振幅の例えば０．２倍以上であることが望ましく、例えば各反射物は剛性を有する固体とされる。反射物は移動可能な物体（例えば反射板）であっても移動不能な物体（床や壁や天井）であってもよい。なお、移動不能な物体を反射物として設定するとマイクロホンアレーの設置位置の変更などに伴って、反射音のステアリングベクトルの変更を要することとなり（後述する関数Ψ（θ）やΨ_ξ（θ）を参照のこと）、ひいてはフィルタ計算のやり直し（再設定）が余儀なくされる。そこで、環境変化に対して頑健であるためには、各反射物はマイクロホンアレーの従物であることが好ましい（この場合、想定されるΞ個の反射音は各反射物によるものであると考えることになる）。ここで「マイクロホンアレーの従物」とは、「マイクロホンアレーに対する配置関係（幾何学的関係）を維持したままマイクロホンアレーの位置や向きなどの変更に従うことができる有体物」のことである。単純な例として、マイクロホンアレーに各反射物が固定されている構成が挙げられる。
以下、本発明の音声スポット強調技術の利点を具体的に説明する観点から、Ξ＝１とし、反射音の反射回数は１回であって、マイクロホンアレーの中心からＬメートル離れた位置に一つの反射物が存在すると仮定する。反射物は厚みのある剛体とする。この場合、Ξ＝１であるからこれを表す添え字を略することとして、式（１１７ａ）は式（１１７ｂ）のように表すことができる。
反射音のステアリングベクトルｈ^→ _ｒ（ω，θ）＝［ｈ_ｒ１（ω，θ），…，ｈ_ｒＭ（ω，θ）］^Ｔのｍ番目の要素は、直接音のステアリングベクトルの表し方と同様に（式（１１４ｃ）参照）、式（１１８ａ）で表される。関数Ψ（θ）は反射音の到来方向を出力する。なお、直接音のステアリングベクトルを式（１１４ｄ）で表す場合には、反射音のステアリングベクトルｈ^→ _ｒ（ω，θ）＝［ｈ_ｒ１（ω，θ），…，ｈ_ｒＭ（ω，θ）］^Ｔのｍ番目の要素は式（１１８ｂ）で表される。また、Ξ≧２ならば、ξ番目（１≦ξ≦Ξ）のステアリングベクトルｈ^→ _ｒξ（ω，θ）＝［ｈ_ｒ１ξ（ω，θ），…，ｈ_ｒＭξ（ω，θ）］^Ｔのｍ番目の要素は、式（１１８ｃ）や式（１１８ｄ）で表される。関数Ψ_ξ（θ）はξ番目（１≦ξ≦Ξ）の反射音の到来方向を出力する。
反射物の位置は適宜に設定可能であるから、反射音の到来方向は変更可能なパラメータとして扱うことができる。
平板状の反射物がマイクロホンアレーの近傍にある（距離Ｌがマイクロホンアレーのサイズに比して極端に大きくない）と仮定すると、コヒーレンスγ（ω，θ）は式（１１９）で表される。なお、θ≠θ_ｓとする。
式（１１９）から、式（１１５）の従来のコヒーレンスγ_ｃｏｎｖ（ω，θ）よりも式（１１９）のコヒーレンスγ（ω，θ）の方が小さくなる可能性があることがわかる。反射物の置き方によって変更できるパラメータ（Ψ（θ）やＬ）が式（１１９）の第２〜４項目の中に存在するので第１項目のｈ^→ _ｄ ^Ｈ（ω，θ）ｈ^→ _ｄ（ω，θ）を除去できる可能性がある。
例えば、線形マイクロホンアレーに対して、マイクロホンの配列方向が反射板の法線となるように平板の反射板を配置すると、関数Ψ（θ）についてΨ（θ）＝π−θが成立し、直接音と反射音との到来時間差τ（θ）について式（１２０）が成立するので、式（１１９）を構成する要素に式（１２１）（１２２）の各条件が生成される。記号＊は複素共役を表す演算子である。
ｈ^→ _ｄ ^Ｈ（ω，θ）ｈ^→ _ｒ（ω，θ）の絶対値はｈ^→ _ｄ ^Ｈ（ω，θ）ｈ^→ _ｄ（ω，θ）よりも十分に小さいので、式（１１９）の第２項、第３項を無視すると、コヒーレンスγ（ω，θ）は式（１２３）のように近似できる。
仮にｈ^→ _ｄ ^Ｈ（ω，θ）ｈ^→ _ｄ（ω，θ）≠０であるとしても、近似コヒーレンスγ^〜（ω，θ）は式（１２４）の極小解θを持つ。ｑは任意の正整数である。また、ｑの範囲は周波数帯域ごとに制限される。
つまり、式（１１６）で与えられる方向だけではなく、式（１２４）で与えられる方向でもコヒーレンスを抑圧できる。コヒーレンスを抑圧できれば、雑音のパワーをより小さくできるので、図５Ｂに模式的に示すように、鋭い指向性の実現が可能になる。
なお、図５Ａと図５Ｂでは本発明の狭指向音声強調技術の原理に拠る場合と従来技術に拠る場合の指向性の違いを模式的に示したが、図６に、式（１１６）で与えられるθと式（１２４）で与えられるθの違いを具体的に示す。ω＝２π×１０００［ｒａｄ／ｓ］，Ｌ＝０．７０［ｍ］，θ_ｓ＝π／４［ｒａｄ］である。図６では両者の比較のために正規化されたコヒーレンスの方向依存性を示してあり、記号○で示された方向が式（１１６）で与えられるθであり、記号＋で示された方向が式（１２４）で与えられるθである。図６から明らかなように、従来技術に拠るとθ_ｓ＝π／４［ｒａｄ］に対してコヒーレンスがゼロとなるθは記号○で示された方向だけであるが、本発明の狭指向音声強調技術の原理に拠るとθ_ｓ＝π／４［ｒａｄ］に対してコヒーレンスがゼロとなるθは記号＋で示される多数の方向に存在し、特に、記号○で示された方向よりもθ_ｓ＝π／４［ｒａｄ］にはるかに近い方向に記号＋で示された方向が存在するため、従来技術に比べて鋭い指向性が実現されることが理解できる。
これまで本発明の音声スポット強調技術の原理を分かりやすく説明する観点から音波が平面波として到来すると仮定してきたが、上述の説明から明らかなように、本発明の音声スポット強調技術の要点は、伝達特性ａ^→（ω，θ，Ｄ）＝［ａ_１（ω，θ，Ｄ），…，ａ_Ｍ（ω，θ，Ｄ）］^Ｔを、例えば式（１１７ａ）のように、直接音のステアリングベクトルとΞ個の反射音のステアリングベクトルの和で表現することにある。従って、音波が平面波として到来する場合に限定されず球面波として到来する場合にも従来よりも狭指向性の音声強調が可能であることが理解される。
音波が球面波として到来する場合についての伝達特性ａ^→（ω，θ，Ｄ）を説明する。マイクロホンアレーの各マイクロホンには、音源からの直接音と、当該音源からの音が反射物３００で反射した反射音との二種類の球面波が混入することになる。反射音の数をΞとする。Ξは１以上の予め定められた整数である。このとき、伝達特性ａ^→（ω，θ，Ｄ）＝［ａ_１（ω，θ，Ｄ），…，ａ_Ｍ（ω，θ，Ｄ）］^Ｔは、音声強調の対象となりえる位置（θ_ｓ，Ｄ）からの音声がマイクロホンアレーに直接届く直接音の伝達特性と当該音声が反射物で反射してマイクロホンアレーに届く一つ以上の反射音の各伝達特性との和、具体的には、直接音とξ番目（１≦ξ≦Ξ）の反射音との到来時間差をτ_ξ（θ，Ｄ）とし、α_ξ（１＜ξ＜Ξ）を反射による音の減衰を考慮するための係数とすると、式（１２５）のように、直接音のステアリングベクトルと、反射による音の減衰および直接音に対する到来時間差が補正されたΞ個の反射音のステアリングベクトルの和で表現できる。ｈ^→ _ｄ（ω，θ，Ｄ_ｈ）＝［ｈ_ｄ１（ω，θ，Ｄ_ｈ），…，ｈ_ｄＭ（ω，θ，Ｄ_ｈ）］^Ｔは位置（θ_ｓ，Ｄ）からの音声の直接音のステアリングベクトルを表す。ｈ^→ _ｒξ（ω，θ，Ｄ）＝［ｈ_ｒ１ξ（ω，θ，Ｄ），…，ｈ_ｒＭξ（ω，θ，Ｄ）］^Ｔは位置（θ_ｓ，Ｄ）からの音声の直接音に対応する反射音のステアリングベクトルを表す。ここで「ステアリングベクトル」という呼称について注意を加えておく。一般的に、「ステアリングベクトル」は「方向ベクトル」とも呼ばれるように「方向」に依存する複素ベクトルを表し、この観点から、位置（θ_ｓ，Ｄ）に依存する複素ベクトルの呼称としては例えば「拡張されたステアリングベクトル」と呼ぶほうがより正確である。しかし、本明細書では、表現の簡略化のため、位置（θ_ｓ，Ｄ）に依存する複素ベクトルの呼称としても単に「ステアリングベクトル」を用いることにする。α_ξ（１≦ξ≦Ξ）は、通常、α_ξ≦１（１≦ξ≦Ξ）である。各反射音について、音源からマイクロホンに到達するまでの反射回数が１回であるならば、α_ξ（１≦ξ≦Ξ）は、ξ番目の反射音が反射した物体の音の反射率を表していると考えて差し支えない。
式（１２５）において、直接音のステアリングベクトルｈ^→ _ｄ（ω，θ，Ｄ_ｈ）を構成するｍ番目の要素ｈ_ｄｍ（ω，θ，Ｄ_ｈ）は例えば式（１２５ａ）で与えられる。ｍは１≦ｍ≦Ｍを満たす各整数である。ｃは音速を表す。ｊは虚数単位である。適宜に設定した空間座標系において、ｖ^→ _θ，Ｄ ^（ｄ）は位置（θ，Ｄ）の位置ベクトルを、ｕ^→ _ｍはｍ番目のマイクロホンの位置ベクトルを表す。記号‖・‖はノルムを表す。ｆ（‖ｖ^→ _θ，Ｄ ^（ｄ）−ｕ^→ _ｍ‖）は音波の距離減衰を表す関数である。例えばｆ（‖ｖ^→ _θ，Ｄ ^（ｄ）−ｕ^→ _ｍ‖）＝１／‖ｖ^→ _θ，Ｄ ^（ｄ）−ｕ^→ _ｍ‖であり、この場合、式（１２５ａ）は式（１２５ｂ）で表される。
式（１２５）において、反射音のステアリングベクトルｈ^→ _ｒξ（ω，θ，Ｄ）＝［ｈ_ｒ１ξ（ω，θ，Ｄ），…，ｈ_ｒＭξ（ω，θ，Ｄ）］^Ｔのｍ番目の要素ｈ_ｒｍξ（ω，θ，Ｄ）は、直接音のステアリングベクトルの表し方と同様に（式（１２５ａ）参照）、式（１２６ａ）で表される。ｍは１≦ｍ≦Ｍを満たす各整数である。ｃは音速を表す。ｊは虚数単位である。上記空間座標系において、ｖ^→ _θ，Ｄ ^（ξ）は位置（θ，Ｄ）がξ番目の反射物の反射面で鏡像対象に移された位置の位置ベクトルを、ｕ^→ _ｍはｍ番目のマイクロホンの位置ベクトルを表す。記号‖・‖はノルムを表す。ｆ（‖ｖ^→ _θ，Ｄ ^（ξ）−ｕ^→ _ｍ‖）は音波の距離減衰を表す関数である。例えばｆ（‖ｖ^→ _θ，Ｄ ^（ξ）−ｕ^→ _ｍ‖）＝１／‖ｖ^→ _θ，Ｄ ^（ξ）−ｕ^→ _ｍ‖であり、この場合、式（１２６ａ）は式（１２６ｂ）で表される。
なお、ξ番目の到来時間差τ_ξ（θ，Ｄ）と位置ベクトルｖ^→ _θ，Ｄ ^（ξ）は、位置（θ，Ｄ）とマイクロホンアレーとξ番目の反射物との位置関係が決まると、その位置関係に基づいて理論的に計算可能である。
本発明の音声スポット強調技術は従来技術と異なり反射音を積極的に考慮することから、狭指向性の音声スポット強調が可能でもある。以下、このことを二つの音源を例に挙げて説明する。図１８Ａに示すように、マイクロホンアレーから見て距離が異なるがほぼ同じ方向に在る二つの音源ＡとＢそれぞれから発せられた音声について、両者の直接音のみから両者の音声をスポット強調することは難しい。この理由は、音源Ａの位置（θ_［Ａ］，Ｄ_［Ａ］）に対応する直接音のステアリングベクトルｈ^→ _ｄ（ω，θ_［Ａ］，Ｄ_［Ａ］）に現れる減衰関数の値ｆ（‖ｖ^→ _{θ［Ａ］，Ｄ［Ａ］} ^（ｄ）−ｕ^→ _ｍ‖）と音源Ｂの位置（θ_［Ｂ］，Ｄ_［Ｂ］）に対応する直接音のステアリングベクトルｈ^→ _ｄ（ω，θ_［Ｂ］，Ｄ_［Ｂ］）に現れる減衰関数の値ｆ（‖ｖ^→ _{θ［Ｂ］，Ｄ［Ｂ］} ^（ｄ）−ｕ^→ _ｍ‖）との間には、θ_［Ａ］≒θ_［Ｂ］、Ｄ_［Ａ］≠Ｄ_［Ｂ］に注意すると、距離に応じた差異が認められるが、現実には、マイクロホンアレーが収音した音声の大きさ（音量）から音源信号の大きさ（音量）と減衰関数の値とを区別できないためである。つまり、従来技術の如くａ^→ _ｃｏｎｖ（ω，θ，Ｄ）＝ｈ^→ _ｄ（ω，θ，Ｄ）とするならば、直接音の伝達特性はほぼ同じ方向に在る音源の距離に関する識別力として十分でなく、式（１０９）、式（１１０ａ）、式（１１０ｂ）を参照して分かるようにスポット強調可能なフィルタの設計が困難になるのである。
他方、本発明の音声スポット強調技術では積極的に反射音を考慮するところ、図１８Ｂに示すように、ξ番目の反射音の仮想音源Ａ（ξ），Ｂ（ξ）は、マイクロホンアレーの立場から恰も、音源Ａ，Ｂの位置がξ番目の反射物３００の反射面で鏡像対象に移された位置に存在することになる。これは、音源Ａ，Ｂから発せられた音声がξ番目の反射物３００で反射した反射音はそれぞれ、仮想音源Ａ（ξ），Ｂ（ξ）から到来することと等価である。仮想音源Ａ（ξ）からのξ番目の反射音と仮想音源Ｂ（ξ）からのξ番目の反射音との間では、各仮想音源Ａ（ξ），Ｂ（ξ）の位置ベクトルｖ^→ _{θ［Ａ（ξ）］，Ｄ［Ａ（ξ）］}とｖ^→ _{θ［Ｂ（ξ）］，Ｄ［Ｂ（ξ）］} ^（ξ）、各到来時間差τ_ξ（θ_［Ａ］，Ｄ_［Ａ］）とτ_ξ（θ_［Ｂ］，Ｄ_［Ｂ］）について、大きな差異がある。従って、位置（θ_［Ａ］，Ｄ_［Ａ］）と位置（θ_［Ｂ］，Ｄ_［Ｂ］）に対応する伝達特性ａ^→（ω，θ_［Ａ］，Ｄ_［Ａ］）とａ^→（ω，θ_［Ｂ］，Ｄ_［Ｂ］）は式（１２７ａ）と式（１２７ｂ）で表され、式（１２７ａ）と式（１２７ｂ）のそれぞれの第２項の存在によって、θ_［Ａ］≒θ_［Ｂ］であっても、異なる位置に対応する伝達特性間には有意な差分が生じることになる。この伝達特性間の差分をビームフォーミング法で抽出することによって、想定される音源の位置に応じた音声のスポット強調が可能となるのである。
これまでは、狭指向性の実現を説明するために、距離Ｄ_ｈを固定して考えてきた。このため、空間相関行列Ｑ（ω）を式（１１０ａ）や式（１１０ｂ）で表した。しかし、距離Ｄ_δ（δ＝１，２，…，Ｇ）ごとのＭチャネルの伝達特性の相互相関も考慮することによって音場の情報量が増え、より精度の良いフィルタを与える空間相関行列を構成できる。この空間相関行列Ｑ（ω）は式（１１０ｃ）で表される。方向θ_φのインデックスφが属する集合をΦ（｜Φ｜＝Ｐ）、距離Ｄ_δのインデックスδが属する集合をΔ（｜Δ｜＝Ｇ）とする。
このとき、式（１１０ｃ）で表される空間相関行列Ｑ（ω）を用いると、最小分散無歪応答法によるフィルタＷ^→（ω，θ_ｓ，Ｄ_ｈ）は式（１０９）に替えて式（１０９ａ）で表される。
ところで、既述のとおり、本発明の音声スポット強調技術の要点は、伝達特性ａ^→（ω，θ，Ｄ）＝［ａ_１（ω，θ，Ｄ），…，ａ_Ｍ（ω，θ，Ｄ）］^Ｔを、直接音のステアリングベクトルとΞ個の反射音のステアリングベクトルの和で表現することにある。従って、フィルタの設計コンセプト自体に影響を与えないので、最小分散無歪応答法以外の手法によってフィルタＷ^→（ω，θ_ｓ，Ｄ_ｈ）を設計することができる。
上述の最小分散無歪応答法以外の手法として、〈１〉ＳＮ比最大化規準によるフィルタ設計法、〈２〉パワーインバージョン（ＰｏｗｅｒＩｎｖｅｒｓｉｏｎ）に基づくフィルタ設計法、〈３〉一つ以上の抑圧点（雑音のゲインが抑圧される位置）を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法、〈４〉遅延合成（Ｄｅｌａｙ−ａｎｄ−ＳｕｍＢｅａｍＦｏｒｍｉｎｇ）法によるフィルタ設計法、〈５〉最尤法によるフィルタ設計法、〈６〉ＡＭＮＯＲ（ＡｄａｐｔｉｖｅＭｉｃｒｏｐｈｏｎｅ−ａｒｒａｙｆｏｒｎｏｉｓｅｒｅｄｕｃｔｉｏｎ）法によるフィルタ設計法を説明する。〈１〉ＳＮ比最大化規準によるフィルタ設計法と〈２〉パワーインバージョンに基づくフィルタ設計法については下記参考文献２を参照のこと。〈３〉一つ以上の抑圧点（雑音のゲインが抑圧される方向）を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法については下記参考文献３を参照のこと。〈６〉ＡＭＮＯＲ（ＡｄａｐｔｉｖｅＭｉｃｒｏｐｈｏｎｅ−ａｒｒａｙｆｏｒｎｏｉｓｅｒｅｄｕｃｔｉｏｎ）法によるフィルタ設計法については下記参考文献４を参照のこと。
〈１〉ＳＮ比最大化規準によるフィルタ設計法
ＳＮ比最大化規準によるフィルタ設計法では、位置（θ_ｓ，Ｄ_ｈ）でのＳＮ比（ＳＮＲ）を最大化する規準でフィルタＷ^→（ω，θ_ｓ，Ｄ_ｈ）を決定する。位置（θ_ｓ，Ｄ_ｈ）の音声の空間相関行列をＲ_ｓｓ（ω）、位置（θ_ｓ，Ｄ_ｈ）以外の位置の音声の空間相関行列をＲ_ｎｎ（ω）とする。このとき、ＳＮＲは式（１２８）で表される。なお、Ｒ_ｓｓ（ω）は式（１２９）、Ｒ_ｎｎ（ω）は式（１３０）で表される。伝達特性ａ^→（ω，θ_ｓ，Ｄ_ｈ）＝［ａ_１（ω，θ_ｓ，Ｄ_ｈ），…，ａ_Ｍ（ω，θ_ｓ，Ｄ_ｈ）］^Ｔは例えば式（１２５）で表される（正確には、式（１２５）のθをθ_ｓ、ＤをＤ_ｈとしたものである）。式（１３０）で、方向θ_φのインデックスφが属する集合をΦ（｜Φ｜＝Ｐ）、距離Ｄ_δのインデックスδが属する集合をΔ（｜Δ｜＝Ｇ）とする。
式（１２８）のＳＮＲを最大にするフィルタＷ^→（ω，θ_ｓ，Ｄ_ｈ）は、フィルタＷ^→（ω，θ_ｓ，Ｄ_ｈ）に関する勾配をゼロとすること、つまり式（１３１）によって求めることができる。
但し、
これにより、式（１２８）のＳＮＲを最大にするフィルタＷ^→（ω，θ_ｓ，Ｄ_ｈ）は式（１３２）で与えられる。
式（１３２）には位置（θ_ｓ，Ｄ_ｈ）以外の位置の音声の空間相関行列Ｒ_ｎｎ（ω）の逆行列が含まれているが、Ｒ_ｎｎ（ω）の逆行列を、（１）位置（θ_ｓ，Ｄ_ｈ）の音声と（２）位置（θ_ｓ，Ｄ_ｈ）以外の位置の音声とを含む入力全体の空間相関行列Ｒ_ｘｘ（ω）の逆行列に置換してもよいことが知られている。なお、Ｒ_ｘｘ（ω）＝Ｒ_ｓｓ（ω）＋Ｒ_ｎｎ（ω）である。つまり、式（１２８）のＳＮＲを最大にするフィルタＷ^→（ω，θ_ｓ，Ｄ_ｈ）を式（１３３）で求めてもよい。
〈２〉パワーインバージョンに基づくフィルタ設計法
パワーインバージョンに基づくフィルタ設計法では、一つのマイクロホンに対するフィルタ係数を一定値に固定した状態でビームフォーマの平均出力パワーを最小化する基準でフィルタＷ^→（ω，θ_ｓ，Ｄ_ｈ）を決定する。ここでは、一例として、Ｍ個のマイクロホンのうち１番目のマイクロホンに対するフィルタ係数を固定するとして説明する。この設計法では、フィルタＷ^→（ω，θ_ｓ，Ｄ_ｈ）は、式（１３５）の拘束条件の下、空間相関行列Ｒ_ｘｘ（ω）を用いて全位置（音源位置として想定される全ての位置）の音声のパワーが最小となるように設計される（式（１３４）参照）。伝達特性ａ^→（ω，θ_ｓ，Ｄ_ｈ）＝［ａ_１（ω，θ_ｓ，Ｄ_ｈ），…，ａ_Ｍ（ω，θ_ｓ，Ｄ_ｈ）］^Ｔは例えば式（１２５）で表される（正確には、式（１２５）のθをθ_ｓ、ＤをＤ_ｈとしたものである）。
但し、
式（１３４）の最適解であるフィルタＷ^→（ω，θ_ｓ，Ｄ_ｈ）は式（１３６）で与えられることが知られている（下記参考文献２参照）。
〈３〉一つ以上の抑圧点を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法
上述の最小分散無歪応答法では、式（１０８）で表されるように位置（θ_ｓ，Ｄ_ｈ）の音声の全帯域通過を拘束条件とし、式（１０７）で表されるビームフォーマの平均出力パワーが最小となる（つまり、位置（θ_ｓ，Ｄ_ｈ）以外の位置の音声である雑音のパワーが最小となる）フィルタを求める、という単一拘束条件の下の規準でフィルタＷ^→（ω，θ_ｓ，Ｄ_ｈ）を設計した。この方法によると、全体的に雑音のパワーを抑圧することはできるが、特定の一つまたは複数の位置に強いパワーを持ったノイズ源が存在することが予め判明している場合には必ずしも好適な方法とは言えない。このような場合、ノイズ源が存在する既知の一つまたは複数の特定位置（つまり、抑圧点）を強く抑圧するフィルタが要求される。このため、ここで説明するフィルタ設計法では、（１）位置（θ_ｓ，Ｄ_ｈ）の音声の全帯域通過、および（２）予め判明しているＢ個（Ｂは１以上の予め定められた整数）の抑圧点（θ_Ｎ１，Ｄ_Ｇ１），（θ_Ｎ２，Ｄ_Ｇ２），…，（θ_ＮＢ，Ｄ_ＧＢ）の音声の全帯域抑制、を拘束条件として、式（１０７）で表されるビームフォーマの平均出力パワーが最小となる（つまり、位置（θ_ｓ，Ｄ_ｈ）と各抑圧点とを除く位置の音声のパワーが最小となる）フィルタを求める。既述のように、音声の到来方向のインデックスφが属する集合を｛１，２，…，Ｐ｝とすると、Ｎｊ∈｛１，２，…，Ｐ｝（ただし、ｊ∈｛１，２，…，Ｂ｝），Ｂ≦Ｐ−１である。また、音源までの距離のインデックスδが属する集合を｛１，２，…，Ｇ｝とすると、Ｇｊ∈｛１，２，…，Ｇ｝（ただし、ｊ∈｛１，２，…，Ｂ｝），Ｂ≦Ｇ−１である。
このとき、ａ^→（ω，θ_ｉ，Ｄ_ｇ）＝［ａ_１（ω，θ_ｉ，Ｄ_ｇ），…，ａ_Ｍ（ω，θ_ｉ，Ｄ_ｇ）］^Ｔを、位置（θ_ｉ，Ｄ_ｇ）に音源が在ると仮定した場合の、当該音源とＭ本のマイクロホンとの間の周波数ωでの伝達特性、換言すれば、ａ^→（ω，θ_ｉ，Ｄ_ｇ）＝［ａ_１（ω，θ_ｉ，Ｄ_ｇ），…，ａ_Ｍ（ω，θ_ｉ，Ｄ_ｇ）］^Ｔは、マイクロホンアレーに含まれる各マイクロホンへの位置（θ_ｉ，Ｄ_ｇ）の音声の周波数ωでの伝達特性とすると、拘束条件は式（１３７）で表される。ただし、インデックスｉ，ｇについて、（ｉ，ｇ）∈｛（ｓ，ｈ），（Ｎ１，Ｇ１），｛Ｎ２，Ｇ２），…，（ＮＢ，ＧＢ）｝であり、伝達特性ａ^→（ω，θ_ｉ，Ｄ_ｇ）＝［ａ_１（ω，θ_ｉ，Ｄ_ｇ），…，ａ_Ｍ（ω，θ_ｉ，Ｄ_ｇ）］^Ｔは式（１２５）で表される（正確には、式（１２５）のθをθ_ｉ、ＤをＤ_ｇとしたものである）。ｆ_ｉ，ｇ（ω）は、位置（θ_ｉ，Ｄ_ｇ）に関する周波数ωでの通過特性を表す。
式（１３７）を行列形式で表現すると、例えば式（１３８）のように表すことができる。ただし、Ａ^→（ω，θ_ｓ，Ｄ_ｈ）＝［ａ^→（ω，θ_ｓ，Ｄ_ｈ），ａ^→（ω，θ_Ｎ１，Ｄ_Ｇ１），…，ａ^→（ω，θ_ＮＢ，Ｄ_ＧＢ）］である。
但し、
（１）位置（θ_ｓ，Ｄ_ｈ）の音声の全帯域通過、および（２）予め判明しているＢ個の抑圧点（θ_Ｎ１，Ｄ_Ｇ１），（θ_Ｎ２，Ｄ_Ｇ２），…，（θ_ＮＢ，Ｄ_ＧＢ）の音声の全帯域抑制、という拘束条件を考慮すると、理想的には、ｆ_ｓ，ｈ（ω）＝１．０、ｆ_ｉ，ｇ（ω）＝０．０（（ｉ，ｇ）∈｛（Ｎ１，Ｇ１），（Ｎ２，Ｇ２），…，（ＮＢ，ＧＢ）｝）とされるべきである。これは、位置（θ_ｓ，Ｄ_ｈ）の音声の全帯域完全通過と、予め判明しているＢ個の抑圧点（θ_Ｎ１，Ｄ_Ｇ１），（θ_Ｎ２，Ｄ_Ｇ２），…，（θ_ＮＢ，Ｄ_ＧＢ）の音声の全帯域完全阻止を表している。しかし、現実には全帯域完全通過や全帯域完全阻止という制御が難しい場合もある。このような場合には、ｆ_ｓ，ｈ（ω）の絶対値を１．０に近い値、ｆ_ｉ，ｇ（ω）（（ｉ，ｇ）∈｛（Ｎ１，Ｇ１），（Ｎ２，Ｇ２），…，（ＮＢ，ＧＢ）｝）の絶対値を０．０に近い値に設定すればよい。もちろん、ｆ_{ｉ，ｇ＿ｉ}（ω）とｆ_{ｉ，ｇ＿ｊ}（ω）（ｉ≠ｊ、ｉ，ｊ∈｛Ｎ１，Ｎ２，…，ＮＢ｝）は等しくても異なってもよい。
ここで説明したフィルタ設計法によると、拘束条件を表す式（１３８）の下での式（１０７）の最適解であるフィルタＷ^→（ω，θ_ｓ，Ｄ_ｈ）は式（１３９）で与えられる（下記参考文献３参照）。ただし、空間相関行列Ｑ（ω）として式（１１０ｃ）で表されるものを用いたが、式（１１０ａ）ないし式（１１０ｂ）で表される空間相関行列を用いてもよい。
〈４〉遅延合成法によるフィルタ設計法
遅延合成法によると、直接音や反射音が平面波到来すると仮定すると、フィルタＷ^→（ω，θ_ｓ，Ｄ_ｈ）は式（１４０）で与えられる。つまり、フィルタＷ^→（ω，θ_ｓ，Ｄ_ｈ）は伝達特性ａ^→（ω，θ_ｓ，Ｄ_ｈ）を正規化して得られる。伝達特性ａ^→（ω，θ_ｓ，Ｄ_ｈ）＝［ａ_１（ω，θ_ｓ，Ｄ_ｈ），…，ａ_Ｍ（ω，θ_ｓ，Ｄ_ｈ）］^Ｔは式（１２５）で表される（正確には、式（１２５）のθをθ_ｓ、ＤをＤ_ｈとしたものである）。この設計法によると、フィルタ精度は必ずしも良好とは言えない場合があるが、計算量が少なくて済む。
〈５〉最尤法によるフィルタ設計法
上述の最小分散無歪応答法において、空間相関行列Ｑ（ω，Ｄ_ｈ）内に目的方向の音声の空間情報を含めないことによって、雑音を抑圧する自由度が向上し、雑音のパワーをよりいっそう抑圧できる。この場合、ここで説明するフィルタ設計法では、空間相関行列Ｑ（ω，Ｄ_ｈ）を、式（１１０ａ）の右辺第二項、つまり、式（１１０ｄ）で表す。フィルタＷ^→（ω，θ_ｓ，Ｄ_ｈ）は式（１０９）や式（１３９）で与えられる。このとき、式（１０９）や式（１３９）に含まれる空間相関行列は、式（１１０ｄ）で表される空間相関行列である。
あるいは、空間相関行列Ｑ（ω）内に位置（θ_ｓ，Ｄ_ｈ）の音声の空間情報を含めないようにしてもよい。この場合、ここで説明するフィルタ設計法では、空間相関行列Ｑ（ω）を、式（１１０ｅ）で表す。フィルタＷ^→（ω，θ_ｓ，Ｄ_ｈ）は式（１０９）や式（１３９）で与えられる。このとき、式（１０９）や式（１３９）に含まれる空間相関行列は、式（１１０ｅ）で表される空間相関行列である。
〈６〉ＡＭＮＯＲ法によるフィルタ設計法
ＡＭＮＯＲ法は、目的方向の音声の劣化量Ｄとフィルタ出力信号に残留する雑音のパワーとのトレードオフ関係を踏まえて、目的方向の音声の劣化量Ｄを或る程度許容し（例えば劣化量Ｄを或る閾値Ｄ＾以下に保つようにする）、［ａ］目的方向の仮想的な信号（以下、仮想信号という）に音源とマイクロホンとの間の伝達特性を作用させた信号と［ｂ］（例えば目的方向の音声が無い雑音環境でのＭ個のマイクロホンによる観測によって得られる）雑音との混合信号を入力としたときのフィルタ出力信号が最小２乗誤差の観点から仮想信号を最も良く再現する（つまり、フィルタ出力信号に含まれる雑音のパワーが最小となる）フィルタを求める方式である。
ここで説明するフィルタ設計法は、ＡＭＮＯＲ法に距離の概念を導入したフィルタ設計法としてＡＭＮＯＲ法と同様に考えることができる。すなわち、位置（θ_ｓ，Ｄ_ｈ）の音声の劣化量Ｄとフィルタ出力信号に残留する雑音のパワーとのトレードオフ関係を踏まえて、位置（θ_ｓ，Ｄ_ｈ）の音声の劣化量Ｄを或る程度許容し（例えば劣化量Ｄを或る閾値Ｄ＾以下に保つようにする）、［ａ］位置（θ_ｓ，Ｄ_ｈ）の仮想的な信号（以下、仮想目的信号という）に音源とマイクロホンとの間の伝達特性を作用させた信号と［ｂ］（例えば位置（θ_ｓ，Ｄ_ｈ）の音声が無い雑音環境でのＭ個のマイクロホンによる観測によって得られる）雑音との混合信号を入力としたときのフィルタ出力信号が最小２乗誤差の観点から仮想目的信号を最も良く再現する（つまり、フィルタ出力信号に含まれる雑音のパワーが最小となる）フィルタを求める。
ここで説明するフィルタ設計法によると、ＡＭＮＯＲ法と同様に、フィルタＷ^→（ω，θ_ｓ，Ｄ_ｈ）は式（１４１）で与えられる（下記参考文献４参照）。なお、Ｒ_ｓｓ（ω）は式（１２６）、Ｒ_ｎｎ（ω）は式（１２７）で表される。伝達特性ａ^→（ω，θ_ｓ，Ｄ_ｈ）＝［ａ_１（ω，θ_ｓ，Ｄ_ｈ），…，ａ_Ｍ（ω，θ_ｓ，Ｄ_ｈ）］^Ｔは式（１２５）で表される（正確には、式（１２５）のθをθ_ｓ、ＤをＤ_ｈとしたものである）。
Ｐ_ｓは、仮想目的信号のレベルを重み付けする係数であり、仮想目的信号レベルと呼称される。仮想目的信号レベルＰ_ｓは、周波数に依存しない定数である。仮想目的信号レベルＰ_ｓは、経験則に基づいて決められてもよく、あるいは、位置（θ_ｓ，Ｄ_ｈ）の音声の劣化量Ｄと閾値Ｄ＾との差が任意に定められた誤差範囲内となるように決定されてもよい。後者の例を説明する。周波数ωにおいて、フィルタＷ^→（ω，θ_ｓ，Ｄ_ｈ）の位置（θ_ｓ，Ｄ_ｈ）の音声の周波数応答Ｆ（ω）は、式（１４２）で表される。式（１４１）で与えられるフィルタＷ^→（ω，θ_ｓ，Ｄ_ｈ）を用いたときの劣化量ＤをＤ（Ｐ_ｓ）と表記すると、劣化量Ｄ（Ｐ_ｓ）は式（１４３）で定義される。ω_０は、対象となる周波数ωの上限（通常は、離散的な周波数ωに隣接する高域側周波数である）を表す。劣化量Ｄ（Ｐ_ｓ）はＰ_ｓの単調減少関数である。従って、Ｄ（Ｐ_ｓ）の単調性によって、Ｐ_ｓを変化させながら劣化量Ｄ（Ｐ_ｓ）を求めることを繰り返すことで、劣化量Ｄ（Ｐ_ｓ）と閾値Ｄ＾との差が任意に定められた誤差範囲内となる仮想目的信号レベルＰ_ｓを求めることができる。
＜変形例＞
上述の説明では、空間相関行列Ｑ（ω）、Ｒ_ｓｓ（ω）、Ｒ_ｎｎ（ω）を、伝達特性を用いて表現した。しかし、上述の周波数領域信号Ｘ^→（ω，ｋ）を用いて空間相関行列Ｑ（ω）、Ｒ_ｓｓ（ω）、Ｒ_ｎｎ（ω）を表現することもできる。以下、空間相関行列Ｑ（ω）について説明するが、Ｒ_ｓｓ（ω）、Ｒ_ｎｎ（ω）についても同様である（Ｑ（ω）をＲ_ｓｓ（ω）あるいはＲ_ｎｎ（ω）に読み替えればよい）。なお、空間相関行列Ｒ_ｓｓ（ω）は位置（θ_ｓ，Ｄ_ｈ）の音声のみが存在する環境でのマイクロホンアレー（Ｍ個のマイクロホンを含む）による観測によって得られたアナログ信号の周波数領域表現によって得られ、空間相関行列Ｒ_ｎｎ（ω）は位置（θ_ｓ，Ｄ_ｈ）の音声が無い環境（つまり雑音環境）でのマイクロホンアレー（Ｍ個のマイクロホンを含む）による観測によって得られたアナログ信号の周波数領域表現によって得られる。
周波数領域信号Ｘ^→（ω，ｋ）＝［Ｘ_１［（ω，ｋ），…，Ｘ_Ｍ（ω，ｋ）］^Ｔを用いた空間相関行列Ｑ（ω）は式（１４４）で表される。演算子Ｅ［・］は、統計的平均操作を表す演算子である。マイクロホンアレー（Ｍ個のマイクロホンを含む）で受音したアナログ信号の離散時系列を確率過程と見たとき、それがいわゆる広義の定常ないし２次定常である場合、演算子Ｅ［・］は算術平均値（期待値）演算となる。この場合、空間相関行列Ｑ（ω）は、例えば、メモリ等に蓄積された現在および過去の計ζ個のフレームの周波数領域信号Ｘ^→（ω，ｋ−ｉ）（ｉ＝０，１，…，ζ−１）を用いて式（１４５）で表される。ｉ＝０のとき、つまり第ｋフレームが現在のフレームである。なお、式（１４４）ないし式（１４５）による空間相関行列Ｑ（ω）はフレーム毎に計算し直してもよいし、あるいは、定期ないし不定期の間隔で計算し直してもよいし、あるいは、後に説明する実施形態の実施の前に計算しておいてもよい（特に、フィルタ設計にＲ_ｓｓ（ω）あるいはＲ_ｎｎ（ω）を用いる場合には、実施形態の実施の前に取得された周波数領域信号を用いて空間相関行列Ｑ（ω）を事前に計算しておくことが好適である）。フレーム毎に空間相関行列Ｑ（ω）を計算し直す場合、空間相関行列Ｑ（ω）は現在と過去のフレームに依存するから、式（１４４ａ）や式（１４５ａ）のように明示的に空間相関行列をＱ（ω，ｋ）と表すことにする。
式（１４４ａ）や式（１４５ａ）で表される空間相関行列Ｑ（ω，ｋ）を用いるとフィルタＷ^→（ω，θ_ｓ，Ｄ_ｈ）も現在と過去のフレームに依存するから、明示的にこれをＷ^→（ω，θ_ｓ，Ｄ_ｈ，ｋ）と表すことにする。このとき、上述の種々のフィルタ設計法で説明した式（１０９）、式（１３２）、式（１３３）、式（１３６）、式（１３９）、式（１４１）のいずれかで表されるフィルタＷ^→（ω，θ_ｓ，Ｄ_ｈ）は、表記上、式（１０９ｍ）、式（１３２ｍ）、式（１３３ｍ）、式（１３６ｍ）、式（１３９ｍ）、式（１４１ｍ）に修正される。
《音声スポット強調技術の実施形態１》
本発明の音声スポット強調技術の実施形態１の機能構成および処理フローを図１９と図２０に示す。この実施形態１の音声スポット強調装置３は、ＡＤ変換部６１０、フレーム生成部６２０、周波数領域変換部６３０、フィルタ適用部６４０、時間領域変換部６５０、フィルタ設計部６６０、記憶部６９０を含む。
［ステップＳ２１］
予め、フィルタ設計部６６０が音声強調の対象となりえる離散的な位置（θ_ｉ，Ｄ_ｇ）ごとに、周波数ごとのフィルタＷ^→（ω，θ_ｉ，Ｄ_ｇ）を計算しておく。音声強調の対象となりえる離散的な方向の総数をＩ（Ｉは１以上の予め定められた整数であり、Ｉ≦Ｐを満たす）、離散的な距離の総数をＧ（Ｇは１以上の予め定められた整数である）とすると、Ｗ^→（ω，θ_１，Ｄ_１），…，Ｗ^→（ω，θ_ｉ，Ｄ_１），…，Ｗ^→（ω，θ_Ｉ，Ｄ_１），Ｗ^→（ω，θ_１，Ｄ_２），…，Ｗ^→（ω，θ_ｉ，Ｄ_２），…，Ｗ^→（ω，θ_Ｉ，Ｄ_２），…，Ｗ^→（ω，θ_１，Ｄ_ｇ），…，Ｗ^→（ω，θ_ｉ，Ｄ_ｇ），…，Ｗ^→（ω，θ_Ｉ，Ｄ_ｇ），…，Ｗ^→（ω，θ_１，Ｄ_Ｇ），…，Ｗ^→（ω，θ_ｉ，Ｄ_Ｇ），…，Ｗ^→（ω，θ_Ｉ，Ｄ_Ｇ）（１≦ｉ≦Ｉ，１≦ｇ≦Ｇ，ω∈Ω；ｉとｇは整数、Ωは周波数ωの集合）を事前に計算しておくのである。
このためには、上述の＜変形例＞で説明した場合を除き、伝達特性ａ^→（ω，θ_ｉ，Ｄ_ｇ）＝［ａ_１（ω，θ_ｉ，Ｄ_ｇ），…，ａ_Ｍ（ω，θ_ｉ，Ｄ_ｇ）］^Ｔ（１≦ｉ≦Ｉ，１≦ｇ≦Ｇ，ω∈Ω）を求める必要があるが、これは、マイクロホンアレーにおけるマイクロホンの配置、反射物である例えば反射板、床、壁、天井のマイクロホンアレーに対する位置関係、直接音とξ番目（１≦ξ≦Ξ）の反射音との到来時間差、反射物の音の反射率などの環境情報を基に式（１２５）によって具体的に計算できる（正確には、式（１２５）のθをθ_ｉ、ＤをＤ_ｇとしたものである）。なお、上述の〈３〉一つ以上の抑圧点を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法に拠る場合、伝達特性ａ^→（ω，θ_ｉ，Ｄ_ｇ）（１≦ｉ≦Ｉ，１≦ｇ≦Ｇ，ω∈Ω）を求める際の位置のインデックス（ｉ，ｇ）は、少なくともＢ個の抑圧点の方向のインデックス（Ｎ１，Ｇ１），（Ｎ２，Ｇ２），…，（ＮＢ，ＧＢ）の全てを亘ることが望ましい。換言すれば、Ｂ個のインデックスＮ１，Ｎ２，…，ＮＢは、１以上Ｉ以下のいずれかの異なる整数として設定され、Ｂ個のインデックスＧ１，Ｇ２，…，ＧＢは、１以上Ｇ以下のいずれかの異なる整数として設定される。
反射音の数Ξは１≦Ξを満たす整数に設定されるが、Ξの値として特に限定はなく計算能力などに応じて適宜に設定すればよい。
ステアリングベクトルの計算には、例えば式（１２５ａ）、式（１２５ｂ）、式（１２６ａ）、式（１２６ｂ）を用いることができる。なお、フィルタ設計に用いる伝達特性として、式（１２５）に拠らず、例えば実環境下における実測で得られた伝達特性を用いてもよい。
そして、上述の＜変形例＞で説明した場合を除き、伝達特性ａ^→（ω，θ_ｉ，Ｄ_ｇ）を用いて、例えば式（１０９）、式（１０９ａ）、式（１３２）、式（１３３）、式（１３６）、式（１３９）、式（１４０）、式（１４１）のいずれかによってＷ^→（ω，θ_ｉ，Ｄ_ｇ）（１≦ｉ≦Ｉ，１≦ｇ≦Ｇ）を求める。なお、上述の〈５〉最尤法によるフィルタ設計法で説明した場合を除き、式（１０９）または式（１０９ａ）または式（１３３）または式（１３６）または式（１３９）を用いる場合には空間相関行列Ｑ（ω）（あるいはＲ_ｘｘ（ω））は式（１１０ｂ）で計算できる。上述の〈５〉最尤法によるフィルタ設計法に拠って、式（１０９）または式（１０９ａ）または式（１３３）または式（１３６）または式（１３９）を用いる場合には空間相関行列Ｑ（ω）（あるいはＲ_ｘｘ（ω））は式（１１０ｃ）あるいは式（１１０ｄ）で計算できる。式（１３２）を用いる場合には空間相関行列Ｒ_ｎｎ（ω）は式（１３０）で計算できる。Ｉ×Ｇ×｜Ω｜個のフィルタＷ^→（ω，θ_ｉ，Ｄ_ｇ）（１≦ｉ≦Ｉ，１≦ｇ≦Ｇ，ω∈Ω）は記憶部６９０に記憶される。｜Ω｜は集合Ωの要素数を表す。
［ステップＳ２２］
マイクロホンアレーを構成するＭ個のマイクロホン２００−１，…，２００−Ｍを用いて収音する。Ｍは２以上の整数である。
Ｍ個のマイクロホンの並べ方に制限は無い。ただし、２次元または３次元的にＭ個のマイクロホンを配置することによって、音声強調する方向の不確定性がなくなるという利点がある。つまり、Ｍ個のマイクロホンを水平方向に直線状に並べたときに例えば正面方向から到来する音声と真上から到来する音声との区別ができなくなるという問題を、マイクロホンを平面的ないし立体的に並べることで防ぐことができる。また、収音方向として設定できる方向を広くとるためには、各マイクロホンの指向性は、収音方向である目的方向θ_ｓになり得る方向にある程度の音圧で音声を収音可能な指向性を持っていたほうがよい。したがって、無指向性マイクロホンや単一指向性マイクロホンといった指向性が比較的緩やかなマイクロホンが好適である。
［ステップＳ２３］
ＡＤ変換部６１０が、Ｍ個のマイクロホン２００−１，…，２００−Ｍで収音されたアナログ信号（収音信号）をディジタル信号ｘ^→（ｔ）＝［ｘ_１（ｔ），…，ｘ_Ｍ（ｔ）］^Ｔへ変換する。ｔは離散時間のインデックスを表す。
［ステップＳ２４］
フレーム生成部６２０は、ＡＤ変換部６１０が出力したディジタル信号ｘ^→（ｔ）＝［ｘ_１（ｔ），…，ｘ_Ｍ（ｔ）］^Ｔを入力とし、チャネルごとにＮサンプルをバッファに貯めてフレーム単位のディジタル信号ｘ^→（ｋ）＝［ｘ^→ _１（ｋ），…，ｘ^→ _Ｍ（ｋ）］^Ｔを出力する。ｋはフレーム番号のインデックスである。ｘ^→ _ｍ（ｋ）＝［ｘ_ｍ（ｋ−１）Ｎ＋１），…，ｘ_ｍ（ｋＮ）］（１≦ｍ≦Ｍ）である。Ｎはサンプリング周波数にもよるが、１６ｋＨｚサンプリングの場合には５１２点あたりが妥当である。
［ステップＳ２５］
周波数領域変換部６３０は、各フレームのディジタル信号ｘ^→（ｋ）を周波数領域の信号Ｘ^→（ω，ｋ）＝［Ｘ_１（ω，ｋ），…，Ｘ_Ｍ（ω，ｋ）］^Ｔに変換して出力する。ωは離散周波数のインデックスである。時間領域信号を周波数領域信号に変換する方法の一つに高速離散フーリエ変換があるが、これに限定されず、周波数領域信号に変換する他の方法を用いてもよい。周波数領域信号Ｘ^→（ω，ｋ）は、各周波数ω、フレームｋごとに出力される。
［ステップＳ２６］
フィルタ適用部６４０は、フレームｋごとに、各周波数ω∈Ωについて、周波数領域信号Ｘ^→（ω，ｋ）＝［Ｘ_１（ω，ｋ），…，Ｘ_Ｍ（ω，ｋ）］^Ｔに、強調したい位置（θ_ｓ，Ｄ_ｈ）に対応するフィルタＷ^→（ω，θ_ｓ，Ｄ_ｈ）を適用して、出力信号Ｙ（ω，ｋ，θ_ｓ，Ｄ_ｈ）を出力する（式（１４６）参照）。位置（θ_ｓ，Ｄ_ｈ）のインデックスｓ，ｈは、ｓ∈｛１，…，Ｉ｝，ｈ∈｛１，…，Ｇ｝であり、フィルタＷ^→（ω，θ_ｓ，Ｄ_ｈ）は記憶部６９０に記憶されているので、例えば、ステップＳ２６の処理の都度、フィルタ適用部６４０は、強調したい位置（θ_ｓ，Ｄ_ｈ）に対応するフィルタＷ^→（ω，θ_ｓ，Ｄ_ｈ）を記憶部６９０から取得すればよい。方向θ_ｓのインデックスｓが集合｛１，…，Ｉ｝に属さない場合あるいは距離Ｄ_ｈのインデックスｈが集合｛１，…，Ｇ｝に属さない場合、つまり、位置（θ_ｓ，Ｄ_ｈ）に対応するフィルタＷ^→（ω，θ_ｓ，Ｄ_ｈ）がステップＳ２１の処理で計算されていない場合、臨時に位置（θ_ｓ，Ｄ_ｈ）に対応するフィルタＷ^→（ω，θ_ｓ，Ｄ_ｈ）をフィルタ設計部６６０に計算させてもよいし、あるいは方向θ_ｓに近い方向θ_ｓ′や距離Ｄ_ｈに近い距離Ｄ_ｈ′に対応するフィルタＷ^→（ω，θ_ｓ′，Ｄ_ｈ）やＷ^→（ω，θ_ｓ，Ｄ_ｈ′）やＷ^→（ω，θ_ｓ′，Ｄ_ｈ′）を用いてよい。
［ステップＳ２７］
時間領域変換部６５０は、第ｋフレームの各周波数ω∈Ωの出力信号Ｙ（ω，ｋ，θ_ｓ，Ｄ_ｈ）を時間領域に変換して第ｋフレームのフレーム単位時間領域信号ｙ（ｋ）を得て、さらに、得られたフレーム単位時間領域信号ｙ（ｋ）をフレーム番号のインデックスの順番に連結して位置（θ_ｓ，Ｄ_ｈ）からの音声が強調された時間領域信号ｙ（ｔ）を出力する。周波数領域信号を時間領域信号に変換する方法は、ステップＳ２５の処理で用いた変換方法に対応する逆変換であり、例えば高速離散逆フーリエ変換である。
ここでは、ステップＳ２１の処理で予めフィルタＷ^→（ω，θ_ｉ，Ｄ_ｇ）を計算しておく実施形態１を説明したが、音声スポット強調装置３の計算処理能力などに応じて、位置（θ_ｓ，Ｄ_ｈ）が定まってからフィルタ設計部６６０が周波数ごとのフィルタＷ^→（ω，θ_ｓ，Ｄ_ｈ）を計算する実施形態を採用することもできる。
《音声スポット強調技術の実施形態２》
本発明の音声スポット強調技術の実施形態２の機能構成および処理フローを図２１と図２２に示す。この実施形態２の音声スポット強調装置４は、ＡＤ変換部６１０、フレーム生成部６２０、周波数領域変換部６３０、フィルタ適用部６４０、時間領域変換部６５０、フィルタ計算部６６１、記憶部６９０を含む。
［ステップＳ３１］
マイクロホンアレーを構成するＭ個のマイクロホン２００−１，…，２００−Ｍを用いて収音する。Ｍは２以上の整数である。Ｍ個のマイクロホンの並べ方等については実施形態１で説明したとおりである。
［ステップＳ３２］
ＡＤ変換部６１０が、Ｍ個のマイクロホン２００−１，…，２００−Ｍで収音されたアナログ信号（収音信号）をディジタル信号ｘ^→（ｔ）＝［ｘ_１（ｔ），…，ｘ_Ｍ（ｔ）］^Ｔへ変換する。ｔは離散時間のインデックスを表す。
［ステップＳ３３］
フレーム生成部６２０は、ＡＤ変換部６１０が出力したディジタル信号ｘ^→（ｔ）＝［ｘ_１（ｔ），…，ｘ_Ｍ（ｔ）］^Ｔを入力とし、チャネルごとにＮサンプルをバッファに貯めてフレーム単位のディジタル信号ｘ^→（ｋ）＝［ｘ^→ _１（ｋ），…，ｘ^→ _Ｍ（ｋ）］^Ｔを出力する。ｋはフレーム番号のインデックスである。ｘ^→ _ｍ（ｋ）＝［ｘ_ｍ（（ｋ−１）Ｎ＋１），…，ｘ_ｍ（ｋＮ）］（１≦ｍ≦Ｍ）である。Ｎはサンプリング周波数にもよるが、１６ｋＨｚサンプリングの場合には５１２点あたりが妥当である。
［ステップＳ３４］
周波数領域変換部６３０は、各フレームのディジタル信号ｘ^→（ｋ）を周波数領域の信号Ｘ^→（ω，ｋ）＝［Ｘ_１（ω，ｋ），…，Ｘ_Ｍ（ω，ｋ）］^Ｔに変換して出力する。ωは離散周波数のインデックスである。時間領域信号を周波数領域信号に変換する方法の一つに高速離散フーリエ変換があるが、これに限定されず、周波数領域信号に変換する他の方法を用いてもよい。周波数領域信号Ｘ^→（ω，ｋ）は、各周波数ω、フレームｋごとに出力される。
［ステップＳ３５］
フィルタ計算部６６１が、現在の第ｋフレームで用いられる、位置（θ_ｓ，Ｄ_ｈ）に対応する周波数毎のフィルタＷ^→（ω，θ_ｓ，Ｄ_ｈ，ｋ）（ω∈Ω；Ωは周波数ωの集合）を計算する。
このためには、伝達特性ａ^→（ω，θ_ｓ，Ｄ_ｈ）＝［ａ_１（ω，θ_ｓ，Ｄ_ｈ），…，ａ_Ｍ（ω，θ_ｓ，Ｄ_ｈ）］^Ｔ（ω∈Ω）を用意する必要があるが、これは、マイクロホンアレーにおけるマイクロホンの配置、反射物である例えば反射板、床、壁、天井のマイクロホンアレーに対する位置関係、直接音とξ番目（１≦ξ≦Ξ）の反射音との到来時間差、反射物の音の反射率などの環境情報を基に式（１２５）によって具体的に計算できる（正確には、式（１２５）のθをθ_ｓ、ＤをＤ_ｈとしたものである）。なお、上述の〈３〉一つ以上の抑圧点を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法に拠る場合、伝達特性ａ^→（ω，θ_Ｎｊ，Ｄ_Ｇｊ）（１≦ｊ≦Ｂ，ω∈Ω）も求める必要があるが、これらはマイクロホンアレーにおけるマイクロホンの配置、反射物である例えば反射板、床、壁、天井のマイクロホンアレーに対する位置関係、直接音とξ番目（１≦ξ≦Ξ）の反射音との到来時間差、反射物の音の反射率などの環境情報を基に式（１２５）によって具体的に計算できる（正確には、式（１２５）のθをθ_Ｎｊ、ＤをＤ_Ｇｊとしたものである）。
反射音の数Ξは１≦Ξを満たす整数に設定されるが、Ξの値として特に限定はなく計算能力などに応じて適宜に設定すればよい。
ステアリングベクトルの計算には、例えば式（１２５ａ）、式（１２５ｂ）、式（１２６ａ）、式（１２６ｂ）を用いることができる。なお、フィルタ設計に用いる伝達特性として、式（１２５）に拠らず、例えば実環境下における実測で得られた伝達特性を用いてもよい。
そして、フィルタ計算部６６１は、伝達特性ａ^→（ω，θ_ｓ，Ｄ_ｈ）（ω∈Ω）や必要に応じて伝達特性ａ^→（ω，θ_Ｎｊ，Ｄ_Ｇｊ）（１≦ｊ≦Ｂ，ω∈Ω）を用いて、フィルタＷ^→（ω，θ_ｓ，Ｄ_ｈ，ｋ）（ω∈Ω）を、式（１０９ｍ）、式（１３２ｍ）、式（１３３ｍ）、式（１３６ｍ）、式（１３９ｍ）、式（１４１ｍ）のいずれかに従って求める。なお、空間相関行列Ｑ（ω）（あるいはＲ_ｘｘ（ω））は例えば式（１４４ａ）や式（１４５ａ）で計算できる。空間相関行列Ｑ（ω）の計算には、記憶部６９０に蓄積された現在および過去の計ζ個のフレームの周波数領域信号Ｘ^→（ω，ｋ−ｉ）（ｉ＝０，１，…，ζ−１）が用いられる。
［ステップＳ３６］
フィルタ適用部６４０は、フレームｋごとに、各周波数ω∈Ωについて、周波数領域信号Ｘ^→（ω，ｋ）＝［Ｘ_１（ω，ｋ），…，Ｘ_Ｍ（ω，ｋ）］^Ｔに、強調したい目的方向θ_ｓに対応するフィルタＷ^→（ω，θ_ｓ，Ｄ_ｈ，ｋ）を適用して、出力信号Ｙ（ω，ｋ，θ_ｓ，Ｄ_ｈ）を出力する（式（１４７）参照）。
［ステップＳ３７］
時間領域変換部６５０は、第ｋフレームの各周波数ω∈Ωの出力信号Ｙ（ω，ｋ，θ_ｓ，Ｄ_ｈ）を時間領域に変換して第ｋフレームのフレーム単位時間領域信号ｙ（ｋ）を得て、さらに、得られたフレーム単位時間領域信号ｙ（ｋ）をフレーム番号のインデックスの順番に連結して位置（θ_ｓ，Ｄ_ｈ）からの音声が強調された時間領域信号ｙ（ｔ）を出力する。周波数領域信号を時間領域信号に変換する方法は、ステップＳ３４の処理で用いた変換方法に対応する逆変換であり、例えば高速離散逆フーリエ変換である。
なお、音声スポット強調技術に拠っても、方向θ_ｉに対応するフィルタＷ^→（ω，θ_ｉ）をΣ_ｇ＝１ ^Ｇβ_ｇＷ^→（ω，θ_ｉ，Ｄ_ｇ）によって求めることができる。β_ｇ［１≦ｇ≦Ｇ］は重み係数であり、Σ_ｇ＝１ ^Ｇβ_ｇ＝１を満たすことが好ましく、さらに、０≦β_ｇ［１≦ｇ≦Ｇ］であることが好ましい。なお、フィルタＷ^→（ω，θ_ｉ，Ｄ_ｇ）は実環境下における実測で得られた伝達特性を用いて表されたフィルタであってもよい。
［音声スポット強調技術の実験例］
本発明の音声スポット強調技術の実施形態１（単一拘束条件の最小分散無歪応答法）による音声のスポット強調についての実験結果を説明する。実験環境は図９に示す環境と同じとした。図９に示すように、２４本のマイクロホンを直線的に配置し、この線形マイクロホンアレーに含まれるマイクロホンの配列方向が反射板３００の法線となるように反射板３００を配置した。反射板３００の形状に制限はないが、反射面が平面であって、１．０ｍ×１．０ｍのサイズと適度な厚みと剛性を持つ平板の反射板を用いた。隣り合うマイクロホンの間隔を４ｃｍ、反射板３００の反射率αを０．８とした。音源位置は方向θ_ｓを４５度、距離Ｄ_ｈを１．１３ｍに設定した。実験結果として、図２３Ａに反射板３００を設置しなかった場合の最小分散ビームフォーマの指向性（２次元領域）、図２３Ｂに反射板３００を設置した場合の最小分散ビームフォーマの指向性（２次元領域）を示す。音圧［単位：ｄＢ］は濃淡表示されており、白い領域ほど高い音圧で収音できていることを表している。従って、理想的には、方向４５度、距離１．１３ｍの位置のみ白くなっており、他の領域が黒に近くなるほど、所望の音声のスポット強調が実現できているといえる。図２３Ａと図２３Ｂに示す実験結果の比較から、反射板３００を設置しなかった場合は所望の音声のスポット強調が十分にできておらず、反射板３００を設置した場合は所望の音声のスポット強調ができていることがわかる。
＜応用例＞
音声スポット強調技術は、画像に譬えて表現すれば、不鮮明な惚けた画像から鮮明な画像を生成することに対応し、音場の情報をより詳細に得ることに役立つ。以下、本発明の音声スポット強調技術が有用なサービス例について述べる。
第１の例として、映像と組み合わせたコンテンツ制作が挙げられる。本発明の音声スポット強調技術の実施形態を利用すると、雑音（目的外音声等）が多い雑音環境でも遠方の目的音声をクリアに強調することができるので、例えば、フィールド外から撮影したサッカー選手がドリブルするズームイン映像に対応した特定エリアの音声付けを行うことができる。
第２の例として、ＴＶ会議システム（音声会議システムでもよい）への応用が挙げられる。狭い部屋で会議する場合には、従来技術でも、数本のマイクロホンを用いて発言者の音声を強調することがそれなりに可能であったが、広い会議室（例えばマイクロホンから５ｍ以上離れた位置に話者が存在するような広い空間）では、クリアに遠方話者の音声を強調することが困難であり、このため、各発言者の前にマイクロホンを設置する必要があった。しかし、本発明の音声スポット強調技術の実施形態を利用すると、特定エリアの遠方の特定エリアの音をクリアに強調することが可能であるため、各発言者の前にマイクロホンを設置することなく、広い会議室に対応したＴＶ会議システムを構築することが可能となる。また、特定エリアの音声を強調可能であるから、マイクロホンの設置位置に対する会議参加者の位置についての制限が緩和されることにもなる。
＜音声強調技術の実施構成＞
次に、本発明の音声強調技術の実施構成の例を図２４〜図２８を参照して説明する。これらの例ではマイクロホンアレーの構成は線形マイクロホンアレーとして図示されているが、線形マイクロホンアレーの構成に限定されない。
図２４Ａ，図２４Ｂ，図２４Ｃに示す実施構成例では、線形マイクロホンアレーを構成するＭ個のマイクロホン２００−１，…，２００−Ｍは矩形平板状の支持部材４００に固定されており、この状態で各マイクロホンの収音孔は支持部材４００の或る一つの平面（以下、開口面と呼ぶ）に配置されている（図示の例ではＭ＝１３）。なお、各マイクロホン２００−１，…，２００−Ｍに接続される配線は図示していない。そして、各マイクロホン２００−１，…，２００−Ｍの配列方向が矩形平板状の反射板３００の法線となるように反射板３００が支持部材４００の端部に固定されている。支持部材４００の開口面は、反射板３００と９０度をなす面である。図２４Ａ，図２４Ｂ，図２４Ｃに示す実施構成例では、反射板３００の好ましいとされる性状は既述の反射物の性状と同じであり、支持部材４００の性状については特に限定はなく各マイクロホン２００−１，…，２００−Ｍをしっかりと固定できる剛性を持っていれば十分である。
図２５Ａに示す実施構成例では、支持部材４００の端部に軸部４１０が固定されており、反射板３００は軸部４１０に回動自在に取り付けられている。この実施構成例によると、マイクロホンアレーに対する反射板３００の幾何学的配置を変更することが可能である。
図２５Ｂに示す実施構成例では、図２４Ａ，図２４Ｂ，図２４Ｃに示す実施構成例において、さらに二つの反射板３１０，３２０が追加されている。追加された二つの反射板３１０，３２０の性状は反射板３００の性状と同じでも異なってもよい。また、反射板３１０の性状は反射板３２０の性状と同じでも異なってもよい。以下、反射板３００を固定反射板３００と呼称する。固定反射板３００の端部（支持部材４００に固定されている固定反射板３００の端部とは反対側の端部）に軸部５１０が固定されており、反射板３１０は軸部５１０に回動自在に取り付けられている。また、支持部材４００の端部（固定反射板３００が固定されている支持部材４００の端部とは反対側の端部）に軸部５２０が固定されており、反射板３２０は軸部５２０に回動自在に取り付けられている。以下、反射板３１０，３２０を可動反射板３１０，３２０と呼称する。図２５Ｂに示す実施構成例によると、例えば固定反射板３００の反射面と可動反射板３１０の反射面が一致するように可動反射板３１０の位置を設定すると、固定反射板３００と可動反射板３１０の組み合わせを、固定反射板３００よりも大きい反射面を持つ反射板として機能させることができる。また、図２５Ｂに示す実施構成例によると、可動反射板３１０，３２０を適切な位置に設定することによって、例えば図２６に示すように支持部材４００、固定反射板３００、可動反射板３１０，３２０で囲まれた空間内で何度も音声を反射させることができるので、反射音の数Ξを制御することができる。なお、図２５Ｂに示す実施構成例の場合、支持部材４００は反射物としての役割を果たすことになるので、既述の反射物の性状と同じ性状を持つことが好ましい。
図２７Ａ，図２７Ｂ，図２７Ｃに示す実施構成例は、反射板３００にもマイクロホンアレー（図示の例では線形マイクロホンアレー）が設けられていることが図２４Ａ，図２４Ｂ，図２４Ｃに示す実施構成例と異なる。図２７Ａ，図２７Ｂ，図２７Ｃに示す実施構成例では、支持部材４００に固定されたＭ個のマイクロホンの配列方向と反射板３００に固定されたＭ’個のマイクロホンの配列方向が同一平面上にあるが、このような配置構成に限定されない（図示の例ではＭ’＝１３）。例えば、支持部材４００に固定されたＭ個のマイクロホンの配列方向と直交するような配列方向を持つように反射板３００にＭ’個のマイクロホンが固定されていてもよい。図２７Ａ，図２７Ｂ，図２７Ｃに示す実施構成例によると、支持部材４００に設けられたマイクロホンアレーと反射板３００（反射板３００に設けられたマイクロホンアレーを使用せず、反射板３００を反射物として使用する）との組み合わせで本発明の音声強調技術を実施したり、支持部材４００（支持部材４００に設けられたマイクロホンアレーを使用せず、支持部材４００を反射物として使用する）と反射板３００に設けられたマイクロホンアレーとの組み合わせで本発明の音声強調技術を実施したりすることができる。
また、図２７Ａ，図２７Ｂ，図２７Ｃに示す実施構成例の拡張実施構成例として、図２５Ｂに示す実施構成例と同様に、図２７Ａ，図２７Ｂ，図２７Ｃに示す実施構成例においてさらに二つの反射板３１０，３２０を追加した構成としてもよい（図２８参照）。また、図示していないが、可動反射板３１０，３２０の少なくとも一つにマイクロホンアレーを設けてもよい。可動反射板３１０に設けられるマイクロホンアレーを構成する各マイクロホンの収音孔は、例えば、支持部材４００の開口面と対向可能な可動反射板３１０の平面（開口面）に配置される。可動反射板３２０に設けられるマイクロホンアレーを構成する各マイクロホンの収音孔は、例えば、支持部材４００の開口面と同一平面を形成可能な可動反射板３２０の平面（開口面）に配置される。このような実施構成例であっても図２５Ｂに示す実施構成例と同様の使用形態が可能である。また、この実施構成例によると、例えば支持部材４００の開口面と可動反射板３２０の開口面が一致するように可動反射板３２０の位置を設定すると、支持部材４００と可動反射板３２０の組み合わせを、支持部材４００に設けられたマイクロホンアレーよりも大きいマイクロホンアレーとして機能させることができる。図２８に示す実施構成例においても、可動反射板３１０，３２０の少なくとも一つにマイクロホンアレーを設けた実施構成例においても、図２６に示す実施構成例と同様の使用形態が可能である。また、図２８に示す実施構成例においても、可動反射板３１０，３２０の少なくとも一つにマイクロホンアレーを設けた実施構成例においても、例えば、可動反射板３１０，３２０を通常の反射物として用い、支持部材４００に設けられたマイクロホンアレーと固定反射板３００に設けられたマイクロホンアレーとを一体のマイクロホンアレーとして用いる使用形態も可能である。この場合、（Ｍ＋Ｍ’）個のマイクロホンで構成されたマイクロホンアレーと二つの反射物を使用する実施構成例と等価となる。
可動反射板３１０にマイクロホンアレーを設ける場合、可動反射板３１０に設けられるマイクロホンアレーを構成する各マイクロホンの収音孔が、支持部材４００の開口面と対向可能な可動反射板３１０の平面の反対側の平面（開口面）に配置されるように、可動反射板３１０にマイクロホンアレーを設けてもよい。また、可動反射板３２０にマイクロホンアレーを設ける場合、可動反射板３２０に設けられるマイクロホンアレーを構成する各マイクロホンの収音孔が、支持部材４００の開口面と同一平面を形成可能な可動反射板３２０の平面の反対側の平面（開口面）に配置されるように、可動反射板３２０にマイクロホンアレーを設けてもよい。もちろん、可動反射板３１０，３２０の少なくとも一つについて、その両面に開口面とするように当該可動反射板にマイクロホンアレーを設けてもよい。
［Ａ］マイクロホンアレーを可動反射板３１０，３２０の少なくとも一つに設けた場合であって、可動反射板３１０の開口面を支持部材４００の開口面と対向可能な平面とした場合ないし可動反射板３２０の開口面を支持部材４００の開口面と同一平面を形成可能な平面とした場合、図２４Ａ，図２４Ｂ，図２４Ｃに示す使用形態では、視線方向に対して可動反射板３１０および／または可動反射板３２０の開口面が見えないように可動反射板３１０および／または可動反射板３２０が配置されることによって視線方向の見かけ上のアレーサイズは小さくなるものの、可動反射板３１０および／または可動反射板３２０に設けられたマイクロホンアレーを利用することによって、アレーサイズを大きくした場合と同じ効果を得ることができる。
［Ｂ］マイクロホンアレーを可動反射板３１０，３２０の少なくとも一つに設けた場合であって、可動反射板３１０の開口面を支持部材４００の開口面と対向可能な平面の反対側の平面とした場合ないし可動反射板３２０の開口面を支持部材４００の開口面と同一平面を形成可能な平面の反対側の平面とした場合、図２４Ａ，図２４Ｂ，図２４Ｃに示す使用形態では、視線方向に対して見かけ上のアレーサイズを保ったまま、アレーサイズを大きくした場合と同じ効果を得ることができる。
可動反射板３１０，３２０の少なくとも一つについて、その両面に開口面とするように当該可動反射板にマイクロホンアレーを設けた場合には、［Ａ］と［Ｂ］の双方の効果を得ることも可能である。
＜参考文献＞
（参考文献１）ＳｉｍｏｎＨａｙｋｉｎ著、鈴木博他訳、「適応フィルタ理論」、初版、株式会社科学技術出版、２００１．ｐｐ．６６−７３，２４８−２５５
（参考文献２）菊間信良著、「アダプティブアンテナ技術」、第１版、株式会社オーム社、２００３年、ｐｐ．３５−９０
（参考文献３）浅野太著、「日本音響学会編音響テクノシリーズ１６音のアレイ信号処理−音源の定位・追跡と分離−」、初版、株式会社コロナ社、ｐｐ．８８−８９，２５９−２６１
（参考文献４）金田豊著、「適応形雑音抑圧マイクロホンアレー（ＡＭＮＯＲ）の指向特性」、日本音響学会誌４４巻１号（１９８８）、ｐｐ．２３−３０
＜音声強調装置のハードウェア構成例＞
上述の実施形態に関わる音声強調装置は、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）〔キャッシュメモリなどを備えていてもよい。〕、メモリであるＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）やＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）と、ハードディスクである外部記憶装置、並びにこれらの入力部、出力部、ＣＰＵ、ＲＡＭ、ＲＯＭ、外部記憶装置間のデータのやり取りが可能なように接続するバスなどを備えている。また必要に応じて、音声強調装置に、ＣＤ−ＲＯＭなどの記録媒体を読み書きできる装置（ドライブ）などを設けるとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
音声強調装置の外部記憶装置には、狭い範囲の音声を強調するためのプログラム並びにこのプログラムの処理において必要となるデータなどが記憶されている〔外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに記憶させておくなどでもよい。〕。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に記憶される。以下、データやその格納領域のアドレスなどを記憶する記憶装置を単に「記憶部」と呼ぶことにする。
音声強調装置の記憶部には、空間相関行列を用いて、周波数ごとにフィルタを求めるためのプログラムと、アナログ信号に対してＡＤ変換を行うためのプログラム、フレーム生成処理を行うためのプログラム、フレームごとのディジタル信号を周波数領域の周波数領域信号に変換するためのプログラム、音声強調の対象となる方向または位置に対応するフィルタを周波数ごとに周波数領域信号に適用して出力信号を得るためのプログラムと、出力信号を時間領域信号に変換するためのプログラムが記憶されている。
音声強調装置では、記憶部に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてＲＡＭに読み込まれて、ＣＰＵで解釈実行・処理される。この結果、ＣＰＵが所定の機能（フィルタ設計部、ＡＤ変換部、フレーム生成部、周波数領域変換部、フィルタ適用部、時間領域変換部）を実現することで音声強調が実現される。
＜補記＞
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
また、上記実施形態において説明したハードウェアエンティティ（音声強調装置）における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）、ＤＶＤ−ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＣＤ−Ｒ（Ｒｅｃｏｒｄａｂｌｅ）／ＲＷ（ＲｅＷｒｉｔａｂｌｅ）等を、光磁気記録媒体として、ＭＯ（Ｍａｇｎｅｔｏ−Ｏｐｔｉｃａｌｄｉｓｃ）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（ＥｌｅｃｔｒｏｎｉｃａｌｌｙＥｒａｓａｂｌｅａｎｄＰｒｏｇｒａｍｍａｂｌｅ−ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（ＡｐｐｌｉｃａｔｉｏｎＳｅｒｖｉｃｅＰｒｏｖｉｄｅｒ）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

Ｍを２以上の整数として、Ｍ個のマイクロホンで音声を収音して得られるＭ個の収音信号がそれぞれ周波数領域に変換された周波数領域信号に、方向と距離で定まる所望の位置の音声を強調するフィルタを周波数ごとに適用して、当該位置の音声が強調された周波数領域の出力信号を得る音声強調方法であって、
音源位置として想定される一つまたは複数の位置に含まれる各位置（ただし、各位置を識別するための方向をｉ、距離をｇとする）からの音声の各マイクロホンへの伝達特性ａ_ｉ，ｇを用いて、音声強調の対象となる位置について、上記周波数ごとの上記フィルタを求めるフィルタ設計ステップと、
上記フィルタ設計ステップで求められた上記フィルタを、上記周波数ごとに上記周波数領域信号に適用して上記出力信号を得るフィルタ適用ステップと
を有し、
各上記伝達特性ａ_ｉ，ｇは、上記方向ｉと上記距離ｇで定まる位置からの音声がＭ個の上記マイクロホンに直接届く直接音の伝達特性と当該音声が反射物で反射してＭ個の上記マイクロホンに届く一つ以上の反射音の各伝達特性との和で表される
ことを特徴とする音声強調方法。
請求項１に記載の音声強調方法において、
各上記伝達特性ａ_ｉ，ｇは、上記直接音のステアリングベクトルと、反射による音の減衰および上記直接音に対する到来時間差が補正された一つ以上の上記反射音の各ステアリングベクトルとの和である
ことを特徴とする音声強調方法。
請求項１に記載の音声強調方法において、
各上記伝達特性ａ_ｉ，ｇは、実環境下において実測で得られたものである
ことを特徴とする音声強調方法。
請求項１から請求項３のいずれかに記載の音声強調方法において、
上記フィルタ設計ステップにおいて、音声強調の対象となる上記位置以外の音声のパワーが最小となるように、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声強調方法。
請求項１から請求項３のいずれかに記載の音声強調方法において、
上記フィルタ設計ステップにおいて、音声強調の対象となる上記位置でのＳＮ比が最大となるように、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声強調方法。
請求項１から請求項３のいずれかに記載の音声強調方法において、
上記フィルタ設計ステップにおいて、Ｍ個の上記マイクロホンのうち一つのマイクロホンに対するフィルタ係数を一定値に固定した状態で音源位置として想定される上記一つまたは複数の位置以外の音声のパワーが最小となるように、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声強調方法。
請求項１から請求項３のいずれかに記載の音声強調方法において、
上記フィルタ設計ステップにおいて、（１）音声強調の対象となる上記位置の音声の全帯域通過、および（２）一つ以上の抑圧点の音声の全帯域抑制、の条件の下、音声強調の対象となる上記位置と各上記抑圧点以外の音声のパワーが最小となるように、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声強調方法。
請求項１から請求項３のいずれかに記載の音声強調方法において、
上記フィルタ設計ステップにおいて、音声強調の対象となる上記位置ｉ＝ｓ，ｇ＝ｈの伝達特性ａ_ｓ，ｈを正規化することによって、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声強調方法。
請求項１から請求項３のいずれかに記載の音声強調方法において、
上記フィルタ設計ステップにおいて、音声強調の対象となる上記位置以外の各位置に対応する上記伝達特性ａ_ｉ，ｇによって表される空間相関行列を用いて、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声強調方法。
請求項１から請求項３のいずれかに記載の音声強調方法において、
上記フィルタ設計ステップにおいて、音声強調の対象となる上記位置の音声の劣化量を所定量以下とする条件の下、音声強調の対象となる上記位置以外の音声のパワーが最小となるように、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声強調方法。
請求項１から請求項３のいずれかに記載の音声強調方法において、
上記フィルタ設計ステップにおいて、マイクロホンアレーによって観測して得られた信号を周波数領域に変換して得られる周波数領域信号によって表される空間相関行列を用いて、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声強調方法。
請求項１から請求項３のいずれかに記載の音声強調方法において、
上記フィルタ設計ステップにおいて、音源位置として想定される一つまたは複数の位置に含まれる各位置に対応する上記伝達特性ａ_ｉ，ｇによって表される空間相関行列を用いて、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声強調方法。
Ｍを２以上の整数として、Ｍ個のマイクロホンで音声を収音して得られるＭ個の収音信号がそれぞれ周波数領域に変換された周波数領域信号に、方向と距離で定まる所望の位置の音声を強調するフィルタを周波数ごとに適用して、当該位置の音声が強調された周波数領域の出力信号を得る音声強調装置であって、
音源位置として想定される一つまたは複数の位置に含まれる各位置（ただし、各位置を識別するための方向をｉ、距離をｇとする）からの音声の各マイクロホンへの伝達特性ａ_ｉ，ｇを用いて、音声強調の対象となる位置について、上記周波数ごとの上記フィルタを求めるフィルタ設計部と、
上記フィルタ設計部によって求められた上記フィルタを、上記周波数ごとに上記周波数領域信号に適用して上記出力信号を得るフィルタ適用部と
を含み、
各上記伝達特性ａ_ｉ，ｇは、上記方向ｉと上記距離ｇで定まる位置からの音声がＭ個の上記マイクロホンに直接届く直接音の伝達特性と当該音声が反射物で反射してＭ個の上記マイクロホンに届く一つ以上の反射音の各伝達特性との和で表される
ことを特徴とする音声強調装置。
請求項１３に記載の音声強調装置において、
Ｍ個の上記マイクロホンに対して各上記反射音を与える一つ以上の反射物をさらに含む
ことを特徴とする音声強調装置。
Ｍを２以上の整数として、Ｍ個のマイクロホンで音声を収音して得られるＭ個の収音信号がそれぞれ周波数領域に変換された周波数領域信号に、所望の方向の音声を強調するフィルタを周波数ごとに適用して、当該方向の音声が強調された周波数領域の出力信号を得る音声強調方法であって、
音声の到来方向として想定される一つまたは複数の方向に含まれる各方向φの音声の各マイクロホンへの伝達特性ａ_φを用いて、音声強調の対象となる方向について、上記周波数ごとの上記フィルタを求めるフィルタ設計ステップと、
上記フィルタ設計ステップで求められた上記フィルタを、上記周波数ごとに上記周波数領域信号に適用して上記出力信号を得るフィルタ適用ステップと
を有し、
各上記伝達特性ａ_φは、上記方向φの音声がＭ個の上記マイクロホンに直接届く直接音の伝達特性と当該音声が反射物で反射してＭ個の上記マイクロホンに届く一つ以上の反射音の各伝達特性との和で表される
ことを特徴とする音声強調方法。
請求項１５に記載の音声強調方法において、
各上記伝達特性ａ_φは、上記直接音のステアリングベクトルと、反射による音の減衰および上記直接音に対する到来時間差が補正された一つ以上の上記反射音の各ステアリングベクトルとの和である
ことを特徴とする音声強調方法。
請求項１５に記載の音声強調方法において、
各上記伝達特性ａ_φは、実環境下において実測で得られたものである
ことを特徴とする音声強調方法。
請求項１５から請求項１７のいずれかに記載の音声強調方法において、
上記フィルタ設計ステップにおいて、音声強調の対象となる上記方向以外の方向の音声のパワーが最小となるように、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声強調方法。
請求項１５から請求項１７のいずれかに記載の音声強調方法において、
上記フィルタ設計ステップにおいて、音声強調の対象となる上記方向でのＳＮ比が最大となるように、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声強調方法。
請求項１５から請求項１７のいずれかに記載の音声強調方法において、
上記フィルタ設計ステップにおいて、Ｍ個の上記マイクロホンのうち一つのマイクロホンに対するフィルタ係数を一定値に固定した状態で音声の到来方向として想定される上記一つまたは複数の方向の音声のパワーが最小となるように、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声強調方法。
請求項１５から請求項１７のいずれかに記載の音声強調方法において、
上記フィルタ設計ステップにおいて、（１）音声強調の対象となる上記方向の音声の全帯域通過、および（２）一つ以上の死角の音声の全帯域抑制、の条件の下、音声強調の対象となる上記方向と各上記死角とを除く方向の音声のパワーが最小となるように、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声強調方法。
請求項１５から請求項１７のいずれかに記載の音声強調方法において、
上記フィルタ設計ステップにおいて、音声強調の対象となる上記方向φ＝ｓの伝達特性ａ_ｓを正規化することによって、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声強調方法。
請求項１５から請求項１７のいずれかに記載の音声強調方法において、
上記フィルタ設計ステップにおいて、音声強調の対象となる上記方向以外の各方向に対応する上記伝達特性ａ_φによって表される空間相関行列を用いて、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声強調方法。
請求項１５から請求項１７のいずれかに記載の音声強調方法において、
上記フィルタ設計ステップにおいて、音声強調の対象となる上記方向の音声の劣化量を所定量以下とする条件の下、音声強調の対象となる上記方向以外の方向の音声のパワーが最小となるように、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声強調方法。
請求項１５から請求項１７のいずれかに記載の音声強調方法において、
上記フィルタ設計ステップにおいて、マイクロホンアレーによって観測して得られた信号を周波数領域に変換して得られる周波数領域信号によって表される空間相関行列を用いて、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声強調方法。
Ｍを２以上の整数として、Ｍ個のマイクロホンで音声を収音して得られるＭ個の収音信号がそれぞれ周波数領域に変換された周波数領域信号に、所望の方向の音声を強調するフィルタを周波数ごとに適用して、当該方向の音声が強調された周波数領域の出力信号を得る音声強調装置であって、
音声の到来方向として想定される一つまたは複数の方向に含まれる各方向φの音声の各マイクロホンへの伝達特性ａ_φを用いて、音声強調の対象となる方向について、上記周波数ごとの上記フィルタを求めるフィルタ設計部と、
上記フィルタ設計部によって求められた上記フィルタを、上記周波数ごとに上記周波数領域信号に適用して上記出力信号を得るフィルタ適用部と
を含み、
各上記伝達特性ａ_φは、上記方向φの音声がＭ個の上記マイクロホンに直接届く直接音の伝達特性と当該音声が反射物で反射してＭ個の上記マイクロホンに届く一つ以上の反射音の各伝達特性との和で表される
ことを特徴とする音声強調装置。
請求項２６に記載の音声強調装置において、
Ｍ個の上記マイクロホンに対して各上記反射音を与える一つ以上の反射物をさらに含む
ことを特徴とする音声強調装置。
コンピュータに、請求項１または請求項１５に記載の音声強調方法の処理を実行させるためのプログラム。
請求項１または請求項１５に記載の音声強調方法の各ステップをコンピュータに実行させるためのプログラムを記録した、コンピュータが読み取り可能な記録媒体。