JP2008079256A

JP2008079256A - 音響信号処理装置、音響信号処理方法及びプログラム

Info

Publication number: JP2008079256A
Application number: JP2006259347A
Authority: JP
Inventors: Ko Amada; 皇天田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2006-09-25
Filing date: 2006-09-25
Publication date: 2008-04-03

Abstract

【課題】室内や車内などの反射や残響の存在する残響下において２つのマイクロホンだけでも奥行き方向も含む音源位置推定を行うことが可能な音響信号処理装置を提供する。
【解決手段】対象音源１０９からの直接波及び反射波をマイクロホン１０１−１，１０１−２で受信し、各受音信号を各フーリエ変換部１０２−１，１０２−２でフーリエ変換し、変換結果をもとにコヒーレンス特徴算出部１１０で受音信号の特徴量を算出する。また、特徴量辞書１０７には、予め複数の音源位置候補について学習された特徴量の代表値が登録されている。照合部１０６は、受音信号の特徴量を、特徴量辞書１０７に登録されている特徴量モデルと照合して、受音信号の特徴量により近い特徴量モデルを選択し、選択した特徴量モデルに対応付けられている音源位置候補を、対象音源の位置の推定結果とする。
【選択図】図１

Description

本発明は、入力音響信号から音源位置を推定する音響信号処理装置、音響信号処理方法及びプログラムに関する。

例えばテレビ会議システムやロボットの聴覚システム等において、複数の話者の中から特定の人の声を抽出する場合に、どの方向又は位置から音声が到来するかを推定する音源定位の問題は重要な課題である。複数のマイクロホン（マイクロホンアレー）を用いた手法は、音響信号のみから音源位置の推定を行うものであり、近年研究が盛んに行われている。

音源の方位を特定する古典的な手法として、ビームフォーマ法（例えば非特許文献１の９章参照）が挙げられる。ビームフォーマ法は、複数のマイクに到来する信号の時間差から信号の到来方向を求めるという簡単な原理に基づいている。

また、ロボット頭部の左右にマイクを配置した場合に、ロボット頭部が障害となり、両耳間の到来時間差が正確に求められないことがある。この問題に対しては、左右のマイクに到達する信号に強度差が生じることを利用し、強度比のパターンを認識することで音源方向を推定する方法が提案されている（例えば非特許文献２参照）。

これら音源方位を推定する手法では、原理的には２マイクで構成可能であり、低コストで実現可能であるという利点がある。

一方で、奥行きも含めた２次元空間での音源位置の推定を行うには、多数のマイクを、音源を取り囲むように配置する必要がある。例えば、非特許文献３では、車内に搭乗者を囲むように配置したマイクを用いて、ＭＵＳＩＣ法（例えば非特許文献１の１０章参照）を２次元に拡張した２Ｄ−ＭＵＳＩＣ法により音源位置を推定する方法が述べられている。

方向のみでなく奥行きまで検出するには多数のマイクが必要であり、コストがかかるという問題に加え、マイクアレーシステムのサイズも大きくなり、設置が困難になるという問題がある。
菊間信良，アレーアンテナによる適応信号処理，科学技術出版， 1998 持木南生也，関矢俊之，小川哲司，小林哲則， "ロボット頭部に設置した４系統指向性マイクロホンによる音源定位"，日本音響学会講演論文集， pp.609-610，３月， 2005 近藤啓介，長井隆行，金子正秀，榑松明， "マイクロホンアレーを用いた話者位置推定による車載音声認識" 電子情報通信学会論文誌Ｄ−ＩＩ， vol. J85， no.7， pp.1176-1187， 2002

上述したように従来の技術では、２マイクで構成される小規模なマイクによる場合、音源方向の推定は可能であるが、奥行き方向も含めた音源位置の推定は困難であるという問題があった。また、奥行き方向の推定を行うためには、多数のマイクを広範囲に設置する必要があり、コストがかかり、装置が大がかりになるという問題があった。

本発明は、上記事情を考慮してなされたもので、室内や車内などの反射や残響の存在する残響下において２つのマイクロホンだけでも奥行き方向も含む音源位置推定を行うことが可能な音響信号処理装置、音響信号処理方法及びプログラムを提供することを目的とする。

本発明に係る音響信号処理装置は、音源から直接到来する直接波と、前記音源から前記直接波とは異なる方位に放射され反射して到来する反射波とを複数のチャネルで受音する受音手段と、受音した受音信号に対し、前記受音信号のチャネル間の相関を含むチャネル間の差異を表す特徴量を算出する算出手段と、前記受音信号に対する特徴量を、予め定められた音源位置候補に対応付けられている特徴量モデルと照合して、１又は複数の特徴量モデルを選択し、選択した特徴量モデルに対応付けられている音源位置候補に基づいて、前記音源の位置に関する推定を行う推定処理手段とを備えたことを特徴とする。

また、本発明に係る音響信号処理装置は、音源から直接到来する直接波と、前記音源から前記直接波とは異なる方位に放射され反射して到来する反射波とを複数のチャネルで受音する受音手段と、受音した受音信号に対し、前記受音信号のチャネル間の相関を含むチャネル間の差異を表す特徴量を算出する算出手段と、前記受音信号に対する特徴量を、予め定められた音源位置候補に対応付けられている特徴量モデルと照合して、前記受音信号に対する特徴量と前記特徴量モデルとの近さを表す指標を求め、求められた該指標が所定の基準を満たすか否かによって、前記音源が前記音源位置候補に存在するものであるか否かを推定する推定処理手段とを備えたことを特徴とする。

本発明によれば、室内や車内などの反射や残響の存在する空間での受音信号に対してチャネル間の相関を含むチャネル間の差異を表す特徴量を求め、反射や残響を含んだ特徴量を、事前に学習した特徴量のモデルと比較し、音源の位置に関する推定を行うことにより、従来は多数のマイクロホンが必要であった奥行き方向を含む音源位置推定を、２つのマイクロホンだけでも実現することができ（３つ以上のマイクロホンを用いても構わない）、低コストで小規模な構成で奥行きも含めた音源位置の推定が可能となる。

なお、装置に係る本発明は方法に係る発明としても成立し、方法に係る本発明は装置に係る発明としても成立する。
また、装置または方法に係る本発明は、コンピュータに当該発明に相当する手順を実行させるための（あるいはコンピュータを当該発明に相当する手段として機能させるための、あるいはコンピュータに当該発明に相当する機能を実現させるための）プログラムとしても成立し、該プログラムを記録したコンピュータ読み取り可能な記録媒体としても成立する。

本発明によれば、室内や車内などの反射や残響の存在する残響下において２つのマイクロホンだけでも奥行き方向も含む音源位置推定を行うことが可能になる。

以下、図面を参照しながら本発明の実施形態について説明する。

（第１の実施形態）
図１に、本発明の第１の実施形態に係る音響信号処理装置の構成例を示す。

図１中、１０１−１，１０１−２はいずれもマイクロホンを表し、１０９は位置推定の対象となる音源を表し、１０８は音源１０９からマイクロホン１０１−１とマイクロホン１０１−２への反射波を生成する壁面（反射面）を表している。なお、ここでは、音源とマイクロホンが開空間の環境下にある場合を例にとっているが、音源とマイクロホンが例えば部屋や車内などのような閉空間（図８等参照）の環境下にあってもよい（他の実施形態も同様である）。

本実施形態では、後述するように、各マイクロホンと反射面との位置関係とが固定されている場合を想定している。

図１に示されるように、本実施形態の音響信号処理装置は、第1のマイクロホン１０１−１と、第２のマイクロホン１０１−２と、第1のマイクロホン１０１−１の受音信号をフーリエ変換するフーリエ変換部１０２−１と、第２のマイクロホン１０１−２の受音信号をフーリエ変換するフーリエ変換部１０２−２と、それらフーリエ変換部１０２−１，１０２−２により得られるフーリエ変換結果をもとに特徴量を算出するコヒーレンス特徴算出部１１０と、コヒーレンス特徴算出部１１０により得られる特徴量を、（予め複数の特徴量モデルが登録されている）特徴量辞書１０７に登録されている特徴量モデルと照合し、音源の位置に関する推定を行う照合部１０６とを備えている。また、コヒーレンス特徴算出部１１０は、周波数成分ごとにコヒーレンスを計算するコヒーレンス算出部１０３と、コヒーレンス算出部１０３により得られる周波数成分ごとのコヒーレンスを統合して特徴量を生成するコヒーレンス統合部１０４とを有する。

なお、特徴量辞書１０７については、本音響信号処理装置が特徴量辞書１０７を備える形態でもよいし、本音響信号処理装置の外部に特徴量辞書１０７が存在し、本音響信号処理装置が（例えばネットワークを介するなどして）特徴量辞書１０７を利用する形態でもよい（他の実施形態の辞書についても同様である）。

本実施形態では、詳しくは後述するように、受信信号に対する特徴量として、コヒーレンスを利用し、特徴量辞書１０７に登録する特徴量モデルとして、候補となる音源位置（音源位置候補）に対応する特徴量の代表値を用いる。

図２に、本音響信号処理装置が音源からの音響信号を受信してから、音源の位置に関する推定を行うまでの処理手順例を示す。

音源からの直接波及び反射波を各マイクロホンで受音し（ステップＳ１）、受音した各受音信号をそれぞれフーリエ変換し（ステップＳ２）、それらフーリエ変換結果をもとに特徴量を算出し（ステップＳ３）、算出された特徴量を特徴量辞書に登録されている特徴量と照合して、音源の位置に関する推定を行う（ステップＳ４）。

以下に、本実施形態の動作について詳しく説明する。

音源１０９を話者の発話とすると、話者の声はマイクロホン１０１−１，１０１−２で受音される。このとき、音源１０９から直接マイクロホン１０１−１，１０１−２に到達する信号に加え、壁面１０８で反射して到達する信号も合わせて受音される（ステップＳ１）。

各マイクロホン１０１−１，１０１−２の受音信号はそれぞれフーリエ変換部１０２−１，１０２−２でフーリエ変換される（ステップＳ２）。具体的には、離散化された受音信号に対して、ハミング窓等の窓関数により切り出されたフレームに対して高速フーリエ変換を行う。この処理は、時間的に連続して入力される受音信号に対して、所定のサンプル数だけシフトしながらフレーム毎に行われる。フレームのサンプル数が２（Ｋ−１）の場合、Ｋ個の周波数成分（Ｘｍ（１），Ｘｍ（２），…，Ｘｍ（Ｋ））が得られる。ここで、ｍはマイク番号で、ｍ＝１ or ２である（なお、図１において、ｍ＝１がマイクロホン１０１−１を示し、ｍ＝２がマイクロホン１０１−２を示す）。

次に、コヒーレンス算出部１０３で周波数成分ごとにコヒーレンスが計算される（ステップＳ３）。

コヒーレンスは、２つのマイクロホン間の信号の相関を表す量であり、数式（１）に示す複素コヒーレンスを用いることができる。
γ(k)＝Ｅ｛Ｘ_１ ^＊(k)Ｘ_２(k)｝／｛Ｅ｛｜Ｘ_１(k)｜^２｝Ｅ｛｜Ｘ_２(k)｜^２｝｝^−１／２
…（１）
数式（１）の分子はクロススペクトルとも呼ばれる。

次に、周波数ごとに求められたコヒーレンス（Ｃｏｈ（１），Ｃｏｈ（２），…，Ｃｏｈ（Ｋ））をコヒーレンス統合部１０４で統合して、受音信号に対する特徴量として、特徴ベクトルｆ_ｃｏｈを生成する（ステップＳ３）。

なお、複素コヒーレンスは、複素数であるので、Ｃｏｈ（ｉ）を実部と虚部に分解して（Ｒｅａｌ（Ｃｏｈ（ｉ），Ｉｍａｇｅ（Ｃｏｈ（ｉ））として扱い、あるいは、絶対値と角度に分解して（｜Ｃｏｈ（ｉ）｜，Ａｒｇ（Ｃｏｈ（ｉ）））として扱うと、後段の処理を実数で行うことができ、好都合である。

また、位相成分を削除して、｜Ｃｏｈ（ｉ）｜またはその２乗（振幅２乗コヒーレンス）を用いると、特徴ベクトルの次元数を半分に減らすことができる。

また、この特徴ベクトルを複数フレームまとめた系列を、１つの特徴ベクトルとして扱うことも可能である。さらに、この系列に対して主成分分析等の統計的手法を用いて次元圧縮をすることも可能である。

なお、上記では、振幅の変動による影響を取り除くために、クロススペクトルを正規化したコヒーレンスを用いて特徴量を定義する場合を例にとって説明しているが、クロススペクトルを用いて特徴量を定義することも可能である。

このようにして得られた特徴ベクトルｆ_ｃｏｈは、特徴量辞書１０７に格納されている各特徴量モデル（特徴ベクトル）ｆ_ｉと、照合部１０６により照合される（ステップＳ４）。なお、特徴量辞書１０７に登録する複数の特徴ベクトルを生成する方法については後述する。

照合の方法としては様々な方法が考えられる。

ここでは、一例として、ベクトル間のユークリッド距離を用いる方法について説明する。

受音信号に対する特徴ベクトルｆ_ｃｏｈと、特徴量辞書１０７に格納されたｉ番目の特徴ベクトルｆ_ｉとの距離の２乗Ｄ_ｉは、
Ｄ_ｉ＝（ｆ_ｃｏｈ−ｆ_ｉ）^２
と定義される。

照合部１０６では、Ｄ_ｉを最小とする特徴量モデル（特徴ベクトル）ｆ_ｉを探索し、その特徴量モデル（特徴ベクトル）に対応付けられている音源位置候補（例えば、特定の地点を基準とする座標値）を、音源（話者）の位置の推定結果として出力する。

次に、特徴量辞書１０７の作成方法について説明する。

特徴量辞書１０７は、本音響信号処理装置の利用時（音源位置推定時）の環境と同じ（あるいはほぼ同じ）条件下で作成されるのが望ましい。つまり、音源位置推定時における各マイクロホンと反射面との位置関係を想定して、学習時の音源位置推定時における各マイクロホンと反射面との位置関係を設定すると効果的である。なお、必ずしも当該音響信号処理装置が現実に用いられる環境・場所で学習を行うのではなくてもよく、同じ（あるいは、ほぼ同じ）条件下であれば、異なる環境・場所で学習を行っても構わない。例えば、当該音響信号処理装置が自動車に搭載して利用されるものである場合に、当該音響信号処理装置を実際に搭載する当該自動車を用いて学習する代わりに、当該自動車と同種の他の自動車を用いて学習を行うことも可能である。

この状態で候補となる音源位置（例えば図１のＡ、Ｂ、Ｃの位置）から学習用信号を発生する。学習用信号は、必ずしも、位置推定の対象として想定している音源から得られるであろうものと同一の信号を用いなくても構わない。例えば、対象となる音源として人の声を想定する場合に、学習用信号としては、肉声やスピーカによる人の声を用いるのが望ましいが、白色雑音等のノイズも利用可能である。また、例えば、特定の話者を推定対象とする場合に、学習用信号として肉声やスピーカによる人の声を用いるときであっても、当該特定の話者以外の人の声を用いることも可能である。

このようにして発生させた信号を各マイクロホン１０１−１，１０１−２で受音し、コヒーレンス特徴算出部１１０により前述の手法を用いて、特徴ベクトルを生成し（これらを所定回数繰り返して複数の特徴ベクトルを生成し）、その平均値を、その音源位置候補における特徴ベクトルの代表値（特徴量モデル）として保存する（例えば図１のｆＡ、ｆＢ、ｆＣ）。なお、平均値のもととなる複数の特徴ベクトルの生成には、種々の方法が考えられ、例えば、同一の学習用信号から切り出された複数のフレームに対する特徴ベクトルを生成して用いることも可能であり、また、異なる学習用信号からそれぞれ切り出された複数のフレームに対する特徴ベクトルを生成して用いることも可能である。また、例えば、学習に人の声を用いる場合に、特定の一人の音声を用いることも可能であるし、複数の人の音声を用いることも可能である。

この作業を音源位置候補ごとに行って、各音源位置候補に対応する特徴量モデルを求める。そして、各特徴量モデルに、その音源位置候補（例えば、特定の地点を基準とする座標値もしくはこれを特定可能な情報）を対応付けて、特徴量辞書１０７に登録する。

図３に、この学習の処理手順例を示す。

まず、ステップＳ１１において、Ｎ個の学習用音源位置（すなわち、音源位置候補）ｐ（１）〜ｐ（Ｎ）に対し、１番目の位置を選択する（ｎ＝１とする）。

ステップＳ１２では、音源位置ｐ（ｎ）より学習用信号を放射する。

ステップＳ１３で、放射された信号に対する特徴量を所定回数求め、ステップＳ１４で、その平均値（特徴ベクトルの代表）を求め、ｐ（ｎ）に対応する特徴ベクトル（特徴量モデル）とする。

ステップＳ１５で、全ての学習用音源位置に対して学習が終了したかを判定し、終了していなければ、ステップＳ１６で次の音源位置を選択（ｎを１増加）した後に、ステップＳ１２に戻り、終了していれば、特徴ベクトルの組（ｆ（１），ｆ（２），…，ｆ（ｎ））を特徴量辞書１０７として出力する。

なお、各特徴ベクトルに対応する音源位置候補は、特徴量辞書１０７に併せて登録してもよいし、他の辞書に登録して、特徴ベクトルの識別情報（例えば、上記の番号）などで対応付けて検索可能にしてもよい（他の実施形態についても同様である）。

以上の学習方法から理解されるように、本手法は任意の環境や任意のマイク配置での使用には不向きである反面、これらの固定された環境、例えば車内に設置されたマイクロホンに対して音源が運転席や助手席などある程度決まった位置に存在するような環境には、好適である。

次に、このように使用条件を限定することにより生じる利点について述べる。

図４に、使用環境の例を示す。この例の使用環境は、閉空間３０８と音源位置Ａ，Ｂとマイクロホン１０１−１，１０１−２より構成される。２つの音源Ａ，Ｂは、２つのマイクロホンの中心に対し真正面に奥行方向のみ異なるように配置されている。

かりに、閉空間３０８が存在しなかった場合、マイクロホンで観測される信号は音源からの直接波のみであるため、音源位置Ａ，Ｂによらず左右のマイクロホンで同一の波形が観測される。これに対し、閉空間３０８が存在する場合は、直接波の他に反射波が加わる。反射波は、音源位置Ａ，Ｂに依存して、異なる角度、時間遅れを生じて受音されるため、これを手がかりに奥行き方向を推定することができる。

図５に、受音した信号のコヒーレンスを模式的に表す。

閉空間が存在せず、反射の無い環境では、左右のマイクロホンの受音信号は同一となるため、数式（１）の定義によりコヒーレンスは全周波数帯域で１となり、図５（ａ）のように周波数による変化のない特徴となる。これに対し、反射のある場合は、直接波と反射波の位相差が（２ｎ＋１）π，（ｎ＝０，１，…）となる周波数で直接波と反射波が弱め合って受音信号のＳＮＲが劣化し、コヒーレンスの低下を招く。これが図５（ｂ）に示すように、特定の周波数で特徴的なディップ（くぼみ）となって現れる。ディップの現れる周波数は音源位置（奥行き方向も含む）により異なるため、この特徴は、音源位置の識別、特に奥行き方向の識別に効果的である。一方、コヒーレンスの高い成分は、その位相成分に音源の方向情報が現れるため、音源方向の推定に効果的である。このような性質を持つコヒーレンスのパターンを特徴量とすることで、奥行き方向も含めた音源位置の特定が可能になる。

なお、上記では、マイクロホンの数を２として説明したが、マイクロホンの数が３以上の場合も実現可能である。この場合、例えば、各マイクロホン間のコヒーレンスを連結したベクトルを特徴ベクトルとするなどの手法があげられる。

また、図１の例では、特徴量モデルの対象となる音源位置候補を３箇所のみ示しているが、より多くの音源位置候補を用いてもよい。また、例えば、音源位置候補を格子状に配置するなどの方法も可能である。これらは、他の実施形態についても同様である。

また、上記では、本音響信号処理装置がマイクロホン１０１−１，１０１−２を備えたが、マイクロホンで受音した信号を運搬または伝送可能なシステム（運搬または伝送はどのような方法によっても構わない。）を介して本音響信号処理装置に与えることも可能である。この場合、本音響信号処理装置の構成としては、マイクロホン１０１−１，１０１−２は不要となり、マイクロホン１０１−１，１０１−２の替わりに入力端子を設け、マイクロホンから運搬または伝送された信号を入力端子に入力する構成とすることができる。この点は、以下の各実施形態についても同様である。

（第２の実施形態）
本発明の第２の実施形態について、第１の実施形態と相違する点を中心に説明する。

第１の実施形態は、受信信号に対する特徴量や特徴量辞書１０７に登録する特徴量モデルとして、コヒーレンスによる特徴量ベクトルを用いたが、本実施形態では、コヒーレンスによる特徴量ベクトルの替わりに、一般化相互相関関数による特徴量ベクトルを用いるものである。

図６に、本実施形態に係る音響信号処理装置の構成例を示す。

本実施形態は、第１の実施形態の音響信号処理装置の構成例（図１）において、コヒーレンス特徴算出部１１０を一般化相互相関関数特徴算出部２１０に置き換えたものである。

図６に示されるように、一般化相互相関関数特徴算出部２１０は、一般化相互相関関数２０３とフーリエ逆変換部２０４と最大値探索部２０５とを有する。

一般化相互相関関数gcc(t)は、次の数式（２）で定義され、ここでは左右のマイクロホンの相関を表す量に相当する。
gcc(t)＝IFT｛φ(k)Ｅ｛Ｘ_１ ^＊(k)Ｘ_２(k)｝｝ …（２）
一般化相互相関関数の１つである平滑化コヒーレンス変換では、重み関数φ（ｋ）は、次の数式（３）で定義される。
φ(k)＝｛Ｅ｛｜Ｘ_１(k)｜^２｝Ｅ｛｜Ｘ_２(k)｜^２｝｝^−１／２ …（３）
重み関数φ（ｋ）には多くのバリエーションが存在するが（例えば“金井浩，音・振動のスペクトル解析，コロナ社， 1999“の１０．３章参照）、周波数成分ごとに重みを変え、より用途に適した相互相関関数を求めようという観点から同一のものと言える。

本実施形態では、一般化相互相関関数特徴算出部２１０において、一般化相互相関関数２０３によりＧＣＣ＝｛φ(k)Ｅ｛Ｘ_１ ^＊(k)Ｘ_２(k)｝｝の部分を求め、これをフーリエ逆変換部２０４によりフーリエ逆変換し、この結果ｇｃｃから、最大値探索部２０５により、最大値を探索し、最大値Ｍと、これを与える遅れ時間δとの組を、特徴量ｆ_ｇｃｃ（Ｍ，δ）とする。

特徴量辞書１０７の生成方法は、コヒーレンスの替わりに一般化相互相関関数を用いる点以外は、第１の実施形態と同様である。また、照合部１０６による照合についても、第１の実施形態と同様であり、例えばベクトル間のユークリッド距離を用いる場合には、受音信号に対する特徴ベクトルｆ_ｇｃｃと、特徴量辞書１０７に格納されたｉ番目の特徴ベクトルｆ_ｉとの距離の２乗Ｄ_ｉ＝（ｆ_ｇｃｃ−ｆ_ｉ）^２を最小とする特徴量モデル（特徴ベクトル）ｆ_ｉを探索し、その特徴量モデル（特徴ベクトル）に対応付けられている音源位置候補（例えば、特定の地点を基準とする座標値）を、音源（話者）の位置の推定結果として出力すればよい。

さて、数式（２）からもわかるように、本実施形態で用いる一般化相互相関関数はフーリエ逆変換により時間領域の量となっており、最大値とこれを与える遅れ時間から、チャネル間の相関の強さと音源の方向を知ることができる。相関の強さは残響の強さと関係があり、一般に音源が遠くなるに従って直接波よりも残響の寄与が大きくなり、相関が低下する。この性質は奥行き方向の推定に利用することができる。

第１の実施形態で用いるコヒーレンスが周波数ごとの処理であるのに対し、本実施形態で用いる一般化相互相関関数は全帯域に対して求めるため、ＳＮＲが高い場合は統計的なバラツキが小さくなり、高精度の音源推定が可能となる。

なお、第１の実施形態では、受信信号に対する特徴量や特徴量辞書１０７に登録する特徴量モデルとして、コヒーレンス（あるいは、クロススペクトル）による特徴量ベクトルを用い、第２の実施形態では、一般化相互相関関数による特徴量ベクトルを用いたが、それら以外の特徴量を用いることも可能である（なお、コヒーレンス（あるいは、クロススペクトル）と一般化相互相関関数とを統合した特徴量ベクトルを用いることも可能である）。

（第３の実施形態）
本発明の第３の実施形態について、第１，２の実施形態と相違する点を中心に説明する。

図７に、本実施形態に係る音響信号処理装置の構成例を示す。

第１の実施形態ではコヒーレンス特徴算出部１１０を用い、第２の実施形態では一般化相互相関関数特徴算出部２１０を用いたが、本実施形態は、図７に示されるように、コヒーレンス特徴算出部１１０と一般化相互相関関数特徴算出部２１０の両方を用いるものである。

すなわち、まず、本実施形態では、第１の実施形態と同様にしてコヒーレンス特徴算出部１１０で特徴ベクトルｆ_ｃｏｈを生成するとともに、第２の実施形態と同様にして一般化相互相関関数特徴算出部２１０で特徴ベクトルｆ_ｇｃｃを生成した後に、特徴量統合部３１０により、それらが統合された特徴ベクトルｆ_ｍｉｘを生成する。

特徴ベクトルｆ_ｃｏｈと特徴ベクトルｆ_ｇｃｃの統合の方法には、種々の方法が考えられる。

例えば、特徴ベクトルｆ_ｃｏｈとして複素コヒーレンスの実部と虚部を分解したものを用いる場合に、ｆ_ｃｏｈのｉ（ｉ＝１〜Ｋ）番目の成分を（Ｃｏｈ_Ｒ（ｉ），Ｃｏｈ_Ｉ（ｉ））とし、特徴ベクトルをｇｃｃ（Ｍ，δ）として、統合された特徴ベクトルｆ_ｍｉｘのｉ番目の成分を、（Ｃｏｈ_Ｒ（ｉ），Ｃｏｈ_Ｉ（ｉ），Ｍ，δ）で表すようにしてもよいし（最大値Ｍ、遅れ時間δは、いずれも、全成分に共通の値になる）、他の統合方法も可能である。

また、例えば、特徴ベクトルｆ_ｃｏｈとして複素コヒーレンスの絶対値｜Ｃｏｈ（ｉ）｜を用いるときに、特徴ベクトルｆ_ｍｉｘのｉ番目の成分を、（｜Ｃｏｈ（ｉ）｜，Ｍ，δ）としてもよい。

また、例えば、統合にあたって、重み付けを行ってもよい。例えば、上記の例の場合において、統合された特徴ベクトルｆ_ｍｉｘのｉ番目の成分を、（ｗ_１・Ｃｏｈ_Ｒ（ｉ），ｗ_２・Ｃｏｈ_Ｉ（ｉ），ｗ_３・Ｍ，ｗ_４・δ）としてもよい（ここで、ｗ_１，ｗ_２，ｗ_３，ｗ_４は予め定められた重みである）。

なお、上記において、コヒーレンスの替わりに、クロススペクトルを用いることも可能である。

次に、第１，２の実施形態では、特徴量辞書１０７に登録する特徴量モデルには、各音源位置候補に対応する特徴量の代表値を用い、照合部１０６では、受音信号に対する特徴ベクトルとの距離が最小となる特徴量モデルに対応付けられている音源位置候補を、音源の位置の推定結果としたが、本実施形態では、特徴量辞書３０７には、特徴量モデルとして、各音源位置候補に対する特徴ベクトルの出現確率のモデルが格納されており、照合部３０６においては、得られた特徴ベクトルｆ_ｍｉｘを対象として、特徴量辞書３０７を利用して、音源位置の推定を後述する統計的な手法に基づいて行う。

ここで、特徴ベクトルｆが音源位置候補ｑ（例えば、ｑ＝Ａ，Ｂ，Ｃ）から発せられた確率（事後確率）Ｐ（ｑ｜ｆ）を考える。

この確率Ｐ（ｑ｜ｆ）の求め方の例として、ベイズの定理を用いて、
Ｐ（ｑ｜ｆ）＝Ｐ（ｆ｜ｑ）Ｐ（ｑ）／Ｐ（ｆ） …（４）
と変形し、右辺を利用して算出する手法がある。ただし、Ｐ（ｆ｜ｑ）は音源位置ｑから特徴ベクトルｆが出現する確率、Ｐ（ｑ），Ｐ（ｆ）は、それぞれ、音源、特徴ベクトルの出現確率である。右辺の項は事前に測定可能な量なので、これらを用いて事後確率が計算可能となる。

上記の確率Ｐ（ｑ｜ｆ）を最大にする音源位置ｑを求めるような問題には種々の解法を用いることができ、例えば、Ｐ（ｆ）は音源位置ｑの推定には無関係なので、分子のＰ（ｆ｜ｑ）Ｐ（ｑ）を最大にするｑを音源位置として推定する方法（ＭＡＰ推定）や、Ｐ（ｑ）は同一とみなしてＰ（ｆ｜ｑ）を最大にするｑを音源位置とする方法（最尤推定）などがあげられる。

上記の最尤推定を用いる場合、特徴量辞書３０７には、各音源位置候補ごとの確率モデルＰ（ｆ｜ｑ）（例えば、ｑ＝Ａ，Ｂ，Ｃ）が格納される。Ｐ（ｆ｜ｑ）の分布として単一ガウス分布を用いる場合、Ｐ（ｆ｜ｑ）は、次の数式（５）で表すことができる。ただし、μは特徴ベクトルｆの平均、Ｒは共分散行列、ｎはｆの次元数である。
Ｐ(f|q)＝（２π）^−ｎ／２・｜R｜^−１／２・exp〔−｛（ｆ−μ）´Ｒ^−１(ｆ−μ)｝／２〕
… （５）
この場合、特徴量辞書３０７には、それぞれの音源位置候補に対するモデルパラメータ（特徴量モデル）として平均と分散を登録しておけばよい。

モデルパラメータは、事前学習で獲得が可能であり、図３の手順例におけるステップＳ１４で代表ベクトルを求める代りに、平均と共分散を求めることで実現できる。

このようにして得られた特徴量辞書３０７を用いて、照合部３０６では、入力された特徴ベクトルｆ_ｍｉｘに対し、その尤度Ｐ（ｆ_ｍｉｘ｜ｑ）を各候補音源位置ごとのモデルパラメータ（単一ガウス分布の平均と分散）を用いて数式（５）で算出し、この値が最大となる音源位置を、音源の位置の推定結果として出力する。

確率モデルとしては、複数のガウス分布の重み付和であるＧＭＭ(Gaussian Mixture Model)や、音声認識等でよく用いられるＨＭＭ(Hidden Markov Model)など、様々な手法が考えられる。また、数式（５）は計算時間がかかるため、様々な近似計算法があり、例えば共分散行列を対角行列と近似する手法などがあげられる。

なお、上記では、受信信号に対する特徴量として、コヒーレンス（あるいは、クロススペクトル）と一般化相互相関関数とを統合した特徴量ベクトルｆ_ｍｉｘを用い、特徴量辞書３０７に登録する特徴量モデルとして、各音源位置候補に対する特徴ベクトルｆ_ｍｉｘの出現確率のモデルを用いたが、特徴ベクトルｆ_ｍｉｘ以外の特徴量を用いることも可能である（なお、コヒーレンス（あるいは、クロススペクトル）による特徴ベクトルや、一般化相互相関関数による特徴ベクトルを用いることも可能である）。

（第４の実施形態）
本発明の第４の実施形態について、第３の実施形態と相違する点を中心に説明する。

第３の実施形態では、予め学習された音源位置候補のうちから選択したものを、音源の位置の推定結果としたが、本実施形態では、特徴量モデルをもとに、音源の推定位置を算出するようにしたものである。

図８に、本実施形態に係る音響信号処理装置の構成例を示す。

本実施形態は、第３の実施形態の音響信号処理装置の構成例（図７）において、照合部３０６を後述する照合部４０６に置き換え、その後段に、後述する音源位置推定部４０７と、各音源位置候補に対応する座標を登録した音源位置辞書４０９とを加えたものである。

なお、ここでは、音源とマイクロホンが例えば部屋や車内などのような閉空間４０８の環境下にある場合を例にとっているが、音源とマイクロホンが開空間（図１等参照）の環境下にあってもよい（他の実施形態も同様である）。

また、各特徴ベクトルに対応する音源位置候補は、音源位置辞書４０９に登録する替わりに特徴量辞書３０７に併せて登録するようにしてもよい。また、音源位置推定部４０７の機能を照合部４０６に含めるようにしてもよい。

まず、第３の実施形態の照合部３０６では選択された音源位置候補が出力されたが、本実施形態の照合部４０６では各音源位置候補ｑ（各特徴量モデル）に対する尤度Ｐ（ｆ｜ｑ）を出力する。

音源位置推定部４０７では、各音源位置候補ｑに対応する座標を音源位置辞書４０９から取り出し、この座標と尤度を用いて音源位置を推定する。これによって、実際の音源が特徴量辞書３０７に保持されている特徴量モデルのもととなった音源位置候補（例えば、Ａ、Ｂ、Ｃ）に必ずしも存在しない場合でも、音源位置を特定することができるようになる。

音源位置を算出する方法の具体例として、各音源位置候補ｑに対する事後確率Ｐ（ｑ｜ｆ）でそれぞれの音源位置候補ｑに対する座標を重みづけて足し合わせる方法があげられる。つまり、推定された音源位置の座標Ｒ’は、次の数式（６）で表される。ただし、Ｒｑは音源位置ｑの座標である。
Ｒ’＝ Σ_q={A,B,C} Ｒｑ×Ｐ（ｑ｜ｆ） …（６）
ここで、事後確率Ｐ（ｑ｜ｆ）は、数式（４）を用いて、照合部４０６から出力される音源位置候補ｑごとの尤度Ｐ（ｆ｜ｑ）を用いて計算が可能である。

なお、この数式（６）は一例であり、例えば、数式（６）において、Ｐ（ｑ｜ｆ）の替わりに、Ｐ（ｑ｜ｆ）に所定の変換（例えば、各音源位置候補ｑに対するＰ（ｑ｜ｆ）を二乗した後に、全ての音源位置候補ｑに対するＰ（ｑ｜ｆ）^２の総和が１になるように正規化する変換）を施したものを用いてもよい。

上記では、特徴量辞書３０７に登録されている全ての特徴量モデルを音源の推定位置の計算に用いたが、一部の特徴量モデルを選択して、音源の推定位置の計算に用いるようにしてもよい。

例えば、特徴量辞書３０７に登録されている特徴量モデルのうち、与える確率の高いものから順に予め定められたｎ個（ｎは複数）を選択して用いるようにしてもよい。

また、例えば、あらかじめ定められた閾値より高い確率を与える特徴量モデルのみを選択して用いるようにしてもよい。また、例えば、（特徴量辞書３０７に登録されている各特徴量モデルが与える確率のうちで）最も高い確率の値に所定の係数を乗じて基準値を求め、この基準値より高い確率を与える特徴量モデルのみを選択して用いるようにしてもよい。なお、これらの場合において、選択された特徴量モデルが一つのみである場合には、当該選択された特徴量モデルに対応付けられている音源位置候補を音源位置の推定結果としてもよい。

なお、数式（６）のような音源の推定位置の計算に、特徴量辞書３０７に登録されている特徴量モデルのうちの一部のものを用いる場合に、当該一部の特徴量モデルに対する確率Ｐ（ｑ｜ｆ）の総和が１になるように、選択された各特徴量モデルに対する確率Ｐ（ｑ｜ｆ）に係数を乗じて正規化するようにしてもよい。

なお、上記では、照合に用いる特徴量として、コヒーレンスを利用した特徴ベクトルｆ_ｃｏｈと一般化相互相関関数を利用した特徴ベクトルｆ_ｇｃｃとを統合した特徴ベクトルｆ_ｍｉｘを用いる場合について説明したが、照合に用いる特徴量として、コヒーレンスを利用した特徴ベクトルｆ_ｃｏｈのみを用いる構成も、一般化相互相関関数を利用した特徴ベクトルｆ_ｇｃｃのみを用いる構成も可能である。

図９に、本実施形態において、コヒーレンスを利用した特徴ベクトルｆ_ｃｏｈのみを用いる場合の音響信号処理装置の構成例を示す。図８と比較して、一般化相互相関関数特徴算出部２１０及び特徴量統合部３１０が省かれた形になっている。この場合、特徴量辞書３０７に登録する特徴量モデルは、統合した特徴ベクトルｆ_ｍｉｘに対応するものを用いる替わりに、特徴ベクトルｆ_ｃｏｈのみに対応するものを用いればよい（特徴量モデルの生成方法は、統合した特徴ベクトルｆ_ｍｉｘを用いる場合と、基本的に同様である）。また、照合部４０６及び音源位置推定部４０７の動作は、統合した特徴ベクトルｆ_ｍｉｘを用いる場合と、基本的に同様である。

図１０に、本実施形態において、一般化相互相関関数を利用した特徴ベクトルｆ_ｇｃｃのみを用いる場合の音響信号処理装置の構成例を示す。図８と比較して、コヒーレンス特徴算出部１１０及び特徴量統合部３１０が省かれた形になっている。この場合、特徴量辞書３０７に登録する特徴量モデルは、統合した特徴ベクトルｆ_ｍｉｘに対応するものを用いる替わりに、特徴ベクトルｆ_ｇｃｃのみに対応するものを用いればよい（特徴量モデルの生成方法は、統合した特徴ベクトルｆ_ｍｉｘを用いる場合と、基本的に同様である）。また、照合部４０６及び音源位置推定部４０７の動作は、統合した特徴ベクトルｆ_ｍｉｘを用いる場合と、基本的に同様である。

本実施形態により、音源が事前に学習された位置以外に存在する場合でも、その位置を推定することが可能となる。

（第５の実施形態）
本発明の第５の実施形態について、第３の実施形態と相違する点を中心に説明する。

第３の実施形態では、予め学習された音源位置候補のうちから選択したものを、音源の位置の推定結果としたが、本実施形態では、一つの音源位置候補に対応する特徴量モデルをもとに、音源がその音源位置候補に存在するか否かを推定するものである。

図１１に、本実施形態に係る音響信号処理装置の構成例を示す。

本実施形態は、第３の実施形態の音響信号処理装置の構成例（図７）において、照合部３０６を後述する判定部５０６に、特徴量辞書３０７を後述する特徴量辞書５０７に置き換えたものである。

本実施形態において、特徴量辞書５０７は、一つの音源位置候補（ここでは、一例として、図８のＡとする）に対応する特徴量モデルのみを保持している。音源が位置Ａに存在する場合は、事後確率Ｐ（Ａ｜ｆ）が大きな値をとる。この値は、数式（４）を用いて位置Ａにおける尤度Ｐ（ｆ｜Ａ）を用いて表すことができる。

特徴量辞書５０７には、これらの計算に必要な値が格納されている。例えば、最尤推定を行う場合は、Ｐ（ｆ｜Ａ）が格納されている。

判定部５０６では、このようにして計算された事後確率Ｐ（Ａ｜ｆ）をもとに、音源が位置Ａにあるか否かを判定する。例えば、予め定めた閾値ＴａよりもＰ（Ａ｜ｆ）が大きな場合に、音源が位置Ａに存在すると判定する。

他の例として、音源が、位置Ａ，Ｂのどちらかに存在するかを判定することも可能である。この場合、例えば、位置Ａに対する尤度Ｐ（ｆ｜Ａ）と位置Ｂに対するＰ（ｆ｜Ｂ）とを用いて、それらの比や、それらの対数の比などに基づいて判定する方法なども考えられる。

図１２に、本実施形態において、コヒーレンスを利用した特徴ベクトルｆ_ｃｏｈのみを用いる場合の音響信号処理装置の構成例を示す（ここでは、図１１との相違が分かる部分を抜き出して示している）。図１１と比較して、一般化相互相関関数特徴算出部２１０が省かれた形になっている。この場合、特徴量辞書５０７に登録する特徴量モデルは、統合した特徴ベクトルｆ_ｍｉｘに対応するものを用いる替わりに、特徴ベクトルｆ_ｃｏｈのみに対応するものを用いればよい（特徴量モデルの生成方法は、統合した特徴ベクトルｆ_ｍｉｘを用いる場合と、基本的に同様である）。また、判定部５０６の動作は、統合した特徴ベクトルｆ_ｍｉｘを用いる場合と、基本的に同様である。

図１３に、本実施形態において、一般化相互相関関数を利用した特徴ベクトルｆ_ｇｃｃのみを用いる場合の音響信号処理装置の構成例を示す（ここでは、図１１との相違が分かる部分を抜き出して示している）。図１１と比較して、コヒーレンス特徴算出部１１０及び特徴量統合部３１０が省かれた形になっている。この場合、特徴量辞書５０７に登録する特徴量モデルは、統合した特徴ベクトルｆ_ｍｉｘに対応するものを用いる替わりに、特徴ベクトルｆ_ｇｃｃのみに対応するものを用いればよい（特徴量モデルの生成方法は、統合した特徴ベクトルｆ_ｍｉｘを用いる場合と、基本的に同様である）。また、判定部５０６の動作は、統合した特徴ベクトルｆ_ｍｉｘを用いる場合と、基本的に同様である。

なお、第１〜第５の実施形態に係る音響信号処理装置は、例えば、汎用のコンピュータ装置を基本ハードウェアとして用いることでも実現することが可能である。

すなわち、フーリエ変換、特徴算出、照合は、上記のコンピュータ装置に搭載されたプロセッサにプログラムを実行させることにより実現することができる。このとき、上記プログラムをコンピュータ装置にあらかじめインストールすることで実現してもよいし、ＣＤ−ＲＯＭなどの記憶媒体に記憶して、あるいはネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータ装置に適宜インストールすることで実現してもよい。

また、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

本発明の第１の実施形態に係る音響信号処理装置の構成例を示すブロック図位置に関する推定の処理手順例を示すフローチャート学習の処理手順例を示すフローチャート音源位置と反射音について説明するための図コヒーレンスの例を示す図本発明の第２の実施形態に係る音響信号処理装置の構成例を示すブロック図本発明の第３の実施形態に係る音響信号処理装置の構成例を示すブロック図本発明の第４の実施形態に係る音響信号処理装置の構成例を示すブロック図同実施形態に係る音響信号処理装置の他の構成例を示すブロック図同実施形態に係る音響信号処理装置のさらに他の構成例を示すブロック図本発明の第５の実施形態に係る音響信号処理装置の構成例を示すブロック図同実施形態に係る音響信号処理装置の他の構成例を示すブロック図同実施形態に係る音響信号処理装置のさらに構成例を示すブロック図

符号の説明

１０１−１，１０１−２…マイクロホン、１０２−１，１０２−２…フーリエ変換部、１１０…コヒーレンス特徴算出部、１０７，３０７，５０７…特徴量辞書、１０６，３０６，４０６…照合部、１０３…コヒーレンス算出部、１０４…コヒーレンス統合部、２１０…一般化相互相関関数特徴算出部、２０３…一般化相互相関関数、２０４…フーリエ逆変換部、２０５…最大値探索部、３１０…特徴量統合部、４０７…音源位置推定部、４０９…音源位置辞書、５０６…判定部

Claims

音源から直接到来する直接波と、前記音源から前記直接波とは異なる方位に放射され反射して到来する反射波とを複数のチャネルで受音する受音手段と、
受音した受音信号に対し、前記受音信号のチャネル間の相関を含むチャネル間の差異を表す特徴量を算出する算出手段と、
前記受音信号に対する特徴量を、予め定められた音源位置候補に対応付けられている特徴量モデルと照合して、１又は複数の特徴量モデルを選択し、選択した特徴量モデルに対応付けられている音源位置候補に基づいて、前記音源の位置に関する推定を行う推定処理手段とを備えたことを特徴とする音響信号処理装置。
前記特徴量モデルは、これに対応付けられている前記音源位置候補に音源がある場合に得られる特徴量の代表値であり、
前記推定処理手段は、各々の前記特徴量モデルについて、前記受音信号に対する特徴量と前記代表値との距離を求め、前記受音信号に対する特徴量に対してより近い距離を与える特徴量モデルを一つ選択し、選択した特徴量モデルに対応付けられている音源位置候補を、前記音源の位置として推定することを特徴とする請求項１に記載の音響信号処理装置。
前記特徴量モデルは、これに対応付けられている前記音源位置候補に前記音源がある確率を、前記受音信号に対する特徴量に基づいて算出するものであり、
前記推定処理手段は、各々の前記特徴量モデルについて、前記受音信号に対する特徴量に基づいて前記確率を算出し、前記受音信号に対する特徴量に対してより高い確率を与える前記特徴量モデルを一つ選択し、選択した特徴量モデルに対応付けられている音源位置候補を、前記音源の位置として推定することを特徴とする請求項１に記載の音響信号処理装置。
前記特徴量モデルは、これに対応付けられている前記音源位置候補に前記音源がある確率を、前記受音信号に対する特徴量に基づいて算出するものであり、
前記推定処理手段は、各々の前記特徴量モデルについて、前記受音信号に対する特徴量に基づいて前記確率を算出し、全部又は一部の特徴量モデルに係る前記音源位置候補及び前記確率に基づいて、前記音源の推定位置を算出するものであることを特徴とする請求項１に記載の音響信号処理装置。
前記推定処理手段は、各々の前記音源位置候補の座標に対して前記確率に応じた重みを乗じて加算して得られた座標を、前記音源の推定位置とするものであることを特徴とする請求項４に記載の音響信号処理装置。
音源から直接到来する直接波と、前記音源から前記直接波とは異なる方位に放射され反射して到来する反射波とを複数のチャネルで受音する受音手段と、
受音した受音信号に対し、前記受音信号のチャネル間の相関を含むチャネル間の差異を表す特徴量を算出する算出手段と、
前記受音信号に対する特徴量を、予め定められた音源位置候補に対応付けられている特徴量モデルと照合して、前記受音信号に対する特徴量と前記特徴量モデルとの近さを表す指標を求め、求められた該指標が所定の基準を満たすか否かによって、前記音源が前記音源位置候補に存在するものであるか否かを推定する推定処理手段とを備えたことを特徴とする音響信号処理装置。
前記特徴量モデルは、これに対応付けられている前記音源位置候補に前記音源がある確率を、前記受音信号に対する特徴量に基づいて算出するものであり、
前記推定処理手段は、前記特徴量モデルについて、前記受音信号に対する特徴量に基づいて前記確率を算出し、前記確率が予め定められた閾値よりも高い場合に、前記音源が前記音源位置候補に存在するものであると推定するものであることを特徴とする請求項６に記載の音響信号処理装置。
前記チャネル間の相関としてコヒーレンスを用いることを特徴とする請求項１ないし７のいずれか１項に記載の音響信号処理装置。
前記チャネル間の相関として一般化相互相関関数を用いることを特徴とする請求項１ないし７のいずれか１項に記載の音響信号処理装置。
前記チャネル間の相関としてコヒーレンス及び一般化相互相関関数を用いることを特徴とする請求項１ないし７のいずれか１項に記載の音響信号処理装置。
音源から直接到来する直接波と、前記音源から前記直接波とは異なる方位に放射され反射して到来する反射波とを複数のチャネルで受音するステップと、
受音した受音信号に対し、前記受音信号のチャネル間の相関を含むチャネル間の差異を表す特徴量を算出するステップと、
前記受音信号に対する特徴量を、予め定められた音源位置候補に対応付けられている特徴量モデルと照合して、１又は複数の特徴量モデルを選択し、選択した特徴量モデルに対応付けられている音源位置候補に基づいて、前記音源の位置に関する推定を行うステップとを有することを特徴とする音響信号処理方法。
音源から直接到来する直接波と、前記音源から前記直接波とは異なる方位に放射され反射して到来する反射波とを複数のチャネルで受音するステップと、
受音した受音信号に対し、前記受音信号のチャネル間の相関を含むチャネル間の差異を表す特徴量を算出するステップと、
前記受音信号に対する特徴量を、予め定められた音源位置候補に対応付けられている特徴量モデルと照合して、前記受音信号に対する特徴量と前記特徴量モデルとの近さを表す指標を求め、求められた該指標が所定の基準を満たすか否かによって、前記音源が前記音源位置候補に存在するものであるか否かを推定するステップとを有することを特徴とする音響信号処理方法。
音響信号処理装置としてコンピュータを機能させるためのプログラムであって、
音源から直接到来する直接波と、前記音源から前記直接波とは異なる方位に放射され反射して到来する反射波とを複数のチャネルで受音するステップと、
受音した受音信号に対し、前記受音信号のチャネル間の相関を含むチャネル間の差異を表す特徴量を算出するステップと、
前記受音信号に対する特徴量を、予め定められた音源位置候補に対応付けられている特徴量モデルと照合して、１又は複数の特徴量モデルを選択し、選択した特徴量モデルに対応付けられている音源位置候補に基づいて、前記音源の位置に関する推定を行うステップとをコンピュータに実行させることを特徴とするプログラム。
音響信号処理装置としてコンピュータを機能させるためのプログラムであって、
音源から直接到来する直接波と、前記音源から前記直接波とは異なる方位に放射され反射して到来する反射波とを複数のチャネルで受音するステップと、
受音した受音信号に対し、前記受音信号のチャネル間の相関を含むチャネル間の差異を表す特徴量を算出するステップと、
前記受音信号に対する特徴量を、予め定められた音源位置候補に対応付けられている特徴量モデルと照合して、前記受音信号に対する特徴量と前記特徴量モデルとの近さを表す指標を求め、求められた該指標が所定の基準を満たすか否かによって、前記音源が前記音源位置候補に存在するものであるか否かを推定するステップとをコンピュータに実行させることを特徴とするプログラム。