JP3720795B2

JP3720795B2 - 音源受音位置推定方法、装置、およびプログラム

Info

Publication number: JP3720795B2
Application number: JP2002223923A
Authority: JP
Inventors: 和則小林; 賢一古家
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2002-07-31
Filing date: 2002-07-31
Publication date: 2005-11-30
Anticipated expiration: 2022-07-31
Also published as: JP2004064697A

Description

【０００１】
【発明の属する技術分野】
本発明は音源位置および受音位置を推定する音源位置・受音位置を推定する方法および装置に関する。
【０００２】
【従来の技術】
図１４は従来の音源位置推定装置のブロック図である。この従来の音源位置推定装置はマイクロホン１１₁〜１１_Mと受音位置設定部１６６と指向性走査部１６７と遅延器１６１₁〜１６１_Mとゲイン１６２₁〜１６２₂と加算器１６３とパワー計算部１６４と最大パワー位置検出部１６５とで構成される。
【０００３】
指向性走査部１６７は、受音位置設定部１６６で設定されている受音位置と、走査位置から、走査位置に鋭い指向性が形成されるような遅延ｄ_i（ｘ，ｙ，ｚ）とゲインｇ_i（ｘ，ｙ，ｚ）を計算し、位置が既知である複数のマイクロホン１１₁〜１１_Mに接続されている遅延器１６１₁〜１６１_Mとゲイン１６２₁〜１６２_Mに設定する。走査位置は、音源が存在可能な範囲で走査する。走査位置ごとに加算器１６３の出力信号のパワーをパワー計算部１６４で求め、そのパワーのうち最大値を取る走査位置を推定音源位置として最大パワー位置検出部１６５で検出する。
【０００４】
走査位置（ｘ，ｙ，ｚ）の場合に、ｉ番目のマイクロホン１１_iに与えられる遅延量ｄ_i（ｘ，ｙ，ｚ）は、走査位置（ｘ，ｙ，ｚ）から発せられた音が同位相となるように、走査位置（ｘ，ｙ，ｚ）とｉ番目のマイクロホン位置（ｘ_i，ｙ_i，ｚ_i）と音速ｃより、式（１）および式（２）を用いて求められる。
【０００５】
【数１】

【０００６】
ただし、Ｄは固定遅延量であり、信号を進ませることができないという因果性を満足させるために、ｄ_i（ｘ，ｙ，ｚ）が必ず正となるように与えられる定数であり、ｒ_i（ｘ，ｙ，ｚ）は、走査位置（ｘ，ｙ，ｚ）とｉ番目のマイクロホン位置（ｘ_i，ｙ_i，ｚ_i）間の距離である。
【０００７】
また、走査位置（ｘ，ｙ，ｚ）の場合に、ｉ番目のマイクロホン１１_iに与えられるゲインｇ_i（ｘ，ｙ，ｚ）は、信号対雑音比が最大となり、各走査位置に対する利得が一定となるように、式（３）で与えられる。
【０００８】
【数２】

【０００９】
ただし、Ｖは部屋の体積（ｍ³）であり、Ｔ_Rは残響時間（ｓ）である。
【００１０】
走査位置（ｘ，ｙ，ｚ）に対し得られる加算器１６３の出力ｙ（ｔ，ｘ，ｙ，ｚ）は、各マイクロホンで受音された信号ｘ_i（ｔ）に、遅延ｄ_i（ｘ，ｙ，ｚ）とゲインｇ_i（ｘ，ｙ，ｚ）を与え加算した信号であり、式（４）で表される。
【００１１】
【数３】

【００１２】
ただし、ｘ_i（ｔ）はｉ番目マイクロホンで受音された信号であり、ｔは時刻である。
【００１３】
次に、パワー計算部１６４は加算器１６３の出力信号ｙ（ｔ，ｘ，ｙ，ｚ）の短時間平均パワーを、走査位置ごとに計算する。走査位置ごとに計算されたパワーＰ（ｘ，ｙ，ｚ）（パワー分布）は、式（５）で表される。
【００１４】
【数４】

【００１５】
ただし、Ｔは、短時間平均パワーを求めるための平均時間であり０．１〜１ｓ程度の値である。
【００１６】
式（５）のパワー分布は、走査位置に鋭い指向性を向けた場合に収音された音のパワーであるので、その位置にある音源のパワーの推定値となっている。すなわち、パワー分布のうち、大きいパワーを有する位置には音源があり、大きいパワーの位置を検出することにより話者位置の推定が可能となる。最大パワー位置検出部１６５では、最大パワーを持つ走査位置を検出し、最も大きい音を発する音源位置を検出する。以上の方法により、話者位置の検出が可能となる。
【００１７】
【発明が解決しようとする課題】
話者を自動的にズームアップするビデオカメラ制御や、話者に自動的に追従してスポット収音を行う雑音抑圧において、上記従来技術の音源位置推定方法では、あらかじめ受音位置を計測しておかなければ音源位置を推定することはできなく、マイクロホンの自由な配置ができないということや、マイクロホンの設置、移動に多大な労力が必要となるという問題がある。
【００１８】
本発明の目的は、受音位置が未知であっても、音源位置および受音位置の推定を可能とし、マイクロホンの自由な配置と、設置、移動を簡易にする音源受音位置推定方法、装置、およびプログラムを提供することにある。
【００１９】
【課題を解決するための手段】
本発明の音源受音位置推定方法は、
複数チャネルの受音信号から、前記複数のチャネルのうち２チャネル間のチャネル間受音時間差の実測値を求めるチャネル間時間差推定段階と、
推定音源位置と推定受音位置から求められるチャンネル間受音時間差の推定値と、前記チャンネル間受音時間差の実測値間の誤差を最小化することで、音源位置と受音位置を推定する位置推定段階とを有する。
【００２０】
本発明は、受音信号のチャネル間における遅延時間差に基づく受音位置間距離と推定音源位置から各推定音源位置までの距離差に基づく誤差を最小にするという条件のもとに、推定音源位置と推定受音位置を同時に適応的に求めるものである。
【００２１】
本発明の実施態様では、
現在のチャネル間時間差と、過去のチャネル間時間差の実測値を用いて、音源位置移動を検出する音源位置移動検出段階と、
音源位置移動が検出された場合、検出の直前のチャネル間時間差を記憶するチャネル間時間差記憶段階とをさらに有し、
位置推定段階は、前記チャンネル間時間差として記憶されたチャンネル間時間差の実測値と、推定音源位置と推定受音位置から求められるチャンネル間受音時間差の推定値間の誤差を最小化することで、音源位置と受音位置を推定する。
【００２２】
【発明の実施の形態】
次に、本発明の実施形態について図面を参照して説明する。
【００２３】
第１の実施形態
図１は本発明の第１の実施形態の音源位置・受音位置推定装置のブロック図であり、図２は、本発明の本実施形態の音源位置・受音位置推定装置の動作を示すフローチャートである。
【００２４】
本実施形態の音源位置・受音位置推定装置はマイクロホン１１₁〜１１_Mと受音信号間遅延時間差推定部１２と音源位置移動検出部１３と受音信号間遅延時間差記憶部１４と音源位置・受音位置推定部１５により構成される。
【００２５】
受音信号間遅延時間差推定部１２は任意位置に配置され、位置が未知であるマイクロホン１１₁〜１１_Mの各々で受音された受音信号から、各々のマイクロホン対ごとに受音信号間の遅延時間差を求める。音源位置移動検出部１３は受音信号間遅延時間差と、直前に記憶された受音信号間遅延時間差を比較し、音源位置の移動を検出する。受音信号間遅延時間差記憶部１４は、音源位置移動検出部１３により音源位置の移動が検出された場合に、受音信号間遅延時間差を記憶する。音源位置・受音位置推定部１５は受音信号間遅延時間差記憶部１４に記憶されている複数の音源位置に対する受音信号間遅延時間差を用いて、音源位置および受音位置を推定する。
【００２６】
本実施形態は、位置が分からない音源から発せられた音を、位置がわからない複数のマイクロホン１１₁〜１１_Mにより受音し、その信号から受音信号間の遅延時間差を求め、その遅延時間差を複数の音源分保存し、それらの遅延時間差から、音源位置、受音位置の両方を同時に推定するものである。
【００２７】
想定する適用例は、会議のように、複数の人が順に発音していく場合であり、発話者が変わるごとに、受音信号間の遅延時間差を保存していき、位置推定に必要な音源数分の受音信号間の遅延時間差が保存された時点で、受音位置と音源位置を推定する。それ以降は、必ず位置推定に必要な音源数分の受音信号間の遅延時間差が保存されているので、発話者が変わるごとに、受音信号間の遅延時間差の保存と受音位置と音源位置の推定を行う。
【００２８】
次に、本実施形態の動作を図２のフローチャートにより説明する。
【００２９】
まず、話者数、推定可能話者数、最大話者数、音源位置、受音位置を初期設定する（ステップ２０１）。
【００３０】
受音信号間遅延時間差は、受音信号間遅延時間差推定部１２で、マイクロホン１１₁〜１１_Mで受音された信号の相互相関をとり、そのピークを検出することで求めることができる（ステップ２０２）。この受音信号間遅延時間差は、直前に保存されている受音信号間遅延時間差と音源位置移動検出部１３で比較され（ステップ２０３，２０４）、その差があらかじめ設定した閾値を超える場合に音源移動ありとして検出される。
【００３１】
音源位置移動が検出された場合、受音信号間遅延時間差は受音信号間遅延時間差記憶部１４に記憶される。このとき、すでに同じ位置の音源に対する受音信号間遅延時間差が記憶されている場合には、そのデータを上書きし（ステップ２０６，２０７）、ない場合には新たに記憶し、受音信号間遅延時間差記憶数（記憶音源数）に１を加算する（ステップ２１０，２１１）。また、記憶音源数があらかじめ設定した最大記憶音源数を超えた場合には、最も過去に記憶された受音信号間遅延時間差を破棄し、記憶音源数は最大記憶音源数に固定する（ステップ２０９）。
【００３２】
次に、記憶音源数が、推定可能記憶音源数以上になった場合には、音源位置・受音位置推定部１５により、音源位置、受音位置の両方を同時に推定する（ステップ２１２，２１３）。推定可能話者数の条件は、表１に示すとおりである。
【００３３】
【表１】

【００３４】
これ以降は、位置推定に必要な音源数分の受音信号間の遅延時間差が必ず保存されているので、発話者が変わるごとに、受音信号間の遅延時間差の保存と受音位置と音源位置の推定を行う。
【００３５】
以下に音源位置・受音位置推定の方法を示す。
【００３６】
Ｍ個のマイクロホンがあり、ある時点では１つの音源から音が発せられていると想定する。この音源が移動するか、別の音源からの発音に切り替るなどして、Ｎ個の音源位置に対する受音信号間遅延時間差が計測、記憶されているとする。マイクロホン数Ｍは既知であり、受音信号間遅延時間差の記憶個数（記憶音源数）Ｎは、随時カウントされているので既知である。まず、ｋ番目の音源から音が発せられている場合に、ｉ番目マイクロホンとｊ番目マイクロホンで受音された信号より求められる受音信号間遅延時間差をτ_ijkとする。次に、ｍ番目の推定受音位置を
【００３７】
【外１】

【００３８】
ｎ番目の推定音源位置を
【００３９】
【外２】

【００４０】
と表す。ただし、受音位置および音源位置の全てが未知であるので、位置を推定する前に、座標の基準位置を設ける必要がある。ここでは、１番目受音位置を原点として、２番目受音位置と３番目受音位置とを通る平面をｘ−ｙ平面として座標を定義する。このようにすれば、
【００４１】
【外３】

【００４２】
となり、これらは定数となる。
これらの位置から求められる推定受音信号間遅延時間差
【００４３】
【外４】

【００４４】
は式（６）で表される。
【００４５】
【数５】

【００４６】
ただし、ｃは音速である。
【００４７】
次に、受音信号間遅延時間差
【００４８】
【外５】

【００４９】
に音速ｃを乗じ距離に換算したものを、それぞれ受音位置間距離差
【００５０】
【外６】

【００５１】
とし、測定値
【００５２】
【外７】

【００５３】
と推定値
【００５４】
【外８】

【００５５】
の二乗平均誤差
【００５６】
【外９】

【００５７】
を求めれば、式（７）となる。
【００５８】
【数６】

【００５９】
ただし、
【００６０】
【外１０】

【００６１】
であり、３Ｍ＋３Ｎ−６個の要素を持つベクトルを表す。
【００６２】
式（７）の二乗平均誤差
【００６３】
【外１１】

【００６４】
を最小化する解を求めれば、受音信号間遅延時間差の測定値と推定値の誤差が最小となる推定受音位置、推定音源位置を求めることができる。ただし、式（７）は非線形方程式となっており、式（７）の最小化問題を解析的に解くことは困難であり、ここでは、逐次修正を用いた数値解析により求めることとする。
【００６５】
式（７）を最小化する推定受音位置
【００６６】
【外１２】

【００６７】
と、推定音源位置
【００６８】
【外１３】

【００６９】
を求めるには、ある点における勾配を求め、誤差が小さくなる方向に、推定受音位置、推定音源位置を修正していき、勾配が０となる点を求めればよいので、修正式は式（８）のようになる。
【００７０】
【数７】

【００７１】
ただし、αは修正のステップサイズ、
【００７２】
【外１４】

【００７３】
は、ｕ回修正後の
【００７４】
【外１５】

【００７５】
を表し、ｇｒａｄは勾配を表し、
【００７６】
【外１６】

【００７７】
は、
【００７８】
【外１７】

【００７９】
の勾配を求め、変数
【００８０】
【外１８】

【００８１】
に、値
【００８２】
【外１９】

【００８３】
を代入することを表す。
【００８４】
【外２０】

【００８５】
の勾配は、式（９）〜（１６）で表される。
【００８６】
【数８】

【００８７】
初期位置を設定し、式（８）の修正式を用いて繰り返し計算をすることにより、推定受音位置、推定音源位置を求めることができる。
【００８８】
次に、マイクロホン位置と音源位置を正確に求めるための条件について検討する。
【００８９】
まず、マイクロホン間距離差の測定値ｄ_ijkに誤差がないものと仮定する。この場合、式（１７）に示す連立方程式の解が推定マイクロホン位置、推定音源位置となり、式（１７）の解が求められるための条件は、独立な式の数が未知変数の数よりも大きくなることである。
【００９０】
【数９】

【００９１】
ただし、ｉ＝１，．．．，Ｍ−１ｊ＝１，．．．，Ｍ（ｊ＞ｉ）ｋ＝１，．．．，Ｎである。
【００９２】
式（１７）の式の数はＮ・Ｍ（Ｍ−１）／２であるが、ｄ_13k＝ｄ_12k＋ｄ_23kのようにｉとｊが連続していない式は、全て独立ではないので、独立な式の数は、最大でＮ・（Ｍ−１）となる。
【００９３】
マイクロホン位置、音源位置が全く未知の場合、未知変数の数は、３Ｍ＋３Ｎ−６であるので、独立な式の数が未知変数の数よりも大きくなる条件は式（１８）となる。式（１８）に、あらかじめ決まっているマイクロホン数Ｍを代入することで、受音位置・音源位置を正確に推定するのに最低限必要な音源数Ｎを求めることができる。
【００９４】
【数１０】

【００９５】
この条件は、マイクロホンの高さが既知の場合、未知変数の数が２Ｍ＋３Ｎ−３となるので、式（１９）となる。式（１９）に、あらかじめ決まっているマイクロホン数Ｍを代入することで、受音位置・音源位置を正確に推定するのに最低限必要な音源数Ｎを求めることができる。
【００９６】
【数１１】

【００９７】
さらに、マイクロホンの高さおよび音源の高さが既知の場合、未知変数の数が２Ｍ＋２Ｎ−３となるので、式（２０）となる。式（２０）に、あらかじめ決まっているマイクロホン数Ｍを代入することで、受音位置・音源位置を正確に推定するのに最低限必要な音源数Ｎを求めることができる。
【００９８】
【数１２】

【００９９】
式（１８）〜（２０）を表にまとめれば、表１となる。
【０１００】
以上により、マイクロホン位置、音源位置を推定する方法と、推定するためのマイクロホン数、記憶音源数の条件を示した。
【０１０１】
次に、本実施形態の効果を示すために、シミュレーションの結果を示す。
【０１０２】
図１０にマイクロホンおよび音源の配置を示す。マイクロホンは直径１．５ｍの円周上に配置され、その高さは０〜０．５ｍ（ただし、マイクロホンの高さ、音源の高さが既知の場合は０ｍ固定）とした。音源は、直径２．５ｍの円周上に配置し、その高さは、０．５ｍ〜１．０ｍ（ただし、マイクロホンの高さ、音源の高さが既知の場合は０．５ｍ固定）とした。
【０１０３】
この条件で、マイクロホン数と記憶音源数を変化させ位置推定を行った。マイクロホン、音源の初期位置はランダムとして１０回位置推定を行い、その位置推定誤差の平均を求めた。この結果を図１１〜１３に示す。
【０１０４】
これら図と、表１に示した推定に必要なマイクロホン数、記憶音源数の関係を比較する。表１に示した推定に必要なマイクロホン数、記憶音源数を満たす場合の大半において、図１１〜１３の位置推定誤差は１ｃｍ未満であり、精度よく推定が行えていることが確認できる。ただし、推定に必要な最小の記憶音源数では、位置推定誤差が１０ｃｍ程度となる場合もある。この原因は、式（１７）において従属な式が存在し、独立な式の数がＮ・（Ｍ−１）よりも減ったためと考えられる。
【０１０５】
以上より、本実施形態では、受音位置、音源位置が未知であっても、受音位置、音源位置の両方を精度よく推定することが可能であることが確認された。
【０１０６】
第２の実施形態
図３は本発明の第２の実施形態の音源位置・受音位置推定装置のブロック図である。本実施形態は、第１の実施形態の音源位置移動検出部１３を取り除いた構成である。
【０１０７】
受音信号間遅延時間差記憶部１４は、受音信号間遅延時間差推定部１２で受音信号間遅延時間差が推定されるごとに、受音信号間遅延時間差を記憶し、保存音源数に１を加算する。また、記憶音源数があらかじめ設定した最大記憶音源数を超えた場合には、最も過去に記憶された受音信号間遅延時間差を破棄し、記憶音源数を最大記憶音源数に固定する。
【０１０８】
音源が常に移動している場合や、発音する音源が常に切り替っている場合など、受音信号間遅延時間差推定部１２で受音信号間遅延時間差が推定されるごとに、音源位置が移動している場合には、第１の実施形態のように音源位置移動検出部１３を設ける必要がない。本実施形態は、このような条件のときに適用できる第１の実施形態の構成を簡略化したものである。
【０１０９】
これら以外の部分に関しては、第１の実施形態と同じであるので、説明を省略する。
【０１１０】
第３の実施形態
図４は本発明の第３の実施形態の音源位置・受音位置推定装置のブロック図であり、図５は、本発明の第３の実施形態の音源位置・受音位置推定装置のフローチャートである。本実施形態は、第１の実施形態に、受音位置記憶部３１と音源位置推定部３２と音源位置記憶部３３を追加した構成である。
【０１１１】
受音位置記憶部３１は、音源位置・受音位置推定部１５で推定された受音位置を記憶する（ステップ２１７）。音源位置推定部３２は、受音位置記憶部３１に記憶されている受音位置と、受音信号間遅延時間差推定部１２により推定された受音信号間遅延時間差とから、音源位置を推定する（ステップ２１５）。また、音源位置推定部３２の動作は、音源位置・受音位置推定部１５の前に行われる。音源位置記憶部３３は、音源位置・受音位置推定部１５が実行される前に音源位置推定部３２で推定された音源位置を記憶する（ステップ２１６）。音源位置・受音位置推定部１５は、音源位置記憶部３３に記憶されている音源位置と、受音位置記憶部３１に記憶されている受音位置を初期値とし、音源位置・受音位置の推定を行う（ステップ２１３）。
【０１１２】
音源位置推定方法を以下に述べる。
【０１１３】
Ｍ個のマイクロホンがあると想定し、ｉ番目のマイクロホンとｊ番目のマイクロホンで受音された信号より求められる受音信号間遅延時間差をτ_ijとする。次に、ｍ番目の受音位置を（ｘ_m，ｙ_m，ｚ_m）、推定音源位置を
【０１１４】
【外２１】

【０１１５】
と表す。これらの位置から求められる推定受音信号間遅延時間差
【０１１６】
【外２２】

【０１１７】
は式（２１）で表される。
【０１１８】
【数１３】

【０１１９】
ただし、ｃは音速である。
【０１２０】
次に、受音信号間遅延時間差
【０１２１】
【外２３】

【０１２２】
に音速ｃを乗じ距離に換算したものを、それぞれ受音位置間距離差
【０１２３】
【外２４】

【０１２４】
とし、測定値
【０１２５】
【外２５】

【０１２６】
と推定値
【０１２７】
【外２６】

【０１２８】
の二乗平均誤差
【０１２９】
【外２７】

【０１３０】
を求めれば式（２２）となる。
【０１３１】
【数１４】

【０１３２】
式（２２）の二乗平均誤差
【０１３３】
【外２８】

【０１３４】
を最小化する解を求めれば、受音信号間遅延時間差の測定値と推定値の誤差が最小となる推定音源位置を求めることができる。ただし、式（２２）は非線形方程式であり、式（２２）の最小化問題を解析的に解くことは困難であり、ここでは、逐次修正を用いた数値解析により求めることとする。
【０１３５】
式（２２）を最小化する推定音源位置
【０１３６】
【外２９】

【０１３７】
を求めるには、ある点における勾配を求め、誤差が小さくなる方向に、推定音源位置を修正していき、勾配が０となる点を求めればよいので、修正式は式（２３）のようになる。
【０１３８】
【数１５】

【０１３９】
ただし、αは修正のステップサイズ、
【０１４０】
【外３０】

【０１４１】
は、ｕ回修正後の
【０１４２】
【外３１】

【０１４３】
を表し、ｇｒａｄは勾配を表し、
【０１４４】
【外３２】

【０１４５】
は、
【０１４６】
【外３３】

【０１４７】
の勾配を求め、変数
【０１４８】
【外３４】

【０１４９】
に、値
【０１５０】
【外３５】

【０１５１】
を代入することを表す。
【０１５２】
【外３６】

【０１５３】
の勾配は、式（２４）〜式（２８）で表わされる。
【０１５４】
【数１６】

【０１５５】
式（２３）の音源位置推定の修正式は、式（８）の音源位置・受音位置の修正式に比べ未知変数が大幅に少ないので、高速に収束する。
【０１５６】
したがって、受音位置推定が行われた後からは、音源位置を高速に推定することが可能となる。
【０１５７】
さらに、その後に実行される音源位置・受音位置推定では、すべての未知変数の初期位置と収束位置がほぼ同じ位置となり、逐次修正の収束が高速化される。
【０１５８】
これら以外の部分に関しては、第１の実施形態と同じであるので、説明を省略する。
【０１５９】
第４の実施形態
図６は本発明の第４の実施形態の音源位置・受音位置推定装置のブロック図である。本実施形態は、第１の実施形態または第２の実施形態または第３の実施形態において、受音信号間遅延時間差推定部１２を有音検出部１２１とスイッチ１２２₁とＦＦＴ（Fast Fourier Transformation）部１２６₁〜１２６_Mと白色化部１２７₁〜１２７_Mと乗算部１２８とスイッチ１２２₂と雑音クロススペクトル記憶部１２３と減算部１２４とＩＦＦＴ（Inverse Fast Fourier Transformation）部１２５と最大ピーク検出部１２０とで構成している。
【０１６０】
まず、有音検出部１２１は、マイクロホン１１₁〜１１_Mで受音した信号のパワーから有音、無音を検出し、スイッチ１２２₂の切替を行う。
【０１６１】
ＦＦＴ部１２６₁〜１２６_Mは、受音信号を周波数領域に変換する。このとき、矩形ウインドウ、ハミングウインドウ、ハニングウインドウなどの窓関数が乗算されたから、周波数領域に変換される。白色化部１２７₁〜１２７_Mは、周波数領域に変換された信号を、周波数スペクトルで白色化（フラット）にする。このとき、低周波成分、高周波成分を除くバンドパスフィルタ処理もする。次に、スイッチ１２２₁は、白色化部１２７₁〜１２７_Mの出力信号のうち２つを選択する。このとき、すべてのマイクロホンペアの組み合わせについて以下の処理が実施されるようスイッチの切替が行われる。乗算部１２８はスイッチ１２２₁により選ばれた信号のうち一方だけ共役をとり、２つの信号を周波数成分ごとに乗算し、クロススペクトルを求める。
【０１６２】
次に、有音検出部１２１により無音が検出された場合には、乗算部１２８の出力のクロススペクトルを雑音のクロススペクトルであるとし、雑音クロススペクトル記憶部１２３に記憶する。
【０１６３】
有音検出部１２１により有音が検出された場合には、減算部１２４で、乗算部１２８の出力のクロススペクトルから、雑音クロススペクトル記憶部１２３に記憶されている雑音クロススペクトルを減算する。これにより、雑音成分が除去され、位置を求めたい音源の信号成分だけとなり、雑音による誤検出を防ぐことができる。次に、減算部１２４の出力信号をＩＦＦＴ部１２５により時間領域に変換し、相互相関を求める。ＩＦＦＴ部１２５では、推定精度向上のため内挿を行うこともできる。次に、最大ピーク検出部１２０で、ＩＦＦＴ部１２５の出力の相互相関の最大ピークを検出し、その最大ピークの地点を受音信号間遅延時間差として出力する。
【０１６４】
この第４の実施形態では、周波数領域に変換して、相互相関を求めているので、時間領域での相互相関の計算よりも計算量が少なく、高速な計算が可能となり、雑音のクロススペクトルの減算により、耐騒音性能が向上している。
【０１６５】
受音信号間遅延時間差推定部１２以外に関しては、第１の実施形態または第２の実施形態または第３の実施形態と同じであるので、説明を省略する。
【０１６６】
第５の実施形態
図７は本発明の第５の実施形態の音源位置・受音位置推定装置のブロック図である。本実施形態は、第１の実施形態または第３の実施形態または第４の実施形態において、音源位置移動検出部１３を減算部１３１と二乗平均部１３２と閾値比較部１３３とで構成している。
【０１６７】
減算部１３１は、受音信号間遅延時間差推定部１２の出力である現在の受音信号間遅延時間差と、受音信号間遅延時間差記憶部１４に記憶されている過去の受音信号間遅延時間差を減算する。二乗平均部１３２は減算部１３１の出力を二乗平均する。次に、閾値比較部１３３は、二乗平均部１３２の出力が閾値以上である場合に、音源位置が移動したとして検出する。
【０１６８】
ｉ番目のマイクロホンとｊ番目のマイクロホン間の現在の受音信号間遅延時間差を
【０１６９】
【外３７】

【０１７０】
とし、過去の受音信号時間遅延差を
【０１７１】
【外３８】

【０１７２】
とし、マイクロホン数がＭだった場合、二乗平均部１３２の出力は式（２９）で表される。
【０１７３】
【数１７】

【０１７４】
現在の音源位置と過去の音源位置がほぼ同じであれば、式（２９）はほぼ０となり、現在の音源位置と過去の音源位置が異なれば、式（２９）は正の大きな値をとる。したがって、式（２９）を閾値と比較することにより、音源の移動が検出できる。
【０１７５】
これら以外の部分に関しては、第１の実施形態または第３の実施形態または第４の実施形態と同じであるので、説明を省略する。
【０１７６】
第６の実施形態
図８は本発明の第６の実施形態の音源位置・受音位置推定装置のブロック図である。本実施形態は、第１の実施形態または第２の実施形態または第３の実施形態または第４の実施形態または第５の実施形態において、音源位置・受音位置推定部１５を、受音信号間遅延時間差読み込み部１４１と音源位置・受音位置推定済み判定部１４２と初期音源位置・受音位置設定部１４３と初期音源位置・受音位置推定値設定部１４４と音源位置・受音位置推定アルゴリズム部１４５と収束判定部１４６と音源位置・受音位置出力部１４７とで構成している。
【０１７７】
受音信号間遅延時間差読み込み部１４１は、受音信号間遅延時間差記憶部１４に記憶されている音信号間遅延時間差を読み込む。音源位置・受音位置推定済み判定部１４２は、以前に音源位置、受音位置が推定済みであるかを判別する。音源位置・受音位置推定済み判定部１４２で推定済みと判別された場合には、初期音源位置・受音位置推定値設定部１４４で、推定済みの音源位置、受音位置を音源位置・受音位置推定アルゴリズムの初期値に設定する。音源位置・受音位置推定済み判定部１４２で推定済みと判別されない場合には、初期音源位置・受音位置設定部１４３で、音源位置・受音位置推定アルゴリズムの初期値をランダムに設定する。
【０１７８】
初期音源位置・受音位置推定値設定部１４４または初期音源位置・受音位置設定部１４３で初期値が設定された後に、音源位置・受音位置推定アルゴリズム部１４５では、式（８）で示した位置推定誤差最小化の繰り返し計算により音源位置、受音位置を推定する。収束判定部１４６では、音源位置・受音位置推定アルゴリズム部１４５の位置推定誤差が閾値未満の場合に、音源位置・受音位置推定アルゴリズムが収束したとし、それ以外を収束していないと判別し、収束していない場合は、初期音源位置・受音位置設定部１４３からの処理を繰り返す。
【０１７９】
収束判定部１４６の判定が収束であった場合には、音源位置・受音位置出力部１４７で推定音源位置・受音位置を出力し、処理を終了する。
【０１８０】
以上の方法により、音源位置・受音位置推定アルゴリズムが収束するまで処理が繰り返され、正確な推定音源位置・受音位置を得ることができる。
【０１８１】
これら以外の部分に関しては、第１の実施形態または第２の実施形態または第３の実施形態または第４の実施形態または第５の実施形態と同じであるので、説明を省略する。
【０１８２】
第７の実施形態
図９は本発明の第７の実施形態の音源位置・受音位置推定装置のブロック図である。第７の実施形態は、第１の実施形態または第２の実施形態または第３の実施形態または第４の実施形態または第５の実施形態において、音源位置・受音位置推定部１５を、受音信号間遅延時間差読み込み部１４１と音源位置・受音位置推定済み判定部１４２と過去推定誤差初期設定部１５１と初期音源位置・受音位置設定部１４３と音源位置・受音位置推定アルゴリズム（短時間）部１５２と推定誤差比較部１５３と過去推定誤差設定部１５４と繰り返し部１５５と初期音源位置・受音位置繰返し値設置部１５６と初期音源位置・受音位置推定値設定部１４４と音源位置・受音位置推定アルゴリズム（長時間）部１４５と収束判定部１４６と音源位置・受音位置出力部１４７とで構成している。
【０１８３】
受音信号間遅延時間差読み込み部１４１は、受音信号間遅延時間差記憶部１４に記憶されている音信号間遅延時間差を読み込む。音源位置・受音位置推定済み判定部１４２は、以前に音源位置、受音位置が推定済みであるかを判別する。音源位置・受音位置推定済み判定部１４２で推定済みと判別された場合には、初期音源位置・受音位置推定値設定部１４４で、推定済みの音源位置、受音位置を音源位置・受音位置推定アルゴリズムの初期値に設定する。音源位置・受音位置推定済み判定部１４２で推定済みと判別されない場合には、過去推定誤差初期設定部１５１で過去推定誤差を十分に大きい値に設定し、初期音源位置・受音位置設定部１４３で音源位置・受音位置推定アルゴリズム（短時間）の初期値をランダムに設定する。そして、音源位置・受音位置推定アルゴリズム（短時間）部１５２で、式（８）で示した位置推定誤差最小化の繰り返し計算により音源位置、受音位置を推定する。ここでの繰返し回数は少ない回数であり、計算量は少ないものとする。次に、推定誤差比較部１５３で、音源位置・受音位置推定アルゴリズム（短時間）部１５２の推定誤差を過去推定誤差と比較し、推定誤差が過去推定誤差未満であった場合には、過去推定誤差設定部１５４で過去推定誤差を推定誤差で書き換え、そのときの推定音源位置、受音位置を記憶する。繰り返し部１５５では、初期音源位置・受音位置設定部１４３から推定誤差比較部１５３、過去推定誤差設定部１５４までの処理を設定回数繰り返す制御を行う。
【０１８４】
この繰り返し部１５５の制御による繰返しが終了したら、初期音源位置・受音位置繰返し値設定部１５６では、過去推定誤差設定部１５４で記憶されている推定音源位置、受音位置を音源位置・受音位置推定アルゴリズム（長時間）の初期値に設定する。
【０１８５】
初期音源位置・受音位置推定値設定部１４４または初期音源位置・受音位置繰返し値設定部１５６で初期値が設定された後に、音源位置・受音位置推定アルゴリズム（長時間）部１４５では、式（８）で示した位置推定誤差最小化の繰り返し計算により音源位置、受音位置を推定する。収束判定部１４６では、音源位置・受音位置推定アルゴリズム（長時間）部１４５の位置推定誤差が閾値未満の場合に、音源位置・受音位置推定アルゴリズムが収束したとし、それ以外を収束していないと判別し、収束していない場合は、過去推定誤差初期設定部１５１からの処理を繰り返す。
【０１８６】
収束判定部１４６の判定が収束であった場合には、推定音源位置・受音位置出力部１４７で推定音源位置・受音位置を出力し、処理を終了する。
【０１８７】
以上の方法により、音源位置・受音位置推定アルゴリズムが収束するまで処理が繰り返され、正確な推定音源位置・受音位置を得ることができる。また、音源位置・受音位置推定アルゴリズム（短時間）部１５２を複数回実行し、最も推定誤差が小さくなる場合の推定音源位置、受音位置を初期値に設定し、音源位置・受音位置推定アルゴリズム（長時間）部１４５でさらに繰返し計算させることにより、収束の速い初期値から繰返し計算させることができ、収束までの時間を短縮することができる。
【０１８８】
これら以外の部分に関しては、第１の実施形態または第２の実施形態または第３の実施形態または第４の実施形態または第５の実施形態と同じであるので、説明を省略する。
【０１８９】
なお、以上説明した音源および受音位置推定方法は専用のハードウェアにより実現されるもの以外に、その機能を実現するためのプログラムを、コンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行するものであってもよい。コンピュータ読み取り可能な記録媒体とは、フロッピーディスク、光磁気ディスク、ＣＤ−ＲＯＭ等の記録媒体、コンピュータシステムに内蔵されるハードディスク装置等の記憶装置を指す。さらに、コンピュータ読み取り可能な記録媒体は、インターネットを介してプログラムを送信する場合のように、短時間の間、動的にプログラムを保持するもの（伝送媒体もしくは伝送波）、その場合のサーバとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含む。
【０１９０】
【発明の効果】
以上説明したように、本発明によれば、自由配置で位置が未知である複数の収音手段を用いて、音源位置の推定と、受音位置の推定をすることが可能となる。
【図面の簡単な説明】
【図１】本発明の第１の実施形態の音源位置・受音位置推定装置を示すブロック図である。
【図２】第１の実施形態の音源位置・受音位置推定装置の処理を示すフローチャートである。
【図３】本発明の第２の実施形態の音源位置・受音位置推定装置を示すブロック図である。
【図４】本発明の第３の実施形態の音源位置・受音位置推定装置を示すブロック図である。
【図５】第３の実施形態の音源位置・受音位置推定装置の処理を示すフローチャートである。
【図６】本発明の第４の実施形態の音源位置・受音位置推定装置を示すブロック図である。
【図７】本発明の第５の実施形態の音源位置・受音位置推定装置を示すブロック図である。
【図８】本発明の第６の実施形態の音源位置・受音位置推定装置を示すブロック図である。
【図９】本発明の第７の実施形態の音源位置・受音位置推定装置を示すブロック図である。
【図１０】シミュレーションにおける音源位置、受音位置を示す図である。
【図１１】音源の高さが未知で、マイクロホンの高さが未知の場合の位置推定誤差のグラフである。
【図１２】音源の高さが未知で、マイクロホンの高さが既知の場合の位置推定誤差のグラフである。
【図１３】音源の高さが既知で、マイクロホンの高さが既知の場合の位置推定誤差のグラフである。
【図１４】従来の音源位置推定装置を示すブロック図である。
【符号の説明】
１１₁〜１１_M マイクロホン
１２受音信号間遅延時間差推定部
１３音源位置移動検出部
１４受音信号間遅延時間差記憶部
１５音源位置・受音位置推定部
３１受音位置記憶部
３２音源位置推定部
３３音源位置記憶部
６１話者数追加部
６２新たに受音信号間遅延時間差を記憶する部
６３話者数比較部
６４音源位置、受音位置推定部
７１受音位置推定済み判定部
７２音源位置推定部
７３受音位置記憶部
１２０最大ピーク検出部
１２１有音検出部
１２２₁，１２２₂ スイッチ
１２３雑音クロススペクトル記憶部
１２４減算部
１２５ＩＦＦＴ
１２６₁〜１２６_M ＦＦＴ
１２７₁〜１２７_M 白色化部
１２８乗算部
１３１減算部
１３２二乗平均部
１３３閾値比較部
１４１受音信号間遅延時間差読み込み部
１４２音源位置・受音位置推定済み判定部
１４３初期音源位置・受音位置設定部
１４４初期音源位置・受音位置推定値設定部
１４５音源位置・受音位置推定アルゴリズム部
１４６収束判定部
１４７音源位置・受音位置出力部
１５１過去推定誤差初期設定部
１５２音源位置・受音位置推定アルゴリズム（短時間）部
１５３推定誤差比較部
１５４過去推定誤差設定部
１５５繰り返し部
１５６初期音源位置・受音位置繰返し値設定部
１６１₁〜１６１_M 遅延器
１６２₁〜１６２_M ゲイン
１６３加算器
１６４パワー計算部
１６５最大パワー位置検出部
１６６受音位置設定部
１６７指向性走査部
２０１〜２１７ステップ

Claims

複数チャネルの受音信号から、前記複数のチャネルのうち２チャネル間のチャネル間受音時間差の実測値を求めるチャネル間時間差推定段階と、
推定音源位置と推定受音位置から求められるチャンネル間受音時間差の推定値と、前記チャンネル間受音時間差の実測値間の誤差を最小化することで、音源位置と受音位置を推定する位置推定段階とを有する音源受音位置推定方法。
現在のチャネル間時間差と、過去のチャネル間時間差の実測値を用いて、音源位置移動を検出する音源位置移動検出段階と、
音源位置移動が検出された場合、検出の直前のチャネル間時間差を記憶するチャネル間時間差記憶段階とをさらに有し、
前記位置推定段階は、前記チャネル間時間差として記憶されたチャネル間時間差の実測値と、推定音源位置と推定受音位置から求められるチャンネル間受音時間差の推定値間の誤差を最小化することで、音源位置と受音位置を推定する請求項１に記載の音源受音位置推定方法。
複数チャネルの受音信号から、前記複数のチャネルのうち２チャネル間のチャネル間受音時間差の実測値を求めるチャネル間時間差推定手段と、
推定音源位置と推定受音位置から求められるチャンネル間受音時間差の推定値と、前記チャンネル間受音時間差の実測値間の誤差を最小化することで、音源位置と受音位置を推定する位置推定手段とを有する音源受音位置推定装置。
現在のチャネル間時間差と、過去のチャネル間時間差の実測値を用いて、音源位置移動を検出する音源位置移動検出手段と、
音源位置移動が検出された場合、検出の直前のチャネル間時間差を記憶するチャネル間時間差記憶手段とを有し、
前記位置推定手段は、前記チャネル間時間差として記憶されたチャネル間時間差の実測値と、推定音源位置と推定受音位置から求められるチャンネル間受音時間差の推定値間の誤差を最小化することで、音源位置と受音位置を推定する、請求項３に記載の音源受音位置推定装置。
請求項１または２に記載の方法をコンピュータに実行させるための音源受音位置推定プログラム。