JP2012042454A

JP2012042454A - 位置検出装置及び位置検出方法

Info

Publication number: JP2012042454A
Application number: JP2011138595A
Authority: JP
Inventors: Kazuhiro Nakadai; 一博中臺; Keisuke Nakamura; 圭佑中村; Yuji Hasegawa; 雄二長谷川
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2010-08-17
Filing date: 2011-06-22
Publication date: 2012-03-01
Anticipated expiration: 2031-06-22
Also published as: US20180336249A1; US11461336B2; US10037357B1; JP5701164B2

Abstract

【課題】ロバストに物体の位置を検出する位置検出装置及び位置検出方法を提供する。
【解決手段】第１位置情報推定部は情報源を表す第１の態様の情報に基づいて第１の位置情報を推定し、第２位置情報推定部は前記情報源を表す第２の態様の情報に基づいて第２の位置情報を推定し、情報統合部は前記第１の位置情報及び前記第２の位置情報の各々と複数の粒子からなる粒子群を対応付け、対応付けられた粒子群に属する粒子毎の位置情報に基づいて前記情報源の位置情報を算出する。
【選択図】図１

Description

本発明は、位置検出装置及び位置検出方法に関する。

従来、音声や画像を用いて、物体（例えば、人体）の位置を検知する技術が提案されている。検知対象となる物体は、必ずしも１個とは限らず複数個存在することがある。複数の物体の位置を検知するためには、１個の場合よりも多くの情報取得手段（マイクロホン、カメラ、等）を要するうえ、検知精度が劣化する。そこで、音響信号と画像信号等、複数の異なるモダリティ（態様）の情報を統合して物体の位置情報を推定する技術が提案されている。

例えば、特許文献１に記載の発明では、集音マイクで集音した、複数の音源からの混合音からなるそれぞれの音響情報の位相差及び強度差に基づいて全ての音源方向を推定する音響処理手段と、撮像手段により撮像された画像情報又は感知手段により検知した各々の物体の方向情報から音源となり得る各々の物体に関する方向を推定する画像処理手段と、方向フィルタと、制御手段を備え、制御手段は、集音した音響情報から音響処理手段が概略音源方向を同定するように制御し、この概略音源方向の範囲内で画像処理手段が音源となりうる物体に関する方向を推定するように制御し、又は撮像された画像情報又は感知手段により検知された物体の方向情報のみから画像処理手段が音源方向を推定するように制御し、この推定された方向の処理角度範囲内で音響処理手段が音源方向を推定するように制御し、この推定された音源方向に対応する方向フィルタを音響処理手段が選択する。

特許第３１９５９２０号公報

特許文献１に記載の発明では、例えば、物体の位置、温度、照度等の特性が変動する実環境では、環境によって物体やその位置を精度よく検出できないという問題点がある。

本発明は上記の点に鑑みてなされたものであり、ロバスト（頑健）に物体の位置を検出できる位置検出装置及び位置検出方法を提供する。

（１）本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、情報源を表す第１の態様の情報に基づいて第１の位置情報を推定する第１位置情報推定部と、前記情報源を表す第２の態様の情報に基づいて第２の位置情報を推定する第２位置情報推定部と、前記第１の位置情報及び前記第２の位置情報の各々と複数の粒子からなる粒子群を対応付け、対応付けられた粒子群に属する粒子毎の位置情報に基づいて前記情報源の位置情報を算出する情報統合部とを備えることを特徴とする位置検出装置である。

（２）本発明のその他の態様は、前記情報統合部は、前記第１の位置情報及び前記第２の位置情報のいずれにも対応しない粒子群を消滅させ、前記第１の位置情報及び前記第２の位置情報に対応する粒子群がない場合、対応する粒子群を生成することを特徴とする（１）の位置検出装置である。

（３）本発明のその他の態様は、前記情報統合部は、前記第１の位置情報及び前記第２の位置情報の各々と前記粒子の位置情報との距離に基づいて、前記粒子が属する粒子群が対応するか否か判断することを特徴とする（１）又は（２）の位置検出装置である。

（４）本発明のその他の態様は、前記第１位置情報推定部は、第１の態様の情報の種別を表すクラス情報を決定する情報源同定部と、前記決定されたクラス情報から選択された目的情報に対応する情報源の位置情報を算出する情報源定位部とを備えることを特徴とする（１）〜（３）のいずれかの位置検出装置である。

（５）本発明のその他の態様は、前記第１の態様の情報に基づく第１の相関行列に基づいて、前記クラス情報に対応する第２の相関行列を算出する目的情報選択部を備え、前記情報源定位部は、前記第１の相関行列と前記クラス情報に対応する第２の相関行列に基づいて算出した固有ベクトルと位置情報毎の伝達関数ベクトルを用いて算出した空間スペクトルを最大にする位置情報を前記目的情報に対応する情報源の位置情報として算出することを特徴とする（４）の位置検出装置である。

（６）本発明のその他の態様は、前記第１の態様の情報は音響信号であり、前記第２の態様の情報は画像信号であることを特徴とする（１）〜（５）のいずれかの位置検出装置である。

（７）本発明のその他の態様は、位置検出装置における位置検出方法において、前記位置検出装置が、情報源を表す第１の態様の情報に基づいて第１の位置情報を推定する第１の過程と、前記位置検出装置が、前記情報源を表す第２の態様の情報に基づいて第２の位置情報を推定する第２の過程と、前記位置検出装置が、前記第１の位置情報及び前記第２の位置情報の各々と複数の粒子からなる粒子群を対応付け、対応付けられた粒子群に属する粒子毎の位置情報に基づいて前記情報源の位置情報を算出する第３の過程とを有することを特徴とする位置検出方法である。

本発明によれば、ロバストに人体の位置を検出することができる。

本発明の実施形態に係る位置検出装置の構成を示す概略図である。本実施形態に係るＧＭＭ階層関係情報の一例を示す概念図である。本実施形態においてクラス情報を決定する処理のフローチャートである。本実施形態におけるマッピング処理の一例を示す概念図である。本実施形態に係る位置情報統合処理の概要を示す概念図である。本実施形態に係る位置情報統合処理を示すフローチャートである。本実施形態に係る推定位置情報の一例を示す図である。

以下、図面を参照しながら本発明の実施形態について説明する。
図１は、本実施形態に係る位置検出装置の構成を示す概略図である。
位置検出装置１は、第１情報検出部１１、第１位置情報推定部２１、第２情報検出部１２、第２位置情報推定部２２及び情報統合部３１を含んで構成される。
第１情報検出部１１は、第１のモダリティ（態様）の情報を検出し、検出した第１のモダリティの情報を第１位置情報推定部２１に出力する。第１のモダリティの情報は、例えば、多チャネル音響信号である。その場合、第１情報検出部１１は、Ｍ（Ｍは２以上の整数）チャネルのマイクロホンアレーである。第１情報検出部１１は、位置が異なる収音手段（例えば、マイクロホン）を複数個（例えば、Ｍ＝８個）備え、各収音手段は受信した音波を音響信号に変換して、変換された音響信号を並列して多チャネル（Ｍチャネル）音響信号として第１位置情報推定部２１に出力する。

第１位置情報推定部２１は、第１情報検出部１１から入力された第１のモダリティの情報に基づき情報源毎の第１の位置情報を推定する。本実施形態では、例えば、第１のモダリティが聴覚である場合には、第１のモダリティの情報とは音響信号である。第１位置情報推定部２１は、推定した情報源（音源）毎の第１の位置情報を情報統合部３１に出力する。

以下、第１位置情報推定部２１が第１の位置情報を推定するためにＧＥＶＤ（ＧｅｎｅｒａｌｉｚｅｄＥｉｇｅｎｖａｌｕｅＤｅｃｏｍｐｏｓｉｔｉｏｎ；一般化固有値展開）−ＭＵＳＩＣ（ＭｕｌｔｉｐｌｅＳｉｇｎａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ；多信号分類）法を用いた音源定位部と、音源の種類（クラス）を定めるために階層ＧＭＭ（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ；ガウシアン混合モデル）に基づく音源同定部とを備える例について説明する。これにより、複数の種類の音響信号が混合する混合音に対しても音源毎の第１の位置情報を推定することができる。但し、本実施形態に係る位置検出装置１は、これに限らず他の手法（例えばＧＳＶＤ（ＧｅｎｅｒａｌｉｚｅｄＳｉｎｇｕｌａｒＶａｌｕｅＤｅｃｏｍｐｏｓｉｔｉｏｎ；一般化特異値分解）−ＭＵＳＩＣ法）を用いて第１の位置情報を推定してもよい。ＧＳＶＤ−ＭＵＳＩＣ法では、第１位置情報推定部２１は、後述のＧＥＶＤの代わりにＧＳＶＤを行う。

ここで、第１音源位置情報推定部２１が備える、第１音源定位部２１１は、第１情報検出部１１から入力された多チャネル音響信号に基づいて音源毎の位置情報（一次候補）を生成する。即ち、第１音源位置情報推定部２１は、一次候補として推定された音源毎の位置情報を用いて音源を分離し、分離した音源毎にその種別を同定する。そして、第２音源定位部２１８は、種別が同定された音源毎にＧＥＶＤ又はＧＳＶＤを用いて位置情報（二次候補）を生成する。

第１位置情報推定部２１は、第１音源定位部２１１、音源分離部２１３、音源同定部２１４、伝達関数記憶部２１５、相関行列生成部２１６、目的音選択部２１７及び第２音源定位部２１８を含んで構成される。

第１音源定位部２１１は、第１情報検出部１１から入力された多チャネル音響信号に基づいて、例えば、ＭＵＳＩＣ法を用いて音源毎の位置情報を推定する。
第１音源定位部２１１は、予め定めた数（例えば、７２個、即ち方向ψが５°間隔）の伝達関数ベクトルｖ(ψ)を、方向ψと対応付けて記憶した記憶部を備える。第１音源定位部２１１は、記憶部から選択した伝達関数ベクトルｖ(ψ)と、多チャネル音響信号に基づいて算出した固有ベクトルε_ｉ（後述）に基づき、式（１）を用いて空間スペクトルＰ（ψ）を算出する。

式（１）において、Ｎは、認識可能な最大音源個数であって、予め設定した値（例えば３）である。Ｋは、第１音源定位部２１１が保持した固有ベクトルε_ｉの数であって、予め設定した値である。Ｔは、ベクトル又は行列の転置を示す。
第１音源定位部２１１は、固有ベクトルｅ_ｉを算出するために、入力された多チャネル音響信号に離散フーリエ変換を行い周波数領域に変換してスペクトルｘを算出する。スペクトルはＭ列のベクトルである。
第１音源定位部２１１は、算出したスペクトルｘに基づき相関行列Ｒ_ｘｘを、式（２）を用いて算出する。

式（２）において、＊は、複素共役転置演算子を示す。Ｅ［．．．］は、．．．の期待値（例えば、現在までの予め設定した時間にわたる時間平均）である。
第１音源定位部２１１は、式（３）を満たすように固有値ｄと固有ベクトルεを算出する。

算出された固有ベクトルεは、音響信号に含まれる雑音信号の空間成分を表す。
第１音源定位部２１１は、式（３）を満たす固有値ｄと固有ベクトルεとの組を保持する。
第１音源定位部２１１は、Ｎ＋１番目からＫ番目まで固有値ｄが大きい固有値ｄに対応する固有ベクトルε（Ｋ−Ｎ個）に基づき、式（１）を用いて空間スペクトルＰ(ψ)を算出する。

ここで、式（３）を満たす組は、多チャネル音響信号のチャネル数Ｍだけ存在する。そのため、音源として認識可能な最大数として設定されるＮの値は、Ｎ＜Ｍであることが好ましい。

以上のようにして、第１音源定位部２１１は、空間スペクトル算出処理を行い、時刻ｔにおける、周波数ωの空間スペクトルＰ(ψ)を取得することができる。
そして、第１音源定位部２１１は、周波数毎に空間スペクトルＰ(ψ)の算出処理を行い、予め設定した周波数帯域の空間スペクトルＰ（ψ)を取得する。
ここで、予め設定した周波数帯域とは、発話者が発する音声の音圧が大きい周波数帯域であり、かつ雑音の音圧が小さい周波数帯域が望ましい。例えば、０．５〜２．８ｋＨｚである。

第１音源定位部２１１は、各周波数帯域の空間スペクトルＰ(ψ)を広帯域信号に拡張する。
ここで、第１音源定位部２１１は、音響信号データから予め設定した閾値よりもＳ／Ｎ比が高い（即ち、ノイズが少ない）周波数帯域ωを抽出する。第１音源定位部２１１は、抽出した周波数帯域ωにおいて式（３）を用いて算出した最大固有値ｄ_maxの平方根に空間スペクトルＰ(ψ)で式（４）を用いて重み付け加算して広帯域の空間スペクトルＰ_avg(ψ)を算出する。

式（４）において、Ωは周波数帯域の集合を示し、｜Ω｜は集合Ωの要素数、ｋは周波数帯域を示すインデックスを示す。これにより広帯域の空間スペクトルＰ_avg(ψ)には、周波数帯域ωの空間スペクトルＰ(ψ)が強く反映される。

以上により、第１音源定位部２１１は、広帯域空間スペクトルＰ_avg(ψ)（全方向音圧成分データ）を生成することができる。

第１音源定位部２１１は、予め設定した推定範囲における広帯域空間スペクトルＰ_avg(ψ)のピーク値（極大値）と、対応する角度ψを選択する。この選択されたψが音源方向として推定される。
ここで、ピーク値について説明する。推定範囲における広帯域空間スペクトルにおいて、角度ψの値Ｐ_avg(ψ)が、直前の隣接する角度の値Ｐ_avg(ψ−Δψ)および直後の隣接する角度の値Ｐ_avg(ψ＋Δψ)よりも大きな値である場合に、その角度ψの値Ｐ_avg(ψ)がピーク値である。また、その角度ψが，音源方向ψである。

第１音源定位部２１１は、推定した音源方向ψを値Ｐ_avg(ψ)が最大となるものから予め定めた個数（例えばＬ個）選択し、選択した音源方向ψを音源毎の位置情報（一次候補）と定める。
なお、第１音源定位部２１１は、音源毎の位置情報を推定するために、上述のＳＥＶＤ−ＭＵＳＩＣ法の代わりに、例えば、ＷＤＳ−ＢＦ（ＷｅｉｇｈｔｅｄＤｅｌａｙａｎｄＳｕｍＢｅａｍＦｏｒｍｉｎｇ）法を用いて音源毎の位置情報を推定してもよい。
第１音源定位部２１１は、定めた音源毎の位置情報（一次候補）を音源分離部２１３及び相関行列生成部２１６に出力する。第１音源定位部２１１は、入力された多チャネル音響信号を音源分離部２１３及び第２音源定位部２１８に出力する。

音源分離部２１３は、入力された音源方向ψに基づいて音源ｌ（１≦ｌ≦Ｌ）毎の音響信号ｓ_ｌを、第１音源定位部２１１から入力された多チャネル音響信号から分離する。音源分離部２１３は、音響信号ｓ_ｌを抽出するために、例えば、第１情報検出部１１が備える各収音手段の配置に応じて音源方向ψへの指向性が最も高くなる空間フィルタ係数を算出し、算出した空間フィルタ係数を多チャネル音響信号に畳み込み演算してもよい。
音源分離部２１３は、分離した音源ｌ毎の音響信号ｓ_ｌを音源同定部２１４及び相関行列生成部２１６に出力する。

音源同定部２１４は、音源分離部２１３から入力された音響信号ｓ_ｌに基づき音源ｌ毎の種別を示すクラス情報λ_ｌを決定し、決定したクラス情報λ_ｌを目的音選択部２１７に出力する。
音源同定部２１４は、クラス情報λ_ｌを決定するために、例えば、階層的ガウシアン混合モデル（ｈｉｅｒａｒｃｈｉｃａｌＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ；ｈ−ＧＭＭ）に基づく音源同定法を用いてもよい。

本実施形態では、ｈ−ＧＭＭに基づく音源同定法において、階層情報を１個又は複数個含むＧＭＭ階層関係情報と、音響特徴量ｘに対応するクラス情報λの尤度を含む階層的ガウシアン混合モデル情報を用いる。階層情報とは、あるクラス情報をルート情報とし、そのルート情報に属する1個又は複数個のサブクラス情報の関係を表す情報である。本実施形態では、クラス情報が表す音源種別が、サブクラス情報が表す音源種別の上位概念に相当するように、音源種別が各クラス情報及びサブクラス情報に割り当てられている。また、ＧＭＭ階層関係情報は、ある階層情報に含まれるサブクラス情報が、他の階層情報に含まれるルート情報と一致するように、階層情報間の関係を表す。
音源同定部２１４は、自身が備える記憶部に、階層的ガウシアン混合モデル情報を予め記憶しておく。

次に、ＧＭＭ階層関係情報について例を挙げて説明する。
図２は、本実施形態に係るＧＭＭ階層関係情報の一例を示す概念図である。
図２に示すＧＭＭ階層関係情報において、最上位の階層（階層情報）Λ_１は、音響を示すクラス情報λ_１をルート情報とし、サブクラス情報として音声を示すクラス情報λ_１１、音楽を示すクラス情報λ_１２、環境音を示すクラス情報λ_１３及び無音の状態を示すクラス情報λ_１４を含む。

最上位から２番目の階層は、クラス情報λ_１１をルート情報とする階層Λ_１１、クラス情報λ_１２をルート情報とする階層Λ_１２及びクラス情報λ_１３をルート情報とする階層Λ_１３を含む。
階層Λ_１１は、男声を示すクラス情報λ_１１１と女声を示すクラス情報λ_１１２をサブクラス情報として含む。階層Λ_１２は、クラシック音楽を示すクラス情報λ_１２１とジャズ音楽を示すクラス情報λ_１２２をサブクラス情報として含む。階層Λ_１３は、ドア音を示すクラス情報λ_１３１と電子音を示すクラス情報λ_１３２をサブクラス情報として含む。

音源同定部２１４はクラス情報λ_ｌを決定するために次の処理を行う。
図３は、本実施形態においてクラス情報を決定する処理のフローチャートである。
（ステップＳ１０１）音源同定部２１４は、注目する階層Λ_ｉを、最上位の階層Λ_１と初期設定する。その後、ステップＳ１０２に進む。
（ステップＳ１０２）音源同定部２１４は、音源分離部２１３から入力された音響信号ｓ_ｌに基づき音響特徴量ｘ_ｔを算出する。ここで、ｔはフレーム時刻を示す。音響特徴量ｘ_ｔは、例えば２４次元のメル尺度ケプストラム（Ｍｅｌ−ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ；ＭＦＣＣ）である。その場合には、音源同定部２１４は、予め記憶された複数の候補ベクトルの中から、音響特徴量ｘ_ｔに最も近似する１つを選択することで、音響特徴量ｘ_ｔをベクトル量子化する。その後、ステップＳ１０３に進む。

（ステップＳ１０３）音源同定部２１４は、算出した音響特徴量ｘ_ｔの階層Λ_ｉに含まれるクラス情報λに対する尤度ｆ（ｘ_ｔ｜λ）を記憶部から読み出す。
音源同定部２１４は、読み出した尤度ｆ（ｘ_ｔ｜λ）に基づき結合尤度を算出し、結合尤度を最大とするクラス情報λ’を決定する。決定されたクラス情報λ’は、式（５）で表される。

式（５）において、ａｒｇ．．．は、．．．となる変数λを示す。ｍａｘ．．．は、．．．の最大値を示す。ｋは、フレーム時刻ｔからのフレーム時刻を示す。Ｎは、予め定められたフレーム数、即ち結合尤度を算出する時間を示す。従って、ｔはその時間の先頭フレームを示す。その後、ステップＳ１０４に進む。

（ステップＳ１０４）音源同定部２１４は、クラス情報λ’が注目する階層Λ_ｉに含まれるサブクラス情報λであるか否か判断する。音源同定部２１４は、クラス情報λ’が階層Λ_ｉに含まれるサブクラス情報λであると判断したとき（ステップＳ１０４Ｙ）、ステップＳ１０５に進む。
音源同定部２１４は、クラス情報λ’が階層Λ_ｉに含まれるサブクラス情報λでない、つまりルート情報と判断したとき（ステップＳ１０４Ｎ）、ステップＳ１０６に進む。

（ステップＳ１０５）音源同定部２１４は、クラス情報λ’がルート情報である階層Λ’が存在するか否か判断する。音源同定部２１４は、クラス情報λ’がルート情報である階層Λ’が存在すると判断したとき（ステップＳ１０５Ｙ）、階層Λ’を注目する階層Λ_ｉと設定し、ステップＳ１０３に進む。
音源同定部２１４は、クラス情報λ’がルート情報である階層Λ’が存在しないと判断したとき（ステップＳ１０５Ｎ）、ステップＳ１０６に進む。
（ステップＳ１０６）音源同定部２１４は、クラス情報λ’をフレーム時刻ｔにおける音源ｌのクラス情報λ_ｌと決定する。

図１に戻り、伝達関数記憶部２１５は、前述のように音源方向ψ毎に収音部１１が備える各マイクロホンまでの伝達関数を要素とする伝達関数ベクトルＧ（ψ）を記憶している。
相関行列生成部２１６は、音源分離部２１３から入力された音源ｌの音響信号ｓ_ｌ及び第１音源定位部２１１から入力された音源ｌの音源方向ψに基づいて、音源ｌ毎に相関行列Ｖ_ｌを算出する。

相関行列生成部２１６は、相関行列Ｖ_ｌを生成するために、入力された音源方向ψに対応する伝達関数ベクトルＧ（ψ）を伝達関数記憶部２１４から読み出し、読み出した伝達関数ベクトルＧ（ψ）に基づき相関行列Ｖ_ｌを算出する。相関行列生成部２１６は、相関行列Ｖ_ｌを算出するために、例えば式（６）を用いる。

式（６）において、｛…｝は、…で算出されるベクトルを示す。Ｓ_ｌは、音響信号ｓ_ｌの周波数スペクトルを示す。即ち、相関行列Ｖ_ｌは、音源ｌから受信したチャネル間のスペクトルの相関を示す。
相関行列生成部２１６は、算出した音源ｌ毎の相関行列Ｖ_ｌを目的音選択部２１７に出力する。

目的音選択部２１７は、相関行列生成部２１６から入力された音源ｌ毎の相関行列Ｖ_ｌに基づき、音源同定部２１４から入力されたクラス情報λ（即ち、音源の種類）毎の相関行列Ｋ_λを算出し、算出した相関行列Ｋ_λを第２音源定位部２１８に出力する。
目的音選択部２１７は、相関行列Ｋ_λを算出するために、目的としない音源の種類（非目的音）を示すクラス情報λに対応する音響信号ｓ_ｌの相関行列Ｖ_ｌｊ（１個とは限らない）を全て乗算する。目的音選択部２１７は、乗算して得られた行列に目的とする種類の種別（目的音）を示すクラス情報に対応する音響信号ｓ_ｌの相関行列Ｖ_ｌｉ（１個とは限らない）を全て除算して、目的音毎の相関行列Ｋ_λを算出する。即ち、相関行列Ｋ_λは、非目的音に対する相関行列Ｖ_ｌｊの目的音に対する相関行列Ｖ_ｌｉとの比を表す。

第２音源定位部２１８は、第１音源定位部２１１から入力された多チャネル音響信号に基づいて音源毎の位置情報（二次候補）を生成する。ここで、第２音源定位部２１８は、音源毎の位置情報を生成する際に、目的音選択部２１７から入力されたクラス情報λ（音源の種類）毎の相関行列Ｋ_λを用いて、クラス情報λ毎に位置情報を算出する。

第２音源定位部２１８は、位置情報を算出するために、例えばＧＥＶＤ−ＭＵＳＩＣ法を用いる。ここで、第２音源定位部２１８は、入力された多チャネル音響信号に基づく相関行列Ｒを算出する。相関行列は、第ｉチャネルの音響信号と第jチャネルの音響信号の相関値ｒ_ｉｊを要素とするＭ行Ｍ列の行列である。
次に、第２音源定位部２１８は、算出した相関行列Ｒと取得した相関行列Ｋ_λに基づいてクラス情報λ毎に一般化固有値展開を行って、固有値δ_ｍ（１≦ｍ≦Ｍ）と固有ベクトルｅ_ｍを算出する。相関行列Ｒ、相関行列Ｋ_λ、固有値δ_ｍ、固有ベクトルｅ_ｍは、式（７）に示される関係がある。

式（７）において、ｍの順序は、固有値δ_ｍの降順である。つまり、ｍが小さい固有ベクトルｅ_ｍほど、入力された音響信号に寄与する度合いが高いことを示す。
第２音源定位部２１８は、算出した固有ベクトルｅ_ｍ、及び伝達関数記憶部２１５から読み出した各音源方向ψに対応するＭ列の伝達関数ベクトルＧ（ψ）に基づき、指標値として例えば式（１）を用いて空間スペクトルＰ（ψ）を算出する。但し、第２音源定位部２１８は、式（１）に固有ベクトルε_ｉの代わりに、算出した固有ベクトルｅ_ｍを代入し、伝達関数ベクトルｖ（ψ）の代わりに、読み出した伝達関数ベクトルＧ（ψ）を代入する。
第２音源定位部２１８は、空間スペクトルＰ（ψ）が最も大きい音源方向ψを選択し、選択した音源方向ψをクラス情報λ毎の位置情報と定める。
第２音源定位部２１８は、算出した音源方向ψをクラス情報λに対応した音源毎の位置情報、即ち情報源毎の第１の位置情報として情報統合部３１に出力する。

第２情報検出部１２は、第２のモダリティの情報を検出し、検出した第２のモダリティの情報を第２位置情報推定部２２に出力する。第２のモダリティの情報は、例えば、画像信号である。
第２情報検出部１２は、例えば、熱画像センサ部１２１及び距離画像センサ部１２２を含んで構成される。熱画像センサ部１２１は、物体の特徴量として物体の温度を表す熱画像情報を検出する。熱画像情報は、被写体である物体表面の温度を画素ごとの画素値として示す情報である。検出対象が人体の場合には、その個体差が比較的少なく、しばしば頭部が露出しているため検知に好都合である。また、熱画像情報は、照度の変化に影響されない。熱画像センサ部１２１は、第２位置情報推定部２２に第２のモダリティの一部として出力する。

距離画像センサ部１２２は、被写体である物体表面までの距離を画素値として示す距離画像情報を検出する。距離画像センサ部１２２は、距離測定法の一種であるＴｏＦ（ＴｉｍｅｏｆＦｌｉｇｈｔ；飛行時間）法を用いて被写体までの距離を測定するであるＴｏＦカメラである。この距離画像情報も、照度の変化に影響されない。距離画像センサ部１２２は、第２位置情報推定部２２に第２のモダリティのその他の部分として出力する。

第２位置情報推定部２２は、第２情報検出部１２から入力された第２のモダリティの情報に基づき情報源毎の第２の位置情報を推定する。本実施形態では、例えば、第２のモダリティが視覚である場合には、第２のモダリティの情報とは画像信号である。第２位置情報推定部２２は、推定した情報源（クラスタ）毎の第２の位置情報を情報統合部３１に出力する。

以下、第２位置情報推定部２２が第２の位置情報を推定するために被写体を表す画像の領域であるクラスタを定めて、定めたクラスタの代表位置を算出する例について説明する。
これにより、照度変化の影響を最小限にして被写体となる物体毎の第２の位置情報を推定することができる。但し、本実施形態に係る位置検出装置２は、これに限らず他の手法を用いて第２の位置情報を推定してもよい。

第２位置情報推定部２２は、第１二値化部２２１１、第２二値化部２２１２、第１クラスタリング部２２２１、第２クラスタリング部２２２２、第１不要クラスタ除去部２２３１、第２不要クラスタ除去部２２３２、マッピング部２２５、第３クラスタリング部２２６及び物体定位部２２７を含んで構成される。

第１二値化部２２１１は、熱画像センサ部１２１から入力された熱画像情報を二値化して、二値化熱画像情報を生成する。第１二値化部２２１１は、生成した二値化熱画像情報を第１クラスタリング部２２２１及びマッピング部２２５に出力する。
第１二値化部２２１１は、熱画像情報を二値化する際、熱画像情報に含まれる画素値が示す温度が、予め定められた温度Ｔ１より高く、かつ予め定められた温度Ｔ２より低い範囲にある場合、その画素における二値化熱画像情報に含まれる画素値を１と定める。熱画像情報に含まれる画素値が示す温度が、その範囲外にある場合、その画素における二値化熱画像情報に含まれる画素値を０と定める。
この温度範囲は、検出対象物体の表面温度に応じて予め設定した値である。例えば、検出対象物体が人体である場合、温度Ｔ１、温度Ｔ２は、それぞれ３５℃、３７℃である。

第２二値化部２２１２は、距離画像センサ部１２２から入力された距離画像情報を二値化して、二値化距離画像情報を生成する。第２二値化部２２１２は、生成した二値化距離画像情報を第２クラスタリング部２２２２及びマッピング部２２５に出力する。
第２二値化部２２１２は、距離画像情報を二値化する際、距離画像情報に含まれる画素値が示す距離が、予め定められた距離ｄ１より長く、かつ予め定められた距離ｄ２より未短い範囲にある場合、その画素における二値化距離画像情報に含まれる画素値を１と定める。距離画像情報に含まれる画素値が示す距離が、その範囲外にある場合、その画素における二値化距離画像情報に含まれる画素値を０と定める。
この距離範囲は、検出対象物体が所在しうる位置に応じて予め設定した値である。例えば、距離画像センサ部１２２から極端に接近している物体や離れている物体を除外することができる。

なお、第２二値化部２２１２は、二値化処理を行う前に、距離画像情報に対して背景差分処理を行ってもよい。第２二値化部２２１２は、予め背景差分画像を記憶した記憶部を備える。第２二値化部２２１２は、背景差分処理において、距離画像情報に含まれる各画素値と、記憶部から読み出した背景差分画像情報に含まれる対応する画素値を差し引く。

第１クラスタリング部２２２１は、第１二値化部２２１１から入力された二値化熱画像情報に対してクラスタリング（例えば階層的クラスタリング）を行って、第１クラスタ情報と第１矩形クラスタ情報を生成する。第１クラスタリング部２２２１は、生成した第１クラスタ情報と第１矩形クラスタ情報を第１不要クラスタ除去部２２３１に出力する

第１クラスタリング部２２２１は、第１クラスタ情報を生成する際、画素値が１である画素（ａ、ｂ）に対し、予め定めた範囲内の画素であって、画素値が１である画素は、画素（ａ、ｂ）と同一のクラスタＣ_ｋであると判断する。この範囲とは、例えば、垂直方向の前後Ｎ_ｃｌｓ画素以内Ｎ_ｃｌｓ、水平方向の前後Ｎ_ｃｌｓ画素の範囲（ａ−Ｎ_ｃｌｓ〜ａ＋Ｎ_ｃｌｓ、ｂ−Ｎ_ｃｌｓ〜ｂ＋Ｎ_ｃｌｓ）である。Ｎ_ｃｌｓは予め設定された１以上の整数値である。ｋは、クラスタを識別するインデックスである。従って、クラスタ情報は、各クラスタに画素が属しているか否かを示す属否を表わす情報である。

第１クラスタリング部２２２１は、クラスタｋが属する画素の水平座標ａの最大値ｘ_ｈｋ、最小値ｘ_ｌｋ、垂直座標ｂの最大値ｙ_ｈｋ、最小値ｙ_ｌｋを第１矩形クラスタ情報として定める。左上端の座標（ｘ_ｌｋ、ｙ_ｈｋ）、右上端の座標（ｘ_ｈｋ、ｙ_ｈｋ）、右下端の座標（ｘ_ｈｋ、ｙ_ｌｋ）、左下端の座標（ｘ_ｌｋ、ｙ_ｌｋ）で囲まれる矩形の領域は、矩形クラスタを示す。

第２クラスタリング部２２２２は、第２二値化部２２１２から入力された二値化距離画像情報に対してクラスタリングを行って、第２クラスタ情報と第２矩形クラスタ情報を生成する。第２クラスタリング部２２２２は、生成したクラスタ情報と矩形クラスタ情報を第２不要クラスタ除去部２２３２に出力する。
第２クラスタリング部２２２２が、二値化距離画像情報に対して行うクラスタリング処理は、第１クラスタリング部２２２１が、二値化熱画像情報に対して行うクラスタリング処理と同様である。

第１不要クラスタ除去部２２３１は、第１クラスタリング部２２２１から入力された第１クラスタ情報と第１矩形クラスタ情報のうち不要クラスタを示す情報を除去し、除去されずに残ったと第１矩形クラスタ情報をマッピング部２２５に出力する。

第１不要クラスタ除去部２２３１は、第１矩形クラスタ情報が示す矩形クラスタに含まれる画素数（ｘ_ｈｋ−ｘ_ｌｋ）（ｙ_ｈｋ−ｙ_ｌｋ）が、予め定めた下限値Ｒ_ｍｉｎよりも少ない場合、上限値Ｒ_ｍａｘよりも多い場合、対応する第１クラスタ情報及び第１矩形クラスタ情報を除去する。これにより、熱画像センサ部１２１から検出対象物体への距離が長すぎる場合、短すぎる場合、又はノイズである場合に、第１不要クラスタ除去部２２３１がクラスタと誤判定する可能性を排除できる。

第１不要クラスタ除去部２２３１は、第１矩形クラスタ情報が示す矩形クラスタが示す縦横比（ｘ_ｈｋ−ｘ_ｌｋ）／（ｙ_ｈｋ−ｙ_ｌｋ）が、予め定めた下限値γ_ｍｉｎよりも小さい場合、上限値γ_ｍａｘよりも大きい場合、対応する第１クラスタ情報及び第１矩形クラスタ情報を除去する。これにより、第１不要クラスタ除去部２２３１は、検出対象物体の形状として可能性が低い形状のクラスタを誤検出する可能性を排除できる。

第２不要クラスタ除去部２２３２は、第２クラスタリング部２２２２から入力された第２クラスタ情報と第２矩形クラスタ情報のうち不要クラスタを示す情報を除去し、除去済の第２矩形クラスタ情報をマッピング部２２５に出力する。
第２不要クラスタ除去部２２３２が、第２クラスタ情報と第２矩形クラスタ情報に対して行う処理は、第１不要クラスタ除去部２２３１が、第１クラスタ情報と第１矩形クラスタ情報に対して行う処理に対して行う処理と同様である。

マッピング部２２５は、第１二値化部２２１１から二値化熱画像情報を入力され、第２二値化部２２１２から二値化距離画像情報を入力され、第１不要クラスタ除去部２２３１から第１矩形クラスタ情報を入力され、第２不要クラスタ除去部２２３２から第２矩形クラスタ情報を入力される。
マッピング部２２５は、第２矩形クラスタ情報に基づいて、二値化熱画像情報を二値化距離画像情報にマッピングする。
マッピング部２２５は、マッピングした二値化熱画像情報と二値化距離画像情報の論理積を画素ごとにとり、統合二値化距離画像情報を生成する。マッピング部２２５は生成した統合二値化距離画像情報を第３クラスタリング部２２６に出力する。

上述の説明では、マッピング部２２５が、統合二値化距離画像情報を生成するのは、生成した情報が画素毎の距離値に基づく３次元情報であるためである。但し、本実施形態では、これに限られず、マッピング部２２５が、二値化熱画像情報を生成してもよい。
マッピング部２２５が行うマッピング処理について図４を用いて説明する。

図４は、本実施形態におけるマッピング処理の一例を示す概念図である。
図４の左側は、二値化熱画像情報に基づく第１クラスタ１０１を破線で示し、第１矩形クラスタ情報が示す第１矩形領域１０２を実線で示す。
図４の右側は、二値化距離画像情報に基づく第２クラスタ２０１を実線で示し、第２矩形クラスタ情報が示す第２矩形領域２０２を実線で示す。

第１矩形領域１０２の各頂点から第２矩形領域２０２の対応する頂点への一点破線は、マッピング部２２５が、第１矩形クラスタ情報が示す各頂点の座標が第２矩形クラスタ情報が示す各頂点の座標に一致するように、第１クラスタ情報が示す各画素に対応する座標値を変換することを示す。
第２矩形領域２０２の内部に、この座標変換により二値化熱画像情報に基づく第１クラスタ２０３を破線で示す。
なお、第２矩形領域２０２の内部に、後述する第３クラスタリング部２２６におけるクラスタリング処理によって生成された第３クラスタ情報が示す新たなクラスタ２０４を太い実線で示す。

図１に戻り、第３クラスタリング部２２６は、マッピング部２２５から入力された統合二値化距離画像情報に対してクラスタリングを行い、第３クラスタ情報を生成する。第３クラスタリング部２２６が統合二値化距離画像情報に対して行うクラスタリング処理は、第２クラスタリング部２２２２が二値化距離画像情報に対して行うクラスタリング処理と同様であってよい。
第３クラスタリング部２２６は、生成した第３クラスタ情報を物体定位部２２７に出力する。
また、第３クラスタリング部２２６は、生成した第３クラスタ情報に基づいて、第２不要クラスタ除去部２２３２と同様に不要クラスタ除去処理を行い、残ったクラスタを示す第３クラスタ情報を物体定位部２２７に出力してもよい。

物体定位部２２７は、第３クラスタリング部２２６から入力された第３クラスタ情報と距離画像センサ部１２２から入力された距離画像情報に基づきクラスタ毎の位置情報を生成する。物体定位部２２７は、生成したクラスタ毎の位置情報を第２の位置情報として情報統合部３１に出力する。

物体定位部２２７は、位置情報を生成する際、第３クラスタ情報が示す各クラスタに含まれる画素における距離値を平均して距離情報を算出する。この距離値は、距離画像情報に含まれる画素値が示す距離値である。
物体定位部２２７は、第３クラスタ情報が示す各クラスタに含まれる画素の座標の重心を、算出した距離情報に基づき被写体表面の水平方向及び垂直方向の位置情報を算出する。
物体定位部２２７は、算出した水平方向、垂直方向の位置情報及び距離値を３次元のクラスタ毎の位置情報とする。
なお、物体定位部２２７は、算出した位置情報に基づき距離画像センサ部１２２又は熱画像センサ部１２１からの方向情報を算出し、これを１次元のクラスタ毎の位置情報としてもよい。

情報統合部３１は、第１位置情報推定部２１から入力された第１の位置情報と第２位置情報推定部２２から入力された第２の位置情報を統合して情報源（例えば、音源、クラスタ）毎の位置情報（推定位置情報）を推定する。情報統合部３１は、推定位置情報を位置情報検出装置１の外部に出力する。
情報統合部３１は、位置情報を統合するために、例えば粒子フィルタリング法（ｐａｒｔｉｃｌｅｆｉｌｔｅｒｉｎｇ）を用い、情報源毎に与えられた複数の粒子各々に対応する状態変数に基づき入力された位置情報を統合する。各粒子に対応する状態変数は、仮想的な位置情報（仮想位置情報ともいい、以下の説明では、単に位置情報と呼ぶ）と重み係数を含む。ここで、情報統合部３１は、情報源毎の位置情報と、複数の粒子からなる粒子群毎に各粒子の状態変数の分布を対応付ける。

次に、情報統合部３１が位置情報を統合する処理の概要について説明する。
図５は、本実施形態に係る位置情報統合処理の概要を示す概念図である。
本実施形態に係る位置情報統合処理は、主に情報源対応付け、状態遷移及び再標本化の各過程を含む。これらの過程は、粒子フィルタリング法の一部に基づく処理である。
図５において、上段はＩ．情報源対応付け、中段はＩＩ．状態遷移、下段はＩＩＩ．再標本化の各過程の概念を示す。各段ともに、横軸は位置を示し、円で示される粒子の分布を表す。円の大きさは、各粒子の重み係数の大きさを表す。

図５の上段は、左側及び中央付近に分布する粒子と、左から右へ順に、入力された位置情報が表す位置Ａ１、Ａ２、Ｂ１、及びＢ２を示す。▲印は、第１の位置情報が表す位置Ａ１、Ｂ１を示し、△印は、第２の位置情報が表す位置Ａ２、Ｂ２であることを示す。
左側の分布を示す「粒子群Ａ」は、情報統合部３１が、その分布を位置Ａ１、位置Ａ２の情報源に対応した粒子群（ＰａｒｔｉｃｌｅＧｒｏｕｐ；ＰＧ）Ａと対応付けられることを表す。粒子群とは、複数の粒子からなる組を指す。情報統合部３１は、位置情報と状態変数（この例では位置情報）の分布をもつ粒子群を対応付けることにより、位置情報の検出誤差への耐性を担保することができる。

中央の分布を示す「消滅させる粒子群」は、情報統合部３１が、その分布が入力された位置情報が示す位置に対応しないため、消滅させようとする粒子群と定めることを表す。
右側の「粒子を生成させる領域」は、情報統合部３１が、入力させた位置情報が示す位置に対応する粒子が存在しないため、この位置の周辺の領域が新たに粒子を生成させる領域であることを表す。このようにして、情報統合部３１は粒子群単位で対応する位置情報の有無により、粒子群を消滅又は生成する。

図５の中段は、上段に示す各粒子を予め定めた粒子の状態遷移状態モデルに基づいて遷移させることを表す。各矢印は、情報統合部３１が、その起点にある粒子を終点に遷移させることを表す。
図５の下段は、中段に示す粒子のうち予め定めた第１の値よりも重み係数が大きい粒子を分割し、予め定めた第２の値よりも重み係数が小さい粒子を棄却することを示す。終点に×印が示されている破線の矢印は、情報統合部３１が、その起点にある粒子を棄却することを示す。太い実線の矢印は、情報統合部３１が、その起点にある粒子を分割することを示す。濃い塗りつぶしの円は、分割して新たに生成した粒子を示す。推定位置を示す上向きの矢印は、情報統合部３１は、これらの粒子からなる粒子群の位置情報に基づき矢印の終点が示す位置を示す位置情報を生成することを示す。

次に、情報統合部３１が行う位置情報統合処理について説明する。
図６は、本実施形態に係る位置情報統合処理を示すフローチャートである。
（ステップＳ２０１）情報統合部３１は、本処理に係る係数を初期設定する。
情報統合部３１は、処理に用いる係数、例えば、本処理の繰り返し回数Ｎ_ｒｅｐ、情報源毎の粒子数Ｎ_ｐ、粒子の初期分布の分散σ_ｐ、第１の位置情報の推定誤差ｅ_１ψ、第２の位置情報の推定誤差ｅ_２ψ、尤度の閾値Ｋ_ＰＧ、粒子群を消滅させるまでの生存フレーム数（生存期間）Ｌ_ｕ、第１の位置情報に対する重み係数ｗ_１、第２の位置情報に対する重み係数ｗ_２を、それぞれ１０^５、１０００、５°、５°、５°、０．００５、１００、０．５、０．５と設定する。本実施形態では、上述の係数値に限らず、他の値を用いてもよい。また、情報統合部３１は、粒子群は存在しないものと設定する。その後、ステップＳ２０２に進む。

（ステップＳ２０２）情報統合部３１は、第１の位置情報の入力及び第２の位置情報の入力を継続するか否か判断する。この判断において、情報統合部３１は、例えば、現在の処理の繰り返し回数が設定された繰り返し回数に達していないか否か判断する。情報統合部３１は、第１の位置情報の入力及び第２の位置情報の入力を継続すると判断したとき（ステップＳ２０２Ｙ）、ステップＳ２０３に進む。情報統合部３１は、第１の位置情報の入力及び第２の位置情報の入力を継続しないと判断したとき（ステップＳ２０２Ｎ）、処理を終了する。

（ステップＳ２０３）情報統合部３１は、第１位置情報推定部２１から第１の位置情報を入力し、第２位置情報推定部２２から第２の位置情報を入力する。その後、ステップＳ２０４に進む。
（ステップＳ２０４）情報統合部３１は、入力された第１の位置情報と第２の位置情報と各粒子が属す粒子群との対応付けを行う。そのために、情報統合部３１は、次の処理を行う。
情報統合部３１は、第１の位置情報が示す情報源（例えば音源）毎の位置情報（例えば、推定方向ψ）と粒子ｉの位置情報（ψ_ｉ）に基づいて、例えば式（８）を用いて第１の位置情報による粒子ｉの尤度Ｌ_１ｉを算出する。

式（８）によれば、第１の位置情報が示す情報源の位置情報と粒子ｉの位置情報の距離が小さいほど尤度Ｌ_１ｉが高いことを示す。
情報統合部３１は、第２の位置情報が示す情報源（例えばクラスタ）毎の位置情報と粒子ｉの位置情報（ψ_ｉ）に基づいて、例えば式（９）を用いて第２の位置情報による粒子ｉの尤度Ｌ_２ｉを算出する。但し、情報統合部３１は、尤度Ｌ_２ｉを算出する前に、３次元の直交座標で表された第２の位置情報を座標変換して方向ψを算出する。

式（９）によれば、第２の位置情報が示す情報源の位置情報と粒子ｉの位置情報の距離値が小さいほど尤度Ｌ_２ｉが高いことを示す。
情報統合部３１は、算出した尤度Ｌ_１ｉと尤度Ｌ_２ｉを、例えば式（１０）を用いて重み付け加算して、尤度Ｌ_ｉを算出する。

情報統合部３１は、粒子群毎に尤度Ｌ_ｉの総和をとり粒子群毎の尤度Ｌを算出する。即ち、算出した尤度Ｌは、粒子群毎の第１の位置情報が示す情報源毎の位置情報及び第２の位置情報が示す情報源毎の位置情報との関連性を示す指標値である。
情報統合部３１は、算出した尤度Ｌが閾値Ｋ_ＰＧと等しいか、又は大きい粒子群が、その入力された位置情報が示す情報源に対応すると判断し、算出した尤度Ｌが閾値Ｋ_ＰＧよりも小さい粒子群が、その入力された位置情報が示す情報源に対応しないと判断する。その後、ステップＳ２０５に進む。

（ステップＳ２０５）情報統合部３１は、対応する粒子群が存在しない情報源について、その情報源に対応する粒子群、即ち、その粒子群に属する粒子を生成する。このような場合は、情報源が新たに発生したか、情報源の位置が急激に変化した場合が相当する。
情報統合部３１は、１つの粒子群についてＮ_ｐ個の粒子を対応する情報源の位置（推定方向）を中心に、各粒子の位置が分布するように生成する。ここで、情報統合部３１は、例えば、分散σ_ｐの正規分布となるように粒子を生成する。粒子を生成するとは、情報統合部３１が、粒子の位置情報と重み係数の組を状態変数として生成することを指す。このとき、情報統合部３１は、各粒子の重み係数を１／Ｎ_ｐと、粒子毎に等しい値であって、合計が１に正規化されるように定める。その後、ステップＳ２０６に進む。

（ステップＳ２０６）情報統合部３１は、粒子群毎に対応する情報源の有無を判断する。情報統合部３１は、ある粒子群に対応する情報源がないと判断した場合（ステップＳ２０６Ｎ）、ステップＳ２０７に進む。その場合、消滅後フレーム数が０よりも大きい値の場合には、情報統合部３１は、消滅後フレーム数０と設定する。ここで、消滅後フレーム数とは、初めて対応する情報源がないと判断された時刻から経過したフレーム数（時刻）を指す。情報統合部３１は、ある粒子群に対応する情報源があると判断した場合（ステップＳ２０６Ｙ）、ステップＳ２１０に進む。

（ステップＳ２０７）情報統合部３１は、消滅後フレーム数が予め定められた閾値（生存期間）Ｌ_ｕより大きいか否かを判断する。情報統合部３１は、消滅後フレーム数が予め定められた閾値Ｌ_ｕより大きいと判断したとき（ステップＳ２０７Ｙ）、ステップＳ２０９に進む。
情報統合部３１は、消滅後フレーム数が予め定められた閾値Ｌ_ｕより大きくないと判断したとき（ステップＳ２０７Ｎ）、ステップＳ２０８に進む。

（ステップＳ２０８）情報統合部３１は、消滅後フレーム数を１増加させる。これにより、消滅後フレーム数がカウントされる。これにより、粒子ｉに対応する情報源が一時的に消滅しても（例えば、無音区間）、直ちに粒子ｉが属する粒子群と情報源との対応関係が失われずに済む。その後、ステップＳ２１０に進む。
（ステップＳ２０９）情報統合部３１は、対応する情報源がないと判断した粒子群を消滅させる。ここで、情報統合部３１は、その粒子群に属する粒子ｉに対応する状態変数及び重み係数を削除する。その後、ステップＳ２１０に進む。

（ステップＳ２１０）情報統合部３１は、粒子ｉ毎の位置情報を更新（遷移）する。
ここで、情報統合部３１は、例えば、ランダムウォークモデルに基づいて現在のフレームｔの位置情報（推定方向）ψ（ｔ）に雑音成分ｒを加えて次のフレームｔ＋１の位置情報ψ（ｔ＋１）に更新する。雑音成分ｒは、例えば、その分布が、予め設定された平均値（ゼロ、即ち原点）及び分散の正規分布であるガウス雑音である。これにより、情報統合部３１は、粒子の分布が時間の経過により次第に拡散する状況を考慮でき、環境の変化に対して頑健に位置情報を推定できる。なお、本実施形態では、情報統合部３１は、ランダムウォークモデルに基づく方法に限らず、例えば、過去のフレームの位置情報も考慮した運動方程式を導入して次のフレームの位置情報を算出してもよい。その後、ステップＳ２１１に進む。

（ステップＳ２１１）情報統合部３１は、粒子ｉ毎の重み係数を更新（遷移）する。
ここで、情報統合部３１は、例えば、現在のフレームｔの重み係数ｗ_ｉ（ｔ）に尤度Ｌ_ｉ（ｔ）を乗算して次のフレームｔ＋１の重み係数ｗ_ｉ（ｔ＋１）を算出する。これにより、情報統合部３１は、入力された位置情報に基づく情報源と粒子ｉとの関連性、即ち尤度Ｌ_ｉ高いほど重み係数ｗ_ｉが大きくなるように重みづけることができる。その後、ステップＳ２１２に進む。

（ステップＳ２１２）情報統合部３１は、粒子ｉを粒子群毎に再標本化する。
再標本化において、情報統合部３１は、例えばＳＩＲ（ｓａｍｐｌｉｎｇｉｍｐｏｒｔａｎｃｅｒｅｓａｍｐｌｉｎｇ）法に基づいて次の処理を行う。
情報統合部３１は、粒子ｉ毎の重み係数ｗ_ｉを、その粒子群における重み係数の総和で除算して、規格化重み係数ｐ_ｉを算出する。情報統合部３１は、算出した規格化重み係数ｐ_ｉが、予め設定した閾値ｐ_ｔｈよりも小さい粒子ｉを消滅させ、算出した規格化重み係数ｐ_ｉが、予め設定した閾値ｐ_ｔｈと等しい、又はより大きい粒子ｉを維持する。このとき、情報統合部３１は、消滅させて粒子数Ｎ_ｄを計数する。情報統合部３１は、規格化重み係数を新たな重み係数と定める。

情報統合部３１は、規格化重み係数ｐ_ｉが最も高い粒子からＮ_ｄ番目に高い粒子まで、計Ｎ_ｄ個の粒子をそれぞれ分割して新たな粒子を生成する。即ち、情報統合部３１は、分割対象となった粒子ｉ毎に対応する位置情報をそのまま維持し重み係数を半減させ、新たな粒子ｊに対して同一の位置情報と半減した重み係数に対応づける。情報統合部３１は、半減した重み係数を新たな重み係数と定める。これにより、粒子群毎の粒子数Ｎ_ｐが一定になる。その後、ステップＳ２１３に進む。

（ステップＳ２１３）情報統合部３１は、粒子群毎に再標本化した粒子ｉの位置情報と重み係数に基づき推定位置情報を算出する。ここで、情報統合部３１は、例えば、粒子群毎に粒子ｉの位置情報を，重み係数ｗ_ｉを用いて加重平均して推定位置情報を算出する。
情報統合部３１は、推定位置情報を算出する際、加重平均の代わりに、単純平均等、他の方法を用いてもよい。情報統合部３１は、算出した推定位置情報を位置推定装置１の外部に出力する。
その後、情報統合部３１は処理対象のフレームｔを次フレームｔ＋１に進め、ステップＳ２０２に進む。

次に、本実施形態にかかる位置検出装置１を動作させて推定された推定位置情報の一例について説明する。
但し、以下に述べる条件下で位置検出装置１を実時間で動作させた。
位置検出装置１は、人型ロボットに装着され、第１情報検出部１１と第２情報検出部１２はロボットの頭部に配置されている。１名の利用者が、ロボットの右前方−６０°から左前方６０°の範囲で発話しながら移動する。この方向は、ロボットの前方正面を０°とする方位角であり、正の値は前方正面より左側であること、負の値は前方正面より右側であることを示す。即ち、次に説明する推定位置情報は、その利用者を情報源とする時間経過に伴って変化する方向を示す情報である。

図７は、本実施形態に係る推定位置情報の一例を示す図である。
図７は、最上段から順に（ａ）参照位置情報、（ｂ）第１位置情報、（ｃ）第２位置情報、（ｄ）本実施形態を示す。いずれも、横軸はフレーム時刻（フレーム番号）を示し、縦軸は位置情報として方向を示す。ここで、１フレームは２０ｍｓである。

（ａ）参照位置情報とは、超音波位置測位システムを使用して計測した利用者の方向を表す情報である。即ち、他の手段で推定された方向を評価するための参照情報であり、利用者が発話していない場合でも取得することができる。
図７（ａ）は、当初は利用者の方向が５０°であり、時間経過に伴い利用者は右側に移動することを示す。フレーム時刻２３００において方向が−４５°となる。その後、利用者は左側に移動し、フレーム時刻３１００において方向が−３°となる。その後、利用者は右側に移動し、フレーム時刻４０００において方向が−２３°となる。その後、利用者は左側に移動し、フレーム時刻４９００において方向が１８°となる。その後、利用者は右側に移動し、フレーム時刻６０００において方向が−４０°となる。その後、利用者は右側に移動し、フレーム時刻７０００において方向が３３°となる。

（ｂ）第１位置情報とは、第１位置情報推定部２１が出力する第１の位置情報であって、推定された利用者の方向を示す。
図７（ｂ）は、フレーム時刻０から６００まで、１９００から２８００まで、３８００から４２００まで、５９００から６５００までの区間において、方向が示されていないことを示す。この結果は、利用者が発話していない等の原因により、第１の位置情報の推定に失敗している可能性を示す。但し、その他の区間においては、方向は参照位置情報とほぼ同様な値である。

（ｃ）第２位置情報とは、第２位置情報推定部２２が出力する第２の位置情報であって、推定された利用者の方向を示す。
図７（ｃ）において、フレーム時刻０から３００まで、１０００から１６００まで、３０００から３５００まで、４７００から５６００までの間、方向が示されていない区間である。この方向が示されていない区間は、参照位置情報が極大又は極小値となる区間となる傾向がある。

この結果は、熱画像センタ部１２１及び距離画像センサ部１２２の視野角が、利用者が移動する範囲よりも狭いために、利用者が視野角外に移動したときに、第２の位置情報の推定に失敗している可能性を示す。
また、その他の区間において、方向は参照位置情報とほぼ同様な値であるが、短い周期の時間変動が参照位置情報より著しい。この結果は、熱画像センタ部１２１及び距離画像センサ部１２２が取得する背景雑音が方向推定に影響を与えることを示す。

（ｄ）本実施形態とは、情報統合部３１、即ち位置検出装置１が出力する推定位置情報であって、推定された利用者の方向を示す。
図７（ｄ）が示す方向は、（ａ）と同様な時間変化を示す。即ち、本実施形態では、（ｂ）において方向が示されていない区間と、（ｃ）において方向が示されていない区間を補完することを示す。
また、図７（ｄ）が示す方向は、（ａ）、（ｃ）よりも滑らかであり、背景雑音による影響が緩和されていることを示す。これは、情報統合部３１が、粒子フィルタリングを用いることにより、誤差を見込むと同時に尤度が高い情報が重視されて、環境の変動に対してロバストに位置情報を推定できることを示す。

このように、本実施形態では、情報源を表す第１の態様の情報に基づいて第１の位置情報を推定し、前記情報源を表す第２の態様の情報に基づいて第２の位置情報を推定し、前記第１の位置情報及び前記第２の位置情報の各々と複数の粒子からなる粒子群を対応付け、対応付けられた粒子群に属する粒子毎の位置情報に基づいて前記情報源の位置情報を算出する。これにより、第１の位置情報と第２の位置情報が補完されてロバストに位置情報を推定することができる。

また、本実施形態では、前記第１の位置情報及び前記第２の位置情報のいずれにも対応しない粒子群を消滅させ、前記第１の位置情報及び前記第２の位置情報に対応する粒子群がない場合、対応する粒子群を生成する。これにより、第１の位置情報及び前記第２の位置情報のいずれにも対応しない粒子群に基づき位置情報を推定することが回避され、第１の位置情報及び前記第２の位置情報に対応する粒子群を必ず具備することで第１の位置情報と第２の位置情報を統合又は補完することができる。

また、本実施形態では、前記第１の位置情報及び前記第２の位置情報の各々と前記粒子の位置情報との距離に基づいて、前記粒子が属する粒子群が対応するか否か判断する。これにより、第１の位置情報と第２の位置情報のいずれからも乖離している粒子群との対応付けを回避することができる。

また、本実施形態では、第１の態様の情報の種別を表すクラス情報を決定し、前記決定されたクラス情報から選択された目的情報に対応する情報源の位置情報を算出する。これにより、注目する情報源の情報の種別を同定し、同定した種別の情報源の位置情報を推定することができる。

また、本実施形態では、前記第１の態様の情報に基づく第１の相関行列に基づいて、前記クラス情報に対応する第２の相関行列を算出し、前記第１の相関行列と前記クラス情報に対応する第２の相関行列に基づいて算出した固有ベクトルと位置情報毎の伝達関数ベクトルを用いて算出した空間スペクトルを最大にする位置情報を前記目的情報に対応する情報源の位置情報として算出する。
これにより、注目する情報源を確実に抽出し、その情報の種別の同定と位置情報の推定を精度よく行うことができる。

なお、上述した実施形態における位置検出装置１の一部、例えば、第１二値化部２２１１、第２二値化部２２１２、第１クラスタリング部２２２１、第２クラスタリング部２２２２、第１不要クラスタ除去部２２３１、第２不要クラスタ除去部２２３２、マッピング部２２５、第３クラスタリング部２２６、物体定位部２２７、第１音源定位部２１１、音源分離部２１３、音源同定部２１４、相関行列生成部２１６、目的音選択部２１７、及び第２音源定位部２１８をコンピュータで実現するようにしても良い。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、位置検出装置１に内蔵されたコンピュータシステムであって、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
また、上述した実施形態における位置検出装置１の一部、または全部を、ＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ）等の集積回路として実現しても良い。位置検出装置１の各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化しても良い。また、集積回路化の手法はＬＳＩに限らず専用回路、または汎用プロセッサで実現しても良い。また、半導体技術の進歩によりＬＳＩに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いても良い。

以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。

１…位置検出装置、１１…第１情報検出部、２１…第１位置情報推定部、
２１１…第１音源定位部、２１３…音源分離部、２１４…音源同定部、
２１５…伝達関数記憶部、２１６…相関行列生成部、２１７…目的音選択部、
２１８…第２音源定位部
１２…第２情報検出部、２２…第２位置情報推定部、
２２１１…第１二値化部、２２１２…第２二値化部、２２２１…第１クラスタリング部、
２２２２…第２クラスタリング部、２２３１…第１不要クラスタ除去部、
２２３２…第２不要クラスタ除去部、２２５…マッピング部、
２２６…第３クラスタリング部、２２７…物体定位部２２７、
３１…情報統合部

Claims

情報源を表す第１の態様の情報に基づいて第１の位置情報を推定する第１位置情報推定部と、
前記情報源を表す第２の態様の情報に基づいて第２の位置情報を推定する第２位置情報推定部と、
前記第１の位置情報及び前記第２の位置情報の各々と複数の粒子からなる粒子群を対応付け、対応付けられた粒子群に属する粒子毎の位置情報に基づいて前記情報源の位置情報を算出する情報統合部と
を備えることを特徴とする位置検出装置。
前記情報統合部は、
前記第１の位置情報及び前記第２の位置情報のいずれにも対応しない粒子群を消滅させ、前記第１の位置情報及び前記第２の位置情報に対応する粒子群がない場合、対応する粒子群を生成することを特徴とする請求項１に記載の位置検出装置。
前記情報統合部は、
前記第１の位置情報及び前記第２の位置情報の各々と前記粒子の位置情報との距離に基づいて、前記粒子が属する粒子群が対応するか否か判断することを特徴とする請求項１に記載の位置検出装置。請求項１又は２に記載の位置検出装置。
前記第１位置情報推定部は、
第１の態様の情報の種別を表すクラス情報を決定する情報源同定部と、
前記決定されたクラス情報から選択された目的情報に対応する情報源の位置情報を算出する情報源定位部と
を備えることを特徴とする請求項１ないし３のいずれか1項に記載の位置検出装置。
前記第１の態様の情報に基づく第１の相関行列に基づいて、前記クラス情報に対応する第２の相関行列を算出する目的情報選択部を備え、
前記情報源定位部は、
前記第１の相関行列と前記クラス情報に対応する第２の相関行列に基づいて算出した固有ベクトルと位置情報毎の伝達関数ベクトルを用いて算出した空間スペクトルを最大にする位置情報を前記目的情報に対応する情報源の位置情報として算出することを特徴とする請求項４に記載の位置検出装置。
前記第１の態様の情報は音響信号であり、前記第２の態様の情報は画像信号であることを特徴とする請求項１から５のいずれか1項に記載の位置検出装置。
位置検出装置における位置検出方法において、
前記位置検出装置が、情報源を表す第１の態様の情報に基づいて第１の位置情報を推定する第１の過程と、
前記位置検出装置が、前記情報源を表す第２の態様の情報に基づいて第２の位置情報を推定する第２の過程と、
前記位置検出装置が、前記第１の位置情報及び前記第２の位置情報の各々と複数の粒子からなる粒子群を対応付け、対応付けられた粒子群に属する粒子毎の位置情報に基づいて前記情報源の位置情報を算出する第３の過程と
を有することを特徴とする位置検出方法。