JP5701164B2 - 位置検出装置及び位置検出方法 - Google Patents

位置検出装置及び位置検出方法 Download PDF

Info

Publication number
JP5701164B2
JP5701164B2 JP2011138595A JP2011138595A JP5701164B2 JP 5701164 B2 JP5701164 B2 JP 5701164B2 JP 2011138595 A JP2011138595 A JP 2011138595A JP 2011138595 A JP2011138595 A JP 2011138595A JP 5701164 B2 JP5701164 B2 JP 5701164B2
Authority
JP
Japan
Prior art keywords
information
unit
position information
sound source
particle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011138595A
Other languages
English (en)
Other versions
JP2012042454A (ja
Inventor
一博 中臺
一博 中臺
圭佑 中村
圭佑 中村
長谷川 雄二
雄二 長谷川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Publication of JP2012042454A publication Critical patent/JP2012042454A/ja
Application granted granted Critical
Publication of JP5701164B2 publication Critical patent/JP5701164B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Length Measuring Devices By Optical Means (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Description

本発明は、位置検出装置及び位置検出方法に関する。
従来、音声や画像を用いて、物体(例えば、人体)の位置を検知する技術が提案されている。検知対象となる物体は、必ずしも1個とは限らず複数個存在することがある。複数の物体の位置を検知するためには、1個の場合よりも多くの情報取得手段(マイクロホン、カメラ、等)を要するうえ、検知精度が劣化する。そこで、音響信号と画像信号等、複数の異なるモダリティ(態様)の情報を統合して物体の位置情報を推定する技術が提案されている。
例えば、特許文献1に記載の発明では、集音マイクで集音した、複数の音源からの混合音からなるそれぞれの音響情報の位相差及び強度差に基づいて全ての音源方向を推定する音響処理手段と、撮像手段により撮像された画像情報又は感知手段により検知した各々の物体の方向情報から音源となり得る各々の物体に関する方向を推定する画像処理手段と、方向フィルタと、制御手段を備え、制御手段は、集音した音響情報から音響処理手段が概略音源方向を同定するように制御し、この概略音源方向の範囲内で画像処理手段が音源となりうる物体に関する方向を推定するように制御し、又は撮像された画像情報又は感知手段により検知された物体の方向情報のみから画像処理手段が音源方向を推定するように制御し、この推定された方向の処理角度範囲内で音響処理手段が音源方向を推定するように制御し、この推定された音源方向に対応する方向フィルタを音響処理手段が選択する。
特許第3195920号公報
特許文献1に記載の発明では、例えば、物体の位置、温度、照度等の特性が変動する実環境では、環境によって物体やその位置を精度よく検出できないという問題点がある。
本発明は上記の点に鑑みてなされたものであり、ロバスト(頑健)に物体の位置を検出できる位置検出装置及び位置検出方法を提供する。
(1)本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、情報源を表す第1の態様の情報に基づいて第1の位置情報を推定する第1位置情報推定部と、前記情報源を表す第2の態様の情報に基づいて第2の位置情報を推定する第2位置情報推定部と、前記第1の位置情報及び前記第2の位置情報の各々と複数の粒子からなる粒子群を対応付け、対応付けられた粒子群に属する粒子毎の位置情報に基づいて前記情報源の位置情報を算出する情報統合部とを備え、前記第1位置情報推定部は、前記第1の態様の情報の種別を表すクラス情報を決定する情報源同定部と、前記決定されたクラス情報から選択された目的情報に対応する情報源の位置情報を算出する情報源定位部とを備えることを特徴とする位置検出装置である。
(2)本発明のその他の態様は、前記情報統合部は、前記第1の位置情報及び前記第2の位置情報のいずれにも対応しない粒子群を消滅させ、前記第1の位置情報及び前記第2の位置情報に対応する粒子群がない場合、対応する粒子群を生成することを特徴とする(1)の位置検出装置である。
(3)本発明のその他の態様は、前記情報統合部は、前記第1の位置情報及び前記第2の位置情報の各々と前記粒子の位置情報との距離に基づいて、前記粒子が属する粒子群が対応するか否か判断することを特徴とする(1)又は(2)の位置検出装置である。
(4)本発明のその他の態様は、前記第1の態様の情報に基づく第1の相関行列に基づいて、前記クラス情報に対応する第2の相関行列を算出する目的情報選択部を備え、前記情報源定位部は、前記第1の相関行列と前記クラス情報に対応する第2の相関行列に基づいて算出した固有ベクトルと位置情報毎の伝達関数ベクトルを用いて算出した空間スペクトルを最大にする位置情報を前記目的情報に対応する情報源の位置情報として算出することを特徴とする(3)の位置検出装置である。
(5)本発明のその他の態様は、前記第1の態様の情報は音響信号であり、前記第2の態様の情報は画像信号であることを特徴とする(1)〜(4)のいずれかの位置検出装置である。
(6)本発明のその他の態様は、位置検出装置における位置検出方法において、前記位置検出装置が、情報源を表す第1の態様の情報に基づいて第1の位置情報を推定する第1の過程と、前記位置検出装置が、前記情報源を表す第2の態様の情報に基づいて第2の位置情報を推定する第2の過程と、前記位置検出装置が、前記第1の位置情報及び前記第2の位置情報の各々と複数の粒子からなる粒子群を対応付け、対応付けられた粒子群に属する粒子毎の位置情報に基づいて前記情報源の位置情報を算出する第3の過程とを有し、前記第1の過程は、前記位置検出装置が、前記第1の態様の情報の種別を表すクラス情報を決定する情報源同定過程と、前記位置検出装置が、前記決定されたクラス情報から選択された目的情報に対応する情報源の位置情報を算出する情報源定位過程とを有することを特徴とする位置検出方法である。
本発明によれば、ロバストに人体の位置を検出することができる。
本発明の実施形態に係る位置検出装置の構成を示す概略図である。 本実施形態に係るGMM階層関係情報の一例を示す概念図である。 本実施形態においてクラス情報を決定する処理のフローチャートである。 本実施形態におけるマッピング処理の一例を示す概念図である。 本実施形態に係る位置情報統合処理の概要を示す概念図である。 本実施形態に係る位置情報統合処理を示すフローチャートである。 本実施形態に係る推定位置情報の一例を示す図である。
以下、図面を参照しながら本発明の実施形態について説明する。
図1は、本実施形態に係る位置検出装置の構成を示す概略図である。
位置検出装置1は、第1情報検出部11、第1位置情報推定部21、第2情報検出部12、第2位置情報推定部22及び情報統合部31を含んで構成される。
第1情報検出部11は、第1のモダリティ(態様)の情報を検出し、検出した第1のモダリティの情報を第1位置情報推定部21に出力する。第1のモダリティの情報は、例えば、多チャネル音響信号である。その場合、第1情報検出部11は、M(Mは2以上の整数)チャネルのマイクロホンアレーである。第1情報検出部11は、位置が異なる収音手段(例えば、マイクロホン)を複数個(例えば、M=8個)備え、各収音手段は受信した音波を音響信号に変換して、変換された音響信号を並列して多チャネル(Mチャネル)音響信号として第1位置情報推定部21に出力する。
第1位置情報推定部21は、第1情報検出部11から入力された第1のモダリティの情報に基づき情報源毎の第1の位置情報を推定する。本実施形態では、例えば、第1のモダリティが聴覚である場合には、第1のモダリティの情報とは音響信号である。第1位置情報推定部21は、推定した情報源(音源)毎の第1の位置情報を情報統合部31に出力する。
以下、第1位置情報推定部21が第1の位置情報を推定するためにGEVD(Generalized Eigenvalue Decomposition;一般化固有値展開)−MUSIC(Multiple Signal Classification;多信号分類)法を用いた音源定位部と、音源の種類(クラス)を定めるために階層GMM(Gaussian Mixture Model;ガウシアン混合モデル)に基づく音源同定部とを備える例について説明する。これにより、複数の種類の音響信号が混合する混合音に対しても音源毎の第1の位置情報を推定することができる。但し、本実施形態に係る位置検出装置1は、これに限らず他の手法(例えばGSVD(Generalized Singular Value Decomposition;一般化特異値分解)−MUSIC法)を用いて第1の位置情報を推定してもよい。GSVD−MUSIC法では、第1位置情報推定部21は、後述のGEVDの代わりにGSVDを行う。
ここで、第1音源位置情報推定部21が備える、第1音源定位部211は、第1情報検出部11から入力された多チャネル音響信号に基づいて音源毎の位置情報(一次候補)を生成する。即ち、第1音源位置情報推定部21は、一次候補として推定された音源毎の位置情報を用いて音源を分離し、分離した音源毎にその種別を同定する。そして、第2音源定位部218は、種別が同定された音源毎にGEVD又はGSVDを用いて位置情報(二次候補)を生成する。
第1位置情報推定部21は、第1音源定位部211、音源分離部213、音源同定部214、伝達関数記憶部215、相関行列生成部216、目的音選択部217及び第2音源定位部218を含んで構成される。
第1音源定位部211は、第1情報検出部11から入力された多チャネル音響信号に基づいて、例えば、MUSIC法を用いて音源毎の位置情報を推定する。
第1音源定位部211は、予め定めた数(例えば、72個、即ち方向ψが5°間隔)の伝達関数ベクトルv(ψ)を、方向ψと対応付けて記憶した記憶部を備える。第1音源定位部211は、記憶部から選択した伝達関数ベクトルv(ψ)と、多チャネル音響信号に基づいて算出した固有ベクトルε(後述)に基づき、式(1)を用いて空間スペクトルP(ψ)を算出する。
Figure 0005701164
式(1)において、Nは、認識可能な最大音源個数であって、予め設定した値(例えば3)である。Kは、第1音源定位部211が保持した固有ベクトルεの数であって、予め設定した値である。Tは、ベクトル又は行列の転置を示す。
第1音源定位部211は、固有ベクトルeを算出するために、入力された多チャネル音響信号に離散フーリエ変換を行い周波数領域に変換してスペクトルxを算出する。スペクトルはM列のベクトルである。
第1音源定位部211は、算出したスペクトルxに基づき相関行列Rxxを、式(2)を用いて算出する。
Figure 0005701164
式(2)において、*は、複素共役転置演算子を示す。E[...]は、...の期待値(例えば、現在までの予め設定した時間にわたる時間平均)である。
第1音源定位部211は、式(3)を満たすように固有値dと固有ベクトルεを算出する。
Figure 0005701164
算出された固有ベクトルεは、音響信号に含まれる雑音信号の空間成分を表す。
第1音源定位部211は、式(3)を満たす固有値dと固有ベクトルεとの組を保持する。
第1音源定位部211は、N+1番目からK番目まで固有値dが大きい固有値dに対応する固有ベクトルε(K−N個)に基づき、式(1)を用いて空間スペクトルP(ψ)を算出する。
ここで、式(3)を満たす組は、多チャネル音響信号のチャネル数Mだけ存在する。そのため、音源として認識可能な最大数として設定されるNの値は、N<Mであることが好ましい。
以上のようにして、第1音源定位部211は、空間スペクトル算出処理を行い、時刻tにおける、周波数ωの空間スペクトルP(ψ)を取得することができる。
そして、第1音源定位部211は、周波数毎に空間スペクトルP(ψ)の算出処理を行い、予め設定した周波数帯域の空間スペクトルP(ψ)を取得する。
ここで、予め設定した周波数帯域とは、発話者が発する音声の音圧が大きい周波数帯域であり、かつ雑音の音圧が小さい周波数帯域が望ましい。例えば、0.5〜2.8kHzである。
第1音源定位部211は、各周波数帯域の空間スペクトルP(ψ)を広帯域信号に拡張する。
ここで、第1音源定位部211は、音響信号データから予め設定した閾値よりもS/N比が高い(即ち、ノイズが少ない)周波数帯域ωを抽出する。第1音源定位部211は、抽出した周波数帯域ωにおいて式(3)を用いて算出した最大固有値dmaxの平方根に空間スペクトルP(ψ)で式(4)を用いて重み付け加算して広帯域の空間スペクトルPavg(ψ)を算出する。
Figure 0005701164
式(4)において、Ωは周波数帯域の集合を示し、|Ω|は集合Ωの要素数、kは周波数帯域を示すインデックスを示す。これにより広帯域の空間スペクトルPavg(ψ)には、周波数帯域ωの空間スペクトルP(ψ)が強く反映される。
以上により、第1音源定位部211は、広帯域空間スペクトルPavg(ψ)(全方向音圧成分データ)を生成することができる。
第1音源定位部211は、予め設定した推定範囲における広帯域空間スペクトルPavg(ψ)のピーク値(極大値)と、対応する角度ψを選択する。この選択されたψが音源方向として推定される。
ここで、ピーク値について説明する。推定範囲における広帯域空間スペクトルにおいて、角度ψの値Pavg(ψ)が、直前の隣接する角度の値Pavg(ψ−Δψ)および直後の隣接する角度の値Pavg(ψ+Δψ)よりも大きな値である場合に、その角度ψの値Pavg(ψ)がピーク値である。また、その角度ψが,音源方向ψである。
第1音源定位部211は、推定した音源方向ψを値Pavg(ψ)が最大となるものから予め定めた個数(例えばL個)選択し、選択した音源方向ψを音源毎の位置情報(一次候補)と定める。
なお、第1音源定位部211は、音源毎の位置情報を推定するために、上述のSEVD−MUSIC法の代わりに、例えば、WDS−BF(Weighted Delay and Sum Beam Forming)法を用いて音源毎の位置情報を推定してもよい。
第1音源定位部211は、定めた音源毎の位置情報(一次候補)を音源分離部213及び相関行列生成部216に出力する。第1音源定位部211は、入力された多チャネル音響信号を音源分離部213及び第2音源定位部218に出力する。
音源分離部213は、入力された音源方向ψに基づいて音源l(1≦l≦L)毎の音響信号sを、第1音源定位部211から入力された多チャネル音響信号から分離する。音源分離部213は、音響信号sを抽出するために、例えば、第1情報検出部11が備える各収音手段の配置に応じて音源方向ψへの指向性が最も高くなる空間フィルタ係数を算出し、算出した空間フィルタ係数を多チャネル音響信号に畳み込み演算してもよい。
音源分離部213は、分離した音源l毎の音響信号sを音源同定部214及び相関行列生成部216に出力する。
音源同定部214は、音源分離部213から入力された音響信号sに基づき音源l毎の種別を示すクラス情報λを決定し、決定したクラス情報λを目的音選択部217に出力する。
音源同定部214は、クラス情報λを決定するために、例えば、階層的ガウシアン混合モデル(hierarchical Gaussian Mixture Model;h−GMM)に基づく音源同定法を用いてもよい。
本実施形態では、h−GMMに基づく音源同定法において、階層情報を1個又は複数個含むGMM階層関係情報と、音響特徴量xに対応するクラス情報λの尤度を含む階層的ガウシアン混合モデル情報を用いる。階層情報とは、あるクラス情報をルート情報とし、そのルート情報に属する1個又は複数個のサブクラス情報の関係を表す情報である。本実施形態では、クラス情報が表す音源種別が、サブクラス情報が表す音源種別の上位概念に相当するように、音源種別が各クラス情報及びサブクラス情報に割り当てられている。また、GMM階層関係情報は、ある階層情報に含まれるサブクラス情報が、他の階層情報に含まれるルート情報と一致するように、階層情報間の関係を表す。
音源同定部214は、自身が備える記憶部に、階層的ガウシアン混合モデル情報を予め記憶しておく。
次に、GMM階層関係情報について例を挙げて説明する。
図2は、本実施形態に係るGMM階層関係情報の一例を示す概念図である。
図2に示すGMM階層関係情報において、最上位の階層(階層情報)Λは、音響を示すクラス情報λをルート情報とし、サブクラス情報として音声を示すクラス情報λ11、音楽を示すクラス情報λ12、環境音を示すクラス情報λ13及び無音の状態を示すクラス情報λ14を含む。
最上位から2番目の階層は、クラス情報λ11をルート情報とする階層Λ11、クラス情報λ12をルート情報とする階層Λ12及びクラス情報λ13をルート情報とする階層Λ13を含む。
階層Λ11は、男声を示すクラス情報λ111と女声を示すクラス情報λ112をサブクラス情報として含む。階層Λ12は、クラシック音楽を示すクラス情報λ121とジャズ音楽を示すクラス情報λ122をサブクラス情報として含む。階層Λ13は、ドア音を示すクラス情報λ131と電子音を示すクラス情報λ132をサブクラス情報として含む。
音源同定部214はクラス情報λを決定するために次の処理を行う。
図3は、本実施形態においてクラス情報を決定する処理のフローチャートである。
(ステップS101)音源同定部214は、注目する階層Λを、最上位の階層Λと初期設定する。その後、ステップS102に進む。
(ステップS102)音源同定部214は、音源分離部213から入力された音響信号sに基づき音響特徴量xを算出する。ここで、tはフレーム時刻を示す。音響特徴量xは、例えば24次元のメル尺度ケプストラム(Mel−Frequency Cepstrum Coefficient;MFCC)である。その場合には、音源同定部214は、予め記憶された複数の候補ベクトルの中から、音響特徴量xに最も近似する1つを選択することで、音響特徴量xをベクトル量子化する。その後、ステップS103に進む。
(ステップS103)音源同定部214は、算出した音響特徴量xの階層Λに含まれるクラス情報λに対する尤度f(x|λ)を記憶部から読み出す。
音源同定部214は、読み出した尤度f(x|λ)に基づき結合尤度を算出し、結合尤度を最大とするクラス情報λ’を決定する。決定されたクラス情報λ’は、式(5)で表される。
Figure 0005701164
式(5)において、arg...は、...となる変数λを示す。max...は、...の最大値を示す。kは、フレーム時刻tからのフレーム時刻を示す。Nは、予め定められたフレーム数、即ち結合尤度を算出する時間を示す。従って、tはその時間の先頭フレームを示す。その後、ステップS104に進む。
(ステップS104)音源同定部214は、クラス情報λ’が注目する階層Λに含まれるサブクラス情報λであるか否か判断する。音源同定部214は、クラス情報λ’が階層Λに含まれるサブクラス情報λであると判断したとき(ステップS104 Y)、ステップS105に進む。
音源同定部214は、クラス情報λ’が階層Λに含まれるサブクラス情報λでない、つまりルート情報と判断したとき(ステップS104 N)、ステップS106に進む。
(ステップS105)音源同定部214は、クラス情報λ’がルート情報である階層Λ’が存在するか否か判断する。音源同定部214は、クラス情報λ’がルート情報である階層Λ’が存在すると判断したとき(ステップS105 Y)、階層Λ’を注目する階層Λと設定し、ステップS103に進む。
音源同定部214は、クラス情報λ’がルート情報である階層Λ’が存在しないと判断したとき(ステップS105 N)、ステップS106に進む。
(ステップS106)音源同定部214は、クラス情報λ’をフレーム時刻tにおける音源lのクラス情報λと決定する。
図1に戻り、伝達関数記憶部215は、前述のように音源方向ψ毎に収音部11が備える各マイクロホンまでの伝達関数を要素とする伝達関数ベクトルG(ψ)を記憶している。
相関行列生成部216は、音源分離部213から入力された音源lの音響信号s及び第1音源定位部211から入力された音源lの音源方向ψに基づいて、音源l毎に相関行列Vを算出する。
相関行列生成部216は、相関行列Vを生成するために、入力された音源方向ψに対応する伝達関数ベクトルG(ψ)を伝達関数記憶部214から読み出し、読み出した伝達関数ベクトルG(ψ)に基づき相関行列Vを算出する。相関行列生成部216は、相関行列Vを算出するために、例えば式(6)を用いる。
Figure 0005701164
式(6)において、{…}は、…で算出されるベクトルを示す。Sは、音響信号sの周波数スペクトルを示す。即ち、相関行列Vは、音源lから受信したチャネル間のスペクトルの相関を示す。
相関行列生成部216は、算出した音源l毎の相関行列Vを目的音選択部217に出力する。
目的音選択部217は、相関行列生成部216から入力された音源l毎の相関行列Vに基づき、音源同定部214から入力されたクラス情報λ(即ち、音源の種類)毎の相関行列Kλを算出し、算出した相関行列Kλを第2音源定位部218に出力する。
目的音選択部217は、相関行列Kλを算出するために、目的としない音源の種類(非目的音)を示すクラス情報λに対応する音響信号sの相関行列Vlj(1個とは限らない)を全て乗算する。目的音選択部217は、乗算して得られた行列に目的とする種類の種別(目的音)を示すクラス情報に対応する音響信号sの相関行列Vli(1個とは限らない)を全て除算して、目的音毎の相関行列Kλを算出する。即ち、相関行列Kλは、非目的音に対する相関行列Vljの目的音に対する相関行列Vliとの比を表す。
第2音源定位部218は、第1音源定位部211から入力された多チャネル音響信号に基づいて音源毎の位置情報(二次候補)を生成する。ここで、第2音源定位部218は、音源毎の位置情報を生成する際に、目的音選択部217から入力されたクラス情報λ(音源の種類)毎の相関行列Kλを用いて、クラス情報λ毎に位置情報を算出する。
第2音源定位部218は、位置情報を算出するために、例えばGEVD−MUSIC法を用いる。ここで、第2音源定位部218は、入力された多チャネル音響信号に基づく相関行列Rを算出する。相関行列は、第iチャネルの音響信号と第jチャネルの音響信号の相関値rijを要素とするM行M列の行列である。
次に、第2音源定位部218は、算出した相関行列Rと取得した相関行列Kλに基づいてクラス情報λ毎に一般化固有値展開を行って、固有値δ(1≦m≦M)と固有ベクトルeを算出する。相関行列R、相関行列Kλ、固有値δ、固有ベクトルeは、式(7)に示される関係がある。
Figure 0005701164
式(7)において、mの順序は、固有値δの降順である。つまり、mが小さい固有ベクトルeほど、入力された音響信号に寄与する度合いが高いことを示す。
第2音源定位部218は、算出した固有ベクトルe、及び伝達関数記憶部215から読み出した各音源方向ψに対応するM列の伝達関数ベクトルG(ψ)に基づき、指標値として例えば式(1)を用いて空間スペクトルP(ψ)を算出する。但し、第2音源定位部218は、式(1)に固有ベクトルεの代わりに、算出した固有ベクトルeを代入し、伝達関数ベクトルv(ψ)の代わりに、読み出した伝達関数ベクトルG(ψ)を代入する。
第2音源定位部218は、空間スペクトルP(ψ)が最も大きい音源方向ψを選択し、選択した音源方向ψをクラス情報λ毎の位置情報と定める。
第2音源定位部218は、算出した音源方向ψをクラス情報λに対応した音源毎の位置情報、即ち情報源毎の第1の位置情報として情報統合部31に出力する。
第2情報検出部12は、第2のモダリティの情報を検出し、検出した第2のモダリティの情報を第2位置情報推定部22に出力する。第2のモダリティの情報は、例えば、画像信号である。
第2情報検出部12は、例えば、熱画像センサ部121及び距離画像センサ部122を含んで構成される。熱画像センサ部121は、物体の特徴量として物体の温度を表す熱画像情報を検出する。熱画像情報は、被写体である物体表面の温度を画素ごとの画素値として示す情報である。検出対象が人体の場合には、その個体差が比較的少なく、しばしば頭部が露出しているため検知に好都合である。また、熱画像情報は、照度の変化に影響されない。熱画像センサ部121は、第2位置情報推定部22に第2のモダリティの一部として出力する。
距離画像センサ部122は、被写体である物体表面までの距離を画素値として示す距離画像情報を検出する。距離画像センサ部122は、距離測定法の一種であるToF(Time of Flight;飛行時間)法を用いて被写体までの距離を測定するであるToFカメラである。この距離画像情報も、照度の変化に影響されない。距離画像センサ部122は、第2位置情報推定部22に第2のモダリティのその他の部分として出力する。
第2位置情報推定部22は、第2情報検出部12から入力された第2のモダリティの情報に基づき情報源毎の第2の位置情報を推定する。本実施形態では、例えば、第2のモダリティが視覚である場合には、第2のモダリティの情報とは画像信号である。第2位置情報推定部22は、推定した情報源(クラスタ)毎の第2の位置情報を情報統合部31に出力する。
以下、第2位置情報推定部22が第2の位置情報を推定するために被写体を表す画像の領域であるクラスタを定めて、定めたクラスタの代表位置を算出する例について説明する。
これにより、照度変化の影響を最小限にして被写体となる物体毎の第2の位置情報を推定することができる。但し、本実施形態に係る位置検出装置2は、これに限らず他の手法を用いて第2の位置情報を推定してもよい。
第2位置情報推定部22は、第1二値化部2211、第2二値化部2212、第1クラスタリング部2221、第2クラスタリング部2222、第1不要クラスタ除去部2231、第2不要クラスタ除去部2232、マッピング部225、第3クラスタリング部226及び物体定位部227を含んで構成される。
第1二値化部2211は、熱画像センサ部121から入力された熱画像情報を二値化して、二値化熱画像情報を生成する。第1二値化部2211は、生成した二値化熱画像情報を第1クラスタリング部2221及びマッピング部225に出力する。
第1二値化部2211は、熱画像情報を二値化する際、熱画像情報に含まれる画素値が示す温度が、予め定められた温度T1より高く、かつ予め定められた温度T2より低い範囲にある場合、その画素における二値化熱画像情報に含まれる画素値を1と定める。熱画像情報に含まれる画素値が示す温度が、その範囲外にある場合、その画素における二値化熱画像情報に含まれる画素値を0と定める。
この温度範囲は、検出対象物体の表面温度に応じて予め設定した値である。例えば、検出対象物体が人体である場合、温度T1、温度T2は、それぞれ35℃、37℃である。
第2二値化部2212は、距離画像センサ部122から入力された距離画像情報を二値化して、二値化距離画像情報を生成する。第2二値化部2212は、生成した二値化距離画像情報を第2クラスタリング部2222及びマッピング部225に出力する。
第2二値化部2212は、距離画像情報を二値化する際、距離画像情報に含まれる画素値が示す距離が、予め定められた距離d1より長く、かつ予め定められた距離d2より未短い範囲にある場合、その画素における二値化距離画像情報に含まれる画素値を1と定める。距離画像情報に含まれる画素値が示す距離が、その範囲外にある場合、その画素における二値化距離画像情報に含まれる画素値を0と定める。
この距離範囲は、検出対象物体が所在しうる位置に応じて予め設定した値である。例えば、距離画像センサ部122から極端に接近している物体や離れている物体を除外することができる。
なお、第2二値化部2212は、二値化処理を行う前に、距離画像情報に対して背景差分処理を行ってもよい。第2二値化部2212は、予め背景差分画像を記憶した記憶部を備える。第2二値化部2212は、背景差分処理において、距離画像情報に含まれる各画素値と、記憶部から読み出した背景差分画像情報に含まれる対応する画素値を差し引く。
第1クラスタリング部2221は、第1二値化部2211から入力された二値化熱画像情報に対してクラスタリング(例えば階層的クラスタリング)を行って、第1クラスタ情報と第1矩形クラスタ情報を生成する。第1クラスタリング部2221は、生成した第1クラスタ情報と第1矩形クラスタ情報を第1不要クラスタ除去部2231に出力する
第1クラスタリング部2221は、第1クラスタ情報を生成する際、画素値が1である画素(a、b)に対し、予め定めた範囲内の画素であって、画素値が1である画素は、画素(a、b)と同一のクラスタCであると判断する。この範囲とは、例えば、垂直方向の前後Ncls画素以内Ncls、水平方向の前後Ncls画素の範囲(a−Ncls〜a+Ncls、b−Ncls〜b+Ncls)である。Nclsは予め設定された1以上の整数値である。kは、クラスタを識別するインデックスである。従って、クラスタ情報は、各クラスタに画素が属しているか否かを示す属否を表わす情報である。
第1クラスタリング部2221は、クラスタkが属する画素の水平座標aの最大値xhk、最小値xlk、垂直座標bの最大値yhk、最小値ylkを第1矩形クラスタ情報として定める。左上端の座標(xlk、yhk)、右上端の座標(xhk、yhk)、右下端の座標(xhk、ylk)、左下端の座標(xlk、ylk)で囲まれる矩形の領域は、矩形クラスタを示す。
第2クラスタリング部2222は、第2二値化部2212から入力された二値化距離画像情報に対してクラスタリングを行って、第2クラスタ情報と第2矩形クラスタ情報を生成する。第2クラスタリング部2222は、生成したクラスタ情報と矩形クラスタ情報を第2不要クラスタ除去部2232に出力する。
第2クラスタリング部2222が、二値化距離画像情報に対して行うクラスタリング処理は、第1クラスタリング部2221が、二値化熱画像情報に対して行うクラスタリング処理と同様である。
第1不要クラスタ除去部2231は、第1クラスタリング部2221から入力された第1クラスタ情報と第1矩形クラスタ情報のうち不要クラスタを示す情報を除去し、除去されずに残ったと第1矩形クラスタ情報をマッピング部225に出力する。
第1不要クラスタ除去部2231は、第1矩形クラスタ情報が示す矩形クラスタに含まれる画素数(xhk−xlk)(yhk−ylk)が、予め定めた下限値Rminよりも少ない場合、上限値Rmaxよりも多い場合、対応する第1クラスタ情報及び第1矩形クラスタ情報を除去する。これにより、熱画像センサ部121から検出対象物体への距離が長すぎる場合、短すぎる場合、又はノイズである場合に、第1不要クラスタ除去部2231がクラスタと誤判定する可能性を排除できる。
第1不要クラスタ除去部2231は、第1矩形クラスタ情報が示す矩形クラスタが示す縦横比(xhk−xlk)/(yhk−ylk)が、予め定めた下限値γminよりも小さい場合、上限値γmaxよりも大きい場合、対応する第1クラスタ情報及び第1矩形クラスタ情報を除去する。これにより、第1不要クラスタ除去部2231は、検出対象物体の形状として可能性が低い形状のクラスタを誤検出する可能性を排除できる。
第2不要クラスタ除去部2232は、第2クラスタリング部2222から入力された第2クラスタ情報と第2矩形クラスタ情報のうち不要クラスタを示す情報を除去し、除去済の第2矩形クラスタ情報をマッピング部225に出力する。
第2不要クラスタ除去部2232が、第2クラスタ情報と第2矩形クラスタ情報に対して行う処理は、第1不要クラスタ除去部2231が、第1クラスタ情報と第1矩形クラスタ情報に対して行う処理に対して行う処理と同様である。
マッピング部225は、第1二値化部2211から二値化熱画像情報を入力され、第2二値化部2212から二値化距離画像情報を入力され、第1不要クラスタ除去部2231から第1矩形クラスタ情報を入力され、第2不要クラスタ除去部2232から第2矩形クラスタ情報を入力される。
マッピング部225は、第2矩形クラスタ情報に基づいて、二値化熱画像情報を二値化距離画像情報にマッピングする。
マッピング部225は、マッピングした二値化熱画像情報と二値化距離画像情報の論理積を画素ごとにとり、統合二値化距離画像情報を生成する。マッピング部225は生成した統合二値化距離画像情報を第3クラスタリング部226に出力する。
上述の説明では、マッピング部225が、統合二値化距離画像情報を生成するのは、生成した情報が画素毎の距離値に基づく3次元情報であるためである。但し、本実施形態では、これに限られず、マッピング部225が、二値化熱画像情報を生成してもよい。
マッピング部225が行うマッピング処理について図4を用いて説明する。
図4は、本実施形態におけるマッピング処理の一例を示す概念図である。
図4の左側は、二値化熱画像情報に基づく第1クラスタ101を破線で示し、第1矩形クラスタ情報が示す第1矩形領域102を実線で示す。
図4の右側は、二値化距離画像情報に基づく第2クラスタ201を実線で示し、第2矩形クラスタ情報が示す第2矩形領域202を実線で示す。
第1矩形領域102の各頂点から第2矩形領域202の対応する頂点への一点破線は、マッピング部225が、第1矩形クラスタ情報が示す各頂点の座標が第2矩形クラスタ情報が示す各頂点の座標に一致するように、第1クラスタ情報が示す各画素に対応する座標値を変換することを示す。
第2矩形領域202の内部に、この座標変換により二値化熱画像情報に基づく第1クラスタ203を破線で示す。
なお、第2矩形領域202の内部に、後述する第3クラスタリング部226におけるクラスタリング処理によって生成された第3クラスタ情報が示す新たなクラスタ204を太い実線で示す。
図1に戻り、第3クラスタリング部226は、マッピング部225から入力された統合二値化距離画像情報に対してクラスタリングを行い、第3クラスタ情報を生成する。第3クラスタリング部226が統合二値化距離画像情報に対して行うクラスタリング処理は、第2クラスタリング部2222が二値化距離画像情報に対して行うクラスタリング処理と同様であってよい。
第3クラスタリング部226は、生成した第3クラスタ情報を物体定位部227に出力する。
また、第3クラスタリング部226は、生成した第3クラスタ情報に基づいて、第2不要クラスタ除去部2232と同様に不要クラスタ除去処理を行い、残ったクラスタを示す第3クラスタ情報を物体定位部227に出力してもよい。
物体定位部227は、第3クラスタリング部226から入力された第3クラスタ情報と距離画像センサ部122から入力された距離画像情報に基づきクラスタ毎の位置情報を生成する。物体定位部227は、生成したクラスタ毎の位置情報を第2の位置情報として情報統合部31に出力する。
物体定位部227は、位置情報を生成する際、第3クラスタ情報が示す各クラスタに含まれる画素における距離値を平均して距離情報を算出する。この距離値は、距離画像情報に含まれる画素値が示す距離値である。
物体定位部227は、第3クラスタ情報が示す各クラスタに含まれる画素の座標の重心を、算出した距離情報に基づき被写体表面の水平方向及び垂直方向の位置情報を算出する。
物体定位部227は、算出した水平方向、垂直方向の位置情報及び距離値を3次元のクラスタ毎の位置情報とする。
なお、物体定位部227は、算出した位置情報に基づき距離画像センサ部122又は熱画像センサ部121からの方向情報を算出し、これを1次元のクラスタ毎の位置情報としてもよい。
情報統合部31は、第1位置情報推定部21から入力された第1の位置情報と第2位置情報推定部22から入力された第2の位置情報を統合して情報源(例えば、音源、クラスタ)毎の位置情報(推定位置情報)を推定する。情報統合部31は、推定位置情報を位置情報検出装置1の外部に出力する。
情報統合部31は、位置情報を統合するために、例えば粒子フィルタリング法(particle filtering)を用い、情報源毎に与えられた複数の粒子各々に対応する状態変数に基づき入力された位置情報を統合する。各粒子に対応する状態変数は、仮想的な位置情報(仮想位置情報ともいい、以下の説明では、単に位置情報と呼ぶ)と重み係数を含む。ここで、情報統合部31は、情報源毎の位置情報と、複数の粒子からなる粒子群毎に各粒子の状態変数の分布を対応付ける。
次に、情報統合部31が位置情報を統合する処理の概要について説明する。
図5は、本実施形態に係る位置情報統合処理の概要を示す概念図である。
本実施形態に係る位置情報統合処理は、主に情報源対応付け、状態遷移及び再標本化の各過程を含む。これらの過程は、粒子フィルタリング法の一部に基づく処理である。
図5において、上段はI.情報源対応付け、中段はII.状態遷移、下段はIII.再標本化の各過程の概念を示す。各段ともに、横軸は位置を示し、円で示される粒子の分布を表す。円の大きさは、各粒子の重み係数の大きさを表す。
図5の上段は、左側及び中央付近に分布する粒子と、左から右へ順に、入力された位置情報が表す位置A1、A2、B1、及びB2を示す。▲印は、第1の位置情報が表す位置A1、B1を示し、△印は、第2の位置情報が表す位置A2、B2であることを示す。
左側の分布を示す「粒子群A」は、情報統合部31が、その分布を位置A1、位置A2の情報源に対応した粒子群(Particle Group; PG)Aと対応付けられることを表す。粒子群とは、複数の粒子からなる組を指す。情報統合部31は、位置情報と状態変数(この例では位置情報)の分布をもつ粒子群を対応付けることにより、位置情報の検出誤差への耐性を担保することができる。
中央の分布を示す「消滅させる粒子群」は、情報統合部31が、その分布が入力された位置情報が示す位置に対応しないため、消滅させようとする粒子群と定めることを表す。
右側の「粒子を生成させる領域」は、情報統合部31が、入力させた位置情報が示す位置に対応する粒子が存在しないため、この位置の周辺の領域が新たに粒子を生成させる領域であることを表す。このようにして、情報統合部31は粒子群単位で対応する位置情報の有無により、粒子群を消滅又は生成する。
図5の中段は、上段に示す各粒子を予め定めた粒子の状態遷移状態モデルに基づいて遷移させることを表す。各矢印は、情報統合部31が、その起点にある粒子を終点に遷移させることを表す。
図5の下段は、中段に示す粒子のうち予め定めた第1の値よりも重み係数が大きい粒子を分割し、予め定めた第2の値よりも重み係数が小さい粒子を棄却することを示す。終点に×印が示されている破線の矢印は、情報統合部31が、その起点にある粒子を棄却することを示す。太い実線の矢印は、情報統合部31が、その起点にある粒子を分割することを示す。濃い塗りつぶしの円は、分割して新たに生成した粒子を示す。推定位置を示す上向きの矢印は、情報統合部31は、これらの粒子からなる粒子群の位置情報に基づき矢印の終点が示す位置を示す位置情報を生成することを示す。
次に、情報統合部31が行う位置情報統合処理について説明する。
図6は、本実施形態に係る位置情報統合処理を示すフローチャートである。
(ステップS201)情報統合部31は、本処理に係る係数を初期設定する。
情報統合部31は、処理に用いる係数、例えば、本処理の繰り返し回数Nrep、情報源毎の粒子数N、粒子の初期分布の分散σ、第1の位置情報の推定誤差e1ψ、第2の位置情報の推定誤差e2ψ、尤度の閾値KPG、粒子群を消滅させるまでの生存フレーム数(生存期間)L、第1の位置情報に対する重み係数w、第2の位置情報に対する重み係数wを、それぞれ10、1000、5°、5°、5°、0.005、100、0.5、0.5と設定する。本実施形態では、上述の係数値に限らず、他の値を用いてもよい。また、情報統合部31は、粒子群は存在しないものと設定する。その後、ステップS202に進む。
(ステップS202)情報統合部31は、第1の位置情報の入力及び第2の位置情報の入力を継続するか否か判断する。この判断において、情報統合部31は、例えば、現在の処理の繰り返し回数が設定された繰り返し回数に達していないか否か判断する。情報統合部31は、第1の位置情報の入力及び第2の位置情報の入力を継続すると判断したとき(ステップS202 Y)、ステップS203に進む。情報統合部31は、第1の位置情報の入力及び第2の位置情報の入力を継続しないと判断したとき(ステップS202 N)、処理を終了する。
(ステップS203)情報統合部31は、第1位置情報推定部21から第1の位置情報を入力し、第2位置情報推定部22から第2の位置情報を入力する。その後、ステップS204に進む。
(ステップS204)情報統合部31は、入力された第1の位置情報と第2の位置情報と各粒子が属す粒子群との対応付けを行う。そのために、情報統合部31は、次の処理を行う。
情報統合部31は、第1の位置情報が示す情報源(例えば音源)毎の位置情報(例えば、推定方向ψ)と粒子iの位置情報(ψ)に基づいて、例えば式(8)を用いて第1の位置情報による粒子iの尤度L1iを算出する。
Figure 0005701164
式(8)によれば、第1の位置情報が示す情報源の位置情報と粒子iの位置情報の距離が小さいほど尤度L1iが高いことを示す。
情報統合部31は、第2の位置情報が示す情報源(例えばクラスタ)毎の位置情報と粒子iの位置情報(ψ)に基づいて、例えば式(9)を用いて第2の位置情報による粒子iの尤度L2iを算出する。但し、情報統合部31は、尤度L2iを算出する前に、3次元の直交座標で表された第2の位置情報を座標変換して方向ψを算出する。
Figure 0005701164
式(9)によれば、第2の位置情報が示す情報源の位置情報と粒子iの位置情報の距離値が小さいほど尤度L2iが高いことを示す。
情報統合部31は、算出した尤度L1iと尤度L2iを、例えば式(10)を用いて重み付け加算して、尤度Lを算出する。
Figure 0005701164
情報統合部31は、粒子群毎に尤度Lの総和をとり粒子群毎の尤度Lを算出する。即ち、算出した尤度Lは、粒子群毎の第1の位置情報が示す情報源毎の位置情報及び第2の位置情報が示す情報源毎の位置情報との関連性を示す指標値である。
情報統合部31は、算出した尤度Lが閾値KPGと等しいか、又は大きい粒子群が、その入力された位置情報が示す情報源に対応すると判断し、算出した尤度Lが閾値KPGよりも小さい粒子群が、その入力された位置情報が示す情報源に対応しないと判断する。その後、ステップS205に進む。
(ステップS205)情報統合部31は、対応する粒子群が存在しない情報源について、その情報源に対応する粒子群、即ち、その粒子群に属する粒子を生成する。このような場合は、情報源が新たに発生したか、情報源の位置が急激に変化した場合が相当する。
情報統合部31は、1つの粒子群についてN個の粒子を対応する情報源の位置(推定方向)を中心に、各粒子の位置が分布するように生成する。ここで、情報統合部31は、例えば、分散σの正規分布となるように粒子を生成する。粒子を生成するとは、情報統合部31が、粒子の位置情報と重み係数の組を状態変数として生成することを指す。このとき、情報統合部31は、各粒子の重み係数を1/Nと、粒子毎に等しい値であって、合計が1に正規化されるように定める。その後、ステップS206に進む。
(ステップS206)情報統合部31は、粒子群毎に対応する情報源の有無を判断する。情報統合部31は、ある粒子群に対応する情報源がないと判断した場合(ステップS206 N)、ステップS207に進む。その場合、消滅後フレーム数が0よりも大きい値の場合には、情報統合部31は、消滅後フレーム数0と設定する。ここで、消滅後フレーム数とは、初めて対応する情報源がないと判断された時刻から経過したフレーム数(時刻)を指す。情報統合部31は、ある粒子群に対応する情報源があると判断した場合(ステップS206 Y)、ステップS210に進む。
(ステップS207)情報統合部31は、消滅後フレーム数が予め定められた閾値(生存期間)Lより大きいか否かを判断する。情報統合部31は、消滅後フレーム数が予め定められた閾値Lより大きいと判断したとき(ステップS207 Y)、ステップS209に進む。
情報統合部31は、消滅後フレーム数が予め定められた閾値Lより大きくないと判断したとき(ステップS207 N)、ステップS208に進む。
(ステップS208)情報統合部31は、消滅後フレーム数を1増加させる。これにより、消滅後フレーム数がカウントされる。これにより、粒子iに対応する情報源が一時的に消滅しても(例えば、無音区間)、直ちに粒子iが属する粒子群と情報源との対応関係が失われずに済む。その後、ステップS210に進む。
(ステップS209)情報統合部31は、対応する情報源がないと判断した粒子群を消滅させる。ここで、情報統合部31は、その粒子群に属する粒子iに対応する状態変数及び重み係数を削除する。その後、ステップS210に進む。
(ステップS210)情報統合部31は、粒子i毎の位置情報を更新(遷移)する。
ここで、情報統合部31は、例えば、ランダムウォークモデルに基づいて現在のフレームtの位置情報(推定方向)ψ(t)に雑音成分rを加えて次のフレームt+1の位置情報ψ(t+1)に更新する。雑音成分rは、例えば、その分布が、予め設定された平均値(ゼロ、即ち原点)及び分散の正規分布であるガウス雑音である。これにより、情報統合部31は、粒子の分布が時間の経過により次第に拡散する状況を考慮でき、環境の変化に対して頑健に位置情報を推定できる。なお、本実施形態では、情報統合部31は、ランダムウォークモデルに基づく方法に限らず、例えば、過去のフレームの位置情報も考慮した運動方程式を導入して次のフレームの位置情報を算出してもよい。その後、ステップS211に進む。
(ステップS211)情報統合部31は、粒子i毎の重み係数を更新(遷移)する。
ここで、情報統合部31は、例えば、現在のフレームtの重み係数w(t)に尤度L(t)を乗算して次のフレームt+1の重み係数w(t+1)を算出する。これにより、情報統合部31は、入力された位置情報に基づく情報源と粒子iとの関連性、即ち尤度L高いほど重み係数wが大きくなるように重みづけることができる。その後、ステップS212に進む。
(ステップS212)情報統合部31は、粒子iを粒子群毎に再標本化する。
再標本化において、情報統合部31は、例えばSIR(sampling importance resampling)法に基づいて次の処理を行う。
情報統合部31は、粒子i毎の重み係数wを、その粒子群における重み係数の総和で除算して、規格化重み係数pを算出する。情報統合部31は、算出した規格化重み係数pが、予め設定した閾値pthよりも小さい粒子iを消滅させ、算出した規格化重み係数pが、予め設定した閾値pthと等しい、又はより大きい粒子iを維持する。このとき、情報統合部31は、消滅させて粒子数Nを計数する。情報統合部31は、規格化重み係数を新たな重み係数と定める。
情報統合部31は、規格化重み係数pが最も高い粒子からN番目に高い粒子まで、計N個の粒子をそれぞれ分割して新たな粒子を生成する。即ち、情報統合部31は、分割対象となった粒子i毎に対応する位置情報をそのまま維持し重み係数を半減させ、新たな粒子jに対して同一の位置情報と半減した重み係数に対応づける。情報統合部31は、半減した重み係数を新たな重み係数と定める。これにより、粒子群毎の粒子数Nが一定になる。その後、ステップS213に進む。
(ステップS213)情報統合部31は、粒子群毎に再標本化した粒子iの位置情報と重み係数に基づき推定位置情報を算出する。ここで、情報統合部31は、例えば、粒子群毎に粒子iの位置情報を,重み係数wを用いて加重平均して推定位置情報を算出する。
情報統合部31は、推定位置情報を算出する際、加重平均の代わりに、単純平均等、他の方法を用いてもよい。情報統合部31は、算出した推定位置情報を位置推定装置1の外部に出力する。
その後、情報統合部31は処理対象のフレームtを次フレームt+1に進め、ステップS202に進む。
次に、本実施形態にかかる位置検出装置1を動作させて推定された推定位置情報の一例について説明する。
但し、以下に述べる条件下で位置検出装置1を実時間で動作させた。
位置検出装置1は、人型ロボットに装着され、第1情報検出部11と第2情報検出部12はロボットの頭部に配置されている。1名の利用者が、ロボットの右前方−60°から左前方60°の範囲で発話しながら移動する。この方向は、ロボットの前方正面を0°とする方位角であり、正の値は前方正面より左側であること、負の値は前方正面より右側であることを示す。即ち、次に説明する推定位置情報は、その利用者を情報源とする時間経過に伴って変化する方向を示す情報である。
図7は、本実施形態に係る推定位置情報の一例を示す図である。
図7は、最上段から順に(a)参照位置情報、(b)第1位置情報、(c)第2位置情報、(d)本実施形態を示す。いずれも、横軸はフレーム時刻(フレーム番号)を示し、縦軸は位置情報として方向を示す。ここで、1フレームは20msである。
(a)参照位置情報とは、超音波位置測位システムを使用して計測した利用者の方向を表す情報である。即ち、他の手段で推定された方向を評価するための参照情報であり、利用者が発話していない場合でも取得することができる。
図7(a)は、当初は利用者の方向が50°であり、時間経過に伴い利用者は右側に移動することを示す。フレーム時刻2300において方向が−45°となる。その後、利用者は左側に移動し、フレーム時刻3100において方向が−3°となる。その後、利用者は右側に移動し、フレーム時刻4000において方向が−23°となる。その後、利用者は左側に移動し、フレーム時刻4900において方向が18°となる。その後、利用者は右側に移動し、フレーム時刻6000において方向が−40°となる。その後、利用者は右側に移動し、フレーム時刻7000において方向が33°となる。
(b)第1位置情報とは、第1位置情報推定部21が出力する第1の位置情報であって、推定された利用者の方向を示す。
図7(b)は、フレーム時刻0から600まで、1900から2800まで、3800から4200まで、5900から6500までの区間において、方向が示されていないことを示す。この結果は、利用者が発話していない等の原因により、第1の位置情報の推定に失敗している可能性を示す。但し、その他の区間においては、方向は参照位置情報とほぼ同様な値である。
(c)第2位置情報とは、第2位置情報推定部22が出力する第2の位置情報であって、推定された利用者の方向を示す。
図7(c)において、フレーム時刻0から300まで、1000から1600まで、3000から3500まで、4700から5600までの間、方向が示されていない区間である。この方向が示されていない区間は、参照位置情報が極大又は極小値となる区間となる傾向がある。
この結果は、熱画像センタ部121及び距離画像センサ部122の視野角が、利用者が移動する範囲よりも狭いために、利用者が視野角外に移動したときに、第2の位置情報の推定に失敗している可能性を示す。
また、その他の区間において、方向は参照位置情報とほぼ同様な値であるが、短い周期の時間変動が参照位置情報より著しい。この結果は、熱画像センタ部121及び距離画像センサ部122が取得する背景雑音が方向推定に影響を与えることを示す。
(d)本実施形態とは、情報統合部31、即ち位置検出装置1が出力する推定位置情報であって、推定された利用者の方向を示す。
図7(d)が示す方向は、(a)と同様な時間変化を示す。即ち、本実施形態では、(b)において方向が示されていない区間と、(c)において方向が示されていない区間を補完することを示す。
また、図7(d)が示す方向は、(a)、(c)よりも滑らかであり、背景雑音による影響が緩和されていることを示す。これは、情報統合部31が、粒子フィルタリングを用いることにより、誤差を見込むと同時に尤度が高い情報が重視されて、環境の変動に対してロバストに位置情報を推定できることを示す。
このように、本実施形態では、情報源を表す第1の態様の情報に基づいて第1の位置情報を推定し、前記情報源を表す第2の態様の情報に基づいて第2の位置情報を推定し、前記第1の位置情報及び前記第2の位置情報の各々と複数の粒子からなる粒子群を対応付け、対応付けられた粒子群に属する粒子毎の位置情報に基づいて前記情報源の位置情報を算出する。これにより、第1の位置情報と第2の位置情報が補完されてロバストに位置情報を推定することができる。
また、本実施形態では、前記第1の位置情報及び前記第2の位置情報のいずれにも対応しない粒子群を消滅させ、前記第1の位置情報及び前記第2の位置情報に対応する粒子群がない場合、対応する粒子群を生成する。これにより、第1の位置情報及び前記第2の位置情報のいずれにも対応しない粒子群に基づき位置情報を推定することが回避され、第1の位置情報及び前記第2の位置情報に対応する粒子群を必ず具備することで第1の位置情報と第2の位置情報を統合又は補完することができる。
また、本実施形態では、前記第1の位置情報及び前記第2の位置情報の各々と前記粒子の位置情報との距離に基づいて、前記粒子が属する粒子群が対応するか否か判断する。これにより、第1の位置情報と第2の位置情報のいずれからも乖離している粒子群との対応付けを回避することができる。
また、本実施形態では、第1の態様の情報の種別を表すクラス情報を決定し、前記決定されたクラス情報から選択された目的情報に対応する情報源の位置情報を算出する。これにより、注目する情報源の情報の種別を同定し、同定した種別の情報源の位置情報を推定することができる。
また、本実施形態では、前記第1の態様の情報に基づく第1の相関行列に基づいて、前記クラス情報に対応する第2の相関行列を算出し、前記第1の相関行列と前記クラス情報に対応する第2の相関行列に基づいて算出した固有ベクトルと位置情報毎の伝達関数ベクトルを用いて算出した空間スペクトルを最大にする位置情報を前記目的情報に対応する情報源の位置情報として算出する。
これにより、注目する情報源を確実に抽出し、その情報の種別の同定と位置情報の推定を精度よく行うことができる。
なお、上述した実施形態における位置検出装置1の一部、例えば、第1二値化部2211、第2二値化部2212、第1クラスタリング部2221、第2クラスタリング部2222、第1不要クラスタ除去部2231、第2不要クラスタ除去部2232、マッピング部225、第3クラスタリング部226、物体定位部227、第1音源定位部211、音源分離部213、音源同定部214、相関行列生成部216、目的音選択部217、及び第2音源定位部218をコンピュータで実現するようにしても良い。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、位置検出装置1に内蔵されたコンピュータシステムであって、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
また、上述した実施形態における位置検出装置1の一部、または全部を、LSI(Large Scale Integration)等の集積回路として実現しても良い。位置検出装置1の各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化しても良い。また、集積回路化の手法はLSIに限らず専用回路、または汎用プロセッサで実現しても良い。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いても良い。
以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
1…位置検出装置、11…第1情報検出部、21…第1位置情報推定部、
211…第1音源定位部、213…音源分離部、214…音源同定部、
215…伝達関数記憶部、216…相関行列生成部、217…目的音選択部、
218…第2音源定位部
12…第2情報検出部、22…第2位置情報推定部、
2211…第1二値化部、2212…第2二値化部、2221…第1クラスタリング部、
2222…第2クラスタリング部、2231…第1不要クラスタ除去部、
2232…第2不要クラスタ除去部、225…マッピング部、
226…第3クラスタリング部、227…物体定位部227、
31…情報統合部

Claims (6)

  1. 情報源を表す第1の態様の情報に基づいて第1の位置情報を推定する第1位置情報推定部と、
    前記情報源を表す第2の態様の情報に基づいて第2の位置情報を推定する第2位置情報推定部と、
    前記第1の位置情報及び前記第2の位置情報の各々と複数の粒子からなる粒子群を対応付け、対応付けられた粒子群に属する粒子毎の位置情報に基づいて前記情報源の位置情報を算出する情報統合部と
    を備え
    前記第1位置情報推定部は、
    前記第1の態様の情報の種別を表すクラス情報を決定する情報源同定部と、
    前記決定されたクラス情報から選択された目的情報に対応する情報源の位置情報を算出する情報源定位部と
    を備えることを特徴とする位置検出装置。
  2. 前記情報統合部は、
    前記第1の位置情報及び前記第2の位置情報のいずれにも対応しない粒子群を消滅させ、前記第1の位置情報及び前記第2の位置情報に対応する粒子群がない場合、対応する粒子群を生成することを特徴とする請求項1に記載の位置検出装置。
  3. 前記情報統合部は、
    前記第1の位置情報及び前記第2の位置情報の各々と前記粒子の位置情報との距離に基づいて、前記粒子が属する粒子群が対応するか否か判断することを特徴とする請求項1又は2に記載の位置検出装置。
  4. 前記第1の態様の情報に基づく第1の相関行列に基づいて、前記クラス情報に対応する第2の相関行列を算出する目的情報選択部を備え、
    前記情報源定位部は、
    前記第1の相関行列と前記クラス情報に対応する第2の相関行列に基づいて算出した固有ベクトルと位置情報毎の伝達関数ベクトルを用いて算出した空間スペクトルを最大にする位置情報を前記目的情報に対応する情報源の位置情報として算出することを特徴とする請求項に記載の位置検出装置。
  5. 前記第1の態様の情報は音響信号であり、前記第2の態様の情報は画像信号であることを特徴とする請求項1からのいずれか1項に記載の位置検出装置。
  6. 位置検出装置における位置検出方法において、
    前記位置検出装置が、情報源を表す第1の態様の情報に基づいて第1の位置情報を推定する第1の過程と、
    前記位置検出装置が、前記情報源を表す第2の態様の情報に基づいて第2の位置情報を推定する第2の過程と、
    前記位置検出装置が、前記第1の位置情報及び前記第2の位置情報の各々と複数の粒子からなる粒子群を対応付け、対応付けられた粒子群に属する粒子毎の位置情報に基づいて前記情報源の位置情報を算出する第3の過程と
    を有し、
    前記第1の過程は、
    前記位置検出装置が、前記第1の態様の情報の種別を表すクラス情報を決定する情報源同定過程と、
    前記位置検出装置が、前記決定されたクラス情報から選択された目的情報に対応する情報源の位置情報を算出する情報源定位過程と
    を有することを特徴とする位置検出方法。
JP2011138595A 2010-08-17 2011-06-22 位置検出装置及び位置検出方法 Active JP5701164B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US37437410P 2010-08-17 2010-08-17
US61/374,374 2010-08-17

Publications (2)

Publication Number Publication Date
JP2012042454A JP2012042454A (ja) 2012-03-01
JP5701164B2 true JP5701164B2 (ja) 2015-04-15

Family

ID=45898929

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011138595A Active JP5701164B2 (ja) 2010-08-17 2011-06-22 位置検出装置及び位置検出方法

Country Status (2)

Country Link
US (2) US10037357B1 (ja)
JP (1) JP5701164B2 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10037357B1 (en) 2010-08-17 2018-07-31 Google Llc Selecting between global and location-specific search results
JP5997007B2 (ja) * 2012-10-31 2016-09-21 日本電信電話株式会社 音源位置推定装置
US11675795B2 (en) * 2015-05-15 2023-06-13 Yahoo Assets Llc Method and system for ranking search content
CN105070304B (zh) * 2015-08-11 2018-09-04 小米科技有限责任公司 实现对象音频录音的方法及装置、电子设备
CN105513612A (zh) * 2015-12-02 2016-04-20 广东小天才科技有限公司 语言词汇的音频处理方法及装置
US10242074B2 (en) * 2016-02-03 2019-03-26 Facebook, Inc. Search-results interfaces for content-item-specific modules on online social networks
US10628458B2 (en) * 2017-01-31 2020-04-21 Walmart Apollo, Llc Systems and methods for automated recommendations
US11609964B2 (en) 2017-01-31 2023-03-21 Walmart Apollo, Llc Whole page personalization with cyclic dependencies
US11010784B2 (en) 2017-01-31 2021-05-18 Walmart Apollo, Llc Systems and methods for search query refinement
US10554779B2 (en) 2017-01-31 2020-02-04 Walmart Apollo, Llc Systems and methods for webpage personalization
US10592577B2 (en) 2017-01-31 2020-03-17 Walmart Apollo, Llc Systems and methods for updating a webpage
JP6924066B2 (ja) * 2017-04-27 2021-08-25 株式会社デンソーテン レーダ装置および物標検出方法
EP3678385B1 (en) * 2017-08-30 2023-01-04 Panasonic Intellectual Property Management Co., Ltd. Sound pickup device, sound pickup method, and program
US10949224B2 (en) 2019-01-29 2021-03-16 Walmart Apollo Llc Systems and methods for altering a GUI in response to in-session inferences
US10803065B1 (en) * 2019-09-12 2020-10-13 Business Objects Software Ltd Microcubes
JP7189555B2 (ja) * 2019-12-11 2022-12-14 本田技研工業株式会社 音響処理装置、音響処理方法およびプログラム

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4845658A (en) * 1986-12-01 1989-07-04 Massachusetts Institute Of Technology Information method and apparatus using simplex and duplex communications
US5675819A (en) * 1994-06-16 1997-10-07 Xerox Corporation Document information retrieval using global word co-occurrence patterns
US6393415B1 (en) * 1999-03-31 2002-05-21 Verizon Laboratories Inc. Adaptive partitioning techniques in performing query requests and request routing
JP2003524259A (ja) * 2000-02-22 2003-08-12 メタカルタ インコーポレイテッド 情報の空間符号化及び表示
US8346770B2 (en) * 2003-09-22 2013-01-01 Google Inc. Systems and methods for clustering search results
US7353109B2 (en) * 2004-02-05 2008-04-01 Alpine Electronics, Inc. Display method and apparatus for navigation system for performing cluster search of objects
US8341143B1 (en) * 2004-09-02 2012-12-25 A9.Com, Inc. Multi-category searching
US7801899B1 (en) * 2004-10-01 2010-09-21 Google Inc. Mixing items, such as ad targeting keyword suggestions, from heterogeneous sources
US7483881B2 (en) * 2004-12-30 2009-01-27 Google Inc. Determining unambiguous geographic references
US7822751B2 (en) 2005-05-27 2010-10-26 Google Inc. Scoring local search results based on location prominence
US7826965B2 (en) * 2005-06-16 2010-11-02 Yahoo! Inc. Systems and methods for determining a relevance rank for a point of interest
US9183349B2 (en) * 2005-12-16 2015-11-10 Nextbio Sequence-centric scientific information management
WO2007081681A2 (en) * 2006-01-03 2007-07-19 Textdigger, Inc. Search system with query refinement and search method
US7761350B1 (en) * 2006-04-26 2010-07-20 Aol Inc. Biasing of search result clustering to ensure more effective point of interest (POI) targeting
WO2007129731A1 (ja) * 2006-05-10 2007-11-15 Honda Motor Co., Ltd. 音源追跡システム、方法、およびロボット
US7630972B2 (en) * 2007-01-05 2009-12-08 Yahoo! Inc. Clustered search processing
US7966321B2 (en) * 2007-01-17 2011-06-21 Google Inc. Presentation of local results
US8359300B1 (en) * 2007-04-03 2013-01-22 Google Inc. System and method for displaying both localized search results and internet search results
US7917490B2 (en) * 2007-07-09 2011-03-29 Google Inc. Interpreting local search queries
JP2009031951A (ja) * 2007-07-25 2009-02-12 Sony Corp 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
US8892455B2 (en) * 2007-09-28 2014-11-18 Walk Score Management, LLC Systems, techniques, and methods for providing location assessments
US8090714B2 (en) * 2007-11-16 2012-01-03 Iac Search & Media, Inc. User interface and method in a local search system with location identification in a request
US8423536B2 (en) * 2008-08-05 2013-04-16 Yellowpages.Com Llc Systems and methods to sort information related to entities having different locations
US8151205B2 (en) * 2008-09-30 2012-04-03 Nokia Corporation Methods, apparatuses, and computer program products for providing activity coordination information
US20100171763A1 (en) * 2009-01-05 2010-07-08 Apple Inc. Organizing Digital Images Based on Locations of Capture
JP2010165305A (ja) * 2009-01-19 2010-07-29 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
CN102034782A (zh) * 2009-09-30 2011-04-27 万国半导体有限公司 一种用于功率半导体器件的混合合金引线框架
US8433512B1 (en) * 2009-11-12 2013-04-30 Google Inc. Enhanced identification of interesting points-of-interest
CA2721404A1 (en) * 2009-11-17 2011-05-17 Daniel Blais System and method for searching a database
US8611678B2 (en) * 2010-03-25 2013-12-17 Apple Inc. Grouping digital media items based on shared features
US8538973B1 (en) * 2010-04-05 2013-09-17 Google Inc. Directions-based ranking of places returned by local search queries
US8463772B1 (en) * 2010-05-13 2013-06-11 Google Inc. Varied-importance proximity values
US10037357B1 (en) 2010-08-17 2018-07-31 Google Llc Selecting between global and location-specific search results
US20140358971A1 (en) * 2010-10-19 2014-12-04 Google Inc. Techniques for identifying chain businesses and queries
US9098589B1 (en) * 2010-11-23 2015-08-04 Google Inc. Geographic annotation of electronic resources

Also Published As

Publication number Publication date
JP2012042454A (ja) 2012-03-01
US20180336249A1 (en) 2018-11-22
US11461336B2 (en) 2022-10-04
US10037357B1 (en) 2018-07-31

Similar Documents

Publication Publication Date Title
JP5701164B2 (ja) 位置検出装置及び位置検出方法
US10045120B2 (en) Associating audio with three-dimensional objects in videos
JP7158806B2 (ja) オーディオ認識方法、ターゲットオーディオを位置決める方法、それらの装置、およびデバイスとコンピュータプログラム
US9495591B2 (en) Object recognition using multi-modal matching scheme
US9749738B1 (en) Synthesizing audio corresponding to a virtual microphone location
Shih et al. Occupancy estimation using ultrasonic chirps
Aarabi et al. Robust sound localization using multi-source audiovisual information fusion
CN106653041B (zh) 音频信号处理设备、方法和电子设备
JP4912778B2 (ja) 信号源の軌跡をモデル化する方法及びシステム
EP2123116B1 (en) Multi-sensor sound source localization
Checka et al. Multiple person and speaker activity tracking with a particle filter
JP6467736B2 (ja) 音源位置推定装置、音源位置推定方法および音源位置推定プログラム
JP2017044916A (ja) 音源同定装置および音源同定方法
JP7370014B2 (ja) 収音装置、収音方法、及びプログラム
KR20060029043A (ko) 오디오/비디오 센서를 이용한 위치 파악, 추적 및 분리장치와 그 방법
TW201120469A (en) Method, computer readable storage medium and system for localizing acoustic source
JP6543848B2 (ja) 音声処理装置、音声処理方法及びプログラム
JP2014098568A (ja) 音源位置推定装置、音源位置推定方法および音源位置推定プログラム
WO2020116054A1 (ja) 信号処理装置及び信号処理方法
CN109997186B (zh) 一种用于分类声环境的设备和方法
CN112614508A (zh) 音视频结合的定位方法、装置、电子设备以及存储介质
Zhang et al. AcousticFusion: Fusing sound source localization to visual SLAM in dynamic environments
Liu et al. 3D audio-visual speaker tracking with a two-layer particle filter
EP2362238B1 (en) Estimating the distance from a sensor to a sound source
Andra et al. Feasibility evaluation for keyword spotting system using mini microphone array on UAV

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131127

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140627

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140708

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140812

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150203

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150217

R150 Certificate of patent or registration of utility model

Ref document number: 5701164

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150