JP4490076B2 - 物体追跡方法、物体追跡装置、プログラム、および、記録媒体 - Google Patents

物体追跡方法、物体追跡装置、プログラム、および、記録媒体 Download PDF

Info

Publication number
JP4490076B2
JP4490076B2 JP2003380327A JP2003380327A JP4490076B2 JP 4490076 B2 JP4490076 B2 JP 4490076B2 JP 2003380327 A JP2003380327 A JP 2003380327A JP 2003380327 A JP2003380327 A JP 2003380327A JP 4490076 B2 JP4490076 B2 JP 4490076B2
Authority
JP
Japan
Prior art keywords
probability density
density distribution
distribution
information
likelihood
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003380327A
Other languages
English (en)
Other versions
JP2005141687A (ja
Inventor
勝 土田
隆仁 川西
洋 村瀬
茂 高木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2003380327A priority Critical patent/JP4490076B2/ja
Publication of JP2005141687A publication Critical patent/JP2005141687A/ja
Application granted granted Critical
Publication of JP4490076B2 publication Critical patent/JP4490076B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Closed-Circuit Television Systems (AREA)
  • Image Analysis (AREA)

Description

本発明は、雑音、照明変動等の外乱やオクルージョンにより情報の入力に途切れが生じるような状況においても、安定且つ継続的な話者等の追跡を可能にする物体追跡技術に関するものである。
人間とロボット等のエージェント間でのインタラクションや、会議や講義映像の自動撮影、ビデオ監視システム等の実現のためには、安定かつ継続的な話者等の物体追跡が重要である。
安定かつ継続的な物体追跡とは、雑音や照明等の周辺環境が様々に変化する状況においてもある程度の精度を維持した状態で、物体の位置を自動的かつ連続的に把握し続けることを指す。これまでに画像情報や音情報を用いた様々な追跡手法が提案されている。
画像情報を用いた技術では、カルマンフィルタ(例えば、非特許文献1参照。)や逐次モンテカルロ法(例えば、非特許文献2、3参照。)を用いた人物追跡手法や、フレーム間差分法、背景差分法に基づいた人物検出手法が提案されている。
しかし画像情報のみを用いた手法の多くには、オクルージョンが生じた場合には継続的な追跡が困難である。また照明が暗い場合には検出精度が低下するといった問題がある。
音情報を用いた処理としては、CSP法(Cross−Power Spectrum Phase analysis:白色化相互相関法(例えば、非特許文献4参照。))に基づいた音源位置推定手法が用いられることが多い。
この手法は連続音に対しては比較的安定した性能を発揮する。しかし人物(話者)を対象とした場合では通常、語句間や会話間で音の途切れ(無声区間)が生じる。また、周辺雑音が存在する環境においては、無声区間で雑音源を話者と誤認識してしまう場合がある。
前記の課題を克服するため、画像情報と音情報とを統合した様々な物体追跡手法の開発も進められている。その中の一つアプローチとして、追跡対象の位置を確率密度分布で表現し、各情報の観測結果から求めた確率密度分布を積算により統合し、位置情報を得る手法が提案されている(例えば、非特許文献5〜8参照。)。
ここで、背景差分法による人物検出手法、CSP係数加算法による音源検出手法、および、確率密度分布を積演算により画像情報と音情報とを統合する話者検出手法について以下に詳しく説明する。
(背景差分法による人物検出)
背景差分法による人物検出背景差分法は物体の実時間検出における簡便かつ効果的な手法の一つであり、ビデオ監視システム等で用いられている。通常、各時刻での背景画像が既知である状況で用いられるが、最近では照明変化に対しても頑健な手法(例えば、非特許文献9、10参照。)も開発されており、その適用範囲が広がりつつある。
背景差分法では、あらかじめ人物が写っていない背景画像を取得しておく。そして各時刻での入力画像と背景画像を比較し、有意な差が確認された画像上の領域を検出対象領域として抽出する。以下では、時刻tにおける人物の存在確率密度分布Fの求め方を述べる。初めに、背景画像Ibackと時刻tにおける入力画像Itの差分を計算し、2値の背景差分画像It subを作成する。このとき座標(x、y)の画素に注目し、その差分が閾値σ以上の場合には入力画像の画素値を1、それ以外の場合には0とする。
以上の処理を全ての画素について行うことで、背景以外の物体領域を抽出することができる。一般には、背景差分画像のx軸およびy軸方向が、実空間上での方位および高さに相当する。そこで全てのx座標(方位)に関し、縦方向の画素値を全て足し合し、全方位に関して正規化したものを確率密度分布PVとする。
ここでkvは正規化定数である。
(円形マイクロホンアレイによる音源検出)
CSP法(Cross−Power Spectrum Phase analysis:白色化相互相関法)は図14に示すように2本のマイクロホンi、jで受音した信号si(n)、sj(n)よりCSP係数および到達時間差τを推定し、音源の方向φを推定する手法である。
CSP係数、到達時間差および音源の方向は次式のように求められる。
ここで、Ci、j(k)はCSP係数、k、n、τは時間、cは音速、dはマイクロホン間の距離である。DFT[・]およびDFT-1[・]はそれぞれ、離散フーリエ変換および逆変換を表わす。この手法を複数のマイクロホンペアに適用し推定精度を向上させた例の一つに加算CSP法があり、図15に示すマイクロホンを円形状に配置した円形マイクロホンアレイへの適用も行われている(例えば、非特許文献11参照。)。ここでは精度の最も高い直径方向に並んだマイクロホンペアの中で異なった角度を持つペアのCSP係数を加算し、得られた新たなCSP係数(PA)を用いて音源の方位を推定する。
(画像情報と音情報との統合による話者検出)
ここでは、画像情報と音情報との統合による話者検出の従来手法について述べる。時刻tにおいて、画像情報および音情報から得られた確率密度分布をそれぞれPV、PAとした時、話者の存在に関する尤度分布Fは次式のように定義されている。
ここで、F、PV、PAはφの関数であり、Fが最大となる方位φを話者の方向とする。この手法では、雑音源により複数の音源が検出された場合でも話者との区別が可能である。また一時的な照明変動等により画像上での誤検出が増加した場合でも、人物位置の特定が可能である。
T.Zhao,R.Nevatia and Fengjun Lv,"Segmentation and Tracking of Multiple Humans in Complex Situations.",Proc. of CVPR,Vol.2,pp.194−201,2001 M.Isard and A.Blake,"Condensation−conditional density propagation for visual tracking",Int.J.of Computer Vision,29(1),pp5−28,1998 M.Isard and A.Blake,"ICondensation:Unifying Low−Level and High−Level Tracking in a stochastic framework",Proc.of ECCV ,pp.893−908,1998 T.Nishiura,T.Yamada,S.nakamura and K.Shikano,"Localization of Multiple Sound sources Based on a CSP Analysis with a Microphone Array",Proc.of ICASSP,SP−L4−6,pp.1053−1056,2000 N.Nishiura,T.Yamada and S.Nagata"A speaker position detection system using audio−visual information",Proc.of 13th Symposium on Human Interface,pp.469−474,1997(in Japanese) D.N.Zotkin,R.Duraiswami and L.S.Davis,"Joint Audio−Visual Tracking using Particle Filters",EURASIP J.of Applied Signal Process,vol.2002(11),pp.1154−1164,2002 M.J.Beal,H.Attias and N.Jojic,"Audio−Video Sensor Fusion with probabilistic Graphical Models",Proc. of ECCV,pp736−752,2002 S.Spors,R.Rabenstein and N.Strobel,"Joint Audio−Video Object Tracking",Proc.of ICIP,pp.393−396,2001 T.Matsuyama,T.Wada,H.Habe and K.Tanahashi,"Background Subtraction under Varying Illumination",IEICE Trans.D−II,Vol.J84−D−II,No.10,2001,2201−2211(in Japanese) M.Tsuchida,T.Kawanishi,H.Murase and S.Takagi,"BackgroundSubtraction under Changing Illumination",Technical Report of IEICE,PRMU2002−176,pp.43−48,2002(in Japanese) T.Nishiura,M.Nakamura,A.Lee,H.Saruwatari and K.Shikano,"Talker Tracking Display On Autonomous Mobile Robot With A Moving Microphone Array",Proc. of ICAD2002,pp.244−247,2002
しかし、画像処理に背景差分法等を用いた場合、オクルージョン発生時には本来は値を持つべきφの範囲でPV=0となり話者の検出ができない。
また、周辺雑音が存在する環境では、語句間や会話の切れ目で音の途切れが生じると、その間は雑音源を検出するため、画像による結果との不整合性が生じる。
また、確率密度分布の積算を行うと、一方の情報の信頼性が著しく低いもしくは観測されなかった場合には、状態が良い一方の情報のみを用いた時よりも精度が低下してしまう。
例えば、背景差分法を画像情報に適用した場合、オクルージョン発生時には画像上で検出対象が観測されないために、確率密度分布上で本来は値を持つ部分の値がゼロとなり、積算後の尤度分布上でも値がゼロとなってしまう。確率密度分布の積算ではなく、重み付き線形和により各情報を統合し、さらに状況に合わせて各重み係数を動的に変化させることができれば、この問題は解決できる思われる。また、確率密度分布の更新の際に時間情報を用いることも有効であると考えられる。しかしながら従来、重みを動的に変化させながら、画像と音との両者の情報を統合し、物体を追跡する手法はなかった。
本発明は、かかる事情に鑑みなされたもので、その目的は、前記課題を解決できる物体追跡方法、物体追跡装置、物体追跡システム、プログラム、および、記録媒体を提供することにある。
そこで、前記課題を解決するために請求項1に記載の物体追跡方法は、追跡対象物体に関する複数のモーダル情報から物体位置の確率密度分布を各々算出し、それらの重み付き線形和から物体の位置情報を得る物体追跡方法において、各モーダルの確率密度分布の最大値を基に比例配分させて重みを決めて、該決めた重みの線形和による確率密度分布を統合して得られる尤度分布から物体の位置情報を得ることを特徴とする。
また、請求項2に記載の物体追跡方法は、請求項1において、観測結果から得た尤度分布と前時刻の尤度分布の重み付き線形和で現時刻の尤度分布を決めることを特徴とする。
また、請求項3に記載の物体追跡方法は、請求項1または2において、前記確率密度分布を得る際に、観測結果から得た確率密度分布と前時刻の確率密度分布とを重み付き線形和として統合して現時刻の確率密度分布を得ることを特徴とする。
また、請求項4に記載の物体追跡方法は、請求項1〜3のいずれかにおいて、入力装置から複数のモーダル情報を取得する情報取得工程と、前記複数のモーダル情報から確率密度分布を各々算出する確率密度分布推定工程と、前記複数の確率密度分布を重み付き線形和として統合して尤度分布を算出する尤度分布推定工程と、前記尤度分布から追跡対象物体の位置を算出する位置検出工程と、前記追跡対象物体の位置を結果表示モニタに表示する検出結果表示工程と、を備えたことを特徴とする。
また、請求項5に記載の物体追跡装置は、追跡対象物体に関する複数のモーダル情報から物体位置の確率密度分布を各々算出する手段と、各モーダルの確率密度分布の最大値を基に比例配分させて重みを決める手段と、前記決めた重みの線形和による確率密度分布を統合して得られる尤度分布から物体の位置情報を得る手段と、を有することを特徴とする。
また、請求項6に記載の物体追跡装置は、請求項5において、観測結果から得た尤度分布と前時刻の尤度分布の重み付き線形和で現時刻の尤度分布を決めることを特徴とする。
また、請求項7に記載の物体追跡装置は、請求項5または6において、前記確率密度分布を得る際に、観測結果から得た確率密度分布と前時刻の確率密度分布とを重み付き線形和として統合して現時刻の確率密度分布を得ることを特徴とする。
また、請求項8に記載の物体追跡装置は、請求項5〜7において、入力装置から複数のモーダル情報を取得する情報取得手段と、前記複数のモーダル情報から確率密度分布を各々算出する確率密度分布推定手段と、前記複数の確率密度分布を重み付き線形和として統合して尤度分布を算出する尤度分布推定手段と、前記尤度分布から追跡対象物体の位置を算出する位置検出手段と、前記追跡対象物体の位置を結果表示モニタに表示する検出結果表示手段と、を備えたことを特徴とする。
また、請求項9に記載のプログラムは、請求項1ないし4のいずれか1項に記載の物体追跡方法を、コンピュータに実行させるためのプログラムを特徴とする。
また、請求項10に記載の記録媒体は、請求項9に記載のプログラムを記録した、コンピュータ読み取り可能な記録媒体を特徴とする。
ここでいう各確率密度分布の最大値を基に比例配分させて重みを決めるとは、例えば確率密度分布の最大値が大きいモーダル情報ほど信頼性が高いとみなし、その確率密度分布に重みをおくことである。
また、ここでいう観測結果から得た尤度分布とは、例えば数式5に示すFがあり、また、前時刻の尤度分布とは、例えば数式7に示すFt-1(φ)がある。
また、ここでいう観測結果から得た確率密度分布とは、例えば数式8に示すPVがあり、また、前時刻の確率密度分布とは、例えば数式8に示すPt-1 V(φ)がある。
また、入力装置から複数のモーダル情報を取得するとは、複数の入力装置から複数のモーダル情報を得てもよいし、一台の入力装置から複数のモーダル情報を得るようにしてもよい。
前記のとおり、重み係数を自動的に変化させた場合には、いずれかのモーダル情報が途切れた場合であっても、有効な情報のみを用いた継続的な物体追跡が可能である。
また、確率密度分布を線形和として統合する場合には、従来の積算による統合では不可能であった、利用する情報の重み付け(適応的な選択)が可能となる。
また、全ての情報が信用性がなく使えないような場合でも、過去の尤度分布等を利用することで、雑音や画像の誤検出結果の影響を抑制することができる。
また、物体追跡において、音情報のみを用いた場合であっても、雑音に対する頑健さが向上し、短時間であれば音の途切れが生じても、雑音源を追跡対象物体として誤認識しない。
本発明によれば、雑音や照明変動等の外乱やオクルージョンが生じる状況においても、安定で継続的な追跡対象物体の追跡を行うことができる。
また、アルゴリズムが簡単なため計算コストの増加を抑制できる。
本発明における実施の形態は、画像情報と音情報との統合と、過去の情報を用いた分布の更新とにより構成される。以下に、画像情報および音情報から算出した確率密度分布(PV、PA)の重み付き線形和として統合し、各重み係数を状況に合わせて動的に変化させる手法について説明する。
さらに、ある時刻における確率密度分布と尤度分布とを、その時刻での観測結果から算出された分布と過去の分布の重み付き線形和として更新する手法について説明する。この手法は、過去の情報を一定時間保持していることから、一時的かつ突発的な観測結果の乱れに対して頑健であり、また各時間の情報が積算されるため、推定結果のS/Nが向上するといった利点を持つ。
(画像処理と音情報との統合)
時刻tにおける尤度分布FをPVもしくはPt v(φ)(下記の数式8により定義)並びにPAもしくはPt A(φ)(下記の数式9により定義)の重み付き線形和として次式のように定義する。
1は変数で、1≧k1(t)≧0の範囲で各情報の状態に応じて変化する。ここで、k1(t)の求め方を以下に説明する。
まず、画像情報から話者の特定が困難な状況について考える。照明変動により一時的に背景の様子が変化した場合には背景の一部が人物として誤検出され、その結果Pt v(φ)の分散が大きく、最大値は小さくなる。そして照明変動がおさまり誤検出が減少すると、最大値は大きくなる。また異なる状況を考えると、図1に示すように室内にいる人数が多いほどPt v(φ)の最大値は小さくなる。すなわち、画像情報から人物の方向を特定することが困難な状況では、Pt v(φ)の最大値が小さくなる。同様に、雑音等の影響により音情報から音源方向を特定することが困難な状況では、Pt A(φ)の最大値が小さくなる。したがって、Pt v(φ)およびPt A(φ)の最大値に注目することで、各情報の信頼性を推測することができる。そこで、k1(t)を次式のように定義する。
これにより、確率密度分布の最大値が大きい入力情報ほど信頼性が高いとみなされ、その情報に重みをおいた処理を行うことができる。例えば、画像中に複数の人物が存在する場合には画像の信頼性が低下する(話者の候補が複数ある)ため、画像の重み係数が小さくなる。また、複数の音源(雑音を含む)がある場合には、音の確率密度分布の分散が大きくなり、音の重み係数が小さくなる。
なお、逐次モンテカルロ法やカマンフィルタ等、従来物体の追跡に用いられてきた方法を重み係数の追跡に適用することも可能である。また、逐次モンテカルロ法やカマンフィルタ等と前記方法とを組み合わせて、互いの結果を用いて各変数を補正してもよい。
(時間情報を用いた尤度分布と確率密度分布の更新)
(1)尤度分布の更新
ある時刻tにおける尤度分布Ft(φ)を、時刻t−1における尤度分布Ft-1(φ)と、時刻tにおける観測結果から求めた尤度分布Fを用いて次式のように定義する。なおφは方位を表わす。
ここで、k2は定数である。これによりFが値をもたなかった場合でも、過去の尤度分布Ft-1(φ)が保持されているため、Ft(φ)は値を持ち続ける。これは、時間的に尤度分布を平滑化することを意味し、突発的なノイズ等の影響よりFに誤差が含まれる場合にはその影響を抑制することができる。また急激な変化には反応がやや遅れるものの、k1(t)およびk2の値を適当に設定することで、対象物体が一時的に検出できない期間での継続的な追跡に応用することができる。
(2)画像情報に関する確率密度分布の更新
背景差分法の結果を用いた人物追跡は、人物の抽出が安定して行われる限りは良好に動作する。しかし、オクルージョンの発生、一時的な照明変動などにより、人物が抽出できない、もしくは抽出精度が低下した場合にはそれが短時間であっても、動作が不安定になる。そこでPVおよび時刻t−1の確率密度分布Pt-1 v(φ)を用いて、時刻tにおける確率密度分布Pt v(φ)を次式のように定義する。
ここで、νは定数である。このνの値を適切に設定することにより、オクルージョンや照明変動による画像情報の信頼性の低下が短時間である場合には、以前の時刻の推定結果に基づき継続的な追跡が可能である。
(3)音情報に関する確率密度分布の更新
各マイクロホンからの出力信号の処理では、既存技術である加算CSP法を適用し、加算後のCSP係数を用いて話者位置の確率密度分布Pt A(φ)を用いて、話者の追跡を行う。周辺雑音が存在する環境において話者の追跡を行う場合、語句間や会話の切れ目の音が途切れる区間において雑音の影響を受けPt A(φ)が不連続に変化し、安定した追跡が困難である。Pt A(φ)を時間の経過とともに滑らかかつ連続的に変化するように定義できれば、より安定した話者の追跡が可能になる。そこで、Pt A(φ)を以下のように定義する。
時刻tにおいて観測された音信号値から求められた、加算後の360度分のCSP係数をパワーで正規化したものをPAとする。そして確率密度分布Pt A(φ)を、PAおよび時刻t−1における確率密度分布Pt-1 A(φ)を用いて次式のように表わす。
ここで、aは定数である。このaの値を適切に設定することにより、声の途切れや周辺雑音の増大等による音情報の信頼性の低下が短時間である場合には、以前の時刻の推定結果に基づき継続的な追跡が可能である。
(物体追跡システムの構成)
ここで、前記方法を実行できる物体追跡システムの構成の一例について図面を用いて以下に説明する。
図2は、本発明の物体追跡システムの構成図の一例である。図2において、入力装置22(1)…(N)としてカメラとマイクロホンアレイとを用いているが、入力装置の種類(モーダル数)はこの2つに限定されるものではない。これらの入力装置22(1)…(N)は物体追跡装置21に接続されており、入力装置22(1)…(N)が取得した画像、音等の情報は物体追跡装置21に送信される。そして送信された情報は物体追跡装置21で処理され、その結果が結果表示モニタ23に表示される。なお、モニタに表示する他にプリンタ等によるハードコピー出力を行ってもよい。
ここで図3により物体追跡装置21の構成について説明する。図3に示すように物体追跡装置21は情報取得部31、確率密度分布推定部32、尤度分布推定部33、位置検出部34、および、検出結果表示部35から構成される。
ここで各構成部について説明する。情報取得部31は図4に示すように入力情報規格化処理部41(1)…(N)、および入力装置特性蓄積部42(1)…(N)から構成される。まず、入力情報規格化処理部41(1)…(N)が入力装置から画像情報や音情報の受信を行い、そして入力装置特性蓄積部42(1)…(N)に蓄積された情報を参照してそれぞれの装置の特性にあわせた補正処理を行って規格化データを得、この規格化データを確率密度分布推定部32に送信する。
確率密度分布推定部32は図5に示すように確率密度分布算出部51(1)…(N)、重み係数決定部52(1)…(N)、確率密度分布統合部53(1)…(N)、および確率密度分布蓄積部54(1)…(N)から構成される。まず、確率密度分布算出部51(1)…(N)が情報取得部31から規格化データを受信し、このデータから確率密度分布を算出する。そして重み係数決定部52(1)…(N)が前記a、ν等の重み係数を外乱等の状況に応じて決定する。そして確率密度分布蓄積部54(1)…(N)に記録されている前時刻の確率密度分布と前記算出した確率密度分布とを重み付き線形和として統合し、これを確率密度分布蓄積部54(1)…(N)に記録し確率密度分布統合部53(1)…(N)が確率密度分布を尤度分布推定部33に送信する。
尤度分布推定部33は図6に示すように重み係数決定部61、尤度分布算出部62、および尤度分布蓄積部63から構成される。まず重み係数決定部61が各情報に関する確率密度分布を確率密度分布推定部32から受信し、外乱等の状況に応じて重み係数を決定する。そして尤度分布算出部62が確率密度分布を重み付き線形和として統合し、追跡対象の尤度分布を得、これを尤度分布蓄積部63に記録する。そして尤度分布算出部62が尤度分布を検出結果表示部35および/または位置検出部34に送信する。
位置検出部34は図7に示すように尤度ピーク検出部71、および位置算出部72から構成される。まず、尤度ピーク検出部71が尤度分布推定部33から尤度分布を受信して尤度分布のピーク部を検出し、位置算出部72がこれに対応する位置情報を算出してこれを検出結果表示部35に送信する。なお、用途によっては尤度ピーク検出部71で誤検出か否かの判断処理を行ってもよい。
検出結果表示部35は受信した検出結果を結果表示モニタ23に表示する。この結果の表示は、尤度分布の表示、位置情報の数値表示、背景差分画像に色づけをしたようなグラフィックス表示、またはこれらの組み合わせ等を表示することができる。
本発明の効果を証明するために、一時的な照明変動や周辺雑音の大きさが変化する環境での話者の追跡に提案手法を適用し、オクルージョンや音声の途切れが生じた場合でも安定かつ継続的な追跡が可能なことを確認するために実験を行った。
画像情報と音情報の取得には、図8のように配置した全方位カメラ81と円形マイクロホンアレイ82を用いた。全方位画像の撮影に用いた全方位カメラ81はデジタルカラーCCDカメラ(SONY製DFW−SX900)と凸面の双曲面ミラー(アコウル製)で構成され、毎秒10frameで画像を取得した。また音情報の取得には、8本のマイクロホンを均等に配置した円形マイクロホンアレイ82を使用し、カメラに同期させながら48kHzのサンプリングレートで音を収集した。なお、各装置の制御および処理はIntel Pentium IV2.4GHzを搭載したPC1台で行い、ほぼリアルタイムで動作する。
実験を行った室内の環境を図9に示す。雑音源としては室内空調の他にオーディオスピーカ91を設置し、そこから音楽を小音量で流した。
実験は3段階に分けて行う。初めに、画像情報のみを用いた人物追跡を行い、オクルージョンもしくは照明変動が生じた場合に対する効果を確認する。次に、周辺雑音がある環境において音情報のみを用いた話者追跡を行い、声の途切れが生じた場合に対する効果を確認する。そして最後に画像情報と音情報とを統合した話者の追跡を行う。なお、背景差分法で用いる背景画像は、予め取得しておくものとする。
(画像情報による人物追跡)
初めに、オクルージョンにより一時的に人物93が背景差分法により検出されない場合について、人物追跡を行った。処理において、前記数式8の定数はν=0.8とした。
図10に実験で使用した入力画像列、背景差分画像および画像から計算により求めたPVとPt v(φ)の一部を示す。左から2列目では人物93がついたて92の後ろを通過しており、オクルージョンが発生している状況で、オクルージョンの発生から6フレーム目画像である。なお、図10(a)(b)の画像は、全方位画像から作成したパノラマ画像の一部である。図10(c)に示したPVを見ると、オクルージョン発生中には値を持っておらず、人物の位置を特定することができない。一方、図10(d)に示したPt v(φ)はオクルージョン発生中でも値を持っており、これにより人物93の位置が提示されいることが確認できる。
図11に人物追跡の結果を示す。フレーム番号40〜65の間でオクルージョンが生じている。(a)は従来法、(b)は本発明による結果を示している。(a)ではオクルージョン発生時に人物が検出できないため、その間は位置情報が得られていない。一方で(b)では、オクルージョン発生直前の値ではあるが、人物の位置情報が得られている。本発明のように過去の情報を保持し続けることにより、オクルージョン発生時でも継続的な人物追跡が可能となる。
(音情報による話者追跡)
周辺雑音がある環境において音情報を用いた話者93追跡を行った。雑音としては室内空調の他、人物と異なる位置に設置したスピーカ91(audio speake、−120(deg.))から音楽を流した。話者93(speaker)にはカッセトプレーヤを携帯してもらい、テープに記録された英会話を再生した。データのサンプリング間隔を0.1秒、数式9の定数をa=0.8として約20秒間処理を行った。
図12にPAおよびPt A(φ)から求めた話者位置の推定結果を示す。PAによる結果(×)では、語句や文の切れ目での音声の途切れにおいて雑音源を検出してしまい、不安定な追跡結果となった。一方で本発明である、Pt A(φ)による結果(◆)では、わずかな区間を除き、話者93を正しく追跡することができた。雑音源を検出してしまった区間を調べたところ、文の終わりや、発言者が切り替わる時の1秒前後の音の途切れにおいてであった。また、推定された話者93の方向を比較すると、本発明の結果(◆)の方が値の分散が少ないことが確認できる。これも、確率密度分布を時間方向に加算平均したことの効果である。
また前記の実験とは別に、音源方向の推定結果をディスプレイに表示し、音源の移動に対する即応性を主観的に確認したが、動きに対する遅延は感じられなかった。
(画像情報と音情報を用いた話者追跡)
画像情報と音情報の両方を用いた話者の追跡を行った。図9に示す環境において、話者93はマイクロホンアレイと全方位カメラとを中心に、ほぼ等速度でその周りを移動した。その際、途中でオクルージョンや比較的長時間(数秒)の声の途切れを発生させ、一方の情報が利用できない状況を作った。なお処理において、定数ν、a、k2はいずれも0.8とした。
図13に話者の追跡結果を示す。(a)、(b)ともに横軸は画像のフレーム番号であり、時間軸に相当する。65〜95フレームにかけて約3秒間オクルージョンが生じており、また155〜185フレームにかけて約3秒間の声の途切れが生じている。(a)は各時刻における話者方向の推定結果で、画像情報と音情報とを用いた追跡結果(本発明の方法)を■で示している。また比較のため、画像情報のみを用いて話者を追跡した結果(背景差分法、図13中の実線)と、音情報のみを用いて追跡した結果(CPS係数法、図13中の◆)を同じグラフ上に示している。(b)は各時刻での重み係数k1の変化の様子を示している。
(b)のk1(t)に注目すると、オクルージョンの発生(65フレーム)と同時に値が小さくなり、終了(95フレーム)と同時にほぼ元の値に戻っていることが確認できる。これは画像情報の信頼性の低下、上昇に伴い、画像情報に関する確率密度分布の重みが自動的に変化したことを意味する。また声の途切れにより音情報の信頼性が低下した時(155フレーム)にも、k1(t)が自動的に変化していることが分かる。また、オクルージョン発生時と声の途切れの発生時とでk1(t)の変化の早さが異なる。これは、オクルージョンの発生中には画像情報での観測値が得られないのに対し、音情報に関しては無声時でも周辺雑音が観測値として得られ、このことにより確率密度分布の変化が緩やかになるためである。
以上の結果から、本発明を用いることで、画像情報や音情報といったモーダル情報の状況に合わせた使い分けが実現し、その結果、オクルージョンもしくは声の途切れが生じた場合でも、安定した話者の追跡が実現できたことを確認した。
なお、照明条件が変化するような状況では、例えば背景差分に用いる背景画像を、予め用意しておいた背景画像の線形和で近似し、その重み係数を動的に変化させることで、物体検出、追跡に用いる背景画像を動的に更新してもよい。
また、本発明は図2〜9に示した装置またはシステムの一部または全部の処理機能をプログラムとして構成してコンピュータを用いて実現することができる。また、コンピュータでその各部の処理機能を実現するためのプログラム、あるいはコンピュータにその処理手順を実行させるためのプログラムを、そのコンピュータが読み取り可能な記録媒体、例えば、フレキシブルディスク、MO、ROM、メモリカード、CD、DVD、リムーバブルディスクなどに記録して、保存したり、提供したりすることが可能であり、また、インターネットのような通信ネットワークを介して配布したりすることが可能である。
背景差分画像から得られた確率密度分布を示す図。 物体追跡システムの構成図。 物体追跡装置の構成図。 情報取得部の構成図。 確率密度分布推定部の構成図。 尤度分布推定部の構成図。 位置検出部の構成図。 実施例で用いる物体追跡システムの構成図。 実施例の実験環境を示す図。 背景差分法による人物追跡の結果を示す図。 人物方向の推定結果を示す図。 音源方向推定の結果を示す図。 画像情報と音情報とを用いた話者の追跡結果を示す図。 CPS法による方位推定を示す図。 円形マイクロホンアレイの構成図。
符号の説明
21…物体追跡装置
22…入力装置
23…結果表示モニタ
31…情報取得部
32…確率密度分布推定部
33…尤度分布推定部
34…位置検出部
35…検出結果表示部
41…入力情報規格化処理部
42…入力装置特性蓄積部
51…確率密度分布算出部
52…重み係数決定部
53…確率密度分布統合部
54…確率密度分布蓄積部
61…重み係数決定部
62…尤度分布算出部
63…尤度分布蓄積部
71…尤度ピーク検出部
72…位置検出部
81…全方位カメラ
82…円形マイクロホンアレイ
91…オーディオスピーカ
92…ついたて
93…話者

Claims (10)

  1. 追跡対象物体に関する複数のモーダル情報から物体位置の確率密度分布を各々算出し、それらの重み付き線形和から物体の位置情報を得る物体追跡方法において、
    各モーダルの確率密度分布の最大値を基に比例配分させて重みを決めて、該決めた重みの線形和による確率密度分布を統合して得られる尤度分布から物体の位置情報を得ることを特徴とする物体追跡方法。
  2. 観測結果から得た尤度分布と前時刻の尤度分布の重み付き線形和で現時刻の尤度分布を決めることを特徴とする請求項1に記載の物体追跡方法。
  3. 前記確率密度分布を得る際に、観測結果から得た確率密度分布と前時刻の確率密度分布とを重み付き線形和として統合して現時刻の確率密度分布を得ることを特徴とする請求項1または2に記載の物体追跡方法。
  4. 入力装置から複数のモーダル情報を取得する情報取得工程と、
    前記複数のモーダル情報から確率密度分布を各々算出する確率密度分布推定工程と、
    前記複数の確率密度分布を重み付き線形和として統合して尤度分布を算出する尤度分布推定工程と、
    前記尤度分布から追跡対象物体の位置を算出する位置検出工程と、
    前記追跡対象物体の位置を結果表示モニタに表示する検出結果表示工程と、を備えたことを特徴とする請求項1ないし3のいずれか1項に記載の物体追跡方法。
  5. 追跡対象物体に関する複数のモーダル情報から物体位置の確率密度分布を各々算出する手段と、
    各モーダルの確率密度分布の最大値を基に比例配分させて重みを決める手段と、
    前記決めた重みの線形和による確率密度分布を統合して得られる尤度分布から物体の位置情報を得る手段と、
    を有することを特徴とする物体追跡装置。
  6. 観測結果から得た尤度分布と前時刻の尤度分布の重み付き線形和で現時刻の尤度分布を決めることを特徴とする請求項5に記載の物体追跡装置。
  7. 前記確率密度分布を得る際に、観測結果から得た確率密度分布と前時刻の確率密度分布とを重み付き線形和として統合して現時刻の確率密度分布を得ることを特徴とする請求項5または6に記載の物体追跡装置。
  8. 入力装置から複数のモーダル情報を取得する情報取得手段と、
    前記複数のモーダル情報から確率密度分布を各々算出する確率密度分布推定手段と、
    前記複数の確率密度分布を重み付き線形和として統合して尤度分布を算出する尤度分布推定手段と、
    前記尤度分布から追跡対象物体の位置を算出する位置検出手段と、
    前記追跡対象物体の位置を結果表示モニタに表示する検出結果表示手段と、を備えたことを特徴とする請求項5ないし7のいずれか1項に記載の物体追跡装置。
  9. 請求項1ないし4のいずれか1項に記載の物体追跡方法を、コンピュータに実行させるためのプログラム。
  10. 請求項9に記載のプログラムを記録した、コンピュータ読み取り可能な記録媒体。
JP2003380327A 2003-11-10 2003-11-10 物体追跡方法、物体追跡装置、プログラム、および、記録媒体 Expired - Fee Related JP4490076B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003380327A JP4490076B2 (ja) 2003-11-10 2003-11-10 物体追跡方法、物体追跡装置、プログラム、および、記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003380327A JP4490076B2 (ja) 2003-11-10 2003-11-10 物体追跡方法、物体追跡装置、プログラム、および、記録媒体

Publications (2)

Publication Number Publication Date
JP2005141687A JP2005141687A (ja) 2005-06-02
JP4490076B2 true JP4490076B2 (ja) 2010-06-23

Family

ID=34690097

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003380327A Expired - Fee Related JP4490076B2 (ja) 2003-11-10 2003-11-10 物体追跡方法、物体追跡装置、プログラム、および、記録媒体

Country Status (1)

Country Link
JP (1) JP4490076B2 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7860162B2 (en) 2005-09-29 2010-12-28 Panasonic Corporation Object tracking method and object tracking apparatus
JP2007257088A (ja) * 2006-03-20 2007-10-04 Univ Of Electro-Communications ロボット装置及びそのコミュニケーション方法
JP4462339B2 (ja) * 2007-12-07 2010-05-12 ソニー株式会社 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
WO2009113265A1 (ja) 2008-03-11 2009-09-17 パナソニック株式会社 タグセンサシステムおよびセンサ装置、ならびに、物体位置推定装置および物体位置推定方法
JP4582174B2 (ja) * 2008-03-28 2010-11-17 ソニー株式会社 追跡処理装置、追跡処理方法、プログラム
JP4730404B2 (ja) * 2008-07-08 2011-07-20 ソニー株式会社 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
CN102105811B (zh) 2009-02-19 2013-10-16 松下电器产业株式会社 物体位置推定系统、物体位置推定装置、物体位置推定方法及物体位置推定程序
JP5258651B2 (ja) * 2009-03-25 2013-08-07 株式会社東芝 物体検出装置、物体検出方法、及び、プログラム
CN102449427A (zh) * 2010-02-19 2012-05-09 松下电器产业株式会社 物体位置修正装置、物体位置修正方法及物体位置修正程序
JP2012149906A (ja) * 2011-01-17 2012-08-09 Mitsubishi Electric Corp 音源位置推定装置、音源位置推定方法および音源位置推定プログラム
JP6075287B2 (ja) * 2011-06-30 2017-02-08 日本電気株式会社 解析エンジン制御装置
WO2013128839A1 (ja) * 2012-03-02 2013-09-06 日本電気株式会社 画像認識システム、画像認識方法およびコンピュータ・プログラム
JP6349448B1 (ja) * 2017-08-23 2018-06-27 株式会社 ディー・エヌ・エー 情報処理装置、情報処理プログラム、及び、情報処理方法
JP7233035B2 (ja) * 2017-08-30 2023-03-06 パナソニックIpマネジメント株式会社 収音装置、収音方法、及びプログラム
JP7124746B2 (ja) * 2019-02-12 2022-08-24 コニカミノルタ株式会社 物体の部分位置推定プログラム、物体の部分位置推定用ニューラルネットワーク構造、物体の部分位置推定方法、および物体の部分位置推定装置
EP4083911A4 (en) * 2019-12-25 2024-01-10 Kyocera Corp INFORMATION PROCESSING DEVICE, DETECTION DEVICE, INFORMATION PROCESSING METHOD, AND INFORMATION PROCESSING SYSTEM

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04304552A (ja) * 1991-04-02 1992-10-27 Nec Corp 確率的規則の学習装置
JPH0785277A (ja) * 1993-09-13 1995-03-31 Nippon Telegr & Teleph Corp <Ntt> データ分類方式
JPH1141577A (ja) * 1997-07-18 1999-02-12 Fujitsu Ltd 話者位置検出装置
JP2000041228A (ja) * 1998-07-22 2000-02-08 Fujitsu Ltd 話者位置検出装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04304552A (ja) * 1991-04-02 1992-10-27 Nec Corp 確率的規則の学習装置
JPH0785277A (ja) * 1993-09-13 1995-03-31 Nippon Telegr & Teleph Corp <Ntt> データ分類方式
JPH1141577A (ja) * 1997-07-18 1999-02-12 Fujitsu Ltd 話者位置検出装置
JP2000041228A (ja) * 1998-07-22 2000-02-08 Fujitsu Ltd 話者位置検出装置

Also Published As

Publication number Publication date
JP2005141687A (ja) 2005-06-02

Similar Documents

Publication Publication Date Title
JP4490076B2 (ja) 物体追跡方法、物体追跡装置、プログラム、および、記録媒体
Zhou et al. Target detection and tracking with heterogeneous sensors
JP6367258B2 (ja) オーディオ処理装置
US9899025B2 (en) Speech recognition system adaptation based on non-acoustic attributes and face selection based on mouth motion using pixel intensities
Donley et al. Easycom: An augmented reality dataset to support algorithms for easy communication in noisy environments
Chen et al. Real-time speaker tracking using particle filter sensor fusion
US8140458B2 (en) Information processing apparatus, information processing method, and computer program
Busso et al. Smart room: Participant and speaker localization and identification
US10582117B1 (en) Automatic camera control in a video conference system
CN107820037B (zh) 音频信号、图像处理的方法、装置和系统
JP2004515982A (ja) テレビ会議及び他の適用においてイベントを予測する方法及び装置
JP2015019371A5 (ja)
KR101508092B1 (ko) 화상 회의를 지원하는 방법 및 시스템
Zhang et al. AcousticFusion: Fusing sound source localization to visual SLAM in dynamic environments
D'Arca et al. Robust indoor speaker recognition in a network of audio and video sensors
US11460927B2 (en) Auto-framing through speech and video localizations
D'Arca et al. Person tracking via audio and video fusion
D'Arca et al. Look who's talking: Detecting the dominant speaker in a cluttered scenario
US11107476B2 (en) Speaker estimation method and speaker estimation device
Cabañas-Molero et al. Multimodal speaker diarization for meetings using volume-evaluated SRP-PHAT and video analysis
Pingali et al. Audio-visual tracking for natural interactivity
Nguyen et al. Selection of the closest sound source for robot auditory attention in multi-source scenarios
Kılıç et al. Audio-visual tracking of a variable number of speakers with a random finite set approach
Kim et al. Auditory and visual integration based localization and tracking of humans in daily-life environments
Wang et al. Real-time automated video and audio capture with multiple cameras and microphones

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060406

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20090521

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090714

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090910

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091006

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100105

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100225

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100323

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100401

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130409

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees