JP4490076B2

JP4490076B2 - 物体追跡方法、物体追跡装置、プログラム、および、記録媒体

Info

Publication number: JP4490076B2
Application number: JP2003380327A
Authority: JP
Inventors: 勝土田; 隆仁川西; 洋村瀬; 茂高木
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2003-11-10
Filing date: 2003-11-10
Publication date: 2010-06-23
Anticipated expiration: 2023-11-10
Also published as: JP2005141687A

Description

本発明は、雑音、照明変動等の外乱やオクルージョンにより情報の入力に途切れが生じるような状況においても、安定且つ継続的な話者等の追跡を可能にする物体追跡技術に関するものである。

人間とロボット等のエージェント間でのインタラクションや、会議や講義映像の自動撮影、ビデオ監視システム等の実現のためには、安定かつ継続的な話者等の物体追跡が重要である。

安定かつ継続的な物体追跡とは、雑音や照明等の周辺環境が様々に変化する状況においてもある程度の精度を維持した状態で、物体の位置を自動的かつ連続的に把握し続けることを指す。これまでに画像情報や音情報を用いた様々な追跡手法が提案されている。

画像情報を用いた技術では、カルマンフィルタ(例えば、非特許文献１参照。)や逐次モンテカルロ法(例えば、非特許文献２、３参照。)を用いた人物追跡手法や、フレーム間差分法、背景差分法に基づいた人物検出手法が提案されている。

しかし画像情報のみを用いた手法の多くには、オクルージョンが生じた場合には継続的な追跡が困難である。また照明が暗い場合には検出精度が低下するといった問題がある。

音情報を用いた処理としては、ＣＳＰ法（Ｃｒｏｓｓ−ＰｏｗｅｒＳｐｅｃｔｒｕｍＰｈａｓｅａｎａｌｙｓｉｓ：白色化相互相関法(例えば、非特許文献４参照。)）に基づいた音源位置推定手法が用いられることが多い。

この手法は連続音に対しては比較的安定した性能を発揮する。しかし人物（話者）を対象とした場合では通常、語句間や会話間で音の途切れ（無声区間）が生じる。また、周辺雑音が存在する環境においては、無声区間で雑音源を話者と誤認識してしまう場合がある。

前記の課題を克服するため、画像情報と音情報とを統合した様々な物体追跡手法の開発も進められている。その中の一つアプローチとして、追跡対象の位置を確率密度分布で表現し、各情報の観測結果から求めた確率密度分布を積算により統合し、位置情報を得る手法が提案されている(例えば、非特許文献５〜８参照。)。

ここで、背景差分法による人物検出手法、ＣＳＰ係数加算法による音源検出手法、および、確率密度分布を積演算により画像情報と音情報とを統合する話者検出手法について以下に詳しく説明する。

(背景差分法による人物検出)
背景差分法による人物検出背景差分法は物体の実時間検出における簡便かつ効果的な手法の一つであり、ビデオ監視システム等で用いられている。通常、各時刻での背景画像が既知である状況で用いられるが、最近では照明変化に対しても頑健な手法(例えば、非特許文献９、１０参照。)も開発されており、その適用範囲が広がりつつある。

背景差分法では、あらかじめ人物が写っていない背景画像を取得しておく。そして各時刻での入力画像と背景画像を比較し、有意な差が確認された画像上の領域を検出対象領域として抽出する。以下では、時刻ｔにおける人物の存在確率密度分布Ｆの求め方を述べる。初めに、背景画像Ｉ^backと時刻ｔにおける入力画像Ｉ_tの差分を計算し、２値の背景差分画像Ｉ_t ^subを作成する。このとき座標（ｘ、ｙ）の画素に注目し、その差分が閾値σ以上の場合には入力画像の画素値を１、それ以外の場合には０とする。

以上の処理を全ての画素について行うことで、背景以外の物体領域を抽出することができる。一般には、背景差分画像のｘ軸およびｙ軸方向が、実空間上での方位および高さに相当する。そこで全てのｘ座標（方位）に関し、縦方向の画素値を全て足し合し、全方位に関して正規化したものを確率密度分布Ｐ^Vとする。

ここでｋ_vは正規化定数である。

(円形マイクロホンアレイによる音源検出)
ＣＳＰ法（Ｃｒｏｓｓ−ＰｏｗｅｒＳｐｅｃｔｒｕｍＰｈａｓｅａｎａｌｙｓｉｓ：白色化相互相関法）は図１４に示すように２本のマイクロホンｉ、ｊで受音した信号ｓ_i(ｎ)、ｓ_j(ｎ)よりＣＳＰ係数および到達時間差τを推定し、音源の方向φを推定する手法である。

ＣＳＰ係数、到達時間差および音源の方向は次式のように求められる。

ここで、Ｃ_i、j（ｋ）はＣＳＰ係数、ｋ、ｎ、τは時間、ｃは音速、ｄはマイクロホン間の距離である。ＤＦＴ[・]およびＤＦＴ^-1[・]はそれぞれ、離散フーリエ変換および逆変換を表わす。この手法を複数のマイクロホンペアに適用し推定精度を向上させた例の一つに加算ＣＳＰ法があり、図１５に示すマイクロホンを円形状に配置した円形マイクロホンアレイへの適用も行われている（例えば、非特許文献１１参照。）。ここでは精度の最も高い直径方向に並んだマイクロホンペアの中で異なった角度を持つペアのＣＳＰ係数を加算し、得られた新たなＣＳＰ係数（Ｐ^A）を用いて音源の方位を推定する。

（画像情報と音情報との統合による話者検出）
ここでは、画像情報と音情報との統合による話者検出の従来手法について述べる。時刻ｔにおいて、画像情報および音情報から得られた確率密度分布をそれぞれＰ^V、Ｐ^Aとした時、話者の存在に関する尤度分布Ｆは次式のように定義されている。

ここで、Ｆ、Ｐ^V、Ｐ^Aはφの関数であり、Ｆが最大となる方位φを話者の方向とする。この手法では、雑音源により複数の音源が検出された場合でも話者との区別が可能である。また一時的な照明変動等により画像上での誤検出が増加した場合でも、人物位置の特定が可能である。
Ｔ．Ｚｈａｏ，Ｒ．ＮｅｖａｔｉａａｎｄＦｅｎｇｊｕｎＬｖ，"ＳｅｇｍｅｎｔａｔｉｏｎａｎｄＴｒａｃｋｉｎｇｏｆＭｕｌｔｉｐｌｅＨｕｍａｎｓｉｎＣｏｍｐｌｅｘＳｉｔｕａｔｉｏｎｓ．"，Ｐｒｏｃ．ｏｆＣＶＰＲ，Ｖｏｌ．２，ｐｐ．１９４−２０１，２００１Ｍ．ＩｓａｒｄａｎｄＡ．Ｂｌａｋｅ，"Ｃｏｎｄｅｎｓａｔｉｏｎ−ｃｏｎｄｉｔｉｏｎａｌｄｅｎｓｉｔｙｐｒｏｐａｇａｔｉｏｎｆｏｒｖｉｓｕａｌｔｒａｃｋｉｎｇ"，Ｉｎｔ．Ｊ．ｏｆＣｏｍｐｕｔｅｒＶｉｓｉｏｎ，２９（１），ｐｐ５−２８，１９９８Ｍ．ＩｓａｒｄａｎｄＡ．Ｂｌａｋｅ，"ＩＣｏｎｄｅｎｓａｔｉｏｎ：ＵｎｉｆｙｉｎｇＬｏｗ−ＬｅｖｅｌａｎｄＨｉｇｈ−ＬｅｖｅｌＴｒａｃｋｉｎｇｉｎａｓｔｏｃｈａｓｔｉｃｆｒａｍｅｗｏｒｋ"，Ｐｒｏｃ．ｏｆＥＣＣＶ，ｐｐ．８９３−９０８，１９９８Ｔ．Ｎｉｓｈｉｕｒａ，Ｔ．Ｙａｍａｄａ，Ｓ．ｎａｋａｍｕｒａａｎｄＫ．Ｓｈｉｋａｎｏ，"ＬｏｃａｌｉｚａｔｉｏｎｏｆＭｕｌｔｉｐｌｅＳｏｕｎｄｓｏｕｒｃｅｓＢａｓｅｄｏｎａＣＳＰＡｎａｌｙｓｉｓｗｉｔｈａＭｉｃｒｏｐｈｏｎｅＡｒｒａｙ"，Ｐｒｏｃ．ｏｆＩＣＡＳＳＰ，ＳＰ−Ｌ４−６，ｐｐ．１０５３−１０５６，２０００Ｎ．Ｎｉｓｈｉｕｒａ，Ｔ．ＹａｍａｄａａｎｄＳ．Ｎａｇａｔａ"Ａｓｐｅａｋｅｒｐｏｓｉｔｉｏｎｄｅｔｅｃｔｉｏｎｓｙｓｔｅｍｕｓｉｎｇａｕｄｉｏ−ｖｉｓｕａｌｉｎｆｏｒｍａｔｉｏｎ"，Ｐｒｏｃ．ｏｆ１３ｔｈＳｙｍｐｏｓｉｕｍｏｎＨｕｍａｎＩｎｔｅｒｆａｃｅ，ｐｐ．４６９−４７４，１９９７（ｉｎＪａｐａｎｅｓｅ）Ｄ．Ｎ．Ｚｏｔｋｉｎ，Ｒ．ＤｕｒａｉｓｗａｍｉａｎｄＬ．Ｓ．Ｄａｖｉｓ，"ＪｏｉｎｔＡｕｄｉｏ−ＶｉｓｕａｌＴｒａｃｋｉｎｇｕｓｉｎｇＰａｒｔｉｃｌｅＦｉｌｔｅｒｓ"，ＥＵＲＡＳＩＰＪ．ｏｆＡｐｐｌｉｅｄＳｉｇｎａｌＰｒｏｃｅｓｓ，ｖｏｌ．２００２（１１），ｐｐ．１１５４−１１６４，２００２Ｍ．Ｊ．Ｂｅａｌ，Ｈ．ＡｔｔｉａｓａｎｄＮ．Ｊｏｊｉｃ，"Ａｕｄｉｏ−ＶｉｄｅｏＳｅｎｓｏｒＦｕｓｉｏｎｗｉｔｈｐｒｏｂａｂｉｌｉｓｔｉｃＧｒａｐｈｉｃａｌＭｏｄｅｌｓ"，Ｐｒｏｃ．ｏｆＥＣＣＶ，ｐｐ７３６−７５２，２００２Ｓ．Ｓｐｏｒｓ，Ｒ．ＲａｂｅｎｓｔｅｉｎａｎｄＮ．Ｓｔｒｏｂｅｌ，"ＪｏｉｎｔＡｕｄｉｏ−ＶｉｄｅｏＯｂｊｅｃｔＴｒａｃｋｉｎｇ"，Ｐｒｏｃ．ｏｆＩＣＩＰ，ｐｐ．３９３−３９６，２００１Ｔ．Ｍａｔｓｕｙａｍａ，Ｔ．Ｗａｄａ，Ｈ．ＨａｂｅａｎｄＫ．Ｔａｎａｈａｓｈｉ，"ＢａｃｋｇｒｏｕｎｄＳｕｂｔｒａｃｔｉｏｎｕｎｄｅｒＶａｒｙｉｎｇＩｌｌｕｍｉｎａｔｉｏｎ"，ＩＥＩＣＥＴｒａｎｓ．Ｄ−ＩＩ，Ｖｏｌ．Ｊ８４−Ｄ−ＩＩ，Ｎｏ．１０，２００１，２２０１−２２１１（ｉｎＪａｐａｎｅｓｅ）Ｍ．Ｔｓｕｃｈｉｄａ，Ｔ．Ｋａｗａｎｉｓｈｉ，Ｈ．ＭｕｒａｓｅａｎｄＳ．Ｔａｋａｇｉ，"ＢａｃｋｇｒｏｕｎｄＳｕｂｔｒａｃｔｉｏｎｕｎｄｅｒＣｈａｎｇｉｎｇＩｌｌｕｍｉｎａｔｉｏｎ"，ＴｅｃｈｎｉｃａｌＲｅｐｏｒｔｏｆＩＥＩＣＥ，ＰＲＭＵ２００２−１７６，ｐｐ．４３−４８，２００２（ｉｎＪａｐａｎｅｓｅ）Ｔ．Ｎｉｓｈｉｕｒａ，Ｍ．Ｎａｋａｍｕｒａ，Ａ．Ｌｅｅ，Ｈ．ＳａｒｕｗａｔａｒｉａｎｄＫ．Ｓｈｉｋａｎｏ，"ＴａｌｋｅｒＴｒａｃｋｉｎｇＤｉｓｐｌａｙＯｎＡｕｔｏｎｏｍｏｕｓＭｏｂｉｌｅＲｏｂｏｔＷｉｔｈＡＭｏｖｉｎｇＭｉｃｒｏｐｈｏｎｅＡｒｒａｙ"，Ｐｒｏｃ．ｏｆＩＣＡＤ２００２，ｐｐ．２４４−２４７，２００２

しかし、画像処理に背景差分法等を用いた場合、オクルージョン発生時には本来は値を持つべきφの範囲でＰ^V＝０となり話者の検出ができない。

また、周辺雑音が存在する環境では、語句間や会話の切れ目で音の途切れが生じると、その間は雑音源を検出するため、画像による結果との不整合性が生じる。

また、確率密度分布の積算を行うと、一方の情報の信頼性が著しく低いもしくは観測されなかった場合には、状態が良い一方の情報のみを用いた時よりも精度が低下してしまう。

例えば、背景差分法を画像情報に適用した場合、オクルージョン発生時には画像上で検出対象が観測されないために、確率密度分布上で本来は値を持つ部分の値がゼロとなり、積算後の尤度分布上でも値がゼロとなってしまう。確率密度分布の積算ではなく、重み付き線形和により各情報を統合し、さらに状況に合わせて各重み係数を動的に変化させることができれば、この問題は解決できる思われる。また、確率密度分布の更新の際に時間情報を用いることも有効であると考えられる。しかしながら従来、重みを動的に変化させながら、画像と音との両者の情報を統合し、物体を追跡する手法はなかった。

本発明は、かかる事情に鑑みなされたもので、その目的は、前記課題を解決できる物体追跡方法、物体追跡装置、物体追跡システム、プログラム、および、記録媒体を提供することにある。

そこで、前記課題を解決するために請求項１に記載の物体追跡方法は、追跡対象物体に関する複数のモーダル情報から物体位置の確率密度分布を各々算出し、それらの重み付き線形和から物体の位置情報を得る物体追跡方法において、各モーダルの確率密度分布の最大値を基に比例配分させて重みを決めて、該決めた重みの線形和による確率密度分布を統合して得られる尤度分布から物体の位置情報を得ることを特徴とする。

また、請求項２に記載の物体追跡方法は、請求項１において、観測結果から得た尤度分布と前時刻の尤度分布の重み付き線形和で現時刻の尤度分布を決めることを特徴とする。

また、請求項３に記載の物体追跡方法は、請求項１または２において、前記確率密度分布を得る際に、観測結果から得た確率密度分布と前時刻の確率密度分布とを重み付き線形和として統合して現時刻の確率密度分布を得ることを特徴とする。

また、請求項４に記載の物体追跡方法は、請求項１〜３のいずれかにおいて、入力装置から複数のモーダル情報を取得する情報取得工程と、前記複数のモーダル情報から確率密度分布を各々算出する確率密度分布推定工程と、前記複数の確率密度分布を重み付き線形和として統合して尤度分布を算出する尤度分布推定工程と、前記尤度分布から追跡対象物体の位置を算出する位置検出工程と、前記追跡対象物体の位置を結果表示モニタに表示する検出結果表示工程と、を備えたことを特徴とする。

また、請求項５に記載の物体追跡装置は、追跡対象物体に関する複数のモーダル情報から物体位置の確率密度分布を各々算出する手段と、各モーダルの確率密度分布の最大値を基に比例配分させて重みを決める手段と、前記決めた重みの線形和による確率密度分布を統合して得られる尤度分布から物体の位置情報を得る手段と、を有することを特徴とする。

また、請求項６に記載の物体追跡装置は、請求項５において、観測結果から得た尤度分布と前時刻の尤度分布の重み付き線形和で現時刻の尤度分布を決めることを特徴とする。

また、請求項７に記載の物体追跡装置は、請求項５または６において、前記確率密度分布を得る際に、観測結果から得た確率密度分布と前時刻の確率密度分布とを重み付き線形和として統合して現時刻の確率密度分布を得ることを特徴とする。

また、請求項８に記載の物体追跡装置は、請求項５〜７において、入力装置から複数のモーダル情報を取得する情報取得手段と、前記複数のモーダル情報から確率密度分布を各々算出する確率密度分布推定手段と、前記複数の確率密度分布を重み付き線形和として統合して尤度分布を算出する尤度分布推定手段と、前記尤度分布から追跡対象物体の位置を算出する位置検出手段と、前記追跡対象物体の位置を結果表示モニタに表示する検出結果表示手段と、を備えたことを特徴とする。

また、請求項９に記載のプログラムは、請求項１ないし４のいずれか１項に記載の物体追跡方法を、コンピュータに実行させるためのプログラムを特徴とする。

また、請求項１０に記載の記録媒体は、請求項９に記載のプログラムを記録した、コンピュータ読み取り可能な記録媒体を特徴とする。

ここでいう各確率密度分布の最大値を基に比例配分させて重みを決めるとは、例えば確率密度分布の最大値が大きいモーダル情報ほど信頼性が高いとみなし、その確率密度分布に重みをおくことである。

また、ここでいう観測結果から得た尤度分布とは、例えば数式５に示すＦがあり、また、前時刻の尤度分布とは、例えば数式７に示すＦ_t-1（φ）がある。

また、ここでいう観測結果から得た確率密度分布とは、例えば数式８に示すＰ^Vがあり、また、前時刻の確率密度分布とは、例えば数式８に示すＰ_t-1 ^V（φ）がある。

また、入力装置から複数のモーダル情報を取得するとは、複数の入力装置から複数のモーダル情報を得てもよいし、一台の入力装置から複数のモーダル情報を得るようにしてもよい。

前記のとおり、重み係数を自動的に変化させた場合には、いずれかのモーダル情報が途切れた場合であっても、有効な情報のみを用いた継続的な物体追跡が可能である。

また、確率密度分布を線形和として統合する場合には、従来の積算による統合では不可能であった、利用する情報の重み付け(適応的な選択)が可能となる。

また、全ての情報が信用性がなく使えないような場合でも、過去の尤度分布等を利用することで、雑音や画像の誤検出結果の影響を抑制することができる。

また、物体追跡において、音情報のみを用いた場合であっても、雑音に対する頑健さが向上し、短時間であれば音の途切れが生じても、雑音源を追跡対象物体として誤認識しない。

本発明によれば、雑音や照明変動等の外乱やオクルージョンが生じる状況においても、安定で継続的な追跡対象物体の追跡を行うことができる。

また、アルゴリズムが簡単なため計算コストの増加を抑制できる。

本発明における実施の形態は、画像情報と音情報との統合と、過去の情報を用いた分布の更新とにより構成される。以下に、画像情報および音情報から算出した確率密度分布(Ｐ^V、Ｐ^A)の重み付き線形和として統合し、各重み係数を状況に合わせて動的に変化させる手法について説明する。

さらに、ある時刻における確率密度分布と尤度分布とを、その時刻での観測結果から算出された分布と過去の分布の重み付き線形和として更新する手法について説明する。この手法は、過去の情報を一定時間保持していることから、一時的かつ突発的な観測結果の乱れに対して頑健であり、また各時間の情報が積算されるため、推定結果のＳ／Ｎが向上するといった利点を持つ。

(画像処理と音情報との統合)
時刻ｔにおける尤度分布ＦをＰ^VもしくはＰ_t ^v（φ）(下記の数式８により定義)並びにＰ^AもしくはＰ_t ^A（φ）(下記の数式９により定義)の重み付き線形和として次式のように定義する。

ｋ₁は変数で、１≧ｋ₁(ｔ)≧０の範囲で各情報の状態に応じて変化する。ここで、ｋ₁(ｔ)の求め方を以下に説明する。

まず、画像情報から話者の特定が困難な状況について考える。照明変動により一時的に背景の様子が変化した場合には背景の一部が人物として誤検出され、その結果Ｐ_t ^v（φ）の分散が大きく、最大値は小さくなる。そして照明変動がおさまり誤検出が減少すると、最大値は大きくなる。また異なる状況を考えると、図１に示すように室内にいる人数が多いほどＰ_t ^v（φ）の最大値は小さくなる。すなわち、画像情報から人物の方向を特定することが困難な状況では、Ｐ_t ^v（φ）の最大値が小さくなる。同様に、雑音等の影響により音情報から音源方向を特定することが困難な状況では、Ｐ_t ^A（φ）の最大値が小さくなる。したがって、Ｐ_t ^v（φ）およびＰ_t ^A（φ）の最大値に注目することで、各情報の信頼性を推測することができる。そこで、ｋ₁(ｔ)を次式のように定義する。

これにより、確率密度分布の最大値が大きい入力情報ほど信頼性が高いとみなされ、その情報に重みをおいた処理を行うことができる。例えば、画像中に複数の人物が存在する場合には画像の信頼性が低下する(話者の候補が複数ある)ため、画像の重み係数が小さくなる。また、複数の音源(雑音を含む)がある場合には、音の確率密度分布の分散が大きくなり、音の重み係数が小さくなる。

なお、逐次モンテカルロ法やカマンフィルタ等、従来物体の追跡に用いられてきた方法を重み係数の追跡に適用することも可能である。また、逐次モンテカルロ法やカマンフィルタ等と前記方法とを組み合わせて、互いの結果を用いて各変数を補正してもよい。

(時間情報を用いた尤度分布と確率密度分布の更新)
(１)尤度分布の更新
ある時刻ｔにおける尤度分布Ｆ_t（φ）を、時刻ｔ−１における尤度分布Ｆ_t-1（φ）と、時刻ｔにおける観測結果から求めた尤度分布Ｆを用いて次式のように定義する。なおφは方位を表わす。

ここで、ｋ₂は定数である。これによりＦが値をもたなかった場合でも、過去の尤度分布Ｆ_t-1（φ）が保持されているため、Ｆ_t（φ）は値を持ち続ける。これは、時間的に尤度分布を平滑化することを意味し、突発的なノイズ等の影響よりＦに誤差が含まれる場合にはその影響を抑制することができる。また急激な変化には反応がやや遅れるものの、ｋ₁(ｔ)およびｋ₂の値を適当に設定することで、対象物体が一時的に検出できない期間での継続的な追跡に応用することができる。

(２)画像情報に関する確率密度分布の更新
背景差分法の結果を用いた人物追跡は、人物の抽出が安定して行われる限りは良好に動作する。しかし、オクルージョンの発生、一時的な照明変動などにより、人物が抽出できない、もしくは抽出精度が低下した場合にはそれが短時間であっても、動作が不安定になる。そこでＰ^Vおよび時刻ｔ−１の確率密度分布Ｐ_t-1 ^v（φ）を用いて、時刻ｔにおける確率密度分布Ｐ_t ^v（φ）を次式のように定義する。

ここで、νは定数である。このνの値を適切に設定することにより、オクルージョンや照明変動による画像情報の信頼性の低下が短時間である場合には、以前の時刻の推定結果に基づき継続的な追跡が可能である。

(３)音情報に関する確率密度分布の更新
各マイクロホンからの出力信号の処理では、既存技術である加算ＣＳＰ法を適用し、加算後のＣＳＰ係数を用いて話者位置の確率密度分布Ｐ_t ^A（φ）を用いて、話者の追跡を行う。周辺雑音が存在する環境において話者の追跡を行う場合、語句間や会話の切れ目の音が途切れる区間において雑音の影響を受けＰ_t ^A（φ）が不連続に変化し、安定した追跡が困難である。Ｐ_t ^A（φ）を時間の経過とともに滑らかかつ連続的に変化するように定義できれば、より安定した話者の追跡が可能になる。そこで、Ｐ_t ^A（φ）を以下のように定義する。

時刻ｔにおいて観測された音信号値から求められた、加算後の３６０度分のＣＳＰ係数をパワーで正規化したものをＰ^Aとする。そして確率密度分布Ｐ_t ^A（φ）を、Ｐ^Aおよび時刻ｔ−１における確率密度分布Ｐ_t-1 ^A（φ）を用いて次式のように表わす。

ここで、ａは定数である。このａの値を適切に設定することにより、声の途切れや周辺雑音の増大等による音情報の信頼性の低下が短時間である場合には、以前の時刻の推定結果に基づき継続的な追跡が可能である。

(物体追跡システムの構成)
ここで、前記方法を実行できる物体追跡システムの構成の一例について図面を用いて以下に説明する。

図２は、本発明の物体追跡システムの構成図の一例である。図２において、入力装置２２(１)…(Ｎ)としてカメラとマイクロホンアレイとを用いているが、入力装置の種類(モーダル数)はこの２つに限定されるものではない。これらの入力装置２２(１)…(Ｎ)は物体追跡装置２１に接続されており、入力装置２２(１)…(Ｎ)が取得した画像、音等の情報は物体追跡装置２１に送信される。そして送信された情報は物体追跡装置２１で処理され、その結果が結果表示モニタ２３に表示される。なお、モニタに表示する他にプリンタ等によるハードコピー出力を行ってもよい。

ここで図３により物体追跡装置２１の構成について説明する。図３に示すように物体追跡装置２１は情報取得部３１、確率密度分布推定部３２、尤度分布推定部３３、位置検出部３４、および、検出結果表示部３５から構成される。

ここで各構成部について説明する。情報取得部３１は図４に示すように入力情報規格化処理部４１(１)…(Ｎ)、および入力装置特性蓄積部４２(１)…(Ｎ)から構成される。まず、入力情報規格化処理部４１(１)…(Ｎ)が入力装置から画像情報や音情報の受信を行い、そして入力装置特性蓄積部４２(１)…(Ｎ)に蓄積された情報を参照してそれぞれの装置の特性にあわせた補正処理を行って規格化データを得、この規格化データを確率密度分布推定部３２に送信する。

確率密度分布推定部３２は図５に示すように確率密度分布算出部５１(１)…(Ｎ)、重み係数決定部５２(１)…(Ｎ)、確率密度分布統合部５３(１)…(Ｎ)、および確率密度分布蓄積部５４(１)…(Ｎ)から構成される。まず、確率密度分布算出部５１(１)…(Ｎ)が情報取得部３１から規格化データを受信し、このデータから確率密度分布を算出する。そして重み係数決定部５２(１)…(Ｎ)が前記a、ν等の重み係数を外乱等の状況に応じて決定する。そして確率密度分布蓄積部５４(１)…(Ｎ)に記録されている前時刻の確率密度分布と前記算出した確率密度分布とを重み付き線形和として統合し、これを確率密度分布蓄積部５４(１)…(Ｎ)に記録し確率密度分布統合部５３(１)…(Ｎ)が確率密度分布を尤度分布推定部３３に送信する。

尤度分布推定部３３は図６に示すように重み係数決定部６１、尤度分布算出部６２、および尤度分布蓄積部６３から構成される。まず重み係数決定部６１が各情報に関する確率密度分布を確率密度分布推定部３２から受信し、外乱等の状況に応じて重み係数を決定する。そして尤度分布算出部６２が確率密度分布を重み付き線形和として統合し、追跡対象の尤度分布を得、これを尤度分布蓄積部６３に記録する。そして尤度分布算出部６２が尤度分布を検出結果表示部３５および／または位置検出部３４に送信する。

位置検出部３４は図７に示すように尤度ピーク検出部７１、および位置算出部７２から構成される。まず、尤度ピーク検出部７１が尤度分布推定部３３から尤度分布を受信して尤度分布のピーク部を検出し、位置算出部７２がこれに対応する位置情報を算出してこれを検出結果表示部３５に送信する。なお、用途によっては尤度ピーク検出部７１で誤検出か否かの判断処理を行ってもよい。

検出結果表示部３５は受信した検出結果を結果表示モニタ２３に表示する。この結果の表示は、尤度分布の表示、位置情報の数値表示、背景差分画像に色づけをしたようなグラフィックス表示、またはこれらの組み合わせ等を表示することができる。

本発明の効果を証明するために、一時的な照明変動や周辺雑音の大きさが変化する環境での話者の追跡に提案手法を適用し、オクルージョンや音声の途切れが生じた場合でも安定かつ継続的な追跡が可能なことを確認するために実験を行った。

画像情報と音情報の取得には、図８のように配置した全方位カメラ８１と円形マイクロホンアレイ８２を用いた。全方位画像の撮影に用いた全方位カメラ８１はデジタルカラーＣＣＤカメラ（ＳＯＮＹ製ＤＦＷ−ＳＸ９００）と凸面の双曲面ミラー（アコウル製）で構成され、毎秒１０ｆｒａｍｅで画像を取得した。また音情報の取得には、８本のマイクロホンを均等に配置した円形マイクロホンアレイ８２を使用し、カメラに同期させながら４８ｋＨｚのサンプリングレートで音を収集した。なお、各装置の制御および処理はＩｎｔｅｌＰｅｎｔｉｕｍＩＶ２．４ＧＨｚを搭載したＰＣ１台で行い、ほぼリアルタイムで動作する。

実験を行った室内の環境を図９に示す。雑音源としては室内空調の他にオーディオスピーカ９１を設置し、そこから音楽を小音量で流した。

実験は３段階に分けて行う。初めに、画像情報のみを用いた人物追跡を行い、オクルージョンもしくは照明変動が生じた場合に対する効果を確認する。次に、周辺雑音がある環境において音情報のみを用いた話者追跡を行い、声の途切れが生じた場合に対する効果を確認する。そして最後に画像情報と音情報とを統合した話者の追跡を行う。なお、背景差分法で用いる背景画像は、予め取得しておくものとする。

(画像情報による人物追跡)
初めに、オクルージョンにより一時的に人物９３が背景差分法により検出されない場合について、人物追跡を行った。処理において、前記数式８の定数はν＝０．８とした。

図１０に実験で使用した入力画像列、背景差分画像および画像から計算により求めたＰ^VとＰ_t ^v（φ）の一部を示す。左から２列目では人物９３がついたて９２の後ろを通過しており、オクルージョンが発生している状況で、オクルージョンの発生から６フレーム目画像である。なお、図１０（ａ）（ｂ）の画像は、全方位画像から作成したパノラマ画像の一部である。図１０（ｃ）に示したＰ^Vを見ると、オクルージョン発生中には値を持っておらず、人物の位置を特定することができない。一方、図１０（ｄ）に示したＰ_t ^v（φ）はオクルージョン発生中でも値を持っており、これにより人物９３の位置が提示されいることが確認できる。

図１１に人物追跡の結果を示す。フレーム番号４０〜６５の間でオクルージョンが生じている。（ａ）は従来法、（ｂ）は本発明による結果を示している。（ａ）ではオクルージョン発生時に人物が検出できないため、その間は位置情報が得られていない。一方で（ｂ）では、オクルージョン発生直前の値ではあるが、人物の位置情報が得られている。本発明のように過去の情報を保持し続けることにより、オクルージョン発生時でも継続的な人物追跡が可能となる。

(音情報による話者追跡)
周辺雑音がある環境において音情報を用いた話者９３追跡を行った。雑音としては室内空調の他、人物と異なる位置に設置したスピーカ９１（ａｕｄｉｏｓｐｅａｋｅ、−１２０(ｄｅｇ．)）から音楽を流した。話者９３（ｓｐｅａｋｅｒ）にはカッセトプレーヤを携帯してもらい、テープに記録された英会話を再生した。データのサンプリング間隔を０．１秒、数式９の定数をａ＝０．８として約２０秒間処理を行った。

図１２にＰ^AおよびＰ_t ^A（φ）から求めた話者位置の推定結果を示す。Ｐ^Aによる結果（×）では、語句や文の切れ目での音声の途切れにおいて雑音源を検出してしまい、不安定な追跡結果となった。一方で本発明である、Ｐ_t ^A（φ）による結果（◆）では、わずかな区間を除き、話者９３を正しく追跡することができた。雑音源を検出してしまった区間を調べたところ、文の終わりや、発言者が切り替わる時の１秒前後の音の途切れにおいてであった。また、推定された話者９３の方向を比較すると、本発明の結果（◆）の方が値の分散が少ないことが確認できる。これも、確率密度分布を時間方向に加算平均したことの効果である。

また前記の実験とは別に、音源方向の推定結果をディスプレイに表示し、音源の移動に対する即応性を主観的に確認したが、動きに対する遅延は感じられなかった。

(画像情報と音情報を用いた話者追跡)
画像情報と音情報の両方を用いた話者の追跡を行った。図９に示す環境において、話者９３はマイクロホンアレイと全方位カメラとを中心に、ほぼ等速度でその周りを移動した。その際、途中でオクルージョンや比較的長時間（数秒）の声の途切れを発生させ、一方の情報が利用できない状況を作った。なお処理において、定数ν、ａ、ｋ₂はいずれも０．８とした。

図１３に話者の追跡結果を示す。（ａ）、（ｂ）ともに横軸は画像のフレーム番号であり、時間軸に相当する。６５〜９５フレームにかけて約３秒間オクルージョンが生じており、また１５５〜１８５フレームにかけて約３秒間の声の途切れが生じている。（ａ）は各時刻における話者方向の推定結果で、画像情報と音情報とを用いた追跡結果（本発明の方法）を■で示している。また比較のため、画像情報のみを用いて話者を追跡した結果（背景差分法、図１３中の実線）と、音情報のみを用いて追跡した結果（ＣＰＳ係数法、図１３中の◆）を同じグラフ上に示している。（ｂ）は各時刻での重み係数ｋ₁の変化の様子を示している。

（ｂ）のｋ₁（ｔ）に注目すると、オクルージョンの発生（６５フレーム）と同時に値が小さくなり、終了（９５フレーム）と同時にほぼ元の値に戻っていることが確認できる。これは画像情報の信頼性の低下、上昇に伴い、画像情報に関する確率密度分布の重みが自動的に変化したことを意味する。また声の途切れにより音情報の信頼性が低下した時（１５５フレーム）にも、ｋ₁（ｔ）が自動的に変化していることが分かる。また、オクルージョン発生時と声の途切れの発生時とでｋ₁（ｔ）の変化の早さが異なる。これは、オクルージョンの発生中には画像情報での観測値が得られないのに対し、音情報に関しては無声時でも周辺雑音が観測値として得られ、このことにより確率密度分布の変化が緩やかになるためである。

以上の結果から、本発明を用いることで、画像情報や音情報といったモーダル情報の状況に合わせた使い分けが実現し、その結果、オクルージョンもしくは声の途切れが生じた場合でも、安定した話者の追跡が実現できたことを確認した。

なお、照明条件が変化するような状況では、例えば背景差分に用いる背景画像を、予め用意しておいた背景画像の線形和で近似し、その重み係数を動的に変化させることで、物体検出、追跡に用いる背景画像を動的に更新してもよい。

また、本発明は図２〜９に示した装置またはシステムの一部または全部の処理機能をプログラムとして構成してコンピュータを用いて実現することができる。また、コンピュータでその各部の処理機能を実現するためのプログラム、あるいはコンピュータにその処理手順を実行させるためのプログラムを、そのコンピュータが読み取り可能な記録媒体、例えば、フレキシブルディスク、ＭＯ、ＲＯＭ、メモリカード、ＣＤ、ＤＶＤ、リムーバブルディスクなどに記録して、保存したり、提供したりすることが可能であり、また、インターネットのような通信ネットワークを介して配布したりすることが可能である。

背景差分画像から得られた確率密度分布を示す図。物体追跡システムの構成図。物体追跡装置の構成図。情報取得部の構成図。確率密度分布推定部の構成図。尤度分布推定部の構成図。位置検出部の構成図。実施例で用いる物体追跡システムの構成図。実施例の実験環境を示す図。背景差分法による人物追跡の結果を示す図。人物方向の推定結果を示す図。音源方向推定の結果を示す図。画像情報と音情報とを用いた話者の追跡結果を示す図。ＣＰＳ法による方位推定を示す図。円形マイクロホンアレイの構成図。

符号の説明

２１…物体追跡装置
２２…入力装置
２３…結果表示モニタ
３１…情報取得部
３２…確率密度分布推定部
３３…尤度分布推定部
３４…位置検出部
３５…検出結果表示部
４１…入力情報規格化処理部
４２…入力装置特性蓄積部
５１…確率密度分布算出部
５２…重み係数決定部
５３…確率密度分布統合部
５４…確率密度分布蓄積部
６１…重み係数決定部
６２…尤度分布算出部
６３…尤度分布蓄積部
７１…尤度ピーク検出部
７２…位置検出部
８１…全方位カメラ
８２…円形マイクロホンアレイ
９１…オーディオスピーカ
９２…ついたて
９３…話者

Claims

追跡対象物体に関する複数のモーダル情報から物体位置の確率密度分布を各々算出し、それらの重み付き線形和から物体の位置情報を得る物体追跡方法において、
各モーダルの確率密度分布の最大値を基に比例配分させて重みを決めて、該決めた重みの線形和による確率密度分布を統合して得られる尤度分布から物体の位置情報を得ることを特徴とする物体追跡方法。
観測結果から得た尤度分布と前時刻の尤度分布の重み付き線形和で現時刻の尤度分布を決めることを特徴とする請求項１に記載の物体追跡方法。
前記確率密度分布を得る際に、観測結果から得た確率密度分布と前時刻の確率密度分布とを重み付き線形和として統合して現時刻の確率密度分布を得ることを特徴とする請求項１または２に記載の物体追跡方法。
入力装置から複数のモーダル情報を取得する情報取得工程と、
前記複数のモーダル情報から確率密度分布を各々算出する確率密度分布推定工程と、
前記複数の確率密度分布を重み付き線形和として統合して尤度分布を算出する尤度分布推定工程と、
前記尤度分布から追跡対象物体の位置を算出する位置検出工程と、
前記追跡対象物体の位置を結果表示モニタに表示する検出結果表示工程と、を備えたことを特徴とする請求項１ないし３のいずれか１項に記載の物体追跡方法。
追跡対象物体に関する複数のモーダル情報から物体位置の確率密度分布を各々算出する手段と、
各モーダルの確率密度分布の最大値を基に比例配分させて重みを決める手段と、
前記決めた重みの線形和による確率密度分布を統合して得られる尤度分布から物体の位置情報を得る手段と、
を有することを特徴とする物体追跡装置。
観測結果から得た尤度分布と前時刻の尤度分布の重み付き線形和で現時刻の尤度分布を決めることを特徴とする請求項５に記載の物体追跡装置。
前記確率密度分布を得る際に、観測結果から得た確率密度分布と前時刻の確率密度分布とを重み付き線形和として統合して現時刻の確率密度分布を得ることを特徴とする請求項５または６に記載の物体追跡装置。
入力装置から複数のモーダル情報を取得する情報取得手段と、
前記複数のモーダル情報から確率密度分布を各々算出する確率密度分布推定手段と、
前記複数の確率密度分布を重み付き線形和として統合して尤度分布を算出する尤度分布推定手段と、
前記尤度分布から追跡対象物体の位置を算出する位置検出手段と、
前記追跡対象物体の位置を結果表示モニタに表示する検出結果表示手段と、を備えたことを特徴とする請求項５ないし７のいずれか１項に記載の物体追跡装置。
請求項１ないし４のいずれか１項に記載の物体追跡方法を、コンピュータに実行させるためのプログラム。
請求項９に記載のプログラムを記録した、コンピュータ読み取り可能な記録媒体。