JP2009049980A

JP2009049980A - モデル化方法及びプログラム

Info

Publication number: JP2009049980A
Application number: JP2008182370A
Authority: JP
Inventors: Francine Chen; チェンフランシーン; Tao Yang; ヤンタオ; Don Kimber; キンバードン
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2007-08-13
Filing date: 2008-07-14
Publication date: 2009-03-05
Also published as: US20090046153A1; US8432449B2

Abstract

【課題】複数台のカメラを横切る人物又は移動被写体の監視（追跡）作業において、隠れマルコフモデルを用いて、特定の個人を追跡するためのカメラ間のハンドオフをモデル化する統合されたモデル化方法及びプログラムを提供する。
【解決手段】特定の個人を追跡するためのカメラ間のハンドオフをモデル化するための統合されたモデル化方法であって、カメラの視野間のオーバーラップ、間隙、及び許容できる移動の表現を生成すると共に、前記表現を隠れマルコフモデルにおける状態としてモデル化するステップと、カメラの視野を通って歩く人間の映像を用いて隠れマルコフモデルを訓練するステップと、追跡すべき人物を選択するステップと、隠れマルコフモデルを用いて最適のカメラ・エリアを識別するステップと、を含む。
【選択図】図１

Description

本発明は、複数台のカメラを横切る人物又は移動被写体の監視（追跡）作業に使用される、カメラハンドオフ用の隠れマルコフモデルについてのモデル化方法及びプログラムに関する。

従来、監視（surveillance）は、配列されたカメラ群を人間が絶えず監視（monitor）することを要求する、非常に労働集約的な（労力を要する）作業であった。興味ある事象の識別を含む、監視作業の自動化方法が開発されつつある。自動化が可能な別の監視作業は、ユーザによって識別された１つの特定の被写体を追跡する作業である。特定の被写体としては、ＶＩＰ（very important people：例えば、重要な訪問者又は疑わしい人物）や、移動被写体（人物）が挙げられる。ＶＩＰ又は移動被写体は、１つのカメラ視野から別のカメラ視野へと移動する。また、ＶＩＰ又は移動被写体は、監視範囲の切れ目に起因して短時間の間、又は監視下にない部屋への移動などに起因してより長時間の間、カメラ視野の外へ移動する場合もある。

ＶＩＰを追跡する作業が、通常の追跡作業と異なる主要な点の中の１つは、複数台のカメラが有るため、カメラ間でハンドオフ（切り替え）を生じることである。被写体を追跡する際のカメラハンドオフ作業には、オクルージョン（遮蔽）、監視範囲の切れ目、及び抽出された特徴における雑音など、この作業に関連した多数の問題が有る。カルマン・フィルター等の最新の方法では、一定時間毎に又は映像フレーム毎に、局所的に最適な分類を行う。

CHANG, T., et al.,"Tracking Multiple People with a Multi-Camera System,"Proc.IEEE Workshop on Multi-Object Tracking, with ICCV'Ol, July 2001. HAN, M., et al.,"An Algorithm for Multiple Object Trajectory Tracking,"Proc. Computer Vision and Pattern Recognition CVPR 2004, Vol.l, pp.864-871. KANG, J., et al.,"Continuous tracking within and across camera streams,"Proc. Computer Vision and Pattern Recognition (CVPR 2003), Vol.1, pp267-272, 18-20 June 2003. KANG, J., et al.,"Multi-Views Tracking Within and Across Uncalibrated Camera Streams,"1st ACM International Workshop Video Surveillance. Berkeley, CA, November 2003. KETTNAKER, V., et al.,"Bayesian Multi-camera Surveillance,"CVPR 1999. KHAN, S., et al.,"Consistent Labeling of Tracked Objects in Multiple Cameras with Overlapping Fields of View,"IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol.25, No.10, pp.l355-1360, October 2003. OLIVER, N., et al.,"A Bayesian Computer Vision System for Modeling Human Interactions,"IEEE Transactions on Pattern Analysis and Machine Intelligence. Vol.22, No.8, pp1-14, August 2000. RABINER, L., "A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition,"Proceedings of the IEEE, Vol.77, No.2, pp.257-286, February, 1989. SIDENBLACH, H., et al., "Stochastic Tracking of 3D Human Figures Using 2D Image Motion,"ECCV, LNCS 1843, pp.702-718, 2000. SIGAL, L., et al., "Tracking Loose-Limbed People,"CVPR 2004, pp.421-428.

複数台のカメラを横切る追跡に関する各種の状況と取り組むために、多数の手法が開発されてきた。これらの手法としては、例えば、カルマン・フィルターを使用した特徴のマッチング、遷移確率に対するマルコフモデル（但し、隠れマルコフモデルではない）によるベイジアン定式化、及びベイジアン・ネットワークの使用などが挙げられる。他の手法では、オーバーラップする複数のカメラの対応する視野を識別する、一組の固定された未校正のカメラに対するモデルを開発することによって、複数台のカメラを横切る被写体を追跡する。別の手法では、地平面への射影（ホモグラフィ：二つのカメラ間の対応する点）を用いて、カメラを登録する。

隠れマルコフモデル（ＨＭＭ：hidden markov model）は、簡単な目標物を追跡するのに使用されてきたもので、この場合、状態系列が、被写体の軌跡（場所、速度、外観、寸法）を示す。また、隠れマルコフモデルは、二つのエージェント（動作主体：agent）の関数である特徴を具体的に生成することによって、二つのエージェントの対話の仕方をモデル化するのにも使用されてきた。また、隠れマルコフモデルは、人間の姿勢を追跡するために利用されてきたが、カメラ視野に関連する状態を利用するためには使用されてこなかった。

本発明の目的は、複数台のカメラを横切る人物又は移動被写体の監視（追跡）作業において、隠れマルコフモデルを用いて、特定の個人を追跡するためのカメラ間のハンドオフをモデル化する統合されたモデル化方法及びプログラムを提供することにある。

本発明は、人物又は移動被写体の追跡時に、複数のカメラ間でハンドオフが行なわれる場合に、レイアウト情報を用いて追跡作業に取り組むための隠れマルコフモデル・フレームワークを提供する。本発明の一実施形態は、特定の個人又は移動被写体を追跡するためのカメラ間のハンドオフをモデル化する統合された方法であって、（１）カメラ視野間のオーバーラップ、間隙、及び許容可能な移動の「表現」を生成するステップにおいて、前記表現は、隠れマルコフモデルにおける「状態」としてモデル化されるステップと、（２）カメラ視野を通って歩く人間の映像を用いて隠れマルコフモデルを訓練するステップと、（３）追跡される人物を選択するステップと、（４）隠れマルコフモデルを用いて最適のカメラ・エリアを識別するステップと、を含む方法である。

即ち、本発明に係る各請求項は以下の通りである。

請求項１に係る発明は、特定の個人を追跡するためのカメラ間のハンドオフをモデル化するための統合されたモデル化方法であって、前記カメラの視野間のオーバーラップ、間隙、及び許容できる移動の表現を生成すると共に、前記表現を隠れマルコフモデルにおける状態としてモデル化するステップと、カメラの視野を通って歩く人間の映像を用いて前記隠れマルコフモデルを訓練するステップと、追跡すべき人物を選択するステップと、前記隠れマルコフモデルを用いて最適のカメラ・エリアを識別するステップと、を含むことを特徴とする。

請求項２に係る発明は、前記隠れマルコフモデルを用いて最適のカメラ・エリア内の最適のカメラを識別するステップをさらに含む、請求項１記載のモデル化方法である。

請求項３に係る発明は、前記カメラ・エリアを表す一組の状態間の最適の経路を決定するのに、ビタビ・デコーディングが用いられる、請求項１記載のモデル化方法である。

請求項４に係る発明は、前記隠れマルコフモデルは、複数台のカメラからの視野間の許容できる移動を指定するための正式のフレームワークを提供する、請求項１記載のモデル化方法である。

請求項５に係る発明は、前記隠れマルコフモデルは、カメラを通して視られるフロア・レイアウトを離散的なエリアとして表し、前記エリアは状態によって表される請求項１記載のモデル化方法である。

請求項６に係る発明は、ホットスポットは、人物が、１つのカメラの視野内に現れ又はそこから消えることができるエリアである、請求項５記載のモデル化方法である。

請求項７に係る発明は、各エリアは、前記ホットスポット、前記ホットスポットによってカバーされないエリア、又は任意のカメラの視野内に存在しないエリアのいずれかである、請求項６記載のモデル化方法である。

請求項８に係る発明は、前記モデルは、複数台のカメラにおける画素ベースの一致点を識別するステップを必要としない、請求項１記載のモデル化方法である。

請求項９に係る発明は、ブラインド領域が、フレームワークにおいて明示的にモデル化されている、請求項１記載のモデル化方法である。

請求項１０に係る発明は、類似性の特徴としての使用は、追跡すべき新しい人物ごとに前記隠れマルコフモデル観測モデルを訓練するステップの必要性を無くすものである、請求項１記載のモデル化方法である。

請求項１１に係る発明は、被写体の輪郭を描く領域と前記カメラ・エリアとのオーバーラップが、前記最適のカメラ・エリアの識別とは無関係に、時間サンプルごとに計算できる、請求項１記載のモデル化方法である。

請求項１２に係る発明は、人物の速度の変化を、前記モデルに組み込むことができる、請求項１記載のモデル化方法である。

請求項１３に係る発明は、各カメラ・エリア・ノードは、２つ又はそれ以上のノードに分割することができる、請求項１記載のモデル化方法である。

請求項１４に係る発明は、遷移確率は、ビタビ・デコーディング中に、前回のノードにおける最適領域からの速度と今回のノードにおける最適領域の速度との類似性の関数として計算される、請求項３記載のモデル化方法である。

請求項１５に係る発明は、特定の個人を追跡するためのカメラ間のハンドオフをモデル化する機能を果たすコンピュータによって実行可能な命令からなるプログラムであって、前記機能は、前記カメラの視野間のオーバーラップ、間隙、及び許容できる移動の表現を生成すると共に、前記表現を隠れマルコフモデルにおける状態としてモデル化するステップと、カメラの視野を通って歩く人間の映像を用いて前記隠れマルコフモデルを訓練するステップと、追跡すべき重要人物を選択するステップと、前記隠れマルコフモデルを用いて最適のカメラ・エリアを識別するステップと、前記隠れマルコフモデルを用いて前記カメラ・エリア内の前記最適のカメラを識別するステップと、を含むことを特徴とするプログラムである。

請求項１６に係る発明は、前記カメラ・エリアを表す一組の状態間の最適の経路を決定するのに、ビタビ・デコーディングが用いられる、請求項１５記載のプログラムである。

請求項１７に係る発明は、前記隠れマルコフモデルは、複数台のカメラからの視野間の許容できる移動を指定するための正式のフレームワークを提供する、請求項１５記載のプログラムである。

請求項１８に係る発明は、前記隠れマルコフモデルは、カメラを通して視られるフロア・レイアウトを離散的なエリアとして表し、前記エリアは状態によって表される請求項１５記載のプログラムである。

請求項１９に係る発明は、各エリアは、人物が、１つのカメラの視野内に現れ又はそれから消えることができるホットスポット、前記ホットスポットによってカバーされないエリア、又は任意のカメラの視野内に存在しないエリアのいずれかである、請求項１５記載のプログラムである。

請求項２０に係る発明は、遷移確率は、ビタビ・デコーディング中に、前回のノードにおける最適領域からの速度と今回のノードにおける最適領域の速度との類似性の関数として計算される、請求項１６記載のプログラムである。

請求項２１に係る発明は、ブラインド領域が、フレームワークにおいて明示的にモデル化されている、請求項１５記載のプログラムである。

以上説明したように本発明によれば、複数台のカメラを横切る人物又は移動被写体の監視（追跡）作業において、隠れマルコフモデルを用いて、特定の個人を追跡するためのカメラ間のハンドオフをモデル化する統合されたモデル化方法及びプログラムを提供することができる、という効果がある。

以下、図面を参照して本発明の好適な実施形態を詳細に説明する。

本発明の実施形態では、人物又は移動被写体の追跡時、即ち、ＶＩＰを追跡する時に、複数のカメラ間でハンドオフが行なわれる場合に、レイアウト情報を用いて追跡作業に取り組むために、隠れマルコフモデル（ＨＭＭ：hidden Markov model）・フレームワークを利用する。前記レイアウト情報は、フロア・レイアウト及び各カメラから得られる視野の調査から取得される。

「ホットスポット（Hotspots）」は、被写体が１つのカメラ視野から別のカメラ視野に移動し、又は被写体が監視下にないエリア（例えば、部屋）に消えることがある「カメラ視野内のエリア」に対応し、隠れマルコフモデルの「状態」に対応している。本実施の形態に係る隠れマルコフモデルは、ホットスポット同士の関係を指定し、同時に、カメラ視野の異なる部分で予想される「特徴の値」及び「特徴の変化量」をモデル化するための、フレームワークを提供する。加えて、局所的な差異が、遷移確率において処理される。

本発明では、各カメラにおける追跡が、この技術分野で既知の多数の単一カメラによる追跡法の内の１つを用いて行なわれたと仮定する。これにより、追跡される人物に対応する複数の領域（regions）が、異なるカメラを横切るＶＩＰを追跡する本発明に対し利用可能なものとなる。本発明は、隠れマルコフモデル・フレームワークに基づいている。隠れマルコフモデルは、状態のネットワーク、状態と関連した観測確率、及び遷移確率により、特徴付けられる。

一組の模範（a set of exemplars）を用いて、隠れマルコフモデルのパラメータを訓練する。テストデータが与えられると、ビタビ・アルゴリズムを用いて、状態のネットワークを通る最適の（最も尤もらしい）経路を特定することができる。Rabiner, Lawrence R.,"A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition（音声認識における隠れマルコフモデル及び選択された用途についてのチュートリアル）,"Proceedings of the IEEE, Vol. 77. No. 2, pp. 257-286, February, 1989を、参照されたい。

隠れマルコフモデル・フレームワークは、カメラを通して視たフロア・レイアウトを離散的なエリアとして表現する。ここでは、カメラ視野のエリアは「状態」によって表される。各エリアは、（１）１つのカメラの視野内で人物が現れるか又は消える可能性がある「ホットスポット」、（２）１つのカメラの視野内に在るがホットスポットによってカバーされていないエリア、又は（３）どのカメラの視野内にも無いエリア、のいずれかに対応する。

状態系列は、ＶＩＰを視られる可能性があるカメラ・エリアを示すと共に、ＶＩＰを視るためのカメラを直接識別することができる。オーバーラップする視野の正確な特定は不要である。人物が１つのカメラから別のカメラに移動する時の視野は、オーバーラップする必要が無く且つ完全な有効範囲を提供する必要が無い。カメラ間でどのようにハンドオフが行なわれるかを指定するために、一組のルールを設けることができる。本実施の形態に係る隠れマルコフモデル・フレームワークは、どこでハンドオフを行い得るかを指定し、いつハンドオフが行われるかを表す予想値（expected values）を学習する。

図１に本発明の一実施形態の概要を示す。図１は、本発明の一実施形態において、いかにしてモデルを訓練するか、いかにしてＶＩＰを追跡する最適のカメラを識別するか、を説明するためのフローチャートである。ユーザは、一組のカメラにおいて視野間で許容可能な移動を示す「フロア・プラン（間取り図）」ネットワーク１０４を生成する。カメラ・エリアのラベルが付いた、歩き回る人間の映像クリップ１０２を用いて、隠れマルコフモデルモデル（ＨＭＭ）１０６を訓練し、それにより、訓練されたモデル１０８を作り出す。

システムをひとたび訓練して、特定の人物のホットスポットへの出入りを認識させた後は、そのシステムを用いて特定の人物を追跡することができる。本発明のこの実施形態を用いるためには、ユーザは映像内で追跡すべきＶＩＰ１１０を選択することになろう。本発明の実施形態では、訓練された隠れマルコフモデルモデル１０８に基づいて、時間サンプル毎に最適のカメラ・エリア１１２が識別される。このカメラ・エリアから、各時間における最適のカメラ１１４が識別される。

図２は、本発明を４つのカメラ視野で使用する方法の一例を示す。図２は、四つのカメラ視野、第１のカメラ視野におけるＶＩＰ、複数の灰色のホットスポット、及び１つのカメラ視野から次のカメラ視野へのホットスポット間の遷移を示す大きな矢印で、本発明の実施形態を示している。人物（ＶＩＰ）２０２が、第１のカメラ視野内に存在している。複数のスクリーンをかけて表示した（grayed-out）ホットスポット、２０４、２０６、２１０、２１２、２１８、及び２２２がある。また、大きな矢印２２６、２２８、２３０、２３２、及び２３４は、１つのカメラ視野から次のカメラ視野へのホットスポット間の遷移を示す。

ＶＩＰは、出発位置２０２からホットスポット２０４まで移動することができる。ホットスポット２０４からは、ＶＩＰは、他のカメラ視野でカバーされたエリア、即ち、ホットスポット２１０又はホットスポット２１８のどちらかに移動することができる。ＶＩＰがホットスポット２１８に移動した場合、その後、非ホットスポット２２０を通ってホットスポット２２２に移動することもできる。ホットスポット２２２からは、ＶＩＰは、いかなるカメラ視野によってもカバーされていないエリア２２４に移動することができる。

図３は、エレベータ視野に対応する隠れマルコフモデル・ネットワークを示す。図３は、図２の実施形態の隠れマルコフモデルによる表現を示す状態遷移図である。「ブラインド（死角）」領域のモデル化を可能にするため、洗面所及びエレベータを表す２つの追加の「状態」が加えられていることに注目されたい。図３では、各状態、３０４〜３２４は、１つのカメラ（カメラ・エリア）からの視野の一部を表し、３０２は、出発状態を表し、３２６は、終了状態を表す。状態間の弧線は、フロア・エリア間の物理的に許容可能な移動を表す。各状態はまた、図３で図示されていない自己遷移を有している。

図３に示した状態のそれぞれは、図２におけるカメラ視野の一部分に対応している。Hall1t ３０４は、ＶＩＰ２０２の場所を表し、Hall1c ３０６は、ホットスポット２０４であり、Hall2bot ３１４は、ホットスポット２１０であり、Hall2cen ３１６は、非ホットスポット２０８であり、Hall2top ３１８は、ホットスポット２０６であり、Hall3t ３０８は、ホットスポット２１８であり、Hall3cen ３１０は、非ホットスポット２２０であり、Hall3bot ３１２は、ホットスポット２２２であり、Hall17bot ３２４は、非ホットスポット２１６であり、Hall17c ３２２は、非ホットスポット２１４であり、かつ、Hall17top ３２０は、ホットスポット２１２である。

モデルを訓練する場合は、追跡される人物が存在している「状態」のラベルをデータに付与する。システムは、次いで、その「状態」としてラベル付けされたデータを用いて各「状態」を訓練する。個々の状態がひとたび訓練されると、観測モデルを更新し且つ状態間の遷移確率を訓練する「訓練バージョン」を、ラベル付けされた「訓練データ」を用いて数回反復することができる。一実施形態では、最後のステップを行わないが、ある状態から出て行く遷移に対して遷移確率を同様に確からしいと設定する。

一実施形態では、人物が視野内に存在しない場合は、人物が視野内に存在する場合と同様に処理する。即ち、人物が視野内に存在しない場合を表す「状態」を、その「状態」に対してラベル付けされたデータで訓練する。別の実施形態では、その「状態」を「ゼロ（null）状態」として表す。

モデルがひとたび訓練されると、追跡される人物を視ることができるカメラ視野内の領域を、そのモデルを用いて識別することができる。副次的な結果は、識別された人物を追跡するための最適のカメラ視野の識別である。ユーザは、インタフェースの少なくとも１つのフレーム画像における人物を識別することによって（恐らくは、ＶＩＰの周りの領域を確定する囲み（バウンディング・ボックス）上をクリックすることによって）追跡すべき人物を指定する。人物の外観に基づくモデル（外観ベースモデル）が生成され、そのモデルが特徴生成の際に使用される。

新しいデータが観察されるに従って、画像内で候補となる被写体が識別され、候補となる被写体の特色を表すための「特徴（feature）」が計算される。例えば、各カメラ・エリア内の被写体の各々は、参照用の外観ベースモデルと比較される。また、各カメラ・エリア内の被写体の各々は、計算された類似性とも比較される。別の特徴は、被写体の輪郭を描く領域とカメラ・エリアとのオーバーラップである。一実施形態では、各時間での各カメラ・エリアにおける最も類似した領域が選択される。オーバーラップの量及び類似性の特徴は、ＶＩＰを視るのに最適のカメラ・エリアの識別とは無関係に、時間サンプル毎に計算することができる。類似性の「特徴」としての使用は、追跡すべき新しい人物毎に、隠れマルコフモデルの観測モデルを訓練する必要性を無くすものである。

一実施形態では、観測は、次の２種類の特徴に基づいて行われる。１）各状態に対応するカメラ視野の領域の少なくともある部分内に存在する最も似ている人物の類似性、２）追跡される人物を表すバウンディング・ボックスと、各状態に対応するカメラ視野の部分との間のオーバーラップの量

即ち、「状態ｊ」の観測確率は、ｘ，ｂ_j（ｘ）の値を用いて、ｂ_j（ｘ）＝Ｎ［ｘ，μ_j，Ｕ_j］として表される。ここで、Ｎは正規分布であり、μ_jは平均ベクトルであり、及びＵ_jは「状態ｊ」と関連した共分散マトリクスである。平均ベクトルは、２つの成分を有している。その第１の成分は、ＶＩＰが「状態ｊ」に存在する場合の平均の類似性であり、その第２の成分は、ＶＩＰが「状態ｊ」に存在する場合のオーバーラップの平均量である。

前記第１の特徴については、カメラ視野の当該部分内に２人以上の人物が存在すればよい。一実施形態では、最高値を有する類似性を選択する。別の実施形態では、類似性を他の特徴（例えば、オーバーラップの量、方向、又は速度など）と組み合わせる。システムに与えられる特徴ベクトルは、各カメラからの「特徴」の連続である。Ｎ個のカメラが存在する場合には、２Ｎ個の「特徴」が存在する。一実施形態では、対角共分散（diagonal covariance）を有するガウスモデルを用いて観測又は特徴をモデル化し、必要とされるラベル付き「訓練データ」の量を最小限に抑える。別の実施形態では、１人の人物の複数の映像（multiple view）がユーザによって識別される場合には、ガウスモデルを混合モデルとすることができる。この場合、成分は、異なる視野にほぼ対応する。

モデルを訓練するためには、カメラ・エリアを通って歩くＶＩＰの映像セグメントが用いられる。各セグメントは、ＶＩＰがそれを通って歩いたカメラ・エリアの系列でラベル付けがされる。個々のカメラ・エリア・モデルの各々は、カメラ・エリアの確率が高い領域から得た「特徴」を用いて初期化される。次いで、ＥＭ（Expectation-Maximization）アルゴリズムに基づく埋込み訓練を用いて、パラメータ値の精度を上げる（refine）。ＥＭアルゴリズムを隠れマルコフモデルに使用する例については、Larry Rabiner,"A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition（音声認識における隠れマルコフモデル及び選択された用途についてのチュートリアル）,"Proceedings of the IEEE, 77 (2): pp. 257-286, 1989を、参照されたい。

最適な監視カメラを識別するためには、ビタビ・デコーディングを用いて、カメラ・エリアを表す「状態」の組を通る最適の経路を決定する。ビタビ・デコーディングの出力は、各時間において使用すべき最適のカメラに対して、直接に対応付け（マッピング）することができるカメラ・エリアの系列である。例えば、カメラ・エリアHall3cen ３１０が系列内に存在する場合は、非ホットスポット２２０に対するカメラが選択されよう。

いくつかの実施形態では、追跡の際に昔から使用されている、「特徴」の被写体に基づく「変化」が含まれる。例えば、カメラ・エリア内の領域での「速度」や、前回の最適候補ＶＩＰと今回の最適候補ＶＩＰとの間の「速度の変化」は、いくつかの実施形態に対する有用な「特徴」である。この情報は、複数の方法で表すことができる。一実施形態では、特徴ベクトルを拡張して、速度の特徴を包含すると共にノード数を増大させる。これにより、特別なノードが、速度に関する制約条件を提供するようにする。一実施形態では、その特別なノードは、カメラ・エリア・ノード間に設置される。別の実施形態では、各カメラ・エリア・ノードを、二つ又はそれ以上のノードに分割して、誰かがホットスポットに踏み入れることができる異なる方向を表す。

また、別の実施形態（これは、ビタビ・デコーディングを用いるものよりコストが高くなる）では、急いで（on the fly）遷移確率を計算する。遷移確率は、前回のノードにおける最適領域の速度と今回のノードにおける最適領域の速度との「類似性」の関数として計算される。即ち、「状態ｉ」から「状態ｊ」への隠れマルコフモデル「遷移ａ_ij」を、関数ｆ（ｖ_j（ｔ）−ｖ_i（ｔ−１））で置き換えることになる。ここで、ｖ_j（ｔ）は、時間ｔにおける「状態ｊ」での最適なマッチング領域の速度であり、ｆは、速度差を遷移確率に関係付ける或る種の関数（例えば、シグモイド関数）である。いくつかの実施形態では、遷移確率は、一般に隠れマルコフモデルにおいて行なわれるように、固定されている。従って、一様な遷移確率を仮定することができる。なぜなら、観測確率は一般に遷移確率を支配し、遷移に対する訓練データの量は、良好な推定が保証されるほど十分でなくてもよいからである。

一実施形態は、コンピュータ技術を専門とする人には明らかであるように、本開示の教示に従ってプログラムされた従来の汎用又は専用のディジタル・コンピュータ又はマイクロプロセッサ（複数も可）を用いて実行することができる。ソフトウェア技術を専門とする人には明らかであるように、熟練したプログラマーは、本開示の教示に基づき、適切なソフトウェア・コーディングを容易に作成可能である。本発明は、当業者には容易に分かるように、集積回路の作成によって、あるいは、従来部品の回路の適切なネットワークを相互接続することによっても実行することができる。

一実施形態は、その上に（内に）格納された命令を有する記憶媒体（メディア）であるコンピュータ・プログラム製品を備え、該命令を用いて、コンピュータをプログラムし、ここで述べた特徴のうちの任意のものを行うことができる。該記憶媒体には、フロッピ・ディスク、光ディスク、DVD、CD-ROM、マイクロ・ドライブ、及び光磁気ディスクを含む任意の種類のディスク、ROM、RAM、EPROM、EEPROM、DRAM、フラッシュ・メモリ又はメディア、又はコンピュータで読取可能な媒体（メディア）のうちの任意の一つに格納された命令及び（又は）データを記憶するのに適したデバイスなどが有るが、これらに限定されない。本発明は、汎用／専用コンピュータ又はマイクロプロセッサのハードウェアを制御するための、また、コンピュータ又はマイクロプロセッサが、本発明の結果を利用する人間のユーザ又は他の機構と対話することを可能にするためのソフトウェアを含むことができる。このようなソフトウェアには、デバイス・ドライバ、オペレーティング・システム、実行環境／コンテナ、及びユーザ・アプリケーションなどが有るが、これらに限定されない。

本発明の実施形態は、本発明の実施形態のプロセスのうちの任意のものを行うため、コンピュータで実行することができるコードを送信するためのコンピュータで実行される方法を含むことができる。該送信は、インターネットなどのネットワークの任意の部分を介した、ワイヤ、大気又は空間を介した、あるいは任意の他の種類の送信を介した転送を含むことができる。該送信は、コードの送信を開始すること、又はコードを別の領域又は国から任意の領域又は国へと通過させることを含むことができる。例えば、該送信は、コードを含むデータを前もってユーザに宛て、かつ、送信した結果として、ネットワークの一部分を介したコードの転送を生じさせることを含むことができる。ユーザへの送信は、該送信がそこから行なわれる場所とは無関係に、任意の領域又は国で、該ユーザによって受信される任意の送信を含むことができる。

本発明の実施形態は、コンピュータで実行して、本発明の実施形態のプロセスのうちの任意のものを行うことができる信号含有コードを含むことができる。該信号は、インターネットなどのネットワークを介して、ワイヤ、大気又は空間を介して、あるいは任意の他の種類の送信を介して送信することができる。信号全体が、同時に経路内に存在する必要は無い。信号は、その転送の期間に亘って、適時に延期することができる。信号は、現在経路内に存在するもののスナップショットと考えるべきではない。

本発明の実施形態の上記の説明は、図解及び説明の目的のために行なったものである。説明は、徹底的なものにするという意図はなく、あるいは、本発明を開示された形態に厳密に限定する意図も無い。当該技術の通常の知識を有する当業者には、多くの修正及び変形は、明らかであろう。例えば、開示された本発明の実施形態で行なわれるステップは、別の順序で行うことができ、あるステップを省略することができ、かつ、追加のステップを加えることができる。該実施形態は、本発明の原理及びその実践的な用途を最適に説明するため、選択し、かつ、記述し、それにより、他の当業者が、本発明を理解して、想定された特定の用途に適した各種の実施形態及び各種の修正が可能であるようにするものである。本発明の範囲は、クレーム及びそれらの等価物によって定義されることを意図している。

本発明の一実施形態の概要を示すフローチャートである。本発明を４つのカメラ視野で使用する方法の一例を示す図である。図２の実施形態の隠れマルコフモデルによる表現を示す状態遷移図である。

符号の説明

２０２出発位置（人物：ＶＩＰ）
２０４、２０６、２１０、２１２、２１８、２２２ホットスポット
２０８、２１４、２１６、２２０非ホットスポット
２２４エリア
２２６、２２８、２３０、２３２、２３４矢印
３０２出発状態（start）
３０４ Hall1t（ＶＩＰ２０２の場所）
３０６ Hall1c（ホットスポット２０４）
３０８ Hall3t（ホットスポット２１８）
３１０ Hall3cen（非ホットスポット２２０）
３１２ Hall3bot（ホットスポット２２２）
３１４ Hall2bot（ホットスポット２１０）
３１６ Hall2cen（非ホットスポット２０８）
３１８ Hall2top（ホットスポット２０６）
３２０ Hall17top（ホットスポット２１２）
３２４ Hall17bot（非ホットスポット２１６）
３２２ Hall17c（非ホットスポット２１４）
３２６終了状態（end）

Claims

特定の個人を追跡するためのカメラ間のハンドオフをモデル化するための統合されたモデル化方法であって、
前記カメラの視野間のオーバーラップ、間隙、及び許容できる移動の表現を生成すると共に、前記表現を隠れマルコフモデルにおける状態としてモデル化するステップと、
カメラの視野を通って歩く人間の映像を用いて前記隠れマルコフモデルを訓練するステップと、
追跡すべき人物を選択するステップと、
前記隠れマルコフモデルを用いて最適のカメラ・エリアを識別するステップと、
を含むことを特徴とするモデル化方法。
前記隠れマルコフモデルを用いて最適のカメラ・エリア内の最適のカメラを識別するステップをさらに含む、請求項１記載のモデル化方法。
前記カメラ・エリアを表す一組の状態間の最適の経路を決定するのに、ビタビ・デコーディングが用いられる、請求項１記載のモデル化方法。
前記隠れマルコフモデルは、複数台のカメラからの視野間の許容できる移動を指定するための正式のフレームワークを提供する、請求項１記載のモデル化方法。
前記隠れマルコフモデルは、カメラを通して視られるフロア・レイアウトを離散的なエリアとして表し、前記エリアは状態によって表される請求項１記載のモデル化方法。
ホットスポットは、人物が、１つのカメラの視野内に現れ又はそこから消えることができるエリアである、請求項５記載のモデル化方法。
各エリアは、前記ホットスポット、前記ホットスポットによってカバーされないエリア、又は任意のカメラの視野内に存在しないエリアのいずれかである、請求項６記載のモデル化方法。
前記モデルは、複数台のカメラにおける画素ベースの一致点を識別するステップを必要としない、請求項１記載のモデル化方法。
ブラインド領域が、フレームワークにおいて明示的にモデル化されている、請求項１記載のモデル化方法。
類似性の特徴としての使用は、追跡すべき新しい人物ごとに前記隠れマルコフモデル観測モデルを訓練するステップの必要性を無くすものである、請求項１記載のモデル化方法。
被写体の輪郭を描く領域と前記カメラ・エリアとのオーバーラップが、前記最適のカメラ・エリアの識別とは無関係に、時間サンプルごとに計算できる、請求項１記載のモデル化方法。
人物の速度の変化を、前記モデルに組み込むことができる、請求項１記載のモデル化方法。
各カメラ・エリア・ノードは、２つ又はそれ以上のノードに分割することができる、請求項１記載のモデル化方法。
遷移確率は、ビタビ・デコーディング中に、前回のノードにおける最適領域からの速度と今回のノードにおける最適領域の速度との類似性の関数として計算される、請求項３記載のモデル化方法。
特定の個人を追跡するためのカメラ間のハンドオフをモデル化する機能を果たすコンピュータによって実行可能な命令からなるプログラムであって、前記機能は、
前記カメラの視野間のオーバーラップ、間隙、及び許容できる移動の表現を生成すると共に、前記表現を隠れマルコフモデルにおける状態としてモデル化するステップと、
カメラの視野を通って歩く人間の映像を用いて前記隠れマルコフモデルを訓練するステップと、
追跡すべき重要人物を選択するステップと、
前記隠れマルコフモデルを用いて最適のカメラ・エリアを識別するステップと、
前記隠れマルコフモデルを用いて前記カメラ・エリア内の前記最適のカメラを識別するステップと、
を含むことを特徴とするプログラム。
前記カメラ・エリアを表す一組の状態間の最適の経路を決定するのに、ビタビ・デコーディングが用いられる、請求項１５記載のプログラム。
前記隠れマルコフモデルは、複数台のカメラからの視野間の許容できる移動を指定するための正式のフレームワークを提供する、請求項１５記載のプログラム。
前記隠れマルコフモデルは、カメラを通して視られるフロア・レイアウトを離散的なエリアとして表し、前記エリアは状態によって表される請求項１５記載のプログラム。
各エリアは、人物が、１つのカメラの視野内に現れ又はそれから消えることができるホットスポット、前記ホットスポットによってカバーされないエリア、又は任意のカメラの視野内に存在しないエリアのいずれかである、請求項１５記載のプログラム。
遷移確率は、ビタビ・デコーディング中に、前回のノードにおける最適領域からの速度と今回のノードにおける最適領域の速度との類似性の関数として計算される、請求項１６記載のプログラム。
ブラインド領域が、フレームワークにおいて明示的にモデル化されている、請求項１５記載のプログラム。