JP2009049980A - モデル化方法及びプログラム - Google Patents

モデル化方法及びプログラム Download PDF

Info

Publication number
JP2009049980A
JP2009049980A JP2008182370A JP2008182370A JP2009049980A JP 2009049980 A JP2009049980 A JP 2009049980A JP 2008182370 A JP2008182370 A JP 2008182370A JP 2008182370 A JP2008182370 A JP 2008182370A JP 2009049980 A JP2009049980 A JP 2009049980A
Authority
JP
Japan
Prior art keywords
camera
area
hidden markov
modeling method
markov model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2008182370A
Other languages
English (en)
Inventor
Francine Chen
チェン フランシーン
Tao Yang
ヤン タオ
Don Kimber
キンバー ドン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Publication of JP2009049980A publication Critical patent/JP2009049980A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/292Multi-camera tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • G06T2207/10021Stereoscopic video; Stereoscopic image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30232Surveillance

Abstract

【課題】複数台のカメラを横切る人物又は移動被写体の監視(追跡)作業において、隠れマルコフモデルを用いて、特定の個人を追跡するためのカメラ間のハンドオフをモデル化する統合されたモデル化方法及びプログラムを提供する。
【解決手段】特定の個人を追跡するためのカメラ間のハンドオフをモデル化するための統合されたモデル化方法であって、カメラの視野間のオーバーラップ、間隙、及び許容できる移動の表現を生成すると共に、前記表現を隠れマルコフモデルにおける状態としてモデル化するステップと、カメラの視野を通って歩く人間の映像を用いて隠れマルコフモデルを訓練するステップと、追跡すべき人物を選択するステップと、隠れマルコフモデルを用いて最適のカメラ・エリアを識別するステップと、を含む。
【選択図】図1

Description

本発明は、複数台のカメラを横切る人物又は移動被写体の監視(追跡)作業に使用される、カメラハンドオフ用の隠れマルコフモデルについてのモデル化方法及びプログラムに関する。
従来、監視(surveillance)は、配列されたカメラ群を人間が絶えず監視(monitor)することを要求する、非常に労働集約的な(労力を要する)作業であった。興味ある事象の識別を含む、監視作業の自動化方法が開発されつつある。自動化が可能な別の監視作業は、ユーザによって識別された1つの特定の被写体を追跡する作業である。特定の被写体としては、VIP(very important people:例えば、重要な訪問者又は疑わしい人物)や、移動被写体(人物)が挙げられる。VIP又は移動被写体は、1つのカメラ視野から別のカメラ視野へと移動する。また、VIP又は移動被写体は、監視範囲の切れ目に起因して短時間の間、又は監視下にない部屋への移動などに起因してより長時間の間、カメラ視野の外へ移動する場合もある。
VIPを追跡する作業が、通常の追跡作業と異なる主要な点の中の1つは、複数台のカメラが有るため、カメラ間でハンドオフ(切り替え)を生じることである。被写体を追跡する際のカメラハンドオフ作業には、オクルージョン(遮蔽)、監視範囲の切れ目、及び抽出された特徴における雑音など、この作業に関連した多数の問題が有る。カルマン・フィルター等の最新の方法では、一定時間毎に又は映像フレーム毎に、局所的に最適な分類を行う。
CHANG, T., et al.,"Tracking Multiple People with a Multi-Camera System,"Proc.IEEE Workshop on Multi-Object Tracking, with ICCV'Ol, July 2001. HAN, M., et al.,"An Algorithm for Multiple Object Trajectory Tracking,"Proc. Computer Vision and Pattern Recognition CVPR 2004, Vol.l, pp.864-871. KANG, J., et al.,"Continuous tracking within and across camera streams,"Proc. Computer Vision and Pattern Recognition (CVPR 2003), Vol.1, pp267-272, 18-20 June 2003. KANG, J., et al.,"Multi-Views Tracking Within and Across Uncalibrated Camera Streams,"1st ACM International Workshop Video Surveillance. Berkeley, CA, November 2003. KETTNAKER, V., et al.,"Bayesian Multi-camera Surveillance,"CVPR 1999. KHAN, S., et al.,"Consistent Labeling of Tracked Objects in Multiple Cameras with Overlapping Fields of View,"IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol.25, No.10, pp.l355-1360, October 2003. OLIVER, N., et al.,"A Bayesian Computer Vision System for Modeling Human Interactions,"IEEE Transactions on Pattern Analysis and Machine Intelligence. Vol.22, No.8, pp1-14, August 2000. RABINER, L., "A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition,"Proceedings of the IEEE, Vol.77, No.2, pp.257-286, February, 1989. SIDENBLACH, H., et al., "Stochastic Tracking of 3D Human Figures Using 2D Image Motion,"ECCV, LNCS 1843, pp.702-718, 2000. SIGAL, L., et al., "Tracking Loose-Limbed People,"CVPR 2004, pp.421-428.
複数台のカメラを横切る追跡に関する各種の状況と取り組むために、多数の手法が開発されてきた。これらの手法としては、例えば、カルマン・フィルターを使用した特徴のマッチング、遷移確率に対するマルコフモデル(但し、隠れマルコフモデルではない)によるベイジアン定式化、及びベイジアン・ネットワークの使用などが挙げられる。他の手法では、オーバーラップする複数のカメラの対応する視野を識別する、一組の固定された未校正のカメラに対するモデルを開発することによって、複数台のカメラを横切る被写体を追跡する。別の手法では、地平面への射影(ホモグラフィ:二つのカメラ間の対応する点)を用いて、カメラを登録する。
隠れマルコフモデル(HMM:hidden markov model)は、簡単な目標物を追跡するのに使用されてきたもので、この場合、状態系列が、被写体の軌跡(場所、速度、外観、寸法)を示す。また、隠れマルコフモデルは、二つのエージェント(動作主体:agent)の関数である特徴を具体的に生成することによって、二つのエージェントの対話の仕方をモデル化するのにも使用されてきた。また、隠れマルコフモデルは、人間の姿勢を追跡するために利用されてきたが、カメラ視野に関連する状態を利用するためには使用されてこなかった。
本発明の目的は、複数台のカメラを横切る人物又は移動被写体の監視(追跡)作業において、隠れマルコフモデルを用いて、特定の個人を追跡するためのカメラ間のハンドオフをモデル化する統合されたモデル化方法及びプログラムを提供することにある。
本発明は、人物又は移動被写体の追跡時に、複数のカメラ間でハンドオフが行なわれる場合に、レイアウト情報を用いて追跡作業に取り組むための隠れマルコフモデル・フレームワークを提供する。本発明の一実施形態は、特定の個人又は移動被写体を追跡するためのカメラ間のハンドオフをモデル化する統合された方法であって、(1)カメラ視野間のオーバーラップ、間隙、及び許容可能な移動の「表現」を生成するステップにおいて、前記表現は、隠れマルコフモデルにおける「状態」としてモデル化されるステップと、(2)カメラ視野を通って歩く人間の映像を用いて隠れマルコフモデルを訓練するステップと、(3)追跡される人物を選択するステップと、(4)隠れマルコフモデルを用いて最適のカメラ・エリアを識別するステップと、を含む方法である。
即ち、本発明に係る各請求項は以下の通りである。
請求項1に係る発明は、特定の個人を追跡するためのカメラ間のハンドオフをモデル化するための統合されたモデル化方法であって、前記カメラの視野間のオーバーラップ、間隙、及び許容できる移動の表現を生成すると共に、前記表現を隠れマルコフモデルにおける状態としてモデル化するステップと、カメラの視野を通って歩く人間の映像を用いて前記隠れマルコフモデルを訓練するステップと、追跡すべき人物を選択するステップと、前記隠れマルコフモデルを用いて最適のカメラ・エリアを識別するステップと、を含むことを特徴とする。
請求項2に係る発明は、前記隠れマルコフモデルを用いて最適のカメラ・エリア内の最適のカメラを識別するステップをさらに含む、請求項1記載のモデル化方法である。
請求項3に係る発明は、前記カメラ・エリアを表す一組の状態間の最適の経路を決定するのに、ビタビ・デコーディングが用いられる、請求項1記載のモデル化方法である。
請求項4に係る発明は、前記隠れマルコフモデルは、複数台のカメラからの視野間の許容できる移動を指定するための正式のフレームワークを提供する、請求項1記載のモデル化方法である。
請求項5に係る発明は、前記隠れマルコフモデルは、カメラを通して視られるフロア・レイアウトを離散的なエリアとして表し、前記エリアは状態によって表される請求項1記載のモデル化方法である。
請求項6に係る発明は、ホットスポットは、人物が、1つのカメラの視野内に現れ又はそこから消えることができるエリアである、請求項5記載のモデル化方法である。
請求項7に係る発明は、各エリアは、前記ホットスポット、前記ホットスポットによってカバーされないエリア、又は任意のカメラの視野内に存在しないエリアのいずれかである、請求項6記載のモデル化方法である。
請求項8に係る発明は、前記モデルは、複数台のカメラにおける画素ベースの一致点を識別するステップを必要としない、請求項1記載のモデル化方法である。
請求項9に係る発明は、ブラインド領域が、フレームワークにおいて明示的にモデル化されている、請求項1記載のモデル化方法である。
請求項10に係る発明は、類似性の特徴としての使用は、追跡すべき新しい人物ごとに前記隠れマルコフモデル観測モデルを訓練するステップの必要性を無くすものである、請求項1記載のモデル化方法である。
請求項11に係る発明は、被写体の輪郭を描く領域と前記カメラ・エリアとのオーバーラップが、前記最適のカメラ・エリアの識別とは無関係に、時間サンプルごとに計算できる、請求項1記載のモデル化方法である。
請求項12に係る発明は、人物の速度の変化を、前記モデルに組み込むことができる、請求項1記載のモデル化方法である。
請求項13に係る発明は、各カメラ・エリア・ノードは、2つ又はそれ以上のノードに分割することができる、請求項1記載のモデル化方法である。
請求項14に係る発明は、遷移確率は、ビタビ・デコーディング中に、前回のノードにおける最適領域からの速度と今回のノードにおける最適領域の速度との類似性の関数として計算される、請求項3記載のモデル化方法である。
請求項15に係る発明は、特定の個人を追跡するためのカメラ間のハンドオフをモデル化する機能を果たすコンピュータによって実行可能な命令からなるプログラムであって、前記機能は、前記カメラの視野間のオーバーラップ、間隙、及び許容できる移動の表現を生成すると共に、前記表現を隠れマルコフモデルにおける状態としてモデル化するステップと、カメラの視野を通って歩く人間の映像を用いて前記隠れマルコフモデルを訓練するステップと、追跡すべき重要人物を選択するステップと、前記隠れマルコフモデルを用いて最適のカメラ・エリアを識別するステップと、前記隠れマルコフモデルを用いて前記カメラ・エリア内の前記最適のカメラを識別するステップと、を含むことを特徴とするプログラムである。
請求項16に係る発明は、前記カメラ・エリアを表す一組の状態間の最適の経路を決定するのに、ビタビ・デコーディングが用いられる、請求項15記載のプログラムである。
請求項17に係る発明は、前記隠れマルコフモデルは、複数台のカメラからの視野間の許容できる移動を指定するための正式のフレームワークを提供する、請求項15記載のプログラムである。
請求項18に係る発明は、前記隠れマルコフモデルは、カメラを通して視られるフロア・レイアウトを離散的なエリアとして表し、前記エリアは状態によって表される請求項15記載のプログラムである。
請求項19に係る発明は、各エリアは、人物が、1つのカメラの視野内に現れ又はそれから消えることができるホットスポット、前記ホットスポットによってカバーされないエリア、又は任意のカメラの視野内に存在しないエリアのいずれかである、請求項15記載のプログラムである。
請求項20に係る発明は、遷移確率は、ビタビ・デコーディング中に、前回のノードにおける最適領域からの速度と今回のノードにおける最適領域の速度との類似性の関数として計算される、請求項16記載のプログラムである。
請求項21に係る発明は、ブラインド領域が、フレームワークにおいて明示的にモデル化されている、請求項15記載のプログラムである。
以上説明したように本発明によれば、複数台のカメラを横切る人物又は移動被写体の監視(追跡)作業において、隠れマルコフモデルを用いて、特定の個人を追跡するためのカメラ間のハンドオフをモデル化する統合されたモデル化方法及びプログラムを提供することができる、という効果がある。
以下、図面を参照して本発明の好適な実施形態を詳細に説明する。
本発明の実施形態では、人物又は移動被写体の追跡時、即ち、VIPを追跡する時に、複数のカメラ間でハンドオフが行なわれる場合に、レイアウト情報を用いて追跡作業に取り組むために、隠れマルコフモデル(HMM:hidden Markov model)・フレームワークを利用する。前記レイアウト情報は、フロア・レイアウト及び各カメラから得られる視野の調査から取得される。
「ホットスポット(Hotspots)」は、被写体が1つのカメラ視野から別のカメラ視野に移動し、又は被写体が監視下にないエリア(例えば、部屋)に消えることがある「カメラ視野内のエリア」に対応し、隠れマルコフモデルの「状態」に対応している。本実施の形態に係る隠れマルコフモデルは、ホットスポット同士の関係を指定し、同時に、カメラ視野の異なる部分で予想される「特徴の値」及び「特徴の変化量」をモデル化するための、フレームワークを提供する。加えて、局所的な差異が、遷移確率において処理される。
本発明では、各カメラにおける追跡が、この技術分野で既知の多数の単一カメラによる追跡法の内の1つを用いて行なわれたと仮定する。これにより、追跡される人物に対応する複数の領域(regions)が、異なるカメラを横切るVIPを追跡する本発明に対し利用可能なものとなる。本発明は、隠れマルコフモデル・フレームワークに基づいている。隠れマルコフモデルは、状態のネットワーク、状態と関連した観測確率、及び遷移確率により、特徴付けられる。
一組の模範(a set of exemplars)を用いて、隠れマルコフモデルのパラメータを訓練する。テストデータが与えられると、ビタビ・アルゴリズムを用いて、状態のネットワークを通る最適の(最も尤もらしい)経路を特定することができる。Rabiner, Lawrence R.,"A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition(音声認識における隠れマルコフモデル及び選択された用途についてのチュートリアル),"Proceedings of the IEEE, Vol. 77. No. 2, pp. 257-286, February, 1989を、参照されたい。
隠れマルコフモデル・フレームワークは、カメラを通して視たフロア・レイアウトを離散的なエリアとして表現する。ここでは、カメラ視野のエリアは「状態」によって表される。各エリアは、(1)1つのカメラの視野内で人物が現れるか又は消える可能性がある「ホットスポット」、(2)1つのカメラの視野内に在るがホットスポットによってカバーされていないエリア、又は(3)どのカメラの視野内にも無いエリア、のいずれかに対応する。
状態系列は、VIPを視られる可能性があるカメラ・エリアを示すと共に、VIPを視るためのカメラを直接識別することができる。オーバーラップする視野の正確な特定は不要である。人物が1つのカメラから別のカメラに移動する時の視野は、オーバーラップする必要が無く且つ完全な有効範囲を提供する必要が無い。カメラ間でどのようにハンドオフが行なわれるかを指定するために、一組のルールを設けることができる。本実施の形態に係る隠れマルコフモデル・フレームワークは、どこでハンドオフを行い得るかを指定し、いつハンドオフが行われるかを表す予想値(expected values)を学習する。
図1に本発明の一実施形態の概要を示す。図1は、本発明の一実施形態において、いかにしてモデルを訓練するか、いかにしてVIPを追跡する最適のカメラを識別するか、を説明するためのフローチャートである。ユーザは、一組のカメラにおいて視野間で許容可能な移動を示す「フロア・プラン(間取り図)」ネットワーク104を生成する。カメラ・エリアのラベルが付いた、歩き回る人間の映像クリップ102を用いて、隠れマルコフモデルモデル(HMM)106を訓練し、それにより、訓練されたモデル108を作り出す。
システムをひとたび訓練して、特定の人物のホットスポットへの出入りを認識させた後は、そのシステムを用いて特定の人物を追跡することができる。本発明のこの実施形態を用いるためには、ユーザは映像内で追跡すべきVIP110を選択することになろう。本発明の実施形態では、訓練された隠れマルコフモデルモデル108に基づいて、時間サンプル毎に最適のカメラ・エリア112が識別される。このカメラ・エリアから、各時間における最適のカメラ114が識別される。
図2は、本発明を4つのカメラ視野で使用する方法の一例を示す。図2は、四つのカメラ視野、第1のカメラ視野におけるVIP、複数の灰色のホットスポット、及び1つのカメラ視野から次のカメラ視野へのホットスポット間の遷移を示す大きな矢印で、本発明の実施形態を示している。人物(VIP)202が、第1のカメラ視野内に存在している。複数のスクリーンをかけて表示した(grayed-out)ホットスポット、204、206、210、212、218、及び222がある。また、大きな矢印226、228、230、232、及び234は、1つのカメラ視野から次のカメラ視野へのホットスポット間の遷移を示す。
VIPは、出発位置202からホットスポット204まで移動することができる。ホットスポット204からは、VIPは、他のカメラ視野でカバーされたエリア、即ち、ホットスポット210又はホットスポット218のどちらかに移動することができる。VIPがホットスポット218に移動した場合、その後、非ホットスポット220を通ってホットスポット222に移動することもできる。ホットスポット222からは、VIPは、いかなるカメラ視野によってもカバーされていないエリア224に移動することができる。
図3は、エレベータ視野に対応する隠れマルコフモデル・ネットワークを示す。図3は、図2の実施形態の隠れマルコフモデルによる表現を示す状態遷移図である。「ブラインド(死角)」領域のモデル化を可能にするため、洗面所及びエレベータを表す2つの追加の「状態」が加えられていることに注目されたい。図3では、各状態、304〜324は、1つのカメラ(カメラ・エリア)からの視野の一部を表し、302は、出発状態を表し、326は、終了状態を表す。状態間の弧線は、フロア・エリア間の物理的に許容可能な移動を表す。各状態はまた、図3で図示されていない自己遷移を有している。
図3に示した状態のそれぞれは、図2におけるカメラ視野の一部分に対応している。Hall1t 304は、VIP202の場所を表し、Hall1c 306は、ホットスポット204であり、Hall2bot 314は、ホットスポット210であり、Hall2cen 316は、非ホットスポット208であり、Hall2top 318は、ホットスポット206であり、Hall3t 308は、ホットスポット218であり、Hall3cen 310は、非ホットスポット220であり、Hall3bot 312は、ホットスポット222であり、Hall17bot 324は、非ホットスポット216であり、Hall17c 322は、非ホットスポット214であり、かつ、Hall17top 320は、ホットスポット212である。
モデルを訓練する場合は、追跡される人物が存在している「状態」のラベルをデータに付与する。システムは、次いで、その「状態」としてラベル付けされたデータを用いて各「状態」を訓練する。個々の状態がひとたび訓練されると、観測モデルを更新し且つ状態間の遷移確率を訓練する「訓練バージョン」を、ラベル付けされた「訓練データ」を用いて数回反復することができる。一実施形態では、最後のステップを行わないが、ある状態から出て行く遷移に対して遷移確率を同様に確からしいと設定する。
一実施形態では、人物が視野内に存在しない場合は、人物が視野内に存在する場合と同様に処理する。即ち、人物が視野内に存在しない場合を表す「状態」を、その「状態」に対してラベル付けされたデータで訓練する。別の実施形態では、その「状態」を「ゼロ(null)状態」として表す。
モデルがひとたび訓練されると、追跡される人物を視ることができるカメラ視野内の領域を、そのモデルを用いて識別することができる。副次的な結果は、識別された人物を追跡するための最適のカメラ視野の識別である。ユーザは、インタフェースの少なくとも1つのフレーム画像における人物を識別することによって(恐らくは、VIPの周りの領域を確定する囲み(バウンディング・ボックス)上をクリックすることによって)追跡すべき人物を指定する。人物の外観に基づくモデル(外観ベースモデル)が生成され、そのモデルが特徴生成の際に使用される。
新しいデータが観察されるに従って、画像内で候補となる被写体が識別され、候補となる被写体の特色を表すための「特徴(feature)」が計算される。例えば、各カメラ・エリア内の被写体の各々は、参照用の外観ベースモデルと比較される。また、各カメラ・エリア内の被写体の各々は、計算された類似性とも比較される。別の特徴は、被写体の輪郭を描く領域とカメラ・エリアとのオーバーラップである。一実施形態では、各時間での各カメラ・エリアにおける最も類似した領域が選択される。オーバーラップの量及び類似性の特徴は、VIPを視るのに最適のカメラ・エリアの識別とは無関係に、時間サンプル毎に計算することができる。類似性の「特徴」としての使用は、追跡すべき新しい人物毎に、隠れマルコフモデルの観測モデルを訓練する必要性を無くすものである。
一実施形態では、観測は、次の2種類の特徴に基づいて行われる。1)各状態に対応するカメラ視野の領域の少なくともある部分内に存在する最も似ている人物の類似性、2)追跡される人物を表すバウンディング・ボックスと、各状態に対応するカメラ視野の部分との間のオーバーラップの量
即ち、「状態j」の観測確率は、x,bj(x)の値を用いて、bj(x)=N[x,μj,Uj]として表される。ここで、Nは正規分布であり、μjは平均ベクトルであり、及びUjは「状態j」と関連した共分散マトリクスである。平均ベクトルは、2つの成分を有している。その第1の成分は、VIPが「状態j」に存在する場合の平均の類似性であり、その第2の成分は、VIPが「状態j」に存在する場合のオーバーラップの平均量である。
前記第1の特徴については、カメラ視野の当該部分内に2人以上の人物が存在すればよい。一実施形態では、最高値を有する類似性を選択する。別の実施形態では、類似性を他の特徴(例えば、オーバーラップの量、方向、又は速度など)と組み合わせる。システムに与えられる特徴ベクトルは、各カメラからの「特徴」の連続である。N個のカメラが存在する場合には、2N個の「特徴」が存在する。一実施形態では、対角共分散(diagonal covariance)を有するガウスモデルを用いて観測又は特徴をモデル化し、必要とされるラベル付き「訓練データ」の量を最小限に抑える。別の実施形態では、1人の人物の複数の映像(multiple view)がユーザによって識別される場合には、ガウスモデルを混合モデルとすることができる。この場合、成分は、異なる視野にほぼ対応する。
モデルを訓練するためには、カメラ・エリアを通って歩くVIPの映像セグメントが用いられる。各セグメントは、VIPがそれを通って歩いたカメラ・エリアの系列でラベル付けがされる。個々のカメラ・エリア・モデルの各々は、カメラ・エリアの確率が高い領域から得た「特徴」を用いて初期化される。次いで、EM(Expectation-Maximization)アルゴリズムに基づく埋込み訓練を用いて、パラメータ値の精度を上げる(refine)。EMアルゴリズムを隠れマルコフモデルに使用する例については、Larry Rabiner,"A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition(音声認識における隠れマルコフモデル及び選択された用途についてのチュートリアル),"Proceedings of the IEEE, 77 (2): pp. 257-286, 1989を、参照されたい。
最適な監視カメラを識別するためには、ビタビ・デコーディングを用いて、カメラ・エリアを表す「状態」の組を通る最適の経路を決定する。ビタビ・デコーディングの出力は、各時間において使用すべき最適のカメラに対して、直接に対応付け(マッピング)することができるカメラ・エリアの系列である。例えば、カメラ・エリアHall3cen 310が系列内に存在する場合は、非ホットスポット220に対するカメラが選択されよう。
いくつかの実施形態では、追跡の際に昔から使用されている、「特徴」の被写体に基づく「変化」が含まれる。例えば、カメラ・エリア内の領域での「速度」や、前回の最適候補VIPと今回の最適候補VIPとの間の「速度の変化」は、いくつかの実施形態に対する有用な「特徴」である。この情報は、複数の方法で表すことができる。一実施形態では、特徴ベクトルを拡張して、速度の特徴を包含すると共にノード数を増大させる。これにより、特別なノードが、速度に関する制約条件を提供するようにする。一実施形態では、その特別なノードは、カメラ・エリア・ノード間に設置される。別の実施形態では、各カメラ・エリア・ノードを、二つ又はそれ以上のノードに分割して、誰かがホットスポットに踏み入れることができる異なる方向を表す。
また、別の実施形態(これは、ビタビ・デコーディングを用いるものよりコストが高くなる)では、急いで(on the fly)遷移確率を計算する。遷移確率は、前回のノードにおける最適領域の速度と今回のノードにおける最適領域の速度との「類似性」の関数として計算される。即ち、「状態i」から「状態j」への隠れマルコフモデル「遷移aij」を、関数f(vj(t)−vi(t−1))で置き換えることになる。ここで、vj(t)は、時間tにおける「状態j」での最適なマッチング領域の速度であり、fは、速度差を遷移確率に関係付ける或る種の関数(例えば、シグモイド関数)である。いくつかの実施形態では、遷移確率は、一般に隠れマルコフモデルにおいて行なわれるように、固定されている。従って、一様な遷移確率を仮定することができる。なぜなら、観測確率は一般に遷移確率を支配し、遷移に対する訓練データの量は、良好な推定が保証されるほど十分でなくてもよいからである。
一実施形態は、コンピュータ技術を専門とする人には明らかであるように、本開示の教示に従ってプログラムされた従来の汎用又は専用のディジタル・コンピュータ又はマイクロプロセッサ(複数も可)を用いて実行することができる。ソフトウェア技術を専門とする人には明らかであるように、熟練したプログラマーは、本開示の教示に基づき、適切なソフトウェア・コーディングを容易に作成可能である。本発明は、当業者には容易に分かるように、集積回路の作成によって、あるいは、従来部品の回路の適切なネットワークを相互接続することによっても実行することができる。
一実施形態は、その上に(内に)格納された命令を有する記憶媒体(メディア)であるコンピュータ・プログラム製品を備え、該命令を用いて、コンピュータをプログラムし、ここで述べた特徴のうちの任意のものを行うことができる。該記憶媒体には、フロッピ・ディスク、光ディスク、DVD、CD-ROM、マイクロ・ドライブ、及び光磁気ディスクを含む任意の種類のディスク、ROM、RAM、EPROM、EEPROM、DRAM、フラッシュ・メモリ又はメディア、又はコンピュータで読取可能な媒体(メディア)のうちの任意の一つに格納された命令及び(又は)データを記憶するのに適したデバイスなどが有るが、これらに限定されない。本発明は、汎用/専用コンピュータ又はマイクロプロセッサのハードウェアを制御するための、また、コンピュータ又はマイクロプロセッサが、本発明の結果を利用する人間のユーザ又は他の機構と対話することを可能にするためのソフトウェアを含むことができる。このようなソフトウェアには、デバイス・ドライバ、オペレーティング・システム、実行環境/コンテナ、及びユーザ・アプリケーションなどが有るが、これらに限定されない。
本発明の実施形態は、本発明の実施形態のプロセスのうちの任意のものを行うため、コンピュータで実行することができるコードを送信するためのコンピュータで実行される方法を含むことができる。該送信は、インターネットなどのネットワークの任意の部分を介した、ワイヤ、大気又は空間を介した、あるいは任意の他の種類の送信を介した転送を含むことができる。該送信は、コードの送信を開始すること、又はコードを別の領域又は国から任意の領域又は国へと通過させることを含むことができる。例えば、該送信は、コードを含むデータを前もってユーザに宛て、かつ、送信した結果として、ネットワークの一部分を介したコードの転送を生じさせることを含むことができる。ユーザへの送信は、該送信がそこから行なわれる場所とは無関係に、任意の領域又は国で、該ユーザによって受信される任意の送信を含むことができる。
本発明の実施形態は、コンピュータで実行して、本発明の実施形態のプロセスのうちの任意のものを行うことができる信号含有コードを含むことができる。該信号は、インターネットなどのネットワークを介して、ワイヤ、大気又は空間を介して、あるいは任意の他の種類の送信を介して送信することができる。信号全体が、同時に経路内に存在する必要は無い。信号は、その転送の期間に亘って、適時に延期することができる。信号は、現在経路内に存在するもののスナップショットと考えるべきではない。
本発明の実施形態の上記の説明は、図解及び説明の目的のために行なったものである。説明は、徹底的なものにするという意図はなく、あるいは、本発明を開示された形態に厳密に限定する意図も無い。当該技術の通常の知識を有する当業者には、多くの修正及び変形は、明らかであろう。例えば、開示された本発明の実施形態で行なわれるステップは、別の順序で行うことができ、あるステップを省略することができ、かつ、追加のステップを加えることができる。該実施形態は、本発明の原理及びその実践的な用途を最適に説明するため、選択し、かつ、記述し、それにより、他の当業者が、本発明を理解して、想定された特定の用途に適した各種の実施形態及び各種の修正が可能であるようにするものである。本発明の範囲は、クレーム及びそれらの等価物によって定義されることを意図している。
本発明の一実施形態の概要を示すフローチャートである。 本発明を4つのカメラ視野で使用する方法の一例を示す図である。 図2の実施形態の隠れマルコフモデルによる表現を示す状態遷移図である。
符号の説明
202 出発位置(人物:VIP)
204、206、210、212、218、222 ホットスポット
208、214、216、220 非ホットスポット
224 エリア
226、228、230、232、234 矢印
302 出発状態(start)
304 Hall1t(VIP202の場所)
306 Hall1c(ホットスポット204)
308 Hall3t(ホットスポット218)
310 Hall3cen(非ホットスポット220)
312 Hall3bot(ホットスポット222)
314 Hall2bot(ホットスポット210)
316 Hall2cen(非ホットスポット208)
318 Hall2top(ホットスポット206)
320 Hall17top(ホットスポット212)
324 Hall17bot(非ホットスポット216)
322 Hall17c(非ホットスポット214)
326 終了状態(end)

Claims (21)

  1. 特定の個人を追跡するためのカメラ間のハンドオフをモデル化するための統合されたモデル化方法であって、
    前記カメラの視野間のオーバーラップ、間隙、及び許容できる移動の表現を生成すると共に、前記表現を隠れマルコフモデルにおける状態としてモデル化するステップと、
    カメラの視野を通って歩く人間の映像を用いて前記隠れマルコフモデルを訓練するステップと、
    追跡すべき人物を選択するステップと、
    前記隠れマルコフモデルを用いて最適のカメラ・エリアを識別するステップと、
    を含むことを特徴とするモデル化方法。
  2. 前記隠れマルコフモデルを用いて最適のカメラ・エリア内の最適のカメラを識別するステップをさらに含む、請求項1記載のモデル化方法。
  3. 前記カメラ・エリアを表す一組の状態間の最適の経路を決定するのに、ビタビ・デコーディングが用いられる、請求項1記載のモデル化方法。
  4. 前記隠れマルコフモデルは、複数台のカメラからの視野間の許容できる移動を指定するための正式のフレームワークを提供する、請求項1記載のモデル化方法。
  5. 前記隠れマルコフモデルは、カメラを通して視られるフロア・レイアウトを離散的なエリアとして表し、前記エリアは状態によって表される請求項1記載のモデル化方法。
  6. ホットスポットは、人物が、1つのカメラの視野内に現れ又はそこから消えることができるエリアである、請求項5記載のモデル化方法。
  7. 各エリアは、前記ホットスポット、前記ホットスポットによってカバーされないエリア、又は任意のカメラの視野内に存在しないエリアのいずれかである、請求項6記載のモデル化方法。
  8. 前記モデルは、複数台のカメラにおける画素ベースの一致点を識別するステップを必要としない、請求項1記載のモデル化方法。
  9. ブラインド領域が、フレームワークにおいて明示的にモデル化されている、請求項1記載のモデル化方法。
  10. 類似性の特徴としての使用は、追跡すべき新しい人物ごとに前記隠れマルコフモデル観測モデルを訓練するステップの必要性を無くすものである、請求項1記載のモデル化方法。
  11. 被写体の輪郭を描く領域と前記カメラ・エリアとのオーバーラップが、前記最適のカメラ・エリアの識別とは無関係に、時間サンプルごとに計算できる、請求項1記載のモデル化方法。
  12. 人物の速度の変化を、前記モデルに組み込むことができる、請求項1記載のモデル化方法。
  13. 各カメラ・エリア・ノードは、2つ又はそれ以上のノードに分割することができる、請求項1記載のモデル化方法。
  14. 遷移確率は、ビタビ・デコーディング中に、前回のノードにおける最適領域からの速度と今回のノードにおける最適領域の速度との類似性の関数として計算される、請求項3記載のモデル化方法。
  15. 特定の個人を追跡するためのカメラ間のハンドオフをモデル化する機能を果たすコンピュータによって実行可能な命令からなるプログラムであって、前記機能は、
    前記カメラの視野間のオーバーラップ、間隙、及び許容できる移動の表現を生成すると共に、前記表現を隠れマルコフモデルにおける状態としてモデル化するステップと、
    カメラの視野を通って歩く人間の映像を用いて前記隠れマルコフモデルを訓練するステップと、
    追跡すべき重要人物を選択するステップと、
    前記隠れマルコフモデルを用いて最適のカメラ・エリアを識別するステップと、
    前記隠れマルコフモデルを用いて前記カメラ・エリア内の前記最適のカメラを識別するステップと、
    を含むことを特徴とするプログラム。
  16. 前記カメラ・エリアを表す一組の状態間の最適の経路を決定するのに、ビタビ・デコーディングが用いられる、請求項15記載のプログラム。
  17. 前記隠れマルコフモデルは、複数台のカメラからの視野間の許容できる移動を指定するための正式のフレームワークを提供する、請求項15記載のプログラム。
  18. 前記隠れマルコフモデルは、カメラを通して視られるフロア・レイアウトを離散的なエリアとして表し、前記エリアは状態によって表される請求項15記載のプログラム。
  19. 各エリアは、人物が、1つのカメラの視野内に現れ又はそれから消えることができるホットスポット、前記ホットスポットによってカバーされないエリア、又は任意のカメラの視野内に存在しないエリアのいずれかである、請求項15記載のプログラム。
  20. 遷移確率は、ビタビ・デコーディング中に、前回のノードにおける最適領域からの速度と今回のノードにおける最適領域の速度との類似性の関数として計算される、請求項16記載のプログラム。
  21. ブラインド領域が、フレームワークにおいて明示的にモデル化されている、請求項15記載のプログラム。
JP2008182370A 2007-08-13 2008-07-14 モデル化方法及びプログラム Withdrawn JP2009049980A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US11/838,074 US8432449B2 (en) 2007-08-13 2007-08-13 Hidden markov model for camera handoff

Publications (1)

Publication Number Publication Date
JP2009049980A true JP2009049980A (ja) 2009-03-05

Family

ID=40362647

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008182370A Withdrawn JP2009049980A (ja) 2007-08-13 2008-07-14 モデル化方法及びプログラム

Country Status (2)

Country Link
US (1) US8432449B2 (ja)
JP (1) JP2009049980A (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9398266B2 (en) * 2008-04-02 2016-07-19 Hernan Carzalo Object content navigation
TWI405457B (zh) * 2008-12-18 2013-08-11 Ind Tech Res Inst 應用攝影機換手技術之多目標追蹤系統及其方法,與其智慧節點
CN102754435A (zh) * 2010-03-15 2012-10-24 欧姆龙株式会社 监视摄像机终端
EP2400403A1 (en) * 2010-06-23 2011-12-28 Alcatel Lucent A method, a server, a computer program and a computer program product for providing multimedia content
US20120010513A1 (en) * 2010-07-08 2012-01-12 Wong Stephen T C Chemically-selective, label free, microendoscopic system based on coherent anti-stokes raman scattering and microelectromechanical fiber optic probe
US8515127B2 (en) 2010-07-28 2013-08-20 International Business Machines Corporation Multispectral detection of personal attributes for video surveillance
US10424342B2 (en) 2010-07-28 2019-09-24 International Business Machines Corporation Facilitating people search in video surveillance
US9134399B2 (en) 2010-07-28 2015-09-15 International Business Machines Corporation Attribute-based person tracking across multiple cameras
US8532390B2 (en) 2010-07-28 2013-09-10 International Business Machines Corporation Semantic parsing of objects in video
WO2012080037A1 (en) * 2010-12-16 2012-06-21 Bae Systems Plc Processing distributions of a population over a region of interest divided into a plurality of cells
US20120209880A1 (en) * 2011-02-15 2012-08-16 General Electric Company Method of constructing a mixture model
WO2013149340A1 (en) * 2012-04-02 2013-10-10 Mcmaster University Optimal camera selection iν array of monitoring cameras
US20150293533A1 (en) * 2014-04-13 2015-10-15 Bobsweep Inc. Scanned Code Instruction and Confinement Sytem for Mobile Electronic Devices
WO2015178540A1 (ko) * 2014-05-20 2015-11-26 삼성에스디에스 주식회사 카메라간 핸드오버를 이용한 목표물 추적 장치 및 방법
GB2536507B (en) * 2015-03-16 2019-12-11 Tridonic Gmbh & Co Kg Lighting means and motion detection
US9418305B1 (en) 2015-04-29 2016-08-16 Xerox Corporation Segmentation free approach to automatic license plate recognition

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4940925A (en) * 1985-08-30 1990-07-10 Texas Instruments Incorporated Closed-loop navigation system for mobile robots
US7076102B2 (en) * 2001-09-27 2006-07-11 Koninklijke Philips Electronics N.V. Video monitoring system employing hierarchical hidden markov model (HMM) event learning and classification
US6072542A (en) * 1997-11-25 2000-06-06 Fuji Xerox Co., Ltd. Automatic video segmentation using hidden markov model
US6437819B1 (en) * 1999-06-25 2002-08-20 Rohan Christopher Loveland Automated video person tracking system
US6683968B1 (en) * 1999-09-16 2004-01-27 Hewlett-Packard Development Company, L.P. Method for visual tracking using switching linear dynamic system models
US20030039379A1 (en) * 2001-08-23 2003-02-27 Koninklijke Philips Electronics N.V. Method and apparatus for automatically assessing interest in a displayed product
US20030052971A1 (en) * 2001-09-17 2003-03-20 Philips Electronics North America Corp. Intelligent quad display through cooperative distributed vision
US20030058111A1 (en) * 2001-09-27 2003-03-27 Koninklijke Philips Electronics N.V. Computer vision based elderly care monitoring system
US7130446B2 (en) * 2001-12-03 2006-10-31 Microsoft Corporation Automatic detection and tracking of multiple individuals using multiple cues
US6999613B2 (en) * 2001-12-28 2006-02-14 Koninklijke Philips Electronics N.V. Video monitoring and surveillance systems capable of handling asynchronously multiplexed video
US7366645B2 (en) * 2002-05-06 2008-04-29 Jezekiel Ben-Arie Method of recognition of human motion, vector sequences and speech
AU2003280516A1 (en) * 2002-07-01 2004-01-19 The Regents Of The University Of California Digital processing of video images
US20040113933A1 (en) * 2002-10-08 2004-06-17 Northrop Grumman Corporation Split and merge behavior analysis and understanding using Hidden Markov Models
US7133535B2 (en) * 2002-12-21 2006-11-07 Microsoft Corp. System and method for real time lip synchronization
US7006945B2 (en) * 2003-01-10 2006-02-28 Sharp Laboratories Of America, Inc. Processing of video content
US7394916B2 (en) * 2003-02-10 2008-07-01 Activeye, Inc. Linking tracked objects that undergo temporary occlusion
WO2005036456A2 (en) * 2003-05-12 2005-04-21 Princeton University Method and apparatus for foreground segmentation of video sequences
US7657102B2 (en) * 2003-08-27 2010-02-02 Microsoft Corp. System and method for fast on-line learning of transformed hidden Markov models
US7313269B2 (en) * 2003-12-12 2007-12-25 Mitsubishi Electric Research Laboratories, Inc. Unsupervised learning of video structures in videos using hierarchical statistical models to detect events
US7263472B2 (en) * 2004-06-28 2007-08-28 Mitsubishi Electric Research Laboratories, Inc. Hidden markov model based object tracking and similarity metrics
US20060018516A1 (en) * 2004-07-22 2006-01-26 Masoud Osama T Monitoring activity using video information
US20080138029A1 (en) * 2004-07-23 2008-06-12 Changsheng Xu System and Method For Replay Generation For Broadcast Video
CN101398890B (zh) * 2004-08-03 2010-12-08 松下电器产业株式会社 人物判定装置
GB2419488B (en) * 2004-10-23 2010-10-27 Hewlett Packard Development Co Image processing
AU2006338248B2 (en) * 2005-03-25 2011-01-20 Sensormatic Electronics, LLC Intelligent camera selection and object tracking
US7720257B2 (en) * 2005-06-16 2010-05-18 Honeywell International Inc. Object tracking system
US7817822B2 (en) * 2005-10-14 2010-10-19 Microsoft Corporation Bi-directional tracking using trajectory segment analysis
WO2007119355A1 (ja) * 2006-03-15 2007-10-25 Omron Corporation 追尾装置、追尾方法、追尾装置の制御プログラム、およびコンピュータ読み取り可能な記録媒体
EP2008200B1 (en) * 2006-04-06 2017-09-27 Yale University Framework of hierarchical sensory grammars for inferring behaviors using distributed sensors
US7930204B1 (en) * 2006-07-25 2011-04-19 Videomining Corporation Method and system for narrowcasting based on automatic analysis of customer behavior in a retail store
US7630950B2 (en) * 2006-08-18 2009-12-08 International Business Machines Corporation System and method for learning models from scarce and skewed training data
US20080159592A1 (en) * 2006-12-28 2008-07-03 Lang Lin Video processing method and system

Also Published As

Publication number Publication date
US20090046153A1 (en) 2009-02-19
US8432449B2 (en) 2013-04-30

Similar Documents

Publication Publication Date Title
JP2009049980A (ja) モデル化方法及びプログラム
Sadeghian et al. Sophie: An attentive gan for predicting paths compliant to social and physical constraints
Choi et al. Looking to relations for future trajectory forecast
Mateus et al. Efficient and robust pedestrian detection using deep learning for human-aware navigation
Radwan et al. Multimodal interaction-aware motion prediction for autonomous street crossing
Ge et al. Vision-based analysis of small groups in pedestrian crowds
Choi et al. A general framework for tracking multiple people from a moving camera
Luber et al. People tracking in rgb-d data with on-line boosted target models
Paolanti et al. Modelling and forecasting customer navigation in intelligent retail environments
US20170255832A1 (en) Method and System for Detecting Actions in Videos
Hirakawa et al. Survey on vision-based path prediction
US11475671B2 (en) Multiple robots assisted surveillance system
US20090002489A1 (en) Efficient tracking multiple objects through occlusion
Lee et al. Muse-vae: Multi-scale vae for environment-aware long term trajectory prediction
WO2008070207A2 (en) A multiple target tracking system incorporating merge, split and reacquisition hypotheses
Bellotto et al. Cognitive visual tracking and camera control
Hu et al. Lidal: Inter-frame uncertainty based active learning for 3d lidar semantic segmentation
Coscia et al. Point-based path prediction from polar histograms
Garagić et al. Unsupervised upstream fusion of multiple sensing modalities using dynamic deep directional-unit networks for event behavior characterization
Sharma et al. Intelligent querying for target tracking in camera networks using deep q-learning with n-step bootstrapping
Nguyen et al. 3d pedestrian tracking using local structure constraints
Xie et al. Modeling and inferring human intents and latent functional objects for trajectory prediction
Bhaskara et al. SG-LSTM: Social group LSTM for robot navigation through dense crowds
Pantrigo et al. Heuristic particle filter: applying abstraction techniques to the design of visual tracking algorithms
Baltzakis et al. Propagation of pixel hypotheses for multiple objects tracking

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110621

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20111208