JP5558412B2

JP5558412B2 - 識別器を特定のシーン内のオブジェクトを検出するように適応させるためのシステム及び方法

Info

Publication number: JP5558412B2
Application number: JP2011108179A
Authority: JP
Inventors: ファティー・エム・ポリクリ
Original assignee: Mitsubishi Electric Research Laboratories Inc
Current assignee: Mitsubishi Electric Research Laboratories Inc
Priority date: 2010-06-01
Filing date: 2011-05-13
Publication date: 2014-07-23
Anticipated expiration: 2031-05-13
Also published as: US8385632B2; US20110293136A1; JP2011253528A

Description

本発明は、包括的にはコンピュータービジョンに関し、より詳細には、移動しているオブジェクト、特に人を検出するように一般的なオブジェクト識別器を特定のシーンに適応させることに関する。

ビデオフレーム内のオブジェクトを検出又は分類するためのほとんどのトレーニング方法は、ビデオのラベル付けされたフレーム例を提供することによってトレーニングされる。識別器がトレーニングされた後、既知のテストフレームを処理して識別器の性能精度を求めることができる。

そのような方法は、トレーニング及びテストが、同じシーン等の類似した条件において行われるときに良好に実行される。しかしながら、トレーニング及び配備は、幅広く変動する照明、カメラ位置、オブジェクトの見かけの大きさ、及びオブジェクトの姿勢を有する様々なシーン内であり得るので、条件は多くの場合に変化する。すなわち、多くの場合に、識別器が適用されるシーンのタイプを事前に求めることができない。

本発明の目的は、汎用識別器を、特定のシーン、この識別器がトレーニングされたときには未知であるか又は利用可能でなかった特定のシーンに適応させることである。

多くのコンピュータービジョンタスクにおいて、シーン変化によって、汎用的にトレーニングされた識別器の能力が妨げられる。たとえば、１つのフレームセットを用いて人検出器用にトレーニングされた識別器は、異なるシーン条件において良好に機能する可能性が低い。

したがって、本発明の実施の形態は、汎用トレーニングデータを取り、識別器を異なる特定のシーンに適応させることができる（人）オブジェクト検出のためのインクリメンタルトレーニング方法及びシステムを提供する。

自律的モードにおいて、特定のシーン内に人が存在しない間の、ビデオの最初のいくつかのフレームが適応のために用いられる。すなわち、特定のシーンは概ね静止している。ほとんどの場合、背景シーンの単一のフレームがあれば十分である。ユーザーの助けにより、最初のいくつかのフレームが静止していないときにアクティブトレーニングモードを用いることができる。

本方法は、汎用トレーニング例を適応させてシーン固有のオブジェクト検出器を提供するのに用いることができる。これによって、シーンにおいてデータ収集のコストのかかる動作を伴うことなく、特定のシーンにおける迅速な配備が可能になる。インクリメンタルトレーニングを用いて、識別器は、利用可能な汎用トレーニング例の利点を、シーン固有の例と同様に結合することができる。

本発明の実施の形態による、オブジェクトを検出するための識別器が適応される特定のシーンのビデオフレームである。適応されていない識別器が人オブジェクトを含むと識別した窓を含むビデオフレームである。本発明の実施の形態による、識別器を特定のシーンに適応させるための方法の流れ図である。本発明の実施の形態による、適応された識別器が人オブジェクトを含むと識別した窓を含むビデオフレームである。

図１Ａは、本発明の実施の形態に従って人が検出されることになる特定のシーンを示している。本発明の目的は、汎用的にトレーニングされた識別子を、汎用識別器が汎用トレーニングデータを用いてトレーニングされたときには未知であった特定のシーン内のオブジェクトを検出するように適応させることである。

図１Ｂに示すように、テストビデオのフレーム１０２毎に、それぞれ水平方向及び垂直方向の５０×３０ピクセルの重複を有する７０×５０ピクセルのスライド窓１０１を用いる。窓は、ラスター走査順でフレームを横切る。勾配ヒストグラム（ＨＯＧ：ＨｉｓｔｏｇｒａｍＯｆＧｒａｄｉｅｎｔ）特徴が窓毎に抽出され、特徴ベクトルが構築される。特徴ベクトルは、トレーニングされた識別器、たとえば汎用サポートベクターマシン（ＳＶＭ：ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）に渡され、特定のシーン内の人が検出される。マルチクラス識別器等の他の識別器も用いることができることに留意されたい。

図１Ｂに示される各窓が、正の識別器出力を示す。図１Ｂは、主にフレームの左上部分における紛らわしいテクスチャに起因する過度に多数の誤検出を示している。このため、汎用的にトレーニングされたオブジェクト識別器は、良好に一般化されず、トレーニング例の詳細に大きく依存する。

通常、特定のシーン内の背景は、トレーニング中未知であるか又は利用可能でない。したがって、背景の部分は多くの場合に、特定のシーンから取得されたフレームにおいて人であると誤って分類される。

他方で、人１００を含む窓が、図１Ｂのフレーム内で正しく検出されていることも見て取ることができる。したがって、識別器は、検出問題のいくつかの局面、特に人の外観を正しく捉えている。

トレーニングされた識別器の部分的な正確性に動機付けされ、本発明者らの目的は、識別器を特定のシーンに効率的かつ迅速に、すなわちユーザー入力をほとんど又は全く伴うことなく適応させることである。

目標は、以前のトレーニング例の情報性のある局面を保持する一方で、特定のシーンのための分類タスクに関するより多くの情報も集め、それによって、汎用識別器からシーン固有の識別器を構築することである。

人検出の用途に焦点を置く。これは、ほとんどの監視用途において重要である。しかしながら、本発明者らの方法は、他の検出及びオブジェクト追跡タスクにも適用することができる。概して、本発明者らの方法は、トレーニングのための新たな例を選択し、古い情報性のない例を除去することにより、インクリメンタル更新を実行することによって機能する。情報性のない例を除去することによって、固定サイズのトレーニングデータセットを維持することが可能になるので、トレーニングが効率的であり、固定メモリ及びリアルタイム処理要件と共に機能することができる。

方法
図２は、本方法のステップをより詳細に示している。本方法のステップは、当該技術分野において既知のメモリ及び入力／出力インターフェースを備えるプロセッサにおいて実行することができる。

特定のシーン２０１のビデオ２２１が、カメラ２２０によって取得される。シーンモデルのモデル２１０が、ビデオを用いて構築される（２２２）。識別器２３０がモデルに適用され、負の例が選択される（２３１）。

最初に、識別器２３０は、汎用の、たとえばサポートベクターマシン（ＳＶＭ）、カスケード識別器、又はマルチクラス識別器である。識別器は、シーンに固有の識別器となるように適応され、この識別器を用いて、特定のシーン内の人等のオブジェクトを検出することができる。このオブジェクトは、国立情報学自動制御研究所（ＩＮＲＩＡ：ＩｎｓｔｉｔｕｔＮａｔｉｏｎａｌｄｅＲｅｃｈｅｒｃｈｅｅｎＩｎｆｏｒｍａｔｉｑｕｅｅｔｅｎＡｕｔｏｍａｔｉｑｕｅ）人物データ、又はマサチューセッツ工科大学（ＭＩＴ：ＭａｓｓａｃｈｕｓｅｔｔｓＩｎｓｔｉｔｕｔｅｏｆＴｅｃｈｎｏｌｏｇｙ）の生物学及びコンピューター学習センター（ＣＢＣＬ：ＣｅｎｔｅｒｆｏｒＢｉｏｌｏｇｉｃａｌ＆ＣｏｍｐｕｔａｔｉｏｎａｌＬｅａｒｎｉｎｇ）の歩行者データセット等の既知の汎用データセットからの汎用トレーニングフレーム例の大きなセットを用いて最初にトレーニングされたときは未知であった。双方のデータセットが、人オブジェクト検出及び同様の用途のために識別器をトレーニングするのにコンピュータービジョンコミュニティにおいて広く用いられる、ラベル付けされたトレーニングフレーム及びラベル付けされていないテストフレームの大きなセットを含む。しかしながら、オブジェクトが存在する特定のシーンは、汎用識別器がトレーニングされたときに未知である。

新たな負の例のサブセットがトレーニングデータに加えられる一方、不確実性基準に基づいて、トレーニングデータから既存の負の例の別のセットが除去され、新たなトレーニングデータ２４０が生成される。同様に、正の例をトレーニングデータに付加する。これによってデータセットが固定サイズに維持される。

次に、識別器は新たなトレーニングデータ２４０を用いて再トレーニングされる（２５０）。選択するステップ、付加するステップ、及びトレーニングするステップは、所望の精度レベルに達するまで反復される。

代替的な実施の形態では、動きセンサー２６０を用いて特定のシーン内の動きを検出する（２７０）ことができ、この検出は正の例の選択２５１をトリガーする。動きが検出されると、フレームは、動きフレームとしてマーキングされる。フレーム差分は、動きの検出前、検出中、及び検出後にフレームに適用される。最も大きな差分値を有するフレーム内の領域が求められ、オブジェクトサイズ窓がグループ化されたピクセルに適合される。ここで、窓は新たな正の例である。

半教師付きモードにおいて、ユーザーがトレーニング中に参加し、オプションのユーザー入力データを提供する。次に、本方法は、フレーム窓を示してこの窓がオブジェクトを含むか否かをクエリする等の、ユーザーに対して行われるいくつかのクエリに基づいて特定のシーンに適応する。このモードは、人の外観が大幅に異なる場合があるか、又は空の（動きのない）フレームが自律的適応に利用可能でない、より困難な環境に用いることができる。

自律モードは、汎用データセット内の汎用データ、及び動きを一切含まない特定のシーン（単なる背景）のビデオからの最初のいくつかのフレームを用いて、本発明者らのシーン固有の識別器２３０をトレーニングする。このモードでは、最初のいくつかの空のフレーム、たとえば１つ又は２つを、自動背景除去に用いることができる。

ループ内のユーザーを用いた適応
アクティブトレーニング
アクティブトレーニング、その後に続く本発明者らのアクティブ選択方法の短い概観を与える。アクティブトレーニングにおける基本的な着想は、ユーザーに「情報性のある例」をクエリし、それによって受動方法、すなわちより少ないトレーニング例を用いるよりも高速にトレーニングを行うことである。アクティブトレーニングは、複数のコンピュータービジョンアプリケーションにおいて利用されてきた。たとえば、米国特許第７，５９３，９３４号及び同第７，５８７，０６４号を参照されたい。

アクティブ選択プロセスは通例反復的であり、プロシージャはユーザーに、選択されたラベル付けされていない例に対するラベルをクエリし、ユーザーフィードバックを取得し、ここでラベル付けされた例をトレーニングセットに付加する。識別器は各反復中に再トレーニングされ（２５０）、所望の精度レベルに達するか、トレーニングデータがこれ以上利用可能でなくなるまでプロセスが反復される。

インテリジェントなクエリ選択を通じて、アクティブトレーニングは、汎用識別器を非常に少ないトレーニング例を用いてトレーニングすることができる。アクティブトレーニングの最も重大な局面は、クエリ選択メカニズムである。未来の分類率に関してラベル付けされていない例の潜在的な情報性を基準することは、クエリ選択の場合と同様に困難である。

ほとんどの方法は、不確実性サンプリング、すなわち現在の識別器が最も不確実である例又は換言すれば最も不確実な例を選択すること等の代用物を用いる。たとえば、ＳＶＭ識別器２３０について、分類境界に最も近い例は不確実であり、ラベル付けされている場合、潜在的に情報性のあるものとなり得る。不確実性サンプリングに焦点を置く。

インクリメンタルトレーニング及び忘却
このセクションでは、インクリメンタルトレーニングのためのアクティブトレーニング及び忘却を利用する。主な着想は、汎用ラベル付けされたトレーニングフレームを所与とすると、トレーニングセットに付加するために、配備中のシーンから新たな情報性のあるフレームをユーザーにクエリすることができる一方、古い情報性のないフレームを除去することができるということである。選択（付加）及び削除（忘却）プロセスは、共にアクティブ選択を通じて機能する。削除の場合、アクティブ選択基準は逆にされる。すなわち、最も情報性のない例が選択される。

本発明者らの知る限り、これは、アクティブ忘却を用いると共にアクティブ忘却をインクリメンタル識別器トレーニングのためのアクティブトレーニングと組み合わせる最初の研究である。

図２に示されるように、配備用の特定のシーン２０１が汎用ラベル付けされたトレーニングデータと共に与えられると、本方法は、ユーザーにクエリし、新たなフレームからいくつかのトレーニング例フレームを選択及び付加する。トレーニングデータを用いて識別器を特定のシーンに適応させる。

同時に、古い情報性のないデータがトレーニングセットから除去され、このため固定サイズであることが要求されるメモリが維持され、リアルタイム処理が可能になる。除去される例がアクティブに選択されるので、それらは比較的情報性がなく、除去によって精度が大幅に減少することはない。

このプロセスは、反復して実行され、その結果、汎用トレーニングデータを少量のユーザー入力を用いて適応させることによって達成された、シーン固有のトレーニングされた識別器となる。通常、特定のシーンにおいて、ビデオの最初のいくつかのフレーム、たとえば１つ又は２つは、更新を実行するのに用いることができ、そして結果としての識別器を特定のシーンに配備することができる。

不確実性ベースの選択基準
本発明者らが利用する選択基準は、ＳＶＭ識別器の超平面への距離に基づく。特に、ＳＶＭがトレーニングされた後、ＳＶＭを用いて、ラベル付けされていないフレームのクラスメンバーシップ確率値を推定する。以下で確率推定技法の短い概観を与える。

マージンに基づく確率推定
マージンからクラスメンバーシップ確率の推定値を得るために、プラットの逐次最小最適化（ＳＭＯ：ＳｅｑｕｅｎｔｉａｌＭｉｎｉｍａｌＯｐｔｉｍｉｚａｔｉｏｎ）手順の変更版を用いて（米国特許第７，１１７，１８５号を参照されたい）、ＳＶＭから確率出力を抽出する。基本的な着想は、シグモイド関数を用いてクラス確率を概算することである。

本発明者らの特徴ベクトルはｘ_ｉであり、ｙ_ｉ∈２｛−１，１｝はベクトルの対応するラベルであり、ｆ（ｘ）がＳＶＭの決定関数である。クラスメンバーシップの条件付き確率Ｐ（ｙ＝１｜ｘ）は、次式（１）を用いて概算することができる。

ここで、Ａ及びＢは、最大尤度技法を用いて推定されたパラメーターである。

ラベル付けされたトレーニングデータのセットは、任意の時点においてＬである。ｘを、そのアクティブ選択基準（不確実性スコア）が対象とするラベル付けされていない例の特徴ベクトルとする。ｙを、選択中未知である、ｘの真のラベルとする。

選択基準を、２つのクラスに関して推定された確率間の差｜Ｐ（ｙ＝１｜Ｌ）−Ｐ（ｙ＝０｜Ｌ）｜として定義する。このため、大きなプールＡからのアクティブな例選択は、次式（２）のように定式化することができる。

上記のスコアは、ラベル付けされていない例の場合の識別器の不確実性を表している。スコアが低いほど不確実性が高く（マージンがより小さい）、例は現在の識別器を更新する可能性がより高い。上記と同じ不確実性スコアを用いて、識別器境界から最も離れていることを示す最も高いスコアを有する例を除去することができる。

ＳＶＭ識別器の場合、これらの例は、ベクトルをサポートしない。このため、例を除去しても識別器の精度が変化しない。新たな例を付加することによって、除去される例が潜在的なサポートベクトルとなる場合があることに留意されたい。しかしながら、実際は、これは極度に稀にしか発生しないことを観測している。したがって、この基準を用いた例の除去は識別器の精度を減少させない。

二値分類の場合、マージンへの距離で十分である。しかしながら、推定確率値を用いて、上記の方法をマルチクラス識別器にも拡張することができる。ｋクラス問題の場合の選択基準は、次式（３）のとおりである。

本発明者らの方法は、他の検出技法に取って代わることを意図しているのではなく、インクリメンタルアクティブトレーニングを追加することによって、他の検出技法を補うことを意図している。したがって、本発明者らの方法は、人検出アプリケーションにおいて良好な性能を与えることで知られている、識別器カスケード等の、特定のドメインにおいて良好に機能する他の既知の技法と共に用いることができる。

上記の半教師付き適応方法は、トレーニング条件とテスト条件が概ね異なり、他の情報が利用可能でない場合であっても、多くのインクリメンタルトレーニングタスクに適用することができる。

多くの人検出アプリケーションにおいて、より多くの情報が利用可能である。たとえば、特定のシーンにおいて、特定のシーン内に人が一切いないビデオのいくつかのフレーム（すなわち、この特定のシーンは、本質的に静止背景である）にアクセスすることができる場合がある。

代替的に、動きセンサーは、監視環境において多くの場合に利用可能である。動きセンサーは、人のいないフレーム（すなわち特定のシーンが概ね静止している）の存在を示すプライマリセンサーとして用いることができる。動きセンサーが動きを検出すると、正のサンプルを選択することができる。この実施の形態では、汎用識別器を、以下のように完全に自律的に特定のシーンに適応させることができる。

自律的適応
図１Ｂの例において、多数の誤検出が存在する。誤ったサンプルを根絶する一方、正しい検出をそのままにしておくことを目的とする。特定のシーン内に人が存在しないビデオフレームにアクセスすることができる場合、そのフレームからのフレーム窓を用いて、より多くの負のトレーニング例を集めることができる。

負の例の選択
フレームあたりのスライディング窓の数は、小さな窓サイズ及び大幅な重複に起因して非常に大きくなり得る。したがって、トレーニングセットのサイズ及び再トレーニング時間の双方の視点から、全ての窓を負のトレーニング例として用いることは実際的でない。

このセクションでは、例の選択、付加、及び除去の本発明者らの方法を説明する。汎用識別器２３０は、空のフレーム、すなわち人のいないフレームに適用され、識別器が正の応答を与える全ての窓がトレーニング用に選択される。

フレームは空であることが分かっているので、正の検出は、本質的に識別器による誤分類である。したがって、正の検出をトレーニングデータに付加することによって汎用識別器がシーン固有の識別器に変化すると共に、誤検出の数を低減する可能性が高い。

本発明の実施の形態は、ベイズ背景更新メカニズムを用いて特定のシーンの背景を推定すること、及び混合モデルのセットを各ピクセルに適合させて、最も有望なピクセルモデルを選択することによって、特定のシーンのモデルを構築する。この背景から、オブジェクトサイズにされた窓が選択される。

代替的に、ビデオからのフレームのセットに関して、差分が小さいピクセルをグループ化することによって（すなわち、グループ化されたピクセルが概ね静止した特定のシーンの部分を表す）、フレーム内のピクセル間の差分が求められる。次に、オブジェクトサイズ窓がグループ化されたピクセルに適合される。双方の場合に、窓は動きを表現しないので、そのような窓は新たな負の例に対応し、この窓は、動いているオブジェクトを一切含まない可能性が非常に高い。

新たな正の例を得るために、動きセンサーを用いて動きを有する動きフレームを検出することができる。このとき、フレーム差分は、動きの検出前、検出中、及び検出後のフレームにしか適用されない。そのようなフレーム差分マップにおいて、最大の差分値を有する領域が動いているオブジェクトを示し、このため新たな正の例を示す。

トレーニングセットサイズの維持
他方で、新たなトレーニング例を付加することによって、トレーニングデータセットのサイズが増加する。これは、メモリが制約された用途、及び処理レートがたとえばリアルタイムの人検出のために重要である場合において望ましくない。したがって、等しい数の古い負の例の、汎用トレーニング例からの除去も行う。これは、前のセクションの方法を用いることによって、すなわち境界から最も遠い例を除去することによって達成される。

（人）オブジェクト検出器のための汎用識別器を特定のシーンに適応させるための完全に自律的なモードを提供する。また、ユーザーが識別器を再トレーニングするための正の例及び負の例をクエリされる半自律的モードを提供する。図３は、本発明者らの識別器が、歩行者３０１を含む窓を正確に識別するように適用されるビデオフレームを示している。

Claims

識別器を特定のシーン内のオブジェクトを検出するように適応させるための方法であって、前記特定のシーンは、前記識別器がトレーニングデータを用いてトレーニングされたときに未知であり、前記方法は、
前記特定のシーンのフレームのビデオを、カメラを用いて取得するステップと、
前記ビデオ内の前記フレームを用いて、前記特定のシーンモデルのモデルを構築するステップと、
前記識別器を前記モデルに適用するステップであって、負の例を選択する、適用するステップと、
新たな前記負の例のサブセットを前記トレーニングデータに付加する一方で、不確実性基準に基づいて、前記トレーニングデータから既存の負の例の別のセットを除去するステップと、
選択された正の例を前記トレーニングデータに付加するステップと、
前記識別器を再トレーニングするステップと、
シーン固有の識別器を得るための所望の精度レベルに達するまで、前記付加するステップ及び前記再トレーニングするステップを反復するステップと、
を含む識別器を特定のシーン内のオブジェクトを検出するように適応させるための方法。
前記構築するステップは、
混合モデルのセットを前記フレーム内の各ピクセルに適合させることによって、ベイズ背景更新メカニズムを用いて前記特定のシーンの背景を推定するステップであって、ピクセルモデルを生成する、推定するステップと、
最も可能性の高いピクセルモデルを選択するステップと、
をさらに含む請求項１に記載の識別器を特定のシーン内のオブジェクトを検出するように適応させるための方法。
前記モデルは、フレーム差分を求めると共に、小さい差分値を有するピクセルをグループ化すること、及びオブジェクトサイズ窓を前記グループ化されたピクセルに適合させることによって構築され、ここで、前記窓は新たな負の例である請求項１に記載の識別器を特定のシーン内のオブジェクトを検出するように適応させるための方法。
動きセンサーを用いて前記特定のシーン内の動きを検出するステップと、
前記フレーム差分を、前記動きの検出前、検出中、及び検出後に適用するステップであって、差分値を求める、適用するステップと、
最も大きな差分値を有する前記フレーム内の領域を求めるステップと、
前記オブジェクトサイズ窓を前記グループ化されたピクセルに適合させるステップであって、ここで、前記窓は新たな正の例である、適合させるステップと、
をさらに含む請求項３に記載の識別器を特定のシーン内のオブジェクトを検出するように適応させるための方法。
メモリ要件及びリアルタイム処理要件に従って前記トレーニングデータを固定サイズに設定及び維持するステップ
をさらに含む請求項１に記載の識別器を特定のシーン内のオブジェクトを検出するように適応させるための方法。
現在のモデルと現在のフレームとの間の差分が大きい場合、前記再トレーニングを反復することによって、前記特定のシーン内の変化に適応させるステップ
をさらに含む請求項１に記載の識別器を特定のシーン内のオブジェクトを検出するように適応させるための方法。
前記新たな負の例を用いてマルチクラス識別器を適応させるステップ
をさらに含む請求項１に記載の識別器を特定のシーン内のオブジェクトを検出するように適応させるための方法。
前記新たな負の例及び前記正の例を用いて前記識別器を再トレーニングするステップと、
前記識別器を前記識別器内のカスケード層として付加するステップと、
をさらに含む請求項１に記載の識別器を特定のシーン内のオブジェクトを検出するように適応させるための方法。
前記トレーニングデータは、最初汎用である請求項１に記載の識別器を特定のシーン内のオブジェクトを検出するように適応させるための方法。
前記窓のサイズは、７５×５０ピクセルであり、５０×３０ピクセルの水平方向及び垂直方向の重複を有する請求項３に記載の識別器を特定のシーン内のオブジェクトを検出するように適応させるための方法。
各前記フレームから特徴を抽出するステップであって、特徴ベクトルにする、抽出するステップと、
前記特徴ベクトルを分類するステップと、
をさらに含む請求項１に記載の識別器を特定のシーン内のオブジェクトを検出するように適応させるための方法。
前記特徴は、勾配ヒストグラムである請求項１１に記載の識別器を特定のシーン内のオブジェクトを検出するように適応させるための方法。
前記識別器は、サポートベクターマシンである請求項１に記載の識別器を特定のシーン内のオブジェクトを検出するように適応させるための方法。
前記識別器は、マルチクラス識別器である請求項１に記載の識別器を特定のシーン内のオブジェクトを検出するように適応させるための方法。
前記識別器は、最初汎用である請求項１に記載の識別器を特定のシーン内のオブジェクトを検出するように適応させるための方法。
前記オブジェクトは、人である請求項１に記載の識別器を特定のシーン内のオブジェクトを検出するように適応させるための方法。
ユーザーが、アクティブトレーニング中に選択されたラベル付けされていない例を選択する請求項１に記載の識別器を特定のシーン内のオブジェクトを検出するように適応させるための方法。
識別器を特定のシーン内のオブジェクトを検出するように適応させるためのシステムであって、前記特定のシーンは、前記識別器がトレーニングデータを用いてトレーニングされたときに未知であり、前記システムは、
前記特定のシーンのフレームのビデオを、取得するように構成されるカメラと、
前記ビデオ内の前記フレームを用いて、前記特定のシーンモデルのモデルを構築する手段と、
前記識別器を前記モデルに適用して負の例を選択する手段と、
新たな前記負の例のサブセットを前記トレーニングデータに付加する一方で、不確実性基準に基づいて、前記トレーニングデータから既存の負の例の別のセットを除去する手段と、
選択された正の例を前記トレーニングデータに付加する手段と、
前記識別器を再トレーニングする手段と、
を備える識別器を特定のシーン内のオブジェクトを検出するように適応させるためのシステム。