JP2019512827A

JP2019512827A - 機械学習によってオブジェクト分類器を訓練するためのシステム及び方法

Info

Publication number: JP2019512827A
Application number: JP2018568468A
Authority: JP
Inventors: アシシュシュリバスタバ
Original assignee: Avigilon Corp
Current assignee: Avigilon Corp
Priority date: 2016-03-17
Filing date: 2017-03-14
Publication date: 2019-05-16
Anticipated expiration: 2037-03-14
Also published as: GB2566369A; CN109154976A; KR20180135898A; CA3017027A1; IL261696A; AU2017233723A1; SE1851266A1; CN109154976B; GB201816451D0; TWI759286B; AU2017233723B2; TW201737134A; DE112017001311T5; JP7026062B2; GB2566369B; US20170270674A1; IL261696B; KR102462572B1; GB2566369A8; US10776926B2

Abstract

コンピュータ履行型のオブジェクト分類器を訓練するためのシステム及び方法は、シーンのサブ領域内に最前面の視覚的オブジェクトを検出するステップと、シーンのサブ領域の背景モデルを決定するステップと、サブ領域の背景モデルを否定的な訓練例として使用したコンピュータ履行型の機械学習によってオブジェクト分類器を訓練するステップとを含み、ここで背景モデルは、任意の最前面の視覚的オブジェクトがそのサブ領域から欠けている場合に、サブ領域を表す。

Description

本主題は、視覚的オブジェクトの分類に関し、且つ、特に、検出された最前面の視覚的オブジェクトの背景モデルを否定的な訓練例として使用したコンピュータ履行型のオブジェクト分類器を訓練することに関する。

コンピュータ履行型の視覚的オブジェクト分類（オブジェクト認識とも呼ばれる）は、カメラによって捕捉された静止画又は動画の中で見つけられる実在のオブジェクトの視覚的表現を分類することに関する。視覚的オブジェクト分類を実施することによって、静止画又は動画の中で見つけられる各視覚的オブジェクトは、そのタイプ（例えば、人間、車両、動物）に従って分類される。

自動化されたセキュリティシステム及び監視システムは、通常、画像データを収集するために、ビデオカメラ若しくは他の画像捕捉デバイス、又はセンサを使用する。最も簡単なシステムでは、画像データによって表される画像は、同時に起こるセキュリティ要員による選別にために表示される、及び／又は、セキュリティ違反後の事後参照のために記録される。それらのシステムでは、関心のある視覚的オブジェクトを検出すると共に分類するタスクが、人間の観察者によって実施される。システム自体が、部分的に又は完全に、のいずれかでオブジェクトの検出及び分類を実施できる場合、著しい進歩が起こる。

通常の監視システムでは、例えば、周囲を移動する人間、車両、動物などのようなオブジェクトを検出することに、人は関心があるであろう。異なるオブジェクトは、異なる脅威、又は異なるレベルの警報を引き起こす可能性がある。例えば、シーンの中の動物は普通のことかもしれないが、しかし、シーンの中の人間又は車両は警報の原因となるかもしれず、且つ、セキュリティ警備員の即時の注意を要求するかもしれない。カメラによって捕捉された画像データによって表される画像の中のオブジェクトの、自動化されたコンピュータ履行型の検出及び分類は、画像データの記録改善はもちろんのこと、セキュリティ要員の選別の仕事を著しく促進することが可能である。

本明細書で説明される実施形態は、一態様において、コンピュータ履行型のオブジェクト分類器を訓練するための方法を提供する。その方法は、あるシーンのサブ領域内に最前面の視覚的オブジェクトを検出するステップと、そのシーンのサブ領域の背景モデルを決定するステップと、サブ領域の背景モデルを否定的な訓練例として使用したコンピュータ履行型の機械学習によってオブジェクト分類器を訓練するステップとを含み、ここで背景モデルは、任意の最前面の視覚的オブジェクトがサブ領域から欠けている場合に、サブ領域を表す。

本明細書で説明される実施形態は、別の一形態において、コンピュータ履行型のオブジェクト分類器を提供する。そのシステムは、プロセッサと、プログラム命令を格納するコンピュータ可読な格納デバイスとを含み、ここで該プログラム命令は、プロセッサによって実行される場合、システムが動作を実行することを引き起こす。該動作は、シーンのサブ領域内に最前面の視覚的オブジェクトを検出するステップと、該シーンのサブ領域の背景モデルを決定するステップと、サブ領域の背景モデルを否定的な訓練例として使用したコンピュータ履行型の機械学習によってオブジェクト分類器を訓練するステップとを含み、ここで背景モデルは、任意の最前面の視覚的オブジェクトがサブ領域から欠けている場合に、サブ領域を表す。

幾つかの実施例によれば、方法及び／又はシステムは、検出された最前面の視覚的オブジェクトを肯定的な訓練例として使用した機械学習によって、オブジェクト分類器を訓練するステップを更に含む。

幾つかの実施例によれば、シーンのサブ領域の背景モデルを決定するステップは、任意の最前面のオブジェクトが該シーンのサブ領域に対応する履歴的画像フレームのサブ領域から欠けている場合、捕捉された履歴的画像フレームを選択するステップと、履歴的画像フレームから該シーンのサブ領域に対応するサブ領域を取り入れるステップとを含み、ここで取り入れられた画像フレームは、該シーンのサブ領域の背景モデルである。

幾つかの実施例によれば、シーンのサブ領域の背景モデルを決定するステップは、複数の履歴的画像フレームの各々の中で、任意の最前面のオブジェクトが無い１つ以上のサブ領域を決定するステップと、シーン全体を表す完全な背景画像を形成するために、複数の履歴的画像から１つ以上のサブ領域を集計するステップと、完全な背景画像から該シーンのサブ領域に対応するサブ領域を取り入れるステップとを含み、ここで取り入れられた完全な背景画像は、該シーンのサブ領域の背景モデルである。

幾つかの実施例によれば、複数の履歴的画像から１つ以上のサブ領域を集計するステップは、シーン全体を表す画像を形成するために、１つ以上のサブ領域を縫い合わせるステップを備える。

幾つかの実施例によれば、オブジェクト分類器は、特に現在のシーンに対して訓練される。

幾つかの実施例によれば、現在のシーンが新しいシーンに変わることに際して、現在のシーンに特有の訓練無しに、オブジェクト分類器に逆戻りし、且つ、新しいシーンからの背景モデルを使用した機械学習によって、オブジェクト分類器を訓練する。

幾つかの実施例によれば、オブジェクト分類器は、管理された学習を部分的に使用して準備される。

幾つかの実施例によれば、コンピュータ履行型の機械学習は、畳み込みニューラルネットワーク、サポートベクトルマシン、デシジョンツリー、ランダムフォレスト、及びカスケード分類器から選択される。

幾つかの実施例によれば、方法及び／又はシステムは、誤分類されたシーンのサブ領域を否定的な訓練例として使用したコンピュータ履行型の機械学習によって、オブジェクトを訓練するステップを更に含む。

詳細な説明には、次の図を参照する。

一実施例による、映像捕捉及び再生システムの接続されたデバイスのブロック図を例示したものである。

一実施例による、映像捕捉及び再生システムの一セットの動作モジュールのブロック図を例示したものである。

一実施例による、１つのデバイス内で履行される一セットの動作モジュールのブロック図を例示したものである。

画像データに対して映像解析を実施するための方法の、一実施例のフローチャート図を例示したものである。

一実施例による、映像解析モジュールの一セットの動作サブモジュールのブロック図を例示したものである。

一実施例による、オブジェクト分類モジュールの複数のオブジェクト分類器を例示したものである。

基礎分類器の更なる訓練のための、当技術分野で知られた方法のフローチャートを例示したものである。

一実施例による、基礎分類器の更なる訓練のための、改善されたコンピュータ履行型の方法のフローチャートを例示したものである。

検出された最前面の視覚的オブジェクト及びそれの対応する背景モデルを有するシーンのサブ領域である。検出された最前面の視覚的オブジェクト及びそれの対応する背景モデルを有するシーンのサブ領域である。検出された最前面の視覚的オブジェクト及びそれの対応する背景モデルを有するシーンのサブ領域である。検出された最前面の視覚的オブジェクト及びそれの対応する背景モデルを有するシーンのサブ領域である。検出された最前面の視覚的オブジェクト及びそれの対応する背景モデルを有するシーンのサブ領域である。検出された最前面の視覚的オブジェクト及びそれの対応する背景モデルを有するシーンのサブ領域である。

シーンの例を表す、第１の完全な履歴的画像フレームである。

シーンの例を表す、第２の完全な履歴的画像フレームである。

代替的な実施例による、基礎分類器の更なる訓練のための、改善されたコンピュータ履行型の方法のフローチャートを例示したものである。

一実施例による、基礎分類器のシーンに特有の訓練のための、改善されたコンピュータ履行型の方法のフローチャートを例示したものである。

例示したものを簡単且つ明快にするために、図に示された要素は、必ずしも寸法通りに描かれていない、ということは正しく認識されるであろう。例えば、要素の幾つかの寸法は、明快さのために、他の要素に対して誇張されているかもしれない。更に、適切と考えられる場合には、参照符号は、対応する要素又は類似要素を指し示すために、図面間で繰り返されるかもしれない。

本明細書で説明される模範的な実施形態の完全な理解を提供するために、多くの具体的な詳細が明らかにされる。しかしながら、本明細書で説明される実施形態は、これらの特定の詳細が無くても実行される可能性がある、ということは当業者によって理解されるであろう。他の事例において、良く知られた方法、手続き、及び構成部品は、本明細書で説明される実施形態を不明瞭にしないように、詳細には説明されていない。更に、この説明は、いかなる方法においても、本明細書で説明される実施形態の範囲を制限するものと考えられるべきではなく、むしろ本明細書で説明される様々な実施形態の履行を単に説明するものと考えられるべきである。

「頂部」、「底部」、「上方へ」、「下方へ」、「垂直に」、及び「横方向に」のような方向性の用語は、以下の説明では相対的な参照を提供する目的のためだけに使用され、且つ、どれだけの数の品目が、使用中に位置付けられるべきか、又は、組み立て品の中で取り付けられるべきか、若しくは周囲に対して取り付けられるべきか、ということに関して、いかなる制限の提案も意図するものではない。

「態様」、「実施形態（複数可）」、「該実施形態（複数可）」、「１つ以上の実施形態」、「幾つかの実施形態」、「ある実施形態」、「一実施形態」、「別の実施形態」などのような用語は、特記しない限り、開示された発明の１つ以上の（しかし全てではない）実施形態を意味する。実施形態を説明する際に、「別の実施形態」又は「別の態様」を参照することは、特記しない限り、参照された実施形態が、別の実施形態に関して相互に排他的である（例えば、１つの実施形態が、参照される実施形態に先んじて説明される）、ということを意味しない。

「含む」、「備える」、及びそれらの変形は、特記しない限り、「含む」ことを意味するが、しかし、これに限定されない。

「複数」という用語は、特記しない限り、「２つ以上」を意味する。「本明細書における」という用語は、特記しない限り、「本出願において、参照によって組み込まれるかもしれない任意のものを含む」、ということを意味する。

「たとえば（ｅ．ｇ．）」などの用語は、「例えば（ｆｏｒｅｘａｍｐｌｅ）」を意味し、従って、それが説明する用語又は句を限定しない。

「それぞれの（ｒｅｓｐｅｃｔｉｖｅ）」などの用語は、「個別に考えると（ｔａｋｅｎｉｎｄｉｖｉｓｕａｌｌｙ）」、ということを意味する。従って、もし２つ以上の物が「それぞれの」特性を有する場合、その時は、そのような物は、それ自身の特性を有し、且つ、これらの特性は、互いに異なり得るが、しかし、互いに異なっている必要はない。例えば、「２つのマシンの各々はそれぞれの機能を有する」という句は、第１のそのようなマシンは１つの機能を有し、且つ第２のそのようなマシンは、同様に１つの機能を有する、ということを意味する。第１のマシンの機能は、第２のマシンの機能と同じであってもよく、又は第２のマシンの機能と同じでなくてもよい。

「ａ」又は「ａｎ」という言葉は、請求項及び／又は明細書の中で「備える（ｃｏｍｐｒｉｓｉｎｇ）」又は「含む（ｉｎｃｌｕｄｉｎｇ）」という用語と合わせて使用される場合、「１つの」ということを意味するかもしれず、しかし、それはまた、その内容が明確に別のことを指示しない限り、「１つ以上の」、「少なくとも１つの」、及び「１つ又はそれ以上の」という意味と矛盾しない。同様に、「別の」という言葉は、その内容が明確に別のことを指示しない限り、少なくとも第２の又はそれ以上のということを意味するかもしれない。

本明細書で使用される「結合された」、「結合する」、又は「接続された」という用語は、それらの用語が使用される文脈に依存して、幾つかの異なる意味を有することが可能である。例えば、結合された、結合する、又は接続されたという用語は、機械的な含意又は電気的な含意を有することが可能である。例えば、本明細書で使用される、結合された、結合する、又は接続されたという用語は、２つの要素又はデバイスが、互いに対して直接接続される、又は互いに対して接続される、ということを指し示すことが可能であり、その場合の接続は、特別な文脈に依存して、電気的要素、電気的信号、又は機械的要素を介して、１つ以上の中間要素又はデバイスを通して行われる。

本音明細書における「画像データ」は、映像捕捉デバイスによって産出されたデータのことを指し、且つ、それは、映像捕捉デバイスによって捕捉された画像を表す。画像データは、複数の連続した画像フレームを含んでもよく、該複数の連続した画像フレームは、映像捕捉デバイスによって捕捉された映像を協力して形成する。各画像フレームは、画素のマトリックスによって表してもよく、各画素は、画素の画像値を有する。例えば、画素の画像値は、グレースケールに関する（例えば、０から２５５までの）数値であってもよく、又は、カラー化された画像に対する複数の数値であってもよい。画像データにおける画素の画像値を表すために使用される色空間の例は、ＲＧＢ、ＹＵＶ、ＣＹＫＭ、ＹＣＢＣＲ４：２：２、及びＹＣＢＣＲ４：２：０の画像を含む。本明細書で使用される「画像データ」は、映像捕捉デバイスによって産出された「生の」画像データのことを指し得る、及び／又は、ある形の処理を受けた画像データのことを指し得る、ということは理解されるであろう。

「最前面の視覚的オブジェクト」とは、映像捕捉デバイスによって捕捉された画像フレームの中で見つけられた実在のオブジェクト（例えば、人、動物、車両）の視覚表現のことを指す。最前面の視覚的オブジェクトは、映像監視のような様々な目的に対して関心のあるオブジェクトである。例えば、あるシーンにおける最前面の視覚的オブジェクトは、存在している人間又は車両のような事象を表してもよい。最前面の視覚的オブジェクトは、移動オブジェクトであってもよく、又は以前の移動オブジェクトであってもよい。最前面の視覚的オブジェクトは、背景オブジェクトと区別されるが、ここで背景オブジェクトとは、あるシーンの背景の中で見つけられるオブジェクトであり、且つ、関心がないものである。

「現在の画像フレーム」とは、本明細書で説明される様々なシステム及び方法の中で現在解析されている映像の、複数の連続した画像フレームの中の画像フレームのことを指す。現在の画像フレームの画像データは、現在の画像フレームの中で、及び／又は現在の画像に先立つ複数の画像フレームの中で、捕捉されたオブジェクトに関する情報を生成するために解析される。

現在の画像フレームの「以前の画像フレーム」又は「履歴的画像フレーム」とは、映像の複数の連続した画像フレームの中で、現在の画像フレームの前に生じた画像フレームのことを指す。例えば、以前の画像フレームは、現在の画像フレームに直接先立つ画像フレームであってもよい。代わりに、以前の画像フレームは、複数の連続した画像フレームよりも時間的に早い画像であってもよく、しかし、現在の画像フレームに関連するように、現在の画像フレームに十分に近いものである。

本明細書における「処理画像データ」又はその変形物とは、画像データに対して実施される、１つ以上のコンピュータ履行型の機能のことを指す。例えば、処理画像データは、画像処理動作を含んでもよく、ここで該画像処理動作は、以下に限定されないが、映像データを解析する、管理する、圧縮する、符号化する、格納する、送信する、及び／又は再生することを含む。画像データを解析することは、画像フレームのエリアを分割すると共に、視覚的オブジェクトを検出すること、画像データによって表される捕捉されたシーンの中に位置する視覚的オブジェクトを追跡すること、及び／又は該視覚的オブジェクトを分類することを含む。画像の処理は、修正された画像データが、圧縮された画像データ（例えば、品質が低下したもの）及び／又は再符号化された画像データのようなものとして、産出されることの原因になるかもしれない。画像データの処理はまた、出力されるべき画像の中に、捕捉された画像データ又は視覚的オブジェクトに関する付加的情報をもたらすかもしれない。例えば、そのような付加的情報は、一般にメタデータとして理解される。メタデータはまた、画像フレームの中で、検出された視覚的オブジェクトの周りに境界ボックスを描くことのような、画像データの更なる処理のために使用してもよい。

（例えば、用語又は句が同義語であるという明確な陳述の故に）２つ以上の用語又は句が同義語である場合、１つのそのような用語／句の事例は、別のそのような事例が異なる意味を持たなければならない、ということを意味しない。例えば、陳述が、「含む（ｉｎｃｌｕｄｉｎｇ）」の意味が「含むが、しかし〜に限定されない」と同義語であるとする場合、「含むが、しかし〜に限定されない」という句の単なる使用は、「含む」という用語が「含むが、しかし〜に限定されない」以外の何かを意味することを、意味するものではない。

名称（本出願の最初のページの初めに明記される）及び要約（本出願の最後に明記される）のいずれについても、開示された発明の範囲を制限するものとは、決して考えるべきではない。要約はこの出願に含まれているが、それは単に、１５０ワードを超えない要約が、３７Ｃ．Ｆ．Ｒ．セクション１．７２（ｂ）の下で、又は他の管轄区における同様な法律の下で要求されているからである。本出願の名称及び、本出願において提供されるセクションの見出しは、便利さのためだけのものであり、且つ、本開示を制限するものとは、決して考えるべきではない。

本出願では、数多くの実施形態が説明され、且つ、例証的な目的のためだけに提示される。説明された実施形態は、いかなる意味においても限定的ではなく、且つ、限定的であることを意図するものではない。本開示の態様は、本開示から容易に明らかなように、数多くの実施形態に広く適用可能である。当業者であれば、開示された態様が、構造的修正及び論理的修正のような、様々な修正及び変更と共に実行される可能性がある、ということを認識するであろう。開示された態様の特定の特徴は、１つ以上の特定の実施形態及び／又は図面を参照して説明されるかもしれないが、そのような特徴は、特記しない限り、１つ以上の特定の実施形態又は図面（実施形態はこれらの図面を参照して説明される）の中での使用に限定されない、ということは理解されるべきである。

本出願において説明される方法ステップ又は製品要素の実施形態は、どれも本質的ではなく、又は、同一の広がりを持つものではない。このことは、この明細書の中でそのように明白に述べられる場合、又は請求項において明白に列挙される場合を除いて、当てはまる。

本明細書で説明される様々な実施例は、方法、システム、又はコンピュータプログラム製品として具体化してもよい、ということは当業者によって正しく認識されるであろう。従って、様々な実施例は、完全にハードウェアの実施形態の形、完全にソフトウェアの実施形態（ファームウェア、常駐ソフトウェア、マイクロコードなど）の形、又は、本明細書では全てが一般に「回路」、「モジュール」、若しくは「システム」と呼ばれる、ソフトウェア態様とハードウェア態様を結合する実施形態の形を取ってもよい。更に、様々な実施例は、媒体の中に具体化されたコンピュータ使用可能なプログラムコードを有する、コンピュータ使用可能な格納媒体上のコンピュータプログラム製品の形を取ってもよい。

任意の適切なコンピュータ使用可能な媒体又はコンピュータ可読な媒体を利用してもよい。コンピュータ使用可能な媒体又はコンピュータ可読な媒体は、例えば、以下に限定されるものではないが、電子的システム、磁気的システム、光学的性ステム、電磁気的システム、赤外システム、若しくは半導体システム、装置、デバイス、又は伝達媒体であってもよい。この文書の文脈において、コンピュータ使用可能な媒体又はコンピュータ可読な媒体は、任意の媒体であってもよく、ここで該任意の媒体は、命令実行システム、装置、若しくはデバイスによる使用を目的として、又は、命令実行システム、装置、若しくはデバイスと関連した使用を目的として、プログラムを含む、格納する、通信する、伝達する、又は輸送することが可能である。

様々な実施例の動作を実行するためのコンピュータプログラムコードは、Ｊａｖａ、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋、Ｐｙｔｈｏｎなどのような、目的指向のプログラミング言語で書いてもよい。しかしながら、様々な実施例の動作を実行するためのコンピュータプログラムコードはまた、「Ｃ」プログラミング言語又は同様なプログラミング言語のような、従来の手続的プログラミング言語で書いてもよい。プログラムコードは、完全にコンピュータ上で実行してもよく、スタンドアロン・ソフトウェア・パッケージのように、部分的にコンピュータ上で実行してもよく、部分的にコンピュータ上で、且つ部分的に遠隔コンピュータ上で実行してもよく、又は、完全に遠隔コンピュータ上で若しくはサーバ上で実行してもよい。後者のシナリオにおいては、遠隔コンピュータは、ローカルエリアネットワーク（ＬＡＮ）若しくはワイドエリアネットワーク（ＷＡＮ）を通してコンピュータに接続してもよく、又は、接続は、（例えば、インターネット・サービス・プロバイダを使用したインターネットを通して）外部コンピュータに対して行ってもよい。

本発明の実施形態によるフローチャート図解、及び／又は方法のブロック図、装置（システム）並びにコンピュータプログラム製品を参照しながら、様々な実施例が以下で説明される。フローチャート図解及び／又はブロック図の各ブロック、並びにフローチャート図解及び／又はブロック図におけるブロックの組み合わせは、コンピュータプログラム命令によって履行することが可能である、ということは理解されるであろう。これらのコンピュータプログラム命令は、汎用コンピュータ、特定用途コンピュータ、又はマシンを産出すための他のプログラマブルデータ処理装置に提供してもよく、その結果として、コンピュータのプロセッサ又は他のプログラマブルデータ処置装置を介して実行される命令は、フローチャート及び／又はブロック図のブロック（複数可）において指定された機能／行為を履行するための手段を創出する。

これらのコンピュータプログラム命令はまた、特定のやり方で機能するようにコンピュータ又は他のプログラマブルデータ処理装置に指示することが可能なコンピュータ可読なメモリに格納してもよく、その結果として、コンピュータ可読なメモリに格納された命令は、フローチャート及び／又はブロック図のブロック（複数可）において指定された機能／行為を履行する命令を含む製造項目を産出する。

コンピュータプログラム命令はまた、コンピュータ上又は他のプログラマブルデータ処理装置上にロードしてもよいが、これは、コンピュータ履行型のプロセスを産出するべく、一連の動作ステップがコンピュータ上又は他のプログラマブル装置上で実施されることをもたらすためであり、その結果として、コンピュータ上又は他のプログラマブル装置上で実行される命令は、フローチャート及び／又はブロック図のブロック（複数可）において指定された機能／行為を履行するためのステップを提供する。

さて図１Ａを参照すると、そこには、一実施例による映像捕捉及び再生システム１００の接続されたデバイスのブロック図が例示されている。例えば、映像捕捉及び再生システム１００は、映像監視システムとして使用してもよい。映像捕捉及び再生システム１００は、本明細書で説明されるプロセス及び機能を実施するハードウェア及びソフトウェアを含む。

映像捕捉及び再生システム１００は、複数の画像を捕捉すると共に、複数の捕捉された画像を表す画像データを産出するように動作可能である、少なくとも１つの映像捕捉デバイス１０８を含む。

各映像捕捉デバイス１０８は、複数の画像を捕捉するための、少なくとも１つのセンサ１１６を含む。映像捕捉デバイス１０８は、デジタルビデオカメラであってもよく、且つ画像センサ１１６は、捕捉された光をデジタルデータとして出力してもよい。例えば、画像センサ１１６は、ＣＭＯＳ、ＮＭＯＳ、又はＣＣＤであってもよい。

少なくとも１つの画像センサ１１６は、１つ以上の周波数範囲にある光を捕捉するように動作可能であってもよい。例えば、少なくとも１つの画像センサ１１６は、可視光周波数範囲に実質的に対応する範囲にある光を捕捉するように動作可能であってもよい。他の例において、少なくとも１つの画像センサ１１６は、赤外範囲及び／又は紫外範囲にあるような、可視光範囲の外にある光を捕捉するように動作可能であってもよい。他の例において、映像捕捉デバイス１０８は、異なる周波数範囲にある光を捕捉するように動作可能である、２つ以上のセンサを含むマルチセンサカメラであってもよい。

少なくとも１つの映像捕捉デバイス１０８は、専用のカメラを含んでもよい。本明細書における専用カメラは、その主な特徴が画像又は映像を捕捉することであるカメラのことを指す、ということは理解されるであろう。幾つかの実施例において、専用カメラは、捕捉された画像又は映像に関連付けられた機能を実施してもよく、ここで該機能とは、以下に限定されるわけではないが、該専用カメラによって、又は別の映像捕捉デバイス１０８によって産出された画像データを処理することのようなものである。例えば、専用カメラは監視カメラであってもよく、ここで監視カメラは、パン・チルト・ズームカメラ、ドームカメラ、天井カメラ、ボックスカメラ、及び弾丸カメラの任意の１つのようなものである。

加えて、又は代わりに、少なくとも１つの映像捕捉デバイス１０８は、組み込み型カメラを含んでもよい。本明細書における組み込み型カメラは、デバイス内に組み込まれ、且つ、捕捉される画像又は映像と関連しない機能を実施するように動作するカメラのことを指す、ということは理解されるであろう。例えば、組み込み型カメラは、ラップトップ、タブレット、ドローンデバイス、スマートフォン、ビデオゲーム機又はビデオゲームコントローラの任意の１つの上に見つけられるカメラであってもよい。

各映像捕捉デバイス１０８は、１つ以上のプロセッサ１２４と、該プロセッサに結合された１つ以上のデバイス１３２と、１つ以上のネットワークインターフェースとを含む。メモリデバイスは、プログラム命令の実行の間に使用されるローカルメモリ（例えば、ランダムアクセスメモリ及びキャッシュメモリ）を含むことが可能である。プロセッサは、コンピュータプログラム命令（例えば、オペレーティングシステム及び／又はアプリケーションプログラム）を実行するが、ここでコンピュータプログラム命令は、メモリデバイスに格納することが可能である。

様々な実施形態において、プロセッサ１２４は、１つ以上の回路ユニットを有する任意の処理回路によって実行してもよく、ここで該処理ユニットは、デジタル信号プロセッサ（ＤＳＰ）、グラフィック処理ユニット（ＧＰＵ）が組み込まれたプロセッサなど、及び、これらの任意の組み合わせを含む。ここで該任意の組み合わせとは、おそらくは重複して動作することを含めて、独立に動作するもの、又は並行して動作するものの組み合わせである。そのような処理回路は、１つ以上の集積回路（ＩＣ）によって履行してもよく、これは、モノリシック集積回路（ＭＩＣ）、特定用途向け集積回路（ＡＳＩＣ）、フィールド・プログラマブル・ゲートアレイ（ＦＰＧＡ）など、又はこれらの任意の組み合わせによって履行されることを含む。加えて、又は代わりに、そのような処理回路は、例えば、プログラマブル論理コントローラ（ＰＬＣ）として履行してもよい。プロセッサは、デジタルデータのようなメモリを格納するための回路構成を含んでもよく、且つ、メモリ回路を備えるか、又は、例えば、メモリ回路と有線で通信してもよい。

様々な実施例において、プロセッサ回路と結合されたメモリデバイス１３２は、データ及びコンピュータプログラム命令を格納するように動作可能である。通常、メモリデバイスは、全てがデジタル電子集積回路である、若しくはデジタル電子集積回路の一部である、又は、複数のデジタル電子集積回路から形成される。メモリデバイスは、例えば、読み出し専用メモリ（ＲＯＭ）、プログラマブル読み出し専用メモリ（ＰＲＯＭ）、消去可能なプログラマブル読み出し専用メモリ（ＥＰＲＯＭ）、電気的に消去可能なプログラマブル読み出し専用メモリ（ＥＥＰＲＯＭ）、フラッシュメモリ、１つ以上のフラッシュドライブ、ユニバーサルシリアルバス（ＵＳＢ）接続されたメモリユニット、磁気記憶装置、光記憶装置、光磁気記憶装置など、又はこれらの任意の組み合わせとして履行してもよい。メモリデバイスは、揮発性メモリ、不揮発性メモリ、ダイナミックメモリなど、又はこれらの任意の組み合わせとして、メモリを格納するように動作可能であってもよい。

様々な実施例において、画像捕捉デバイス１０８の複数の構成部品は、システム内のチップ（ＳＯＣ）上で協力して履行してもよい。例えば、プロセッサ１２４、メモリデバイス１１６、及びネットワークインターフェースは、ＳＯＣ内で履行してもよい。更に、このように履行される場合、汎用のプロセッサ及び、ＧＰＵ及びＤＳＰの１つ以上は、ＳＯＣ内で協力して履行してもよい。

図１Ａに関して続けると、少なくとも１つの映像捕捉デバイス１０８の各々は、ネットワーク１４０に接続される。各映像捕捉デバイス１０８は、自身が捕捉する画像を表す画像データを出力すると共に、ネットワークを通して該画像データを送信するように動作可能である。

ネットワーク１４０は、データの受信及び送信を提供する任意の通信ネットワークであってもよい、ということは理解されるであろう。例えば、ネットワーク１４０は、ローカルエリアネットワーク、外部ネットワーク（例えば、ＷＡＮ、インターネット）、又はこれらの組み合わせであってもよい。他の例において、ネットワーク１４０は、クラウドネットワークを含んでもよい。

幾つかの例において、映像捕捉及び再生システム１００は、処理機器１４８を含む。処理機器１４８は、映像捕捉デバイス１０８によって出力された画像データを処理するように動作可能である。処理機器１４８はまた、１つ以上のプロセッサと、プロセッサに結合された１つ以上のメモリデバイスとを含む。処理機器１４８はまた、１つ以上のネットワークインターフェースを含んでもよい。

例えば、例示されるように、処理機器１４８は、映像捕捉デバイス１０８に接続される。処理機器１４８は、ネットワーク１４０に更に接続してもよい。

一実施例によれば、図１Ａに例示されるように、映像捕捉及び再生システム１００は、少なくとも１つのワークステーション１５６（例えば、サーバ）を含み、ワークステーション１５６の各々は、１つ以上のプロセッサを有する。少なくとも１つのワークステーション１５６はまた、格納メモリを含んでもよい。ワークステーション１５６は、少なくとも１つの映像捕捉デバイス１０８から画像データを受信し、且つ、該画像データの処理を実施する。ワークステーション１５６は、画像捕捉デバイス１０８の１つ以上を管理するためのコマンド、及び／又は制御するためのコマンドを更に送ってもよい。ワークステーション１５６は、映像捕捉デバイス１０８から、生の画像データを受信してもよい。代わりに、又は加えて、ワークステーション１５６は、映像捕捉デバイス１０８における、及び又は処理機器１４８における処理のような、幾つかの中間処理を既に受けた画像データを受信してもよい。ワークステーション１５６はまた、画像データからメタデータを受信し、且つ、画像データの更なる処理を実施してもよい。

図１Ａには単一のワークステーション１５６が例示されているが、ワークステーションは、複数のワークステーションの集合体として履行してもよい、ということは理解されるであろう。

映像捕捉及び再生システム１００は、ネットワーク１４０に接続された少なくとも１つのクライアントデバイス１６４を更に含む。クライアントデバイス１６４は、映像捕捉及び再生システム１００と対話するように、一人以上のユーザによって使用される。従って、クライアントデバイス１６４は、少なくとも１つの表示デバイス、及び少なくとも１つのユーザ入力デバイス（例えば、マウス、キーボード、タッチスクリーン）を含む。クライアントデバイス１６４は、その表示デバイス上に、情報を表示し、ユーザ入力を受信し、且つ映像を再生するためのユーザインターフェースを表示するように動作可能である。例えば、クライアントデバイスは、パーソナルコンピュータ、ラップトップ、タブレット、携帯情報端末（ＰＤＡ）、携帯電話、スマートフォン、ゲーム用デバイス、及び他のモバイル機器の任意の１つであってもよい。

クライアントデバイス１６４は、ネットワーク１４０を通して画像データを受信するように動作可能であり、且つ、受信された画像データを再生するように更に動作可能である。クライアントデバイス１６４はまた、画像データを処理するための機能性を有してもよい。例えば、クライアントデバイス１６４の処理機能は、受信された画像データを再生するための能力に関連した処理に限定してもよい。他の例において、画像処置機能性は、ワークステーション１５６と１つ以上のクライアントデバイス１６４との間で共有してもよい。

幾つかの例において、画像捕捉及び再生システム１００は、ワークステーション１５６無しで履行してもよい。従って、画像処理機能性は、完全に１つ以上の映像捕捉デバイス１０８上で実施してもよい。代わりに、画像処理機能性は、映像捕捉デバイス１０８、処理機器１４８、及びクライアントデバイス１６４の２つ以上の間で共有してもよい。

さて図１Ｂを参照すると、そこには、一実施例による、映像捕捉及び再生システム１００の動作モジュールのセット２００のブロック図が例示されている。動作モジュールは、図１Ａに例示されるように、映像捕捉及び再生システム１００のデバイスの１つ以上のデバイス上で、ハードウェアにおいて、ソフトウェアにおいて、又はその両方において履行してもよい。

動作モジュールのセット２００は、少なくとも１つの映像捕捉モジュール２０８を含む。例えば、各映像捕捉デバイス１０８は、映像捕捉モジュール２０８を履行してもよい。映像捕捉モジュール２０８は、画像を捕捉するための映像捕捉デバイス１０８の１つ以上の構成部品（例えば、センサ１１６など）を制御するように動作可能である。

動作モジュールのセット２００は、画像データ処理モジュールのサブセット２１６を含む。例えば、例示されるように、画像データ処理モジュールのサブセット２１６は、映像解析モジュール２２４及び映像管理モジュール２３２を含む。

映像解析モジュール２２４は、画像データを受信し、且つ、画像又は映像によって表されるシーンの中で見つけられる捕捉された画像又は映像の、及び／又はオブジェクトの、特質又は特性を決定するために、画像データを解析する。行われた決定に基づいて、映像解析モジュール２２４は、決定についての情報を提供するメタデータを更に出力してもよい。映像解析モジュール２２４によって行われた決定の例は、最前面／背景の分割、オブジェクト検出、オブジェクト追跡、オブジェクト分類、仮想わな、異常検出、顔検出、顔認識、ナンバープレート認識、「残された」オブジェクトを識別すること、オブジェクトを監視すること（例えば、盗みからの保護のために）、及びビジネスインテリジェンスの１つ以上を含んでもよい。しかしながら、当分野で知られた他の映像解析機能もまた、映像解析モジュール２２４によって履行してもよい、ということは理解されるであろう。

映像管理モジュール２３２は、画像データを受信し、且つ、映像の送信、再生、及び／又は格納に関連する画像データに対して処理機能を実施する。例えば、映像管理モジュール２３２は、バンド幅要求及び／又は容量に応じて画像データの送信を許可するように、画像データを処理することが可能である。映像管理モジュール２３２はまた、映像を再生するであろうクライアントデバイス１６４の再生能力に応じて、画像データを処理してもよい。ここで再生能力とは、クライアントデバイス１６４の表示装置の処理力及び／又は解像度のようなものである。映像管理モジュール２３２はまた、画像データを格納するための、映像捕捉及び再生システム１００内の格納容量に応じて、画像データを処理してもよい。

幾つかの実施例によれば、映像処理モジュールのサブセット２１６は、映像解析モジュール２２４及び映像管理モジュール２３２の中の１つだけを含んでもよい、ということは理解されるであろう。

動作モジュールのセット２００は、格納モジュールのサブセット２４０を更に含む。例えば、例示されるように、格納モジュールのサブセット２４０は、映像格納モジュール２４８及びメタデータ格納モジュール２５６を含む。映像格納モジュール２４８は画像データを格納するが、該画像データは、映像管理モジュールによって処理される画像データであってもよい。メタデータ格納モジュール２５６は、映像解析モジュール２２４から出力される情報データを格納する。

映像格納モジュール２４８及びメタデータ格納モジュール２５６は別々のモジュールとして例示されているが、それらは同じハードウェア格納デバイス内で履行してもよく、それによって、論理ルールが、格納されたメタデータから格納された映像を分離するように履行される、ということは理解されるであろう。他の実施例において、映像格納モジュール２４８及び／又はメタデータ格納モジュール２５６は、複数のハードウェア格納デバイス内で履行してもよく、ここで該複数のハードウェア格納デバイスにおいては、分散された格納方式を履行してもよい。

動作モジュールのセットは、少なくとも１つの映像再生モジュール２６４を更に含むが、ここで映像再生モジュール２６４は、画像データを受信すると共に、映像として画像データを再生するように動作可能である。例えば、映像再生モジュール２６４は、クライアントデバイス１６４上で履行してもよい。

セット２００の動作モジュールは、画像捕捉デバイス１０８、処理機器１４８、ワークステーション１５６、及びクライアントデバイス１６４の１つ以上の上で履行してもよい。幾つかの実施例において、動作モジュールは、完全に単一のデバイス上で履行してもよい。例えば、映像解析モジュール２２４は、完全にワークステーション１５６上で履行してもよい。同様に、映像管理モジュール２３２は、完全にワークステーション１５６上で履行してもよい。

他の実施例において、セット２００の動作モジュールの幾つかの機能性は、部分的に第１のデバイス上で履行してもよく、その一方で、動作モジュールの他の機能性は、第２のデバイス上で履行してもよい。例えば、映像解析機能性は、映像捕捉デバイス１０８、処理機器１４８、及びワークステーション１５６の１つ以上の間で分割してもよい。同様に、映像管理機能性は、映像捕捉デバイス１０８、処理機器１４８、及びワークステーション１５６の１つ以上の間で分割してもよい。

さて図１Ｃを参照すると、そこには、１つの特別な実施例による映像捕捉及び再生システム１００の動作モジュールのセット２００のブロック図が例示されており、そこでは、映像解析モジュール２２４、映像管理モジュール２３２、及び格納デバイス２４０が、完全に１つ以上の画像捕捉デバイス１０８上で履行される。従って、映像捕捉及び再生システム１００は、ワークステーション１５６及び／又は処理機器１４８を要求しない。

画像データ処理モジュールのサブセットが、映像捕捉及び再生システム１００の単一のデバイス上で、又は様々なデバイス上で履行されることが可能となることによって、システム１００を構築する上での融通自在性が可能になる、ということは正しく認識されるであろう。

例えば、ある一定の機能性を有する特定のデバイスを使用する場合、別のデバイスがそれらの機能性を欠いている状態で、該特定のデバイスを選択してもよい。このことは、異なる関係者（例えば、製造業者）からのデバイスを統合する場合に、又は現存する映像捕捉及び再生システムを追加導入する場合に有用である。

さて図２を参照すると、そこには、映像捕捉デバイス１０８によって捕捉された映像の１つ以上の画像フレーム上に対して映像解析を実施するための方法２７２の実施例のフローチャート図が例示されている。映像解析は、映像において捕捉されたシーンの中で見つけられる捕捉された画像又は映像の、及び／又は視覚的オブジェクトの、特質又は特性を決定するために、映像解析モジュール２２４によって実施してもよい。

３００では、映像の少なくとも１つの画像フレームが、最前面エリアと背景エリアとに分割される。分割は、シーンの静止エリアから、捕捉されたシーンの中の移動オブジェクト（又は以前の移動オブジェクト）に対応する画像フレームのエリアを分離する。

３０２では、画像フレームによって表されるシーンの中の１つ以上の最前面の視覚的オブジェクトが、３００の分割に基づいて検出される。例えば、任意の別々の隣接した最前面エリア又は「ブロッブ」は、シーンの中の最前面の視覚的オブジェクトとして識別してもよい。例えば、ある一定のサイズ（例えば、画素の数）よりも大きな、隣接した最前面エリアだけが、シーンの中の最前面の視覚的オブジェクトとして識別される。

検出された１つ以上の最前面エリアに関連して、メタデータを更に生成してもよい。メタデータは、画像フレーム内の最前面の視覚的オブジェクトの場所を定義してもよい。例えば、検出された最前面の視覚的オブジェクトの輪郭を描く境界ボックスを生成するために（例えば、映像を符号化する場合、又は映像を再生する場合）、メタデータの場所を更に使用してもよい。

検出された１つ以上の最前面の視覚的オブジェクトの各々を視覚的に識別するために、視覚的指標を画像フレームに付加してもよい。視覚的指標は、画像フレーム内の１つ以上の最前面の視覚的オブジェクトの各々を取り囲む境界ボックスであってもよい。

様々な実施例によれば、映像解析は、捕捉されたシーンの中のオブジェクトを検出することで終了してもよい。

他の実施例において、映像解析は、３０４において、３０２で検出された最前面の可視オブジェクトを分類することを更に含んでもよい。例えば、最前面の視覚的オブジェクトを分類するために、パターン認識を実行してもよい。最前面の視覚的オブジェクトは、人、自動車、又は動物のような部類によって分類してもよい。加えて、又は代わりに、視覚的オブジェクトは、視覚的オブジェクトの移動及び移動の方向のようなアクションによって分類してもよい。色、サイズ、向きなどのような、他の分類指標を決定してもよい。より特殊な例において、視覚的オブジェクトを分類することは、顔検出及び、ナンバープレートのようなテキストを認識することに基づいて、人を識別することを含んでもよい。視覚的分類は、共同所有される米国特許第８，９３４，７０９号で説明されるシステム及び方法に従って実施してもよい。ここで米国特許第８，９３４，７０９号は、参照によってその全体が本明細書に組み込まれる。

映像解析は、３０６において、事象が起こったかどうかを、及び事象のタイプを検出することを更に含んでもよい。事象を検出することは、１つ以上の予め定義されたルールによって、１つ以上の最前面の視覚的オブジェクトの分類を比較することに基づいてもよい。事象は、異常検出又はビジネスインテリジェンスにおける事象であってもよく、ここで異常検出又はビジネスインテリジェンスとは、映像わなが誘発されたかどうか、１つのエリアに存在する人の数、シーンの中のオブジェクトが残されたかどうか、又はシーンの中のオブジェクトが除去されたかどうか、のようなものである。

さて図３Ａを参照すると、そこには、一実施形態による、映像解析モジュールの動作サブモジュールのセット４００のブロック図が例示されている。映像解析モジュール４００は、様々なタスクを実施するための、多くのモジュールを含む。例えば、映像解析モジュール４００は、映像捕捉デバイス１０８の視野の中に現れるオブジェクトを検出するための、オブジェクト検出モジュール４０４を含む。オブジェクト検出モジュール４０４は、例えば、移動検出及びブロッブ検出のような、任意の既知のオブジェクト検出を使用してもよい。オブジェクト検出モジュール４０４は、「時空信号において関心のあるオブジェクトを検出するための方法及びシステム」と題する、共通所有の米国特許第７，６２７，１７１号において説明されるシステムを含み、且つその検出方法を使用してもよい。ここで米国特許第７，６２７，１７１号の内容全体は、参照によって本明細書に組み込まれる。

映像解析モジュール４００はまた、オブジェクト検出モジュール４０４に接続されたオブジェクト追跡モジュール４０８を含んでもよい。オブジェクト追跡モジュール４０８は、オブジェクト検出モジュール４０４によって検出されるオブジェクトの事例を時間的に関連させるように動作可能である。オブジェクト追跡モジュール４０８は、「追跡、索引付け、及び検索のためのオブジェクトマッチング」と題する、共通所有の米国特許第８，２２４，０２９号において説明されるシステムを含み、且つその方法を使用してもよい。ここで米国特許第８，２２４，０２９号の内容全体は、参照により本明細書に組み込まれる。オブジェクト追跡モジュール４０８は、自身が追跡する視覚的オブジェクトに対応するメタデータを生成する。メタデータは、オブジェクトの外見又は他の特徴を表す視覚的オブジェクトの署名に対応してもよい。メタデータは、格納のために、メタデータ・データベース２５６に送信してもよい。

映像解析モジュール４００はまた、オブジェクト追跡モジュール４０８に接続された一時的なオブジェクト分類モジュール４１２を含む。一時的なオブジェクト分類モジュール４１２は、時間とともにオブジェクトの外見を考慮することによって、そのタイプ（例えば、人間、車両、動物）に従ってオブジェクトを分類するように動作可能である。換言すれば、オブジェクト追跡モジュール４０８は、多数のフレームに対してオブジェクトを追跡し、且つ一時的なオブジェクト分類モジュール４１２は、多数のフレームにおけるその外見に基づいて、オブジェクトのタイプを決定する。例えば、人の歩き方の歩様解析は、人を分類するのに有用であり得るし、又は、人の脚の解析は、自転車に乗る人を分類するのに有用であり得る。一時的なオブジェクト分類モジュール４１２は、オブジェクトの軌跡に関する情報（例えば、軌跡が滑らかであるか、又は混沌としているかどうか、オブジェクトが動いているか、又は静止しているかどうか）と、多数のフレームわたって平均化された、オブジェクト分類モジュール４１６（以下で詳細に説明される）によって行われる分類の信頼度とを組み合わせてもよい。例えば、オブジェクト分類モジュール４１６によって決定された分類の信頼値は、オブジェクトの軌跡の滑らかさに基づいて調節してもよい。一時的なオブジェクト分類モジュール４１２は、視覚的オブジェクトがオブジェクト分類モジュールによって分類されるまで、オブジェクトを未知の分類に割り当ててもよい。ここで該オブジェクト分類モジュールとは、十分な回数及び所定数の統計が集められたものである。オブジェクトを分類する上で、一時的なオブジェクト分類モジュール４１２はまた、どれだけ長くオブジェクトが視野の中にいるか、ということを考慮してもよい。一時的なオブジェクト分類モジュールは、上で説明された情報に基づいて、オブジェクトの部類についての最終決定を行う。一時的なオブジェクト分類モジュール４１２はまた、オブジェクトの部類を変更するために、履歴的アプローチを使用してもよい。より具体的には、オブジェクトの分類を未知の部類から確かな部類へ遷移させるために、閾値を設定してもよく、且つその閾値は、反対の遷移（例えば、人間から未知への）に対する閾値より大きくてもよい。一時的なオブジェクト分類モジュール４１２は、オブジェクトの部類に関連するメタデータを生成してもよく、且つそのメタデータは、メタデータ・データベース２５６に格納してもよい。一時的なオブジェクト分類モジュール４１２は、オブジェクト分類モジュール４１６によって行われた分類を集計してもよい。

映像解析モジュール４００はまた、好ましくは、オブジェクト検出モジュール４０４に直接又は間接に接続されたオブジェクト分類モジュール４１６を含む。一時的なオブジェクト分類モジュール４１２とは対照的に、オブジェクト分類モジュール４１６は、オブジェクトの単一の事例（例えば、単一の画像）に基づいて、視覚的オブジェクトのタイプを決定してもよい。オブジェクト分類モジュール４１６への入力は、好ましくは、画像フレームのサブ領域であり、関心のある視覚的オブジェクトは、画像フレーム全体というよりは、該サブ領域の中に位置する。画像フレームのサブ領域をオブジェクト分類モジュール４１６に入力する利点は、分類のためには、シーン全体が解析される必要はなく、それによって、より少ない処理能力が要求される、ということである。オブジェクト分類モジュール４１６の複雑さを更に簡単化するために、明らかな分類を捕らえるための発見手法に基づくモジュールのような、他の予備的なモジュールを含むことも可能である。

代替的な配列において、オブジェクト分類がオブジェクト追跡の前に起こるように、オブジェクト分類モジュール４１６は、オブジェクト検出モジュール４０４の後で、しかもオブジェクト追跡モジュール４０８の前に配置される。別の代替的配列において、オブジェクト検出モジュール４０４、オブジェクト追跡モジュール４０８、一時的なオブジェクト分類モジュール、及びオブジェクト分類モジュール４１６は、上の参照において説明されたように、相互に関連付けられる。

オブジェクト分類モジュール４１６は、図３Ｂのブロック図に描かれるように、多くのオブジェクト分類器を含む。例えば、オブジェクト分類モジュール４１６は、検出されたオブジェクトの画像が完全な人体に対応するかどうかを決定する完全な人体分類器４２４と、検出されたオブジェクトの画像が人間の胴体に対応するかどうかを決定する人間胴体分類器４２８と、検出されたオブジェクトの画像が車両に対応するかどうかを決定する車両分類器４３２とを含んでもよい。オブジェクト分類モジュール４１６は、任意の数の異なる分類器を含んでもよく、且つ、以下でより詳細に説明されるように、カメラシステムが配備され、且つ機能している場合でさえも、ユーザはオブジェクト分類モジュール４１６に対して、オブジェクトの新しい分類を創出してもよい。換言すれば、オブジェクト分類モジュール４１６は、現場での訓練が可能である。

オブジェクト分類器は、オブジェクトの特徴（例えば、外見の特性）に基づいて、オブジェクトを分類するように動作可能である。例えば、完全な人体分類器４２４は、オブジェクトの特徴に対応するデータ（即ち、入力パターンＸ）を受信し、且つ、オブジェクトが完全な人体に対応するか否かを決定する。オブジェクト分類モジュール４１６がオブジェクトを分類した後で、オブジェクトの分類及びオブジェクトの特徴を表すメタデータを、メタデータ・データベース２５６に格納してもよい。

オブジェクト分類モジュール４１６によって使用され得る特徴は、今からより詳細に説明されるであろう。以下で説明される訓練アルゴリズムは、一セットの特徴Ｆ＝｛ｆ₁，ｆ₂，・・・，ｆ_n｝から一サブセットの特徴Ｆ＝｛ｆ_k1，ｆ_k2，・・・，ｆ_km｝を選択する。入力パターンＸは、Ｆの要素で構成される。Ｆの要素は、オブジェクトの画像領域Ｒの何らかの変形として見てもよい。従って、Ｘは以下の形を取ってもよい。

オブジェクトの特徴ｆ₁，ｆ₂，・・・，ｆ_mは、以下に限定されるものではないが、アスペクト比、意図、縁の向き、及び正規化された彩度のような、多くの外見的特性に対応してもよい。その上、ｆ₁，ｆ₂，・・・，ｆ_mは、外見的特性の特性ベクトルを表してもよく（例えば、ヒストグラムであり、該ヒストグラムにおいては、ヒストグラム容器は、ベクトル成分に対応する）、且つ、オブジェクトの部類（例えば、タイプ）を決定するために、１つ以上のオブジェクト分類器によって使用してもよい。例えば、オブジェクトの縁の向きのヒストグラムは、オブジェクトの画像の異なる領域（例えば、サブウィンドウ）に対して構成してもよい。換言すれば、オブジェクトの画像は、サブウィンドウに分割してもよく、且つ、サブウィンドウの各画素に対して計算してもよい。画素の縁の向きは、（例えば、複数の方向におけるガウシアン微分フィルタを用いた）操縦可能なフィルタを使用して引き出してもよい。操縦可能なフィルタを使用することによって、支配的な方向をサブウィンドウの画素に割り当てることが可能であり、且つ、方向のヒストグラムをサブウィンドウに対して構成することが可能になる。例えば、ある与えられた画素に対して、操縦可能なフィルタは、複数の応答を生成するために、複数の方向において使用してもよく、且つ最大の方向性微分応答に対応する方向は、画素の方向として割り当てられる。

オブジェクト分類器の１つに対する分類の問題は、一般に分類器関数Γ（Ｘ）によって定義してもよく、分類器関数Γ（Ｘ）においては、入力パターンＸによって表される視覚的オブジェクトは、Γ（Ｘ）＞０の場合にはオブジェクト部類のメンバとして表され、又は、Γ（Ｘ）＜０の場合にはオブジェクト部類の非メンバとして表される。一般に、分類器関数Γ（Ｘ）は、一セットのパラメータによってパラメータ表示され、且つ入力パターンは、上で説明された特徴で構成される。関心のあるオブジェクト部類に対して、特定の分類器Γ_c（Ｘ）が訓練される。図３Ａのオブジェクト分類モジュール４１６によって表される多部類分類モデルは、以下のように、数学的に定義してもよい。

ここでωは、オブジェクト部類、且つΩは、全てのオブジェクト部類のセットを表す。

ある与えられた視覚的オブジェクト部類に対する分類器関数Ｒ（Ｘ）は、ルール（例えば、視覚的オブジェクトのサイズ及びアスペクト比）を定義することによって構築してもよい。分類器関数は、訓練データを用いた機械学習を適用することによって、更に訓練してもよい。当技術分野で既知であるように、分類器を訓練することは、その分類器のルールを更に改良するべく探求することであり、その結果として、分類器は、ある与えられた視覚的オブジェクトをより正確に分類するであろう。訓練データは、肯定的な訓練例及び／又は否定的な訓練例を含んでもよい。肯定的な訓練例とは、オブジェクトの特定の部類に属すると確認された視覚的オブジェクトの事例のことを指す。肯定的な訓練例は、分類器を訓練して、そのルールを改良するのに役立ち、その結果として、ある与えられた視覚的オブジェクトは、その肯定的な訓練例の部類に入るものとして、より正確に肯定的に分類される。否定的な訓練例とは、オブジェクトの特定の部類に属さない視覚的オブジェクト又は他の視覚的表現の事例のことを指す。否定的な訓練例は、分類器によって、オブジェクトの特定の部類に属するとして誤分類された視覚的オブジェクトの例であってもよい。否定的な訓練例は、分類器を訓練するのに役立つ。

オブジェクト分類器を訓練するための機械学習は、以下に限定されるものではないが、畳み込みニューラルネットワーク、サポートベクトルマシン、デシジョンツリー、ランダムフォレスト、及びカスケード分類器のような、当技術分野で既知である任意の適切な機械学習技術であってもよい。

オブジェクト分類器の訓練は、管理してもよい。管理された訓練において、肯定的な訓練例及び／又は否定的な訓練例は、人間のユーザによって確認されてきた。例えば、大きなバッチの画像の中で、一人以上の人間のユーザが、個々に検査し、且つ、部類（例えば、人、車両、動物）に属する視覚的オブジェクトを表すものとして、又は視覚的オブジェクトを含まないものとして、各画像にラベルを付ける。

オブジェクト分類器の訓練はまた、管理しなくてもよい。管理されない訓練においては、オブジェクト検出モジュール４０４によって検出されるオブジェクトのような、１つ以上の視覚的オブジェクトを最初に分類するために、基礎分類器が使用される。視覚的オブジェクト及び、基礎分類器によって決定された分類の結果（例えば、視覚的オブジェクトが特定のオブジェクト部類に属するという肯定的な決定）は、基礎分類器の更なる訓練のための肯定的な訓練例として使用される。オブジェクトが検出されなかった画像データはまた、オブジェクト分類器を訓練するための否定的な訓練例として使用してもよい。管理されない訓練において、肯定的な訓練例として、又は否定的な訓練例として使用される画像データは、人間のユーザによって検査されない。

本明細書における基礎分類器は、ルールの定義を通して構成された、及び／又はある程度のオブジェクト分類を実施するための機械学習の適用による訓練を通して構成されたオブジェクト分類器を指すが、しかし該オブジェクト分類器は、コンピュータ履行型の視覚的機械語を使用した、なお更なる訓練を通して最適化することが可能である。

さて図４を参照すると、そこには、基礎分類器の更なる訓練のための方法５００のフローチャートが例示されている。方法５００は、単一の基礎分類器の訓練のために例示されているが、方法５００は、複数の基礎分類器を平行して訓練するために適用してもよい、ということは理解されるであろう。例えば、本明細書の別の個所で説明されるように、オブジェクト分類モジュール４１６は、複数のオブジェクト分類器を含んでもよく、各分類器は、視覚的オブジェクトが特定のタイプの部類に属するかどうかを決定するように動作可能である。従って、オブジェクト分類モジュール４１６の複数のオブジェクト分類器は、それに提供される訓練例に基づいて、まとめて訓練してもよい。例えば、特定の部類の最前面の視覚的オブジェクトである訓練例は、同じ部類に関連する分類器のための肯定的な訓練例として使用してもよい。

５０４では、基礎分類器が提供される。基礎分類器は、視覚的な訓練例を使用した機械学習の適用を通して更に訓練され得る、任意の分類器であってもよい。

５０８では、１つ以上の訓練例を受信してもよい。訓練例は、肯定的な訓練例、及び／又は否定的な訓練例であってもよく、これらの訓練例は、自動的に準備してもよく、又は管理された条件下で準備してもよい。

５１２では、基礎分類器は、入力として５０８で受信された訓練例を使用した機械学習を基礎分類器に適用することによって、更に訓練される。

幾つかの実施形態において、ステップ５０８及びステップ５１２は、基礎分類器の更新が反復プロセスに追随するように繰り返される、ということは理解されるであろう。即ち、第１バッチの複数の訓練例は、第１の反復において、機械学習によって基礎分類器を訓練するために適用してもよい。第２バッチの複数の訓練例は、続いて起こる第２の反復において、機械学習によって分類器の更なる訓練のために更に適用してもよい。

５１６では、ステップ５０８及びステップ５１２の後で訓練された基礎分類器は、最前面の視覚的オブジェクトの分類のために、現場において配備される。

幾つかの例において、ステップ５０８及びステップ５１２からの基礎分類器の訓練は、５１６において、訓練された分類器の配備に先立って実行してもよい。

他の例において、ステップ５０８及びステップ５１２での基礎分類器の訓練は、オブジェクト分類器が現場で既に配備されている間に実施してもよい。訓練例は、そのデバイスが現場で配備されている場合、映像捕捉デバイスの視野の中に存在する実世界のオブジェクトの視覚的表現であってもよい。例えば、基礎分類器は、最初に配備され、且つ、配備の間に、現場５０８から検出された最前面の視覚的オブジェクトから、徐々に訓練してもよい。

訓練例として使用される視覚的オブジェクトは、管理された方法（例えば、人間のユーザによって視覚的に検査される）において、又は管理されない方法（例えば、コンピュータ履行型のオブジェクト分類器によって分類される）において、ある部類に属するものとして識別してもよい。

さて図５を参照すると、そこには、一実施例による、基礎分類器の更なる訓練のための、改善されたコンピュータ履行型の方法５４０のフローチャートが例示されている。方法５４０は単一の基礎分類器の訓練のために例示されているが、方法５００はまた、複数の基礎分類器を平行して訓練するために適用してもよい、ということは理解されるであろう。例えば、本明細書の別の箇所で説明されるように、オブジェクト分類モジュール４１６は、複数のオブジェクト分類器を含んでもよく、各分類器は、視覚的オブジェクトが特定の部類に属するかどうかを決定するように動作可能である。従って、オブジェクト分類モジュール４１６の複数のオブジェクト分類器は、それに提供される訓練例に基づいて、まとめて訓練してもよい。例えば、特定の部類の視覚的オブジェクトである訓練例は、同じ部類に関連する分類器に対する肯定的な訓練例として使用してもよい。

５０４では、基礎分類器が提供される。基礎分類器は、視覚的オブジェクトの訓練例を使用した機械学習の適用を通して、更に最適化することが可能である。

５４４では、最前面の視覚的オブジェクトが、シーンを表す画像データ内で検出される。本明細書におけるシーンとは、ある時間間隔にわたって映像捕捉デバイスの視野内で捕捉される視覚的表現のことを指す。映像捕捉デバイスは、その視野が変更されないままであるように、この時間間隔にわたって静止している。従って、その時間間隔にわたって捕捉されるシーンもまた変更されないままであるが、しかしそのシーン内のオブジェクト（例えば、人間、車両、他のオブジェクト）は、その時間間隔にわたって変化していてもよい。シーンの視覚的表現は、その時間間隔にわたって映像捕捉デバイスによって生成される画像データの画像フレームであってもよい。

最前面の視覚的オブジェクトはまた、人間のオペレータによって、又はコンピュータ履行モジュールによって、特定の部類に属するものとして肯定的に分類してもよい。検出される最前面の視覚的オブジェクトは、シーンのサブ領域内に位置する。例えば、シーンのサブ領域は、検出される最前面の視覚的オブジェクトが位置する画像データの画像フレームの一部分に対応してもよい。例えば、シーンのサブ領域は、画像フレームのサブ領域に対応してもよく、ここで該サブ領域は、検出された最前面の視覚的オブジェクトを視覚的に識別するためのオブジェクト検出モジュール４０４によって描かれた境界ボックスによって境界が定められる。

５４８では、検出された視覚的オブジェクトの背景モデルが決定される。背景モデルは、シーン又はシーンのサブ領域の視覚的表現であるが、しかし、その場合、任意の最前面の視覚的オブジェクトは、シーン又はサブ領域から欠けている。検出された最前面の視覚的オブジェクトの背景モデルは、検出される最前面の視覚的オブジェクトが位置するシーンのサブ領域の背景モデルである。

例えば、５４４で検出された最前面の視覚的オブジェクトが人間であり、且つシーンのサブ領域が部屋のあるエリアに対応する場合、そのサブ領域の背景モデルは、その人間又は任意の他の人間が存在しない状態での、該部屋のそのエリアを表す。

例えば、５４４で検出された最前面の視覚的オブジェクトが車両であり、且つそのシーンのサブ領域が、該車両が位置する駐車場の一部分に対応する場合、そのサブ領域の背景モデルは、その車両、又は任意の他の車両が存在しない状態での、該駐車場のその部分を表す。

５５２では、基礎分類器は、５４４で検出された最前面の視覚的オブジェクトを肯定的な訓練例として使用した機械学習を基礎分類器に適用することによって、任意選択的に更に訓練される。

５５６では、基礎分類器は、検出された最前面の視覚的オブジェクトを否定的な訓練例として使用した機械学習を基礎分類器に適用することによって、更に訓練される。

ステップ５４４からステップ５５６は、検出された且つ／又は分類された複数の視覚的オブジェクトに対して、繰り返してもよい。５４４で検出された各視覚的オブジェクトに対して、視覚的オブジェクトが位置するシーンのサブ領域に特有である背景モデルが、５４８で決定され、且つ、５５６で基礎分類器を訓練するために適用される。

他の例において、基礎分類器は、複数の訓練例のバッチを使用した機械学習を基礎分類器に適用することによって、訓練してもよい。このバッチは、複数の異なるシーンのサブ領域の中で検出された最前面の視覚的オブジェクトの複数の背景モデルを含む。

幾つかの実施形態において、ステップ５４４及びステップ５５６は、基礎分類器の更新が反復プロセスに追従するように繰り返される、ということは理解されるであろう。即ち、１つ以上の訓練例の第１のバッチは、第１の反復において、機械学習によって基礎分類器を訓練するために適用してもよい。第２のバッチの複数の訓練例は、続いて起こる第２の反復において、機械学習によって第１の反復の後に訓練された基礎分類器を更に訓練するために、更に適用してもよい。

５１６では、ステップ５５６の後で訓練された、及び、任意選択的にステップ５５２の後で訓練された基礎分類器は、付加的な最前面の視覚的オブジェクトの分類のために、現場において配備される。

本明細書の別の箇所で説明されるように、基礎分類器の訓練は、訓練される分類器を配備する前に実行してもよく、又は、オブジェクト分類器が既に現場で配備されている間に実行してもよい。

図６Ａから図６Ｆは、シーンのサブ領域で検出された最前面の視覚的オブジェクト、及びそれらの対応する背景モデルを示す。例えば、図６Ａは、歩道部分の上を歩いている人を示す。歩いている人は、検出される最前面の視覚的オブジェクトである。図６Ｂは、図６Ａの視覚的オブジェクトの背景モデルを示す。背景モデルは、歩いている人、又は他の任意の最前面の視覚的オブジェクトが存在しない状態での、歩道の同じ部分を示す、ということは正しく認識されるであろう。

図６Ｃは、飛行機の階段を降りている人を示す。人が、検出される最前面の視覚的オブジェクトである。図６Ｄは、図６Ｃの最前面の視覚的オブジェクトの背景を示す。背景モデルは、人又は他の任意の最前面の視覚的オブジェクトが存在しない状態での、同じ飛行機の階段を示す、ということは正しく認識されるであろう。

図６Ｅは、道路の部分を走行する車両を示す。車両は、検出される最前面の視覚的オブジェクトである。図６Ｆは、図６Ｅの最前面の視覚的オブジェクトの背景モデルを示す。背景モデルは、車両又は他の任意の最前面の視覚的オブジェクトが存在しない状態での、道路の同じ部分を示す、ということは正しく認識されるであろう。

様々な実施例によれば、検出される視覚的オブジェクトの背景モデルは、履歴的画像フレームから決定される。最前面の視覚的オブジェクトは、映像捕捉デバイスによって捕捉される映像を形成する画像データの連続した画像フレームの現在の画像フレームの、ある与えられたサブ領域内で検出される。履歴的画像フレームは、連続した画像フレームにおける以前の画像フレームであり、ここで該連続した画像フレームにおいては、最前面の視覚的オブジェクト及び、他の任意の最前面の視覚的オブジェクトは、その以前の画像フレームからは欠けている。この場合、現在の画像フレーム及び履歴的画像フレームは、同じシーンを表す。即ち、映像捕捉デバイスは、履歴的画像フレームの時間と現在の画像フレームの時間との間は静止しており（即ち、動いていない）、その結果として、映像捕捉デバイスは、同じシーンを捕捉している。最前面の視覚的オブジェクトが位置する現在の画像フレームのサブ領域に対応する履歴的画像フレームのある与えられたサブ領域は、履歴的画像フレームから取り入れられる。このようにして取り入れられた履歴的画像フレームは、検出された最前面の視覚的オブジェクトの背景モデルである。この取り入れられた履歴的画像フレームは、基礎分類器の更なる訓練のために、否定的な例として５５６で提供される。

様々な実施例によれば、シーン全体の完全な背景モデルは、最初に構成してもよい。シーンのある与えられたサブ領域の背景モデルは、その後、完全な背景モデルから抜き出すことが可能である。

例えば、あまり忙しくないシーンでは（そのようなシーンでは、最前面の視覚的オブジェクトがあまり生じない）、最前面のオブジェクトが全く無い単一の履歴的画像フレームを、完全な背景モデルとして使用してもよい。

より忙しいシーンでは、シーン内にいつでも、少なくとも１つの最前面の視覚的オブジェクトが常に存在するかもしれない。そのようなシーンに対しては、完全な背景モデルを形成するために、複数の履歴的画像フレームから異なるサブ領域を集計することによって、完全な背景モデルを構成してもよい。

一例によれば、複数の履歴的画像フレームが選択される。これらの履歴的画像フレームの各々は、任意の最前面のオブジェクトが無い画像フレームの、少なくとも１つのサブ領域を含む。

各選択された履歴的画像フレームの任意の最前面の部ジェクトが無い、１つ以上のサブ領域の座標が決定される。これらのサブ領域は、それらのそれぞれの履歴的画像フレームから取り入れてもよい。

複数の履歴的画像から取り入れられるようなサブ領域は、その後、集計されて、集計された画像を形成する。シーン全体を表す集計された画像は、複数の履歴的画像フレームを適切に選択することによって得ることが可能であり、その結果として、任意の最前面のオブジェクトが無い、これらのフレームのサブ領域は、シーン全体を集合的に含む。従って、集計された画像は、シーンの完全な背景モデルを形成する。例えば、複数の履歴的画像から取り入れられるような画像のサブ領域は、当技術分野で既知である縫い合わせの方法に従って、集計された画像を形成するように縫い合わせてもよい。

従って、シーンのある与えられたサブ領域内に最前面の視覚的オブジェクトを検出した後、視覚的オブジェクトが検出される、与えられたサブ領域に対応する集計された画像のサブ領域を取り入れることによって、そのサブ領域の背景モデルを得ることが可能である。

図７Ａは、広場であるシーン例を表す第１の完全な履歴的画像フレームを示す。食事エリア及び草の多いエリアの一部を含む第１のサブ領域７００は、任意の最前面の視覚的オブジェクトが無い、ということは正しく認識されるであろう。従って、第１のサブ領域７００は、完全な背景モデルを形成するための、集計されるべきサブ領域の１つとして使用してもよい。しかしながら、階段を含む第２のサブ領域７０８は、その中に位置する人を有する。第１の完全な履歴的画像フレームの中の、この第２のサブ領域７０８は最前面の視覚的オブジェクトを含むので、完全な背景モデルを構築するために、第２のサブ領域７０８を使用することは可能でない。

図７Ｂは、広場の同じシーンを表す、第２の完全な履歴的画像フレームを示す。第２の完全な履歴的画像フレームは、第１の完全な履歴的画像よりも時間的に早い点で捕捉された。第２の完全な履歴的画像フレームの中の第２のサブ領域７０８は、最前面の視覚的オブジェクトが無い、ということは正しく認識されるであろう。第１の完全な履歴的画像フレームの中の階段にいた人は、今は完全に階段を降りている。従って、第２の完全な履歴的画像フレームの中のこの第２のサブ領域７０８は、完全な背景モデルを形成するための、集計されるべきサブ領域の１つとして使用してもよい。完全な背景モデルを形成するために適切であるシーンの他のサブ領域は、同じ方法で決定してもよい。

さて図８を参照すると、そこには、代替的な実施例による、基礎分類器の更なる訓練のための、改善されたコンピュータ履行型の方法５５８のフローチャートが例示されている。代替的な例の方法５５８は、方法５４０と同じステップを含むが、しかしまた、付加的なステップ５６０及びステップ５６４を含む。

５６０では、誤分類されたシーンのサブ領域が提供される。誤分類されたシーンのサブ領域とは、次のようなサブ領域のことを指す。即ち、該サブ領域においては、該サブ領域がその部類の任意のオブジェクトを実際には含まない場合、オブジェクト分類器が、特定の部類に属しているオブジェクトを含むものとして、該サブ領域を誤って分類してしまった、というようなサブ領域のことである。

誤分類されたサブ領域は、管理された環境の中で決定されるかもしれない。この場合、該管理された環境においては、オブジェクト分類器によって分類されるオブジェクトは、オブジェクト分類器によって行われた任意の誤分類を識別する人間によって見直される。

誤分類されたサブ領域は、部分的に管理された環境において決定されるかもしれないし、又は完全に管理された環境において決定されるかもしれない。一例において、オブジェクトが存在しない画像フレームのサブ領域が、オブジェクト分類器に供給される可能性がある。該サブ領域が特定の部類に属するオブジェクト（背景以外のもの）含むという、オブジェクト分類器による分類は、誤ったものであろう。そして該サブ領域は、誤分類されたサブ領域として識別される。

誤分類されたサブ領域が識別されるシーンは、５４４で最前面の視覚的オブジェクトが検出されるシーンと同じシーンであるかもしれない。代わりに、誤分類されたサブ領域のシーンは、最前面の視覚的オブジェクトが検出されるシーンと異なっているかもしれない。

５６４では、基礎分類器は、誤分類されたサブ領域を否定的な訓練例として使用した機械学習を基礎分類器に適用することによって、更に訓練される。

５１６では、検出された視覚的オブジェクトの背景モデル、誤分類されたサブ領域及び、任意選択的に、検出された視覚的オブジェクトから訓練された分類器は、更に検出された視覚的オブジェクトの分類のために配備される。

さて図９を参照すると、そこには、一実施例による、基礎分類器のシーン特有の訓練のための、改善されたコンピュータ履行型の方法６００のフローチャートが例示されている。方法例６００の数多くのステップは、方法例５４０のステップと類似であるか、又は同じであり、且つ、方法例５４０に関して提供される説明は、方法例６００に対しても適用可能である、ということは理解されるであろう。シーン特有の方法６００はまた、代替的な方法例５６０に従って適用してもよい、ということは理解されるであろう。

５０４では、基礎分類器が提供される。

基礎分類器を提供することに続いて、基礎分類器の訓練が始まる。基礎分類器は、特に現在の実世界のシーンに対して訓練される。現在のシーンは、特定の場所に位置決めされ、且つ、特定の方向に向けられた特定のカメラの視野に対応してもよい。

５４４では、最前面の視覚的オブジェクトが、現在のシーンを表す画像データ内で検出される。

５４８では、検出されたオブジェクトの背景モデルが決定される。

５５２では、５４４で現在のシーンから検出された最前面の視覚的オブジェクトを肯定的な訓練例として使用した機械学習を基礎分類器に適用することによって、基礎分類器が任意選択的に訓練される。

５５６では、５４８で決定された最前面の視覚的オブジェクトの背景モデルを否定的な訓練例として使用した機械学習を基礎分類器に適用することによって、基礎分類器が訓練される。

５１６では、最前面の視覚的オブジェクト及び／又は現在のシーンの背景モデルに基づいて訓練された基礎分類器が、現在のシーンで見つけられるオブジェクトを分類するために配備される。

現在のシーンが変わらないままである限り、ステップ５４４からステップ５５６は、現在のシーンで見つけられる複数の例を使用した機械学習を適用することによって基礎分類器を更に訓練するように繰り返してもよい、ということは理解されるであろう。本明細書の別の箇所で説明されるように、ステップ５４４からステップ５５６は、基礎分類器の更新が反復プロセスに追従するように、繰り返してもよい。

６０８では、現在のシーンが変化したかどうかが決定される。現在のシーンにおけるそのような変化は、そのシーンを捕捉していたカメラの場所における変化のために起こるかもしれない。そのような変化はまた、そのシーンを捕捉していたカメラの向きにおける変化のために起こるかもしれない。そのような変化は更にまた、そのシーンを捕捉していたカメラの設定における変化のために起こるかもしれない。ここで設定における変化とは、カメラによって適用されるズーム、又はカメラの動作モード（例えば、通常の光モードから低光モードへの切り換え）における著しい変化のようなものである。

もし６０８でシーンが変わらないままである場合、方法６００は、シーン内で付加的な視覚的オブジェクトを検出すると共に分類するために、５４４へ戻ってもよい。代わりに、方法６００は、現在のシーンに対して、ステップ５４４からステップ５５６で訓練されたオブジェクト分類器の配備を続けるために、５１６に戻ってもよい。

もしシーンが６０８で変わる場合、方法は、少なくとも部分的には基礎分類器へ逆戻りするために、ステップ６１６へ進む。幾つかの例において、シーンに変化がある場合、５１６において現在配備されているオブジェクト分類器は、基礎分類器へ完全に逆戻りする。

ステップ６１６で基礎分類器へ逆戻りした後、シーンにおける変化から生じる新しいシーンを、現在のシーンとして設定してもよい。方法６００は、その後、「新しい」現在のシーンで見つけられる最前面の視覚的オブジェクトを検出すると共に分類するために、５４４へ戻ってもよい。ステップ６１６の逆戻りの後で、それらのオブジェクトに対応するこれらのオブジェクト及び／又は背景モデルを、基礎分類器を更新するために、適用してもよい。

基礎分類器へ逆戻りすることは、次の状況では有用かもしれなく、正しく認識されるであろう。その状況とは、最初のシーン及び続いて起こるシーンの特性は、著しく異なっており、その結果として、最初のシーンの特性に従う基礎分類器の訓練は、次に起こるシーンには適用できない、というものである。基礎分類器へ逆戻りすることによって、特に次に起こるシーンの特性のために、分類器を再訓練することが可能である。

実験

一実験によれば、訓練例の異なるセットを使用して訓練される場合に、基礎分類器（ＡｌｅｘＫｒｉｚｈｅｖｓｋｙ，ＩｌｙａＳｕｔｓｋｅｖｅｒ，ＧｅｏｆｆｒｅｙＨｉｎｔｏｎ， "ＩｍａｇｅＮｅｔＣｌａｓｓｉｆｉｃａｔｉｏｎｗｉｔｈｄｅｅｐｃｏｎｖｏｌｕｔｉｏｎｎｅｕｒａｌｎｅｔｗｏｒｋｓ"，ＮＩＰＳ２０１２において説明される、「ＡｌｅｘＮｅｔ」として知られる深い畳み込みニューラルネットワークの具体的なアーキテクチャ）が評価された。

訓練例は、ＶＩＲＡＴデータセット（ｈｔｔｐ：／／ｗｗｗ．ｖｉｒａｔｄａｔａ．ｏｒｇ）から取得された。このデータセットは、様々な静止カメラからの、３００以上の映像を含む。人間部類の視覚的オブジェクト及び車両部類の視覚的オブジェクトが、ＶＩＲＡＴデータセットから引き出され、且つ、第１セットの訓練例として使用された。背景モデルは、訓練例として使用された各視覚的オブジェクトに対して決定された。これらの背景モデルは、第２セットの訓練例として使用される。

人間部類及び車両部類に加えて、背景部類に属する訓練例もまた、ＶＩＲＡＴデータセットから引き出された。背景部類の訓練例を生成するために、人間部類の最前面の視覚的オブジェクト又は車両部類の最前面の視覚的オブジェクトを含まない画像サンプルが準備された。各画像サンプルは、ＶＩＲＡＴデータセットの中で見つけられる映像の画像フレームが取り入れられた部分である。ニューラルネットワーク分類器に基づかない分類器のような、単純なオブジェクト分類器が、これらの画像サンプルを分類するために使用される。単純な分類器が、人間部類又は車両部類に入る視覚的オブジェクトを含むものとして画像サンプルの任意の１つを分類する場合、誤分類が起こる。これらの誤分類された画像サンプルは、第３のセットの訓練例に含まれる。

ＡｌｅｘＮｅｔ分類器は、ＶＩＲＡＴデータセットから引き出される訓練例によって訓練されるべき基礎分類器として提供される。肯定的な訓練例及び否定的な訓練例が、ＢｅｒｋｅｌｅｙＶｉｓｉｏｎａｎｄＬｅａｒｎｉｎｇＣｅｎｔｅｒ（ｃａｆｆｅ．ｂｅｒｋｅｌｅｙｖｉｓｉｏｎ．ｏｒｇにおいて入手可能）からのＣａｆｆｅｄｅｅｐｌｅａｒｎｉｎｇｆｒａｍｅｗｏｒｋを使用して、基礎分類器を訓練するために適用される。基礎分類器の更新は、ＴｅｓｌａＫ８０ＧＰＵ上で実施された。

実験の第１の部分において、肯定的な訓練例（１００の肯定的な訓練例）として第１のセットの例を適用することによって、及び否定的な訓練例（１００の否定的な訓練例）として第２のセットの訓練例を適用することによって、基礎分類器が訓練された。基礎分類器のこの訓練によって、第１の訓練された試験分類器が産出された。

実験の第２の部分において、肯定的な訓練例（１００の肯定的な訓練例）として第１のセットの例を適用することによって、及び否定的な訓練例（１００の否定的な訓練例）として第３のセットの訓練例を適用することによって、基礎分類器が訓練された。基礎分類器のこの訓練によって、第２の訓練された試験分類器が産出された。

実験の第３の部分において、肯定的な訓練例（１００の肯定的な訓練例）としての第１のセットの例を適用することによって、及び否定的な訓練例として第２のセットの訓練例と第３のセットの訓練例とを混合したものを適用することによって、基礎分類器が訓練された。より正確には、基礎分類器を訓練するために、第２のセットから５０の訓練例、及び第３のセットから５０の訓練例が、否定的な訓練例として適用された。基礎分類器のこの訓練によって、第３の訓練された試験分類器が産出された。

第１の訓練された試験分類器、第２の訓練された試験分類器、及び第３の訓練された試験分類器の各々は、組織内の映像データセットからの映像の試験セット対するオブジェクト分類のために配備された。分類器の各々を配備した場合のエラーレートが測定された。視覚的オブジェクトが誤分類される場合、又は、背景画像（例えば、最前面の視覚的オブジェクトが存在しない）が、人間部類又は車両部類にある視覚的オブジェクトであるとして分類される場合、エラーが発生したと考えられる。

表１は、試験セットの映像に含まれる最前面の視覚的オブジェクトを分類するために配備される場合の、第１の訓練された試験分類器の性能を示す混乱マトリックスである。
表１：

表２は、試験セットの映像に含まれる最前面の視覚的オブジェクトを分類するために配備される場合の、第２の訓練された試験分類器の性能を示す混乱マトリックスである。
表２：

表３は、試験セットの映像に含まれる最前面の視覚的オブジェクトを分類するために配備される場合の、第３の訓練された試験分類器の性能を示す混乱マトリックスである。
表３：

第１の訓練された試験分類器のエラーレートは１４．３６％であり、第２の訓練された試験分類器のエラーレートは１５．４２％であり、且つ第３の訓練された試験分類器のエラーレートは９．９２％である。

基礎分類器（第１の訓練された試験分類器及び第３の訓練された試験分類器）を訓練するために、最前面の視覚的オブジェクトの背景モデルを使用することによって、第２の訓練された試験分類器よりも低いエラーレートが示されたが、ここで第２の訓練された試験分類器においては、背景モデルは訓練サンプルとして使用されなかった、ということは正しく認識されるであろう。より低いエラーレートは、性能の改善を指し示すものである。より重要なことであるが、最前面の視覚的オブジェクトの背景モデルと背景部類のオブジェクトとを一緒に組み合わせたものを否定的な訓練例として使用することによって、著しく改善された性能が示される（第２の訓練された試験分類器に対して、３５．６％低いエラーレート）、ということは正しく認識されるであろう。

特別な理論に結びつけることなく、分類器を訓練するために、検出された視覚的オブジェクトの背景モデルを否定的な訓練例として使用することによって、分類器がシーンのオブジェクトを誤分類することが起こる頻度は減少するであろう。ここで別な方法をとった場合、該オブジェクトは、そのシーンの背景の一部を形成する。

戻って図６Ｃを参照すると、画像の中に示されるシーンのサブ領域が、人及び街灯柱を含む、ということは正しく認識されるであろう。人は最前面の視覚的オブジェクトであり、且つ街灯柱は、シーンの背景の一部を形成する。しかしながら、このサブ領域が肯定的な訓練例として使用される場合、基礎分類器は、人部類の最前面の視覚的オブジェクトとして、街灯柱を認識するように訓練させられるであろう。例えば、もしシーンのこのサブ領域が、関心のあるオブジェクトを有することが多い実在の場所に対応する場合（例えば、頻繁に使用される廊下、小道、又は道路）、街灯柱は、複数のサブ領域に現れ、その場合、該複数のサブ領域は、各々が肯定的な訓練例として使用されるかもしれない。これは、分類器が、人部類のオブジェクトの事例として、街灯柱を認識するように訓練される可能性を高めるかもしれない。サブ領域の背景モデルを否定的な訓練例として使用することは、街灯柱がシーンの背景の一部を形成するというふうに分類器を訓練することによって、この効果を少なくとも部分的に打ち消すかもしれない。

同様に、図６Ｆに示される背景モデルを使用して分類器を訓練することによって、分類器は、背景の一部を形成するものとして、垂直梁を認識するように訓練され、それによって、垂直梁又はそれと類似のオブジェクトを、人間部類又は車両部類に属するものとして分類する可能性を減少させる。

より一般的には、特別な理論に結びつけることなく、背景モデルを使用して分類器を訓練することは、分類器が、実在のオブジェクトを正しく認識するように訓練されることをもたらす。この場合、該実世界のオブジェクトは、背景オブジェクトであるものとして、シーンの背景の一部を形成する。例えば、最前面の視覚的オブジェクトがしばしば検出されるようなシーンのサブ領域では、背景モデルを使用すること、そのサブ領域の背景モデルを否定的な訓練例として使用することは、分類器が、オブジェクトを誤って分類するように訓練される可能性を減少させるかもしれない。この場合、該オブジェクトは、特別な部類に属する最前面の視覚的オブジェクトとして、背景の一部を形成する。

上の説明は実施形態の例を提供している一方で、説明された実施形態の精神及び動作原理から逸脱することなく、説明された実施形態の幾つかの特徴及び／又は機能が変更を受けやすい、ということは正しく認識されるであろう。従って、上で説明されてきたものは、非制限的であると例証されることが意図されている。そして、添付の特許請求の範囲に規定される本発明の範囲から逸脱することなく、他の変形及び変更がなされるであろう、ということは当業者によって理解されるであろう。

Claims

コンピュータ履行型のオブジェクト分類器を訓練するための方法であって、
シーンのサブ領域内に最前面の視覚的オブジェクトを検出するステップと、
前記シーンの前記サブ領域の背景モデルを決定するステップであって、任意の最前面の視覚的オブジェクトが前記サブ領域から欠けている場合、前記背景モデルは前記サブ領域を表す、ステップと、
前記サブ領域の前記背景モデルを否定的な訓練例として使用するコンピュータ履行型の機械学習によって、前記オブジェクト分類器を訓練するステップと、
を備える、方法。
請求項１に記載の方法であって、
前記検出された最前面の視覚的オブジェクトを肯定的な訓練例として使用する機械学習によって、前記オブジェクト分類器を更に訓練するステップを更に備える、方法。
請求項１又は請求項２に記載の方法であって、
前記シーンの前記サブ領域の前記背景モデルを決定するステップは、
捕捉された履歴的画像フレームを選択するステップであって、この選択は、任意の最前面のオブジェクトが、前記シーンの前記サブ領域に対応する前記履歴的画像フレームのサブ領域から欠けている場合に当てはまる、ステップと、
前記履歴的画像フレームから、前記シーンの前記サブ領域に対応する前記サブ領域を取り入れるステップであって、前記取り入れられた画像フレームは、前記シーンの前記サブ領域の前記背景モデルである、ステップと、
を備える、方法。
請求項１又は請求項２に記載の方法であって、
前記シーンの前記サブ領域の前記背景モデルを決定するステップは、
複数の履歴的画像フレームの各々の中で、任意の最前面のオブジェクトが無い１つ以上のサブ領域を決定するステップと、
前記シーン全体を表す完全な背景画像を形成するために、前記複数の履歴的画像から１つ以上のサブ領域を集計するステップと、
前記完全な背景画像から、前記シーンの前記サブ領域に対応するサブ領域を取り入れるステップであって、前記取り入れられた完全な背景画像は、前記シーンの前記サブ領域の前記背景モデルである、ステップと、
を備える、方法。
請求項４に記載の方法であって、
前記複数の履歴的画像から前記１つ以上のサブ領域を集計するステップは、シーン全体を表す画像を形成するために、前記１つ以上のサブ領域を縫い合わせるステップを備える、方法。
請求項１から請求項５のいずれか一項に記載の方法であって、
前記オブジェクト分類器は、特に現在のシーンに対して訓練される、方法。
請求項６に記載の方法であって、
前記現在のシーンが新しいシーンに変わることに際して、前記現在のシーンに特有の訓練無しに、前記オブジェクト分類器へ逆戻りし、
前記新しいシーンからの背景モデルを使用した機械学習によって、前記オブジェクト分類器を訓練する、方法。
請求項１から請求項７のいずれか一項に記載の方法であって、
前記オブジェクト分類器は、管理された学習を部分的に使用して準備される、方法。
請求項１から請求項８のいずれか一項に記載の方法であって、
前記コンピュータ履行型の機械学習は、畳み込みニューラルネットワーク、サポートベクトルマシン、デシジョンツリー、ランダムフォレスト、及びカスケード分類器の少なくとも１つから選択される、方法。
請求項１から請求項９のいずれか一項に記載の方法であって、
誤分類されたシーンのサブ領域を否定的な訓練例として使用するコンピュータ履行型の機械学習によって、前記オブジェクト分類器を訓練するステップを更に備える、方法。
請求項１から請求項１０の方法の１つに従って訓練される、コンピュータ履行型のオブジェクト分類器。
コンピュータ履行型のオブジェクト分類器を分割するためのシステムであって、
プロセッサと、
前記プロセッサによって実行される場合、前記システムが動作を実行することを引き起こすプログラム命令を格納するコンピュータ可読な格納デバイスであって、該動作は、
シーンのサブ領域内に最前面の視覚的オブジェクトを検出するステップと、
前記シーンの前記サブ領域の背景モデルを決定するステップであって、前記背景モデルは、任意の最前面の視覚的オブジェクトが前記サブ領域から欠けている場合、前記サブ領域を表す、ステップと、
前記サブ領域の前記背景モデルを否定的な訓練例として使用するコンピュータ履行型の機械学習によって、前記オブジェクト分類器を訓練するステップと、
を備える、コンピュータ可読な格納デバイスと、
を備える、システム。
請求項１２に記載のシステムであって、
前記動作は、検出された最前面の視覚的オブジェクトを肯定的な訓練例として使用する機械学習によって、前記オブジェクト分類器を訓練するステップを更に備える、システム。
請求項１２又は請求項１３に記載のシステムであって、
前記シーンの前記サブ領域の前記背景モデルを決定するステップは、
捕捉された履歴的画像フレームを選択するステップであって、この選択は、任意の最前面のオブジェクトが、前記シーンの前記サブ領域に対応する前記履歴的フレームから欠けている場合に当てはまる、ステップと、
前記履歴的画像フレームから、前記シーンの前記サブ領域に対応する前記サブ領域を取り入れるステップであって、前記取り入れられた画像は、前記シーンの前記サブ領域の前記背景モデルである、ステップと、
を備える、システム。
請求項１２又は請求項１３に記載のシステムであって、
前記シーンの前記サブ領域の前記背景モデルを決定するステップは、
複数の履歴的画像フレームの各々の中で、任意の最前面のオブジェクトが無い１つ以上のサブ領域を決定するステップと、
シーン全体を表す完全な背景画像を形成するために、前記複数の履歴的画像から前記１つ以上のサブ領域を集計するステップと、
前記完全な背景画像から、前記シーンの前記サブ領域に対応するサブ領域を取り入れるステップであって、前記取り入れられた完全な背景画像は、前記シーンの前記サブ領域の前記背景モデルである、ステップと、
を備える、システム。
請求項１５に記載のシステムであって、
前記複数の履歴的画像から前記１つ以上のサブ領域を集計するステップは、前記シーン全体を表す画像を形成するために、前記１つ以上のサブ領域を縫い合わせるステップを備える、システム。
請求項１２から請求項１６のいずれか一項に記載のシステムであって、
前記オブジェクト分類器は、特に現在のシーンに対して訓練される、システム。
請求項１７に記載のシステムであって、
前記動作は、
前記現在のシーンが新しいシーンに変わることに際して、前記現在のシーンに特有な訓練無しに、前記オブジェクト分類器へ逆戻りするステップと、
前記新しいシーンからの背景モデルを使用した機械学習によって、前記オブジェクト分類器を訓練するステップと、
を更に備える、システム。
請求項１２から請求項１８のいずれか一項に記載のシステムであって、
前記オブジェクト分類器は、管理された学習を部分的に使用して準備される、システム。
請求項１２から請求項１９のいずれか一項に記載のシステムであって、
前記コンピュータ履行型の機械学習は、畳み込みニューラルネットワーク、サポートベクトルマシン、デシジョンツリー、ランダムフォレスト、及びカスケード分類器から選択される、システム。
請求項１２から請求項２０のいずれか一項に記載の方法であって、
前記動作は、誤分類されたシーンのサブ領域を否定的な訓練例として使用したコンピュータ履行型の機械学習によって、前記オブジェクト分類器を訓練するステップを更に備える、システム。