JP2019512827A - 機械学習によってオブジェクト分類器を訓練するためのシステム及び方法 - Google Patents

機械学習によってオブジェクト分類器を訓練するためのシステム及び方法 Download PDF

Info

Publication number
JP2019512827A
JP2019512827A JP2018568468A JP2018568468A JP2019512827A JP 2019512827 A JP2019512827 A JP 2019512827A JP 2018568468 A JP2018568468 A JP 2018568468A JP 2018568468 A JP2018568468 A JP 2018568468A JP 2019512827 A JP2019512827 A JP 2019512827A
Authority
JP
Japan
Prior art keywords
sub
scene
region
training
classifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018568468A
Other languages
English (en)
Other versions
JP7026062B2 (ja
JP2019512827A5 (ja
Inventor
アシシュ シュリバスタバ
アシシュ シュリバスタバ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Avigilon Corp
Original Assignee
Avigilon Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Avigilon Corp filed Critical Avigilon Corp
Publication of JP2019512827A publication Critical patent/JP2019512827A/ja
Publication of JP2019512827A5 publication Critical patent/JP2019512827A5/ja
Application granted granted Critical
Publication of JP7026062B2 publication Critical patent/JP7026062B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/285Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/22Cropping

Abstract

コンピュータ履行型のオブジェクト分類器を訓練するためのシステム及び方法は、シーンのサブ領域内に最前面の視覚的オブジェクトを検出するステップと、シーンのサブ領域の背景モデルを決定するステップと、サブ領域の背景モデルを否定的な訓練例として使用したコンピュータ履行型の機械学習によってオブジェクト分類器を訓練するステップとを含み、ここで背景モデルは、任意の最前面の視覚的オブジェクトがそのサブ領域から欠けている場合に、サブ領域を表す。

Description

本主題は、視覚的オブジェクトの分類に関し、且つ、特に、検出された最前面の視覚的オブジェクトの背景モデルを否定的な訓練例として使用したコンピュータ履行型のオブジェクト分類器を訓練することに関する。
コンピュータ履行型の視覚的オブジェクト分類(オブジェクト認識とも呼ばれる)は、カメラによって捕捉された静止画又は動画の中で見つけられる実在のオブジェクトの視覚的表現を分類することに関する。視覚的オブジェクト分類を実施することによって、静止画又は動画の中で見つけられる各視覚的オブジェクトは、そのタイプ(例えば、人間、車両、動物)に従って分類される。
自動化されたセキュリティシステム及び監視システムは、通常、画像データを収集するために、ビデオカメラ若しくは他の画像捕捉デバイス、又はセンサを使用する。最も簡単なシステムでは、画像データによって表される画像は、同時に起こるセキュリティ要員による選別にために表示される、及び/又は、セキュリティ違反後の事後参照のために記録される。それらのシステムでは、関心のある視覚的オブジェクトを検出すると共に分類するタスクが、人間の観察者によって実施される。システム自体が、部分的に又は完全に、のいずれかでオブジェクトの検出及び分類を実施できる場合、著しい進歩が起こる。
通常の監視システムでは、例えば、周囲を移動する人間、車両、動物などのようなオブジェクトを検出することに、人は関心があるであろう。異なるオブジェクトは、異なる脅威、又は異なるレベルの警報を引き起こす可能性がある。例えば、シーンの中の動物は普通のことかもしれないが、しかし、シーンの中の人間又は車両は警報の原因となるかもしれず、且つ、セキュリティ警備員の即時の注意を要求するかもしれない。カメラによって捕捉された画像データによって表される画像の中のオブジェクトの、自動化されたコンピュータ履行型の検出及び分類は、画像データの記録改善はもちろんのこと、セキュリティ要員の選別の仕事を著しく促進することが可能である。
本明細書で説明される実施形態は、一態様において、コンピュータ履行型のオブジェクト分類器を訓練するための方法を提供する。その方法は、あるシーンのサブ領域内に最前面の視覚的オブジェクトを検出するステップと、そのシーンのサブ領域の背景モデルを決定するステップと、サブ領域の背景モデルを否定的な訓練例として使用したコンピュータ履行型の機械学習によってオブジェクト分類器を訓練するステップとを含み、ここで背景モデルは、任意の最前面の視覚的オブジェクトがサブ領域から欠けている場合に、サブ領域を表す。
本明細書で説明される実施形態は、別の一形態において、コンピュータ履行型のオブジェクト分類器を提供する。そのシステムは、プロセッサと、プログラム命令を格納するコンピュータ可読な格納デバイスとを含み、ここで該プログラム命令は、プロセッサによって実行される場合、システムが動作を実行することを引き起こす。該動作は、シーンのサブ領域内に最前面の視覚的オブジェクトを検出するステップと、該シーンのサブ領域の背景モデルを決定するステップと、サブ領域の背景モデルを否定的な訓練例として使用したコンピュータ履行型の機械学習によってオブジェクト分類器を訓練するステップとを含み、ここで背景モデルは、任意の最前面の視覚的オブジェクトがサブ領域から欠けている場合に、サブ領域を表す。
幾つかの実施例によれば、方法及び/又はシステムは、検出された最前面の視覚的オブジェクトを肯定的な訓練例として使用した機械学習によって、オブジェクト分類器を訓練するステップを更に含む。
幾つかの実施例によれば、シーンのサブ領域の背景モデルを決定するステップは、任意の最前面のオブジェクトが該シーンのサブ領域に対応する履歴的画像フレームのサブ領域から欠けている場合、捕捉された履歴的画像フレームを選択するステップと、履歴的画像フレームから該シーンのサブ領域に対応するサブ領域を取り入れるステップとを含み、ここで取り入れられた画像フレームは、該シーンのサブ領域の背景モデルである。
幾つかの実施例によれば、シーンのサブ領域の背景モデルを決定するステップは、複数の履歴的画像フレームの各々の中で、任意の最前面のオブジェクトが無い1つ以上のサブ領域を決定するステップと、シーン全体を表す完全な背景画像を形成するために、複数の履歴的画像から1つ以上のサブ領域を集計するステップと、完全な背景画像から該シーンのサブ領域に対応するサブ領域を取り入れるステップとを含み、ここで取り入れられた完全な背景画像は、該シーンのサブ領域の背景モデルである。
幾つかの実施例によれば、複数の履歴的画像から1つ以上のサブ領域を集計するステップは、シーン全体を表す画像を形成するために、1つ以上のサブ領域を縫い合わせるステップを備える。
幾つかの実施例によれば、オブジェクト分類器は、特に現在のシーンに対して訓練される。
幾つかの実施例によれば、現在のシーンが新しいシーンに変わることに際して、現在のシーンに特有の訓練無しに、オブジェクト分類器に逆戻りし、且つ、新しいシーンからの背景モデルを使用した機械学習によって、オブジェクト分類器を訓練する。
幾つかの実施例によれば、オブジェクト分類器は、管理された学習を部分的に使用して準備される。
幾つかの実施例によれば、コンピュータ履行型の機械学習は、畳み込みニューラルネットワーク、サポートベクトルマシン、デシジョンツリー、ランダムフォレスト、及びカスケード分類器から選択される。
幾つかの実施例によれば、方法及び/又はシステムは、誤分類されたシーンのサブ領域を否定的な訓練例として使用したコンピュータ履行型の機械学習によって、オブジェクトを訓練するステップを更に含む。
詳細な説明には、次の図を参照する。
一実施例による、映像捕捉及び再生システムの接続されたデバイスのブロック図を例示したものである。
一実施例による、映像捕捉及び再生システムの一セットの動作モジュールのブロック図を例示したものである。
一実施例による、1つのデバイス内で履行される一セットの動作モジュールのブロック図を例示したものである。
画像データに対して映像解析を実施するための方法の、一実施例のフローチャート図を例示したものである。
一実施例による、映像解析モジュールの一セットの動作サブモジュールのブロック図を例示したものである。
一実施例による、オブジェクト分類モジュールの複数のオブジェクト分類器を例示したものである。
基礎分類器の更なる訓練のための、当技術分野で知られた方法のフローチャートを例示したものである。
一実施例による、基礎分類器の更なる訓練のための、改善されたコンピュータ履行型の方法のフローチャートを例示したものである。
検出された最前面の視覚的オブジェクト及びそれの対応する背景モデルを有するシーンのサブ領域である。 検出された最前面の視覚的オブジェクト及びそれの対応する背景モデルを有するシーンのサブ領域である。 検出された最前面の視覚的オブジェクト及びそれの対応する背景モデルを有するシーンのサブ領域である。 検出された最前面の視覚的オブジェクト及びそれの対応する背景モデルを有するシーンのサブ領域である。 検出された最前面の視覚的オブジェクト及びそれの対応する背景モデルを有するシーンのサブ領域である。 検出された最前面の視覚的オブジェクト及びそれの対応する背景モデルを有するシーンのサブ領域である。
シーンの例を表す、第1の完全な履歴的画像フレームである。
シーンの例を表す、第2の完全な履歴的画像フレームである。
代替的な実施例による、基礎分類器の更なる訓練のための、改善されたコンピュータ履行型の方法のフローチャートを例示したものである。
一実施例による、基礎分類器のシーンに特有の訓練のための、改善されたコンピュータ履行型の方法のフローチャートを例示したものである。
例示したものを簡単且つ明快にするために、図に示された要素は、必ずしも寸法通りに描かれていない、ということは正しく認識されるであろう。例えば、要素の幾つかの寸法は、明快さのために、他の要素に対して誇張されているかもしれない。更に、適切と考えられる場合には、参照符号は、対応する要素又は類似要素を指し示すために、図面間で繰り返されるかもしれない。
本明細書で説明される模範的な実施形態の完全な理解を提供するために、多くの具体的な詳細が明らかにされる。しかしながら、本明細書で説明される実施形態は、これらの特定の詳細が無くても実行される可能性がある、ということは当業者によって理解されるであろう。他の事例において、良く知られた方法、手続き、及び構成部品は、本明細書で説明される実施形態を不明瞭にしないように、詳細には説明されていない。更に、この説明は、いかなる方法においても、本明細書で説明される実施形態の範囲を制限するものと考えられるべきではなく、むしろ本明細書で説明される様々な実施形態の履行を単に説明するものと考えられるべきである。
「頂部」、「底部」、「上方へ」、「下方へ」、「垂直に」、及び「横方向に」のような方向性の用語は、以下の説明では相対的な参照を提供する目的のためだけに使用され、且つ、どれだけの数の品目が、使用中に位置付けられるべきか、又は、組み立て品の中で取り付けられるべきか、若しくは周囲に対して取り付けられるべきか、ということに関して、いかなる制限の提案も意図するものではない。
「態様」、「実施形態(複数可)」、「該実施形態(複数可)」、「1つ以上の実施形態」、「幾つかの実施形態」、「ある実施形態」、「一実施形態」、「別の実施形態」などのような用語は、特記しない限り、開示された発明の1つ以上の(しかし全てではない)実施形態を意味する。実施形態を説明する際に、「別の実施形態」又は「別の態様」を参照することは、特記しない限り、参照された実施形態が、別の実施形態に関して相互に排他的である(例えば、1つの実施形態が、参照される実施形態に先んじて説明される)、ということを意味しない。
「含む」、「備える」、及びそれらの変形は、特記しない限り、「含む」ことを意味するが、しかし、これに限定されない。
「複数」という用語は、特記しない限り、「2つ以上」を意味する。「本明細書における」という用語は、特記しない限り、「本出願において、参照によって組み込まれるかもしれない任意のものを含む」、ということを意味する。
「たとえば(e.g.)」などの用語は、「例えば(for example)」を意味し、従って、それが説明する用語又は句を限定しない。
「それぞれの(respective)」などの用語は、「個別に考えると(taken indivisually)」、ということを意味する。従って、もし2つ以上の物が「それぞれの」特性を有する場合、その時は、そのような物は、それ自身の特性を有し、且つ、これらの特性は、互いに異なり得るが、しかし、互いに異なっている必要はない。例えば、「2つのマシンの各々はそれぞれの機能を有する」という句は、第1のそのようなマシンは1つの機能を有し、且つ第2のそのようなマシンは、同様に1つの機能を有する、ということを意味する。第1のマシンの機能は、第2のマシンの機能と同じであってもよく、又は第2のマシンの機能と同じでなくてもよい。
「a」又は「an」という言葉は、請求項及び/又は明細書の中で「備える(comprising)」又は「含む(including)」という用語と合わせて使用される場合、「1つの」ということを意味するかもしれず、しかし、それはまた、その内容が明確に別のことを指示しない限り、「1つ以上の」、「少なくとも1つの」、及び「1つ又はそれ以上の」という意味と矛盾しない。同様に、「別の」という言葉は、その内容が明確に別のことを指示しない限り、少なくとも第2の又はそれ以上のということを意味するかもしれない。
本明細書で使用される「結合された」、「結合する」、又は「接続された」という用語は、それらの用語が使用される文脈に依存して、幾つかの異なる意味を有することが可能である。例えば、結合された、結合する、又は接続されたという用語は、機械的な含意又は電気的な含意を有することが可能である。例えば、本明細書で使用される、結合された、結合する、又は接続されたという用語は、2つの要素又はデバイスが、互いに対して直接接続される、又は互いに対して接続される、ということを指し示すことが可能であり、その場合の接続は、特別な文脈に依存して、電気的要素、電気的信号、又は機械的要素を介して、1つ以上の中間要素又はデバイスを通して行われる。
本音明細書における「画像データ」は、映像捕捉デバイスによって産出されたデータのことを指し、且つ、それは、映像捕捉デバイスによって捕捉された画像を表す。画像データは、複数の連続した画像フレームを含んでもよく、該複数の連続した画像フレームは、映像捕捉デバイスによって捕捉された映像を協力して形成する。各画像フレームは、画素のマトリックスによって表してもよく、各画素は、画素の画像値を有する。例えば、画素の画像値は、グレースケールに関する(例えば、0から255までの)数値であってもよく、又は、カラー化された画像に対する複数の数値であってもよい。画像データにおける画素の画像値を表すために使用される色空間の例は、RGB、YUV、CYKM、YCBCR4:2:2、及びYCBCR4:2:0の画像を含む。本明細書で使用される「画像データ」は、映像捕捉デバイスによって産出された「生の」画像データのことを指し得る、及び/又は、ある形の処理を受けた画像データのことを指し得る、ということは理解されるであろう。
「最前面の視覚的オブジェクト」とは、映像捕捉デバイスによって捕捉された画像フレームの中で見つけられた実在のオブジェクト(例えば、人、動物、車両)の視覚表現のことを指す。最前面の視覚的オブジェクトは、映像監視のような様々な目的に対して関心のあるオブジェクトである。例えば、あるシーンにおける最前面の視覚的オブジェクトは、存在している人間又は車両のような事象を表してもよい。最前面の視覚的オブジェクトは、移動オブジェクトであってもよく、又は以前の移動オブジェクトであってもよい。最前面の視覚的オブジェクトは、背景オブジェクトと区別されるが、ここで背景オブジェクトとは、あるシーンの背景の中で見つけられるオブジェクトであり、且つ、関心がないものである。
「現在の画像フレーム」とは、本明細書で説明される様々なシステム及び方法の中で現在解析されている映像の、複数の連続した画像フレームの中の画像フレームのことを指す。現在の画像フレームの画像データは、現在の画像フレームの中で、及び/又は現在の画像に先立つ複数の画像フレームの中で、捕捉されたオブジェクトに関する情報を生成するために解析される。
現在の画像フレームの「以前の画像フレーム」又は「履歴的画像フレーム」とは、映像の複数の連続した画像フレームの中で、現在の画像フレームの前に生じた画像フレームのことを指す。例えば、以前の画像フレームは、現在の画像フレームに直接先立つ画像フレームであってもよい。代わりに、以前の画像フレームは、複数の連続した画像フレームよりも時間的に早い画像であってもよく、しかし、現在の画像フレームに関連するように、現在の画像フレームに十分に近いものである。
本明細書における「処理画像データ」又はその変形物とは、画像データに対して実施される、1つ以上のコンピュータ履行型の機能のことを指す。例えば、処理画像データは、画像処理動作を含んでもよく、ここで該画像処理動作は、以下に限定されないが、映像データを解析する、管理する、圧縮する、符号化する、格納する、送信する、及び/又は再生することを含む。画像データを解析することは、画像フレームのエリアを分割すると共に、視覚的オブジェクトを検出すること、画像データによって表される捕捉されたシーンの中に位置する視覚的オブジェクトを追跡すること、及び/又は該視覚的オブジェクトを分類することを含む。画像の処理は、修正された画像データが、圧縮された画像データ(例えば、品質が低下したもの)及び/又は再符号化された画像データのようなものとして、産出されることの原因になるかもしれない。画像データの処理はまた、出力されるべき画像の中に、捕捉された画像データ又は視覚的オブジェクトに関する付加的情報をもたらすかもしれない。例えば、そのような付加的情報は、一般にメタデータとして理解される。メタデータはまた、画像フレームの中で、検出された視覚的オブジェクトの周りに境界ボックスを描くことのような、画像データの更なる処理のために使用してもよい。
(例えば、用語又は句が同義語であるという明確な陳述の故に)2つ以上の用語又は句が同義語である場合、1つのそのような用語/句の事例は、別のそのような事例が異なる意味を持たなければならない、ということを意味しない。例えば、陳述が、「含む(including)」の意味が「含むが、しかし〜に限定されない」と同義語であるとする場合、「含むが、しかし〜に限定されない」という句の単なる使用は、「含む」という用語が「含むが、しかし〜に限定されない」以外の何かを意味することを、意味するものではない。
名称(本出願の最初のページの初めに明記される)及び要約(本出願の最後に明記される)のいずれについても、開示された発明の範囲を制限するものとは、決して考えるべきではない。要約はこの出願に含まれているが、それは単に、150ワードを超えない要約が、37C.F.R.セクション1.72(b)の下で、又は他の管轄区における同様な法律の下で要求されているからである。本出願の名称及び、本出願において提供されるセクションの見出しは、便利さのためだけのものであり、且つ、本開示を制限するものとは、決して考えるべきではない。
本出願では、数多くの実施形態が説明され、且つ、例証的な目的のためだけに提示される。説明された実施形態は、いかなる意味においても限定的ではなく、且つ、限定的であることを意図するものではない。本開示の態様は、本開示から容易に明らかなように、数多くの実施形態に広く適用可能である。当業者であれば、開示された態様が、構造的修正及び論理的修正のような、様々な修正及び変更と共に実行される可能性がある、ということを認識するであろう。開示された態様の特定の特徴は、1つ以上の特定の実施形態及び/又は図面を参照して説明されるかもしれないが、そのような特徴は、特記しない限り、1つ以上の特定の実施形態又は図面(実施形態はこれらの図面を参照して説明される)の中での使用に限定されない、ということは理解されるべきである。
本出願において説明される方法ステップ又は製品要素の実施形態は、どれも本質的ではなく、又は、同一の広がりを持つものではない。このことは、この明細書の中でそのように明白に述べられる場合、又は請求項において明白に列挙される場合を除いて、当てはまる。
本明細書で説明される様々な実施例は、方法、システム、又はコンピュータプログラム製品として具体化してもよい、ということは当業者によって正しく認識されるであろう。従って、様々な実施例は、完全にハードウェアの実施形態の形、完全にソフトウェアの実施形態(ファームウェア、常駐ソフトウェア、マイクロコードなど)の形、又は、本明細書では全てが一般に「回路」、「モジュール」、若しくは「システム」と呼ばれる、ソフトウェア態様とハードウェア態様を結合する実施形態の形を取ってもよい。更に、様々な実施例は、媒体の中に具体化されたコンピュータ使用可能なプログラムコードを有する、コンピュータ使用可能な格納媒体上のコンピュータプログラム製品の形を取ってもよい。
任意の適切なコンピュータ使用可能な媒体又はコンピュータ可読な媒体を利用してもよい。コンピュータ使用可能な媒体又はコンピュータ可読な媒体は、例えば、以下に限定されるものではないが、電子的システム、磁気的システム、光学的性ステム、電磁気的システム、赤外システム、若しくは半導体システム、装置、デバイス、又は伝達媒体であってもよい。この文書の文脈において、コンピュータ使用可能な媒体又はコンピュータ可読な媒体は、任意の媒体であってもよく、ここで該任意の媒体は、命令実行システム、装置、若しくはデバイスによる使用を目的として、又は、命令実行システム、装置、若しくはデバイスと関連した使用を目的として、プログラムを含む、格納する、通信する、伝達する、又は輸送することが可能である。
様々な実施例の動作を実行するためのコンピュータプログラムコードは、Java、Smalltalk、C++、Pythonなどのような、目的指向のプログラミング言語で書いてもよい。しかしながら、様々な実施例の動作を実行するためのコンピュータプログラムコードはまた、「C」プログラミング言語又は同様なプログラミング言語のような、従来の手続的プログラミング言語で書いてもよい。プログラムコードは、完全にコンピュータ上で実行してもよく、スタンドアロン・ソフトウェア・パッケージのように、部分的にコンピュータ上で実行してもよく、部分的にコンピュータ上で、且つ部分的に遠隔コンピュータ上で実行してもよく、又は、完全に遠隔コンピュータ上で若しくはサーバ上で実行してもよい。後者のシナリオにおいては、遠隔コンピュータは、ローカルエリアネットワーク(LAN)若しくはワイドエリアネットワーク(WAN)を通してコンピュータに接続してもよく、又は、接続は、(例えば、インターネット・サービス・プロバイダを使用したインターネットを通して)外部コンピュータに対して行ってもよい。
本発明の実施形態によるフローチャート図解、及び/又は方法のブロック図、装置(システム)並びにコンピュータプログラム製品を参照しながら、様々な実施例が以下で説明される。フローチャート図解及び/又はブロック図の各ブロック、並びにフローチャート図解及び/又はブロック図におけるブロックの組み合わせは、コンピュータプログラム命令によって履行することが可能である、ということは理解されるであろう。これらのコンピュータプログラム命令は、汎用コンピュータ、特定用途コンピュータ、又はマシンを産出すための他のプログラマブルデータ処理装置に提供してもよく、その結果として、コンピュータのプロセッサ又は他のプログラマブルデータ処置装置を介して実行される命令は、フローチャート及び/又はブロック図のブロック(複数可)において指定された機能/行為を履行するための手段を創出する。
これらのコンピュータプログラム命令はまた、特定のやり方で機能するようにコンピュータ又は他のプログラマブルデータ処理装置に指示することが可能なコンピュータ可読なメモリに格納してもよく、その結果として、コンピュータ可読なメモリに格納された命令は、フローチャート及び/又はブロック図のブロック(複数可)において指定された機能/行為を履行する命令を含む製造項目を産出する。
コンピュータプログラム命令はまた、コンピュータ上又は他のプログラマブルデータ処理装置上にロードしてもよいが、これは、コンピュータ履行型のプロセスを産出するべく、一連の動作ステップがコンピュータ上又は他のプログラマブル装置上で実施されることをもたらすためであり、その結果として、コンピュータ上又は他のプログラマブル装置上で実行される命令は、フローチャート及び/又はブロック図のブロック(複数可)において指定された機能/行為を履行するためのステップを提供する。
さて図1Aを参照すると、そこには、一実施例による映像捕捉及び再生システム100の接続されたデバイスのブロック図が例示されている。例えば、映像捕捉及び再生システム100は、映像監視システムとして使用してもよい。映像捕捉及び再生システム100は、本明細書で説明されるプロセス及び機能を実施するハードウェア及びソフトウェアを含む。
映像捕捉及び再生システム100は、複数の画像を捕捉すると共に、複数の捕捉された画像を表す画像データを産出するように動作可能である、少なくとも1つの映像捕捉デバイス108を含む。
各映像捕捉デバイス108は、複数の画像を捕捉するための、少なくとも1つのセンサ116を含む。映像捕捉デバイス108は、デジタルビデオカメラであってもよく、且つ画像センサ116は、捕捉された光をデジタルデータとして出力してもよい。例えば、画像センサ116は、CMOS、NMOS、又はCCDであってもよい。
少なくとも1つの画像センサ116は、1つ以上の周波数範囲にある光を捕捉するように動作可能であってもよい。例えば、少なくとも1つの画像センサ116は、可視光周波数範囲に実質的に対応する範囲にある光を捕捉するように動作可能であってもよい。他の例において、少なくとも1つの画像センサ116は、赤外範囲及び/又は紫外範囲にあるような、可視光範囲の外にある光を捕捉するように動作可能であってもよい。他の例において、映像捕捉デバイス108は、異なる周波数範囲にある光を捕捉するように動作可能である、2つ以上のセンサを含むマルチセンサカメラであってもよい。
少なくとも1つの映像捕捉デバイス108は、専用のカメラを含んでもよい。本明細書における専用カメラは、その主な特徴が画像又は映像を捕捉することであるカメラのことを指す、ということは理解されるであろう。幾つかの実施例において、専用カメラは、捕捉された画像又は映像に関連付けられた機能を実施してもよく、ここで該機能とは、以下に限定されるわけではないが、該専用カメラによって、又は別の映像捕捉デバイス108によって産出された画像データを処理することのようなものである。例えば、専用カメラは監視カメラであってもよく、ここで監視カメラは、パン・チルト・ズームカメラ、ドームカメラ、天井カメラ、ボックスカメラ、及び弾丸カメラの任意の1つのようなものである。
加えて、又は代わりに、少なくとも1つの映像捕捉デバイス108は、組み込み型カメラを含んでもよい。本明細書における組み込み型カメラは、デバイス内に組み込まれ、且つ、捕捉される画像又は映像と関連しない機能を実施するように動作するカメラのことを指す、ということは理解されるであろう。例えば、組み込み型カメラは、ラップトップ、タブレット、ドローンデバイス、スマートフォン、ビデオゲーム機又はビデオゲームコントローラの任意の1つの上に見つけられるカメラであってもよい。
各映像捕捉デバイス108は、1つ以上のプロセッサ124と、該プロセッサに結合された1つ以上のデバイス132と、1つ以上のネットワークインターフェースとを含む。メモリデバイスは、プログラム命令の実行の間に使用されるローカルメモリ(例えば、ランダムアクセスメモリ及びキャッシュメモリ)を含むことが可能である。プロセッサは、コンピュータプログラム命令(例えば、オペレーティングシステム及び/又はアプリケーションプログラム)を実行するが、ここでコンピュータプログラム命令は、メモリデバイスに格納することが可能である。
様々な実施形態において、プロセッサ124は、1つ以上の回路ユニットを有する任意の処理回路によって実行してもよく、ここで該処理ユニットは、デジタル信号プロセッサ(DSP)、グラフィック処理ユニット(GPU)が組み込まれたプロセッサなど、及び、これらの任意の組み合わせを含む。ここで該任意の組み合わせとは、おそらくは重複して動作することを含めて、独立に動作するもの、又は並行して動作するものの組み合わせである。そのような処理回路は、1つ以上の集積回路(IC)によって履行してもよく、これは、モノリシック集積回路(MIC)、特定用途向け集積回路(ASIC)、フィールド・プログラマブル・ゲートアレイ(FPGA)など、又はこれらの任意の組み合わせによって履行されることを含む。加えて、又は代わりに、そのような処理回路は、例えば、プログラマブル論理コントローラ(PLC)として履行してもよい。プロセッサは、デジタルデータのようなメモリを格納するための回路構成を含んでもよく、且つ、メモリ回路を備えるか、又は、例えば、メモリ回路と有線で通信してもよい。
様々な実施例において、プロセッサ回路と結合されたメモリデバイス132は、データ及びコンピュータプログラム命令を格納するように動作可能である。通常、メモリデバイスは、全てがデジタル電子集積回路である、若しくはデジタル電子集積回路の一部である、又は、複数のデジタル電子集積回路から形成される。メモリデバイスは、例えば、読み出し専用メモリ(ROM)、プログラマブル読み出し専用メモリ(PROM)、消去可能なプログラマブル読み出し専用メモリ(EPROM)、電気的に消去可能なプログラマブル読み出し専用メモリ(EEPROM)、フラッシュメモリ、1つ以上のフラッシュドライブ、ユニバーサルシリアルバス(USB)接続されたメモリユニット、磁気記憶装置、光記憶装置、光磁気記憶装置など、又はこれらの任意の組み合わせとして履行してもよい。メモリデバイスは、揮発性メモリ、不揮発性メモリ、ダイナミックメモリなど、又はこれらの任意の組み合わせとして、メモリを格納するように動作可能であってもよい。
様々な実施例において、画像捕捉デバイス108の複数の構成部品は、システム内のチップ(SOC)上で協力して履行してもよい。例えば、プロセッサ124、メモリデバイス116、及びネットワークインターフェースは、SOC内で履行してもよい。更に、このように履行される場合、汎用のプロセッサ及び、GPU及びDSPの1つ以上は、SOC内で協力して履行してもよい。
図1Aに関して続けると、少なくとも1つの映像捕捉デバイス108の各々は、ネットワーク140に接続される。各映像捕捉デバイス108は、自身が捕捉する画像を表す画像データを出力すると共に、ネットワークを通して該画像データを送信するように動作可能である。
ネットワーク140は、データの受信及び送信を提供する任意の通信ネットワークであってもよい、ということは理解されるであろう。例えば、ネットワーク140は、ローカルエリアネットワーク、外部ネットワーク(例えば、WAN、インターネット)、又はこれらの組み合わせであってもよい。他の例において、ネットワーク140は、クラウドネットワークを含んでもよい。
幾つかの例において、映像捕捉及び再生システム100は、処理機器148を含む。処理機器148は、映像捕捉デバイス108によって出力された画像データを処理するように動作可能である。処理機器148はまた、1つ以上のプロセッサと、プロセッサに結合された1つ以上のメモリデバイスとを含む。処理機器148はまた、1つ以上のネットワークインターフェースを含んでもよい。
例えば、例示されるように、処理機器148は、映像捕捉デバイス108に接続される。処理機器148は、ネットワーク140に更に接続してもよい。
一実施例によれば、図1Aに例示されるように、映像捕捉及び再生システム100は、少なくとも1つのワークステーション156(例えば、サーバ)を含み、ワークステーション156の各々は、1つ以上のプロセッサを有する。少なくとも1つのワークステーション156はまた、格納メモリを含んでもよい。ワークステーション156は、少なくとも1つの映像捕捉デバイス108から画像データを受信し、且つ、該画像データの処理を実施する。ワークステーション156は、画像捕捉デバイス108の1つ以上を管理するためのコマンド、及び/又は制御するためのコマンドを更に送ってもよい。ワークステーション156は、映像捕捉デバイス108から、生の画像データを受信してもよい。代わりに、又は加えて、ワークステーション156は、映像捕捉デバイス108における、及び又は処理機器148における処理のような、幾つかの中間処理を既に受けた画像データを受信してもよい。ワークステーション156はまた、画像データからメタデータを受信し、且つ、画像データの更なる処理を実施してもよい。
図1Aには単一のワークステーション156が例示されているが、ワークステーションは、複数のワークステーションの集合体として履行してもよい、ということは理解されるであろう。
映像捕捉及び再生システム100は、ネットワーク140に接続された少なくとも1つのクライアントデバイス164を更に含む。クライアントデバイス164は、映像捕捉及び再生システム100と対話するように、一人以上のユーザによって使用される。従って、クライアントデバイス164は、少なくとも1つの表示デバイス、及び少なくとも1つのユーザ入力デバイス(例えば、マウス、キーボード、タッチスクリーン)を含む。クライアントデバイス164は、その表示デバイス上に、情報を表示し、ユーザ入力を受信し、且つ映像を再生するためのユーザインターフェースを表示するように動作可能である。例えば、クライアントデバイスは、パーソナルコンピュータ、ラップトップ、タブレット、携帯情報端末(PDA)、携帯電話、スマートフォン、ゲーム用デバイス、及び他のモバイル機器の任意の1つであってもよい。
クライアントデバイス164は、ネットワーク140を通して画像データを受信するように動作可能であり、且つ、受信された画像データを再生するように更に動作可能である。クライアントデバイス164はまた、画像データを処理するための機能性を有してもよい。例えば、クライアントデバイス164の処理機能は、受信された画像データを再生するための能力に関連した処理に限定してもよい。他の例において、画像処置機能性は、ワークステーション156と1つ以上のクライアントデバイス164との間で共有してもよい。
幾つかの例において、画像捕捉及び再生システム100は、ワークステーション156無しで履行してもよい。従って、画像処理機能性は、完全に1つ以上の映像捕捉デバイス108上で実施してもよい。代わりに、画像処理機能性は、映像捕捉デバイス108、処理機器148、及びクライアントデバイス164の2つ以上の間で共有してもよい。
さて図1Bを参照すると、そこには、一実施例による、映像捕捉及び再生システム100の動作モジュールのセット200のブロック図が例示されている。動作モジュールは、図1Aに例示されるように、映像捕捉及び再生システム100のデバイスの1つ以上のデバイス上で、ハードウェアにおいて、ソフトウェアにおいて、又はその両方において履行してもよい。
動作モジュールのセット200は、少なくとも1つの映像捕捉モジュール208を含む。例えば、各映像捕捉デバイス108は、映像捕捉モジュール208を履行してもよい。映像捕捉モジュール208は、画像を捕捉するための映像捕捉デバイス108の1つ以上の構成部品(例えば、センサ116など)を制御するように動作可能である。
動作モジュールのセット200は、画像データ処理モジュールのサブセット216を含む。例えば、例示されるように、画像データ処理モジュールのサブセット216は、映像解析モジュール224及び映像管理モジュール232を含む。
映像解析モジュール224は、画像データを受信し、且つ、画像又は映像によって表されるシーンの中で見つけられる捕捉された画像又は映像の、及び/又はオブジェクトの、特質又は特性を決定するために、画像データを解析する。行われた決定に基づいて、映像解析モジュール224は、決定についての情報を提供するメタデータを更に出力してもよい。映像解析モジュール224によって行われた決定の例は、最前面/背景の分割、オブジェクト検出、オブジェクト追跡、オブジェクト分類、仮想わな、異常検出、顔検出、顔認識、ナンバープレート認識、「残された」オブジェクトを識別すること、オブジェクトを監視すること(例えば、盗みからの保護のために)、及びビジネスインテリジェンスの1つ以上を含んでもよい。しかしながら、当分野で知られた他の映像解析機能もまた、映像解析モジュール224によって履行してもよい、ということは理解されるであろう。
映像管理モジュール232は、画像データを受信し、且つ、映像の送信、再生、及び/又は格納に関連する画像データに対して処理機能を実施する。例えば、映像管理モジュール232は、バンド幅要求及び/又は容量に応じて画像データの送信を許可するように、画像データを処理することが可能である。映像管理モジュール232はまた、映像を再生するであろうクライアントデバイス164の再生能力に応じて、画像データを処理してもよい。ここで再生能力とは、クライアントデバイス164の表示装置の処理力及び/又は解像度のようなものである。映像管理モジュール232はまた、画像データを格納するための、映像捕捉及び再生システム100内の格納容量に応じて、画像データを処理してもよい。
幾つかの実施例によれば、映像処理モジュールのサブセット216は、映像解析モジュール224及び映像管理モジュール232の中の1つだけを含んでもよい、ということは理解されるであろう。
動作モジュールのセット200は、格納モジュールのサブセット240を更に含む。例えば、例示されるように、格納モジュールのサブセット240は、映像格納モジュール248及びメタデータ格納モジュール256を含む。映像格納モジュール248は画像データを格納するが、該画像データは、映像管理モジュールによって処理される画像データであってもよい。メタデータ格納モジュール256は、映像解析モジュール224から出力される情報データを格納する。
映像格納モジュール248及びメタデータ格納モジュール256は別々のモジュールとして例示されているが、それらは同じハードウェア格納デバイス内で履行してもよく、それによって、論理ルールが、格納されたメタデータから格納された映像を分離するように履行される、ということは理解されるであろう。他の実施例において、映像格納モジュール248及び/又はメタデータ格納モジュール256は、複数のハードウェア格納デバイス内で履行してもよく、ここで該複数のハードウェア格納デバイスにおいては、分散された格納方式を履行してもよい。
動作モジュールのセットは、少なくとも1つの映像再生モジュール264を更に含むが、ここで映像再生モジュール264は、画像データを受信すると共に、映像として画像データを再生するように動作可能である。例えば、映像再生モジュール264は、クライアントデバイス164上で履行してもよい。
セット200の動作モジュールは、画像捕捉デバイス108、処理機器148、ワークステーション156、及びクライアントデバイス164の1つ以上の上で履行してもよい。幾つかの実施例において、動作モジュールは、完全に単一のデバイス上で履行してもよい。例えば、映像解析モジュール224は、完全にワークステーション156上で履行してもよい。同様に、映像管理モジュール232は、完全にワークステーション156上で履行してもよい。
他の実施例において、セット200の動作モジュールの幾つかの機能性は、部分的に第1のデバイス上で履行してもよく、その一方で、動作モジュールの他の機能性は、第2のデバイス上で履行してもよい。例えば、映像解析機能性は、映像捕捉デバイス108、処理機器148、及びワークステーション156の1つ以上の間で分割してもよい。同様に、映像管理機能性は、映像捕捉デバイス108、処理機器148、及びワークステーション156の1つ以上の間で分割してもよい。
さて図1Cを参照すると、そこには、1つの特別な実施例による映像捕捉及び再生システム100の動作モジュールのセット200のブロック図が例示されており、そこでは、映像解析モジュール224、映像管理モジュール232、及び格納デバイス240が、完全に1つ以上の画像捕捉デバイス108上で履行される。従って、映像捕捉及び再生システム100は、ワークステーション156及び/又は処理機器148を要求しない。
画像データ処理モジュールのサブセットが、映像捕捉及び再生システム100の単一のデバイス上で、又は様々なデバイス上で履行されることが可能となることによって、システム100を構築する上での融通自在性が可能になる、ということは正しく認識されるであろう。
例えば、ある一定の機能性を有する特定のデバイスを使用する場合、別のデバイスがそれらの機能性を欠いている状態で、該特定のデバイスを選択してもよい。このことは、異なる関係者(例えば、製造業者)からのデバイスを統合する場合に、又は現存する映像捕捉及び再生システムを追加導入する場合に有用である。
さて図2を参照すると、そこには、映像捕捉デバイス108によって捕捉された映像の1つ以上の画像フレーム上に対して映像解析を実施するための方法272の実施例のフローチャート図が例示されている。映像解析は、映像において捕捉されたシーンの中で見つけられる捕捉された画像又は映像の、及び/又は視覚的オブジェクトの、特質又は特性を決定するために、映像解析モジュール224によって実施してもよい。
300では、映像の少なくとも1つの画像フレームが、最前面エリアと背景エリアとに分割される。分割は、シーンの静止エリアから、捕捉されたシーンの中の移動オブジェクト(又は以前の移動オブジェクト)に対応する画像フレームのエリアを分離する。
302では、画像フレームによって表されるシーンの中の1つ以上の最前面の視覚的オブジェクトが、300の分割に基づいて検出される。例えば、任意の別々の隣接した最前面エリア又は「ブロッブ」は、シーンの中の最前面の視覚的オブジェクトとして識別してもよい。例えば、ある一定のサイズ(例えば、画素の数)よりも大きな、隣接した最前面エリアだけが、シーンの中の最前面の視覚的オブジェクトとして識別される。
検出された1つ以上の最前面エリアに関連して、メタデータを更に生成してもよい。メタデータは、画像フレーム内の最前面の視覚的オブジェクトの場所を定義してもよい。例えば、検出された最前面の視覚的オブジェクトの輪郭を描く境界ボックスを生成するために(例えば、映像を符号化する場合、又は映像を再生する場合)、メタデータの場所を更に使用してもよい。
検出された1つ以上の最前面の視覚的オブジェクトの各々を視覚的に識別するために、視覚的指標を画像フレームに付加してもよい。視覚的指標は、画像フレーム内の1つ以上の最前面の視覚的オブジェクトの各々を取り囲む境界ボックスであってもよい。
様々な実施例によれば、映像解析は、捕捉されたシーンの中のオブジェクトを検出することで終了してもよい。
他の実施例において、映像解析は、304において、302で検出された最前面の可視オブジェクトを分類することを更に含んでもよい。例えば、最前面の視覚的オブジェクトを分類するために、パターン認識を実行してもよい。最前面の視覚的オブジェクトは、人、自動車、又は動物のような部類によって分類してもよい。加えて、又は代わりに、視覚的オブジェクトは、視覚的オブジェクトの移動及び移動の方向のようなアクションによって分類してもよい。色、サイズ、向きなどのような、他の分類指標を決定してもよい。より特殊な例において、視覚的オブジェクトを分類することは、顔検出及び、ナンバープレートのようなテキストを認識することに基づいて、人を識別することを含んでもよい。視覚的分類は、共同所有される米国特許第8,934,709号で説明されるシステム及び方法に従って実施してもよい。ここで米国特許第8,934,709号は、参照によってその全体が本明細書に組み込まれる。
映像解析は、306において、事象が起こったかどうかを、及び事象のタイプを検出することを更に含んでもよい。事象を検出することは、1つ以上の予め定義されたルールによって、1つ以上の最前面の視覚的オブジェクトの分類を比較することに基づいてもよい。事象は、異常検出又はビジネスインテリジェンスにおける事象であってもよく、ここで異常検出又はビジネスインテリジェンスとは、映像わなが誘発されたかどうか、1つのエリアに存在する人の数、シーンの中のオブジェクトが残されたかどうか、又はシーンの中のオブジェクトが除去されたかどうか、のようなものである。
さて図3Aを参照すると、そこには、一実施形態による、映像解析モジュールの動作サブモジュールのセット400のブロック図が例示されている。映像解析モジュール400は、様々なタスクを実施するための、多くのモジュールを含む。例えば、映像解析モジュール400は、映像捕捉デバイス108の視野の中に現れるオブジェクトを検出するための、オブジェクト検出モジュール404を含む。オブジェクト検出モジュール404は、例えば、移動検出及びブロッブ検出のような、任意の既知のオブジェクト検出を使用してもよい。オブジェクト検出モジュール404は、「時空信号において関心のあるオブジェクトを検出するための方法及びシステム」と題する、共通所有の米国特許第7,627,171号において説明されるシステムを含み、且つその検出方法を使用してもよい。ここで米国特許第7,627,171号の内容全体は、参照によって本明細書に組み込まれる。
映像解析モジュール400はまた、オブジェクト検出モジュール404に接続されたオブジェクト追跡モジュール408を含んでもよい。オブジェクト追跡モジュール408は、オブジェクト検出モジュール404によって検出されるオブジェクトの事例を時間的に関連させるように動作可能である。オブジェクト追跡モジュール408は、「追跡、索引付け、及び検索のためのオブジェクトマッチング」と題する、共通所有の米国特許第8,224,029号において説明されるシステムを含み、且つその方法を使用してもよい。ここで米国特許第8,224,029号の内容全体は、参照により本明細書に組み込まれる。オブジェクト追跡モジュール408は、自身が追跡する視覚的オブジェクトに対応するメタデータを生成する。メタデータは、オブジェクトの外見又は他の特徴を表す視覚的オブジェクトの署名に対応してもよい。メタデータは、格納のために、メタデータ・データベース256に送信してもよい。
映像解析モジュール400はまた、オブジェクト追跡モジュール408に接続された一時的なオブジェクト分類モジュール412を含む。一時的なオブジェクト分類モジュール412は、時間とともにオブジェクトの外見を考慮することによって、そのタイプ(例えば、人間、車両、動物)に従ってオブジェクトを分類するように動作可能である。換言すれば、オブジェクト追跡モジュール408は、多数のフレームに対してオブジェクトを追跡し、且つ一時的なオブジェクト分類モジュール412は、多数のフレームにおけるその外見に基づいて、オブジェクトのタイプを決定する。例えば、人の歩き方の歩様解析は、人を分類するのに有用であり得るし、又は、人の脚の解析は、自転車に乗る人を分類するのに有用であり得る。一時的なオブジェクト分類モジュール412は、オブジェクトの軌跡に関する情報(例えば、軌跡が滑らかであるか、又は混沌としているかどうか、オブジェクトが動いているか、又は静止しているかどうか)と、多数のフレームわたって平均化された、オブジェクト分類モジュール416(以下で詳細に説明される)によって行われる分類の信頼度とを組み合わせてもよい。例えば、オブジェクト分類モジュール416によって決定された分類の信頼値は、オブジェクトの軌跡の滑らかさに基づいて調節してもよい。一時的なオブジェクト分類モジュール412は、視覚的オブジェクトがオブジェクト分類モジュールによって分類されるまで、オブジェクトを未知の分類に割り当ててもよい。ここで該オブジェクト分類モジュールとは、十分な回数及び所定数の統計が集められたものである。オブジェクトを分類する上で、一時的なオブジェクト分類モジュール412はまた、どれだけ長くオブジェクトが視野の中にいるか、ということを考慮してもよい。一時的なオブジェクト分類モジュールは、上で説明された情報に基づいて、オブジェクトの部類についての最終決定を行う。一時的なオブジェクト分類モジュール412はまた、オブジェクトの部類を変更するために、履歴的アプローチを使用してもよい。より具体的には、オブジェクトの分類を未知の部類から確かな部類へ遷移させるために、閾値を設定してもよく、且つその閾値は、反対の遷移(例えば、人間から未知への)に対する閾値より大きくてもよい。一時的なオブジェクト分類モジュール412は、オブジェクトの部類に関連するメタデータを生成してもよく、且つそのメタデータは、メタデータ・データベース256に格納してもよい。一時的なオブジェクト分類モジュール412は、オブジェクト分類モジュール416によって行われた分類を集計してもよい。
映像解析モジュール400はまた、好ましくは、オブジェクト検出モジュール404に直接又は間接に接続されたオブジェクト分類モジュール416を含む。一時的なオブジェクト分類モジュール412とは対照的に、オブジェクト分類モジュール416は、オブジェクトの単一の事例(例えば、単一の画像)に基づいて、視覚的オブジェクトのタイプを決定してもよい。オブジェクト分類モジュール416への入力は、好ましくは、画像フレームのサブ領域であり、関心のある視覚的オブジェクトは、画像フレーム全体というよりは、該サブ領域の中に位置する。画像フレームのサブ領域をオブジェクト分類モジュール416に入力する利点は、分類のためには、シーン全体が解析される必要はなく、それによって、より少ない処理能力が要求される、ということである。オブジェクト分類モジュール416の複雑さを更に簡単化するために、明らかな分類を捕らえるための発見手法に基づくモジュールのような、他の予備的なモジュールを含むことも可能である。
代替的な配列において、オブジェクト分類がオブジェクト追跡の前に起こるように、オブジェクト分類モジュール416は、オブジェクト検出モジュール404の後で、しかもオブジェクト追跡モジュール408の前に配置される。別の代替的配列において、オブジェクト検出モジュール404、オブジェクト追跡モジュール408、一時的なオブジェクト分類モジュール、及びオブジェクト分類モジュール416は、上の参照において説明されたように、相互に関連付けられる。
オブジェクト分類モジュール416は、図3Bのブロック図に描かれるように、多くのオブジェクト分類器を含む。例えば、オブジェクト分類モジュール416は、検出されたオブジェクトの画像が完全な人体に対応するかどうかを決定する完全な人体分類器424と、検出されたオブジェクトの画像が人間の胴体に対応するかどうかを決定する人間胴体分類器428と、検出されたオブジェクトの画像が車両に対応するかどうかを決定する車両分類器432とを含んでもよい。オブジェクト分類モジュール416は、任意の数の異なる分類器を含んでもよく、且つ、以下でより詳細に説明されるように、カメラシステムが配備され、且つ機能している場合でさえも、ユーザはオブジェクト分類モジュール416に対して、オブジェクトの新しい分類を創出してもよい。換言すれば、オブジェクト分類モジュール416は、現場での訓練が可能である。
オブジェクト分類器は、オブジェクトの特徴(例えば、外見の特性)に基づいて、オブジェクトを分類するように動作可能である。例えば、完全な人体分類器424は、オブジェクトの特徴に対応するデータ(即ち、入力パターンX)を受信し、且つ、オブジェクトが完全な人体に対応するか否かを決定する。オブジェクト分類モジュール416がオブジェクトを分類した後で、オブジェクトの分類及びオブジェクトの特徴を表すメタデータを、メタデータ・データベース256に格納してもよい。
オブジェクト分類モジュール416によって使用され得る特徴は、今からより詳細に説明されるであろう。以下で説明される訓練アルゴリズムは、一セットの特徴F={f1,f2,・・・,fn}から一サブセットの特徴F={fk1,fk2,・・・,fkm}を選択する。入力パターンXは、Fの要素で構成される。Fの要素は、オブジェクトの画像領域Rの何らかの変形として見てもよい。従って、Xは以下の形を取ってもよい。
オブジェクトの特徴f1,f2,・・・,fmは、以下に限定されるものではないが、アスペクト比、意図、縁の向き、及び正規化された彩度のような、多くの外見的特性に対応してもよい。その上、f1,f2,・・・,fmは、外見的特性の特性ベクトルを表してもよく(例えば、ヒストグラムであり、該ヒストグラムにおいては、ヒストグラム容器は、ベクトル成分に対応する)、且つ、オブジェクトの部類(例えば、タイプ)を決定するために、1つ以上のオブジェクト分類器によって使用してもよい。例えば、オブジェクトの縁の向きのヒストグラムは、オブジェクトの画像の異なる領域(例えば、サブウィンドウ)に対して構成してもよい。換言すれば、オブジェクトの画像は、サブウィンドウに分割してもよく、且つ、サブウィンドウの各画素に対して計算してもよい。画素の縁の向きは、(例えば、複数の方向におけるガウシアン微分フィルタを用いた)操縦可能なフィルタを使用して引き出してもよい。操縦可能なフィルタを使用することによって、支配的な方向をサブウィンドウの画素に割り当てることが可能であり、且つ、方向のヒストグラムをサブウィンドウに対して構成することが可能になる。例えば、ある与えられた画素に対して、操縦可能なフィルタは、複数の応答を生成するために、複数の方向において使用してもよく、且つ最大の方向性微分応答に対応する方向は、画素の方向として割り当てられる。
オブジェクト分類器の1つに対する分類の問題は、一般に分類器関数Γ(X)によって定義してもよく、分類器関数Γ(X)においては、入力パターンXによって表される視覚的オブジェクトは、Γ(X)>0の場合にはオブジェクト部類のメンバとして表され、又は、Γ(X)<0の場合にはオブジェクト部類の非メンバとして表される。一般に、分類器関数Γ(X)は、一セットのパラメータによってパラメータ表示され、且つ入力パターンは、上で説明された特徴で構成される。関心のあるオブジェクト部類に対して、特定の分類器Γc(X)が訓練される。図3Aのオブジェクト分類モジュール416によって表される多部類分類モデルは、以下のように、数学的に定義してもよい。

ここでωは、オブジェクト部類、且つΩは、全てのオブジェクト部類のセットを表す。
ある与えられた視覚的オブジェクト部類に対する分類器関数R(X)は、ルール(例えば、視覚的オブジェクトのサイズ及びアスペクト比)を定義することによって構築してもよい。分類器関数は、訓練データを用いた機械学習を適用することによって、更に訓練してもよい。当技術分野で既知であるように、分類器を訓練することは、その分類器のルールを更に改良するべく探求することであり、その結果として、分類器は、ある与えられた視覚的オブジェクトをより正確に分類するであろう。訓練データは、肯定的な訓練例及び/又は否定的な訓練例を含んでもよい。肯定的な訓練例とは、オブジェクトの特定の部類に属すると確認された視覚的オブジェクトの事例のことを指す。肯定的な訓練例は、分類器を訓練して、そのルールを改良するのに役立ち、その結果として、ある与えられた視覚的オブジェクトは、その肯定的な訓練例の部類に入るものとして、より正確に肯定的に分類される。否定的な訓練例とは、オブジェクトの特定の部類に属さない視覚的オブジェクト又は他の視覚的表現の事例のことを指す。否定的な訓練例は、分類器によって、オブジェクトの特定の部類に属するとして誤分類された視覚的オブジェクトの例であってもよい。否定的な訓練例は、分類器を訓練するのに役立つ。
オブジェクト分類器を訓練するための機械学習は、以下に限定されるものではないが、畳み込みニューラルネットワーク、サポートベクトルマシン、デシジョンツリー、ランダムフォレスト、及びカスケード分類器のような、当技術分野で既知である任意の適切な機械学習技術であってもよい。
オブジェクト分類器の訓練は、管理してもよい。管理された訓練において、肯定的な訓練例及び/又は否定的な訓練例は、人間のユーザによって確認されてきた。例えば、大きなバッチの画像の中で、一人以上の人間のユーザが、個々に検査し、且つ、部類(例えば、人、車両、動物)に属する視覚的オブジェクトを表すものとして、又は視覚的オブジェクトを含まないものとして、各画像にラベルを付ける。
オブジェクト分類器の訓練はまた、管理しなくてもよい。管理されない訓練においては、オブジェクト検出モジュール404によって検出されるオブジェクトのような、1つ以上の視覚的オブジェクトを最初に分類するために、基礎分類器が使用される。視覚的オブジェクト及び、基礎分類器によって決定された分類の結果(例えば、視覚的オブジェクトが特定のオブジェクト部類に属するという肯定的な決定)は、基礎分類器の更なる訓練のための肯定的な訓練例として使用される。オブジェクトが検出されなかった画像データはまた、オブジェクト分類器を訓練するための否定的な訓練例として使用してもよい。管理されない訓練において、肯定的な訓練例として、又は否定的な訓練例として使用される画像データは、人間のユーザによって検査されない。
本明細書における基礎分類器は、ルールの定義を通して構成された、及び/又はある程度のオブジェクト分類を実施するための機械学習の適用による訓練を通して構成されたオブジェクト分類器を指すが、しかし該オブジェクト分類器は、コンピュータ履行型の視覚的機械語を使用した、なお更なる訓練を通して最適化することが可能である。
さて図4を参照すると、そこには、基礎分類器の更なる訓練のための方法500のフローチャートが例示されている。方法500は、単一の基礎分類器の訓練のために例示されているが、方法500は、複数の基礎分類器を平行して訓練するために適用してもよい、ということは理解されるであろう。例えば、本明細書の別の個所で説明されるように、オブジェクト分類モジュール416は、複数のオブジェクト分類器を含んでもよく、各分類器は、視覚的オブジェクトが特定のタイプの部類に属するかどうかを決定するように動作可能である。従って、オブジェクト分類モジュール416の複数のオブジェクト分類器は、それに提供される訓練例に基づいて、まとめて訓練してもよい。例えば、特定の部類の最前面の視覚的オブジェクトである訓練例は、同じ部類に関連する分類器のための肯定的な訓練例として使用してもよい。
504では、基礎分類器が提供される。基礎分類器は、視覚的な訓練例を使用した機械学習の適用を通して更に訓練され得る、任意の分類器であってもよい。
508では、1つ以上の訓練例を受信してもよい。訓練例は、肯定的な訓練例、及び/又は否定的な訓練例であってもよく、これらの訓練例は、自動的に準備してもよく、又は管理された条件下で準備してもよい。
512では、基礎分類器は、入力として508で受信された訓練例を使用した機械学習を基礎分類器に適用することによって、更に訓練される。
幾つかの実施形態において、ステップ508及びステップ512は、基礎分類器の更新が反復プロセスに追随するように繰り返される、ということは理解されるであろう。即ち、第1バッチの複数の訓練例は、第1の反復において、機械学習によって基礎分類器を訓練するために適用してもよい。第2バッチの複数の訓練例は、続いて起こる第2の反復において、機械学習によって分類器の更なる訓練のために更に適用してもよい。
516では、ステップ508及びステップ512の後で訓練された基礎分類器は、最前面の視覚的オブジェクトの分類のために、現場において配備される。
幾つかの例において、ステップ508及びステップ512からの基礎分類器の訓練は、516において、訓練された分類器の配備に先立って実行してもよい。
他の例において、ステップ508及びステップ512での基礎分類器の訓練は、オブジェクト分類器が現場で既に配備されている間に実施してもよい。訓練例は、そのデバイスが現場で配備されている場合、映像捕捉デバイスの視野の中に存在する実世界のオブジェクトの視覚的表現であってもよい。例えば、基礎分類器は、最初に配備され、且つ、配備の間に、現場508から検出された最前面の視覚的オブジェクトから、徐々に訓練してもよい。
訓練例として使用される視覚的オブジェクトは、管理された方法(例えば、人間のユーザによって視覚的に検査される)において、又は管理されない方法(例えば、コンピュータ履行型のオブジェクト分類器によって分類される)において、ある部類に属するものとして識別してもよい。
さて図5を参照すると、そこには、一実施例による、基礎分類器の更なる訓練のための、改善されたコンピュータ履行型の方法540のフローチャートが例示されている。方法540は単一の基礎分類器の訓練のために例示されているが、方法500はまた、複数の基礎分類器を平行して訓練するために適用してもよい、ということは理解されるであろう。例えば、本明細書の別の箇所で説明されるように、オブジェクト分類モジュール416は、複数のオブジェクト分類器を含んでもよく、各分類器は、視覚的オブジェクトが特定の部類に属するかどうかを決定するように動作可能である。従って、オブジェクト分類モジュール416の複数のオブジェクト分類器は、それに提供される訓練例に基づいて、まとめて訓練してもよい。例えば、特定の部類の視覚的オブジェクトである訓練例は、同じ部類に関連する分類器に対する肯定的な訓練例として使用してもよい。
504では、基礎分類器が提供される。基礎分類器は、視覚的オブジェクトの訓練例を使用した機械学習の適用を通して、更に最適化することが可能である。
544では、最前面の視覚的オブジェクトが、シーンを表す画像データ内で検出される。本明細書におけるシーンとは、ある時間間隔にわたって映像捕捉デバイスの視野内で捕捉される視覚的表現のことを指す。映像捕捉デバイスは、その視野が変更されないままであるように、この時間間隔にわたって静止している。従って、その時間間隔にわたって捕捉されるシーンもまた変更されないままであるが、しかしそのシーン内のオブジェクト(例えば、人間、車両、他のオブジェクト)は、その時間間隔にわたって変化していてもよい。シーンの視覚的表現は、その時間間隔にわたって映像捕捉デバイスによって生成される画像データの画像フレームであってもよい。
最前面の視覚的オブジェクトはまた、人間のオペレータによって、又はコンピュータ履行モジュールによって、特定の部類に属するものとして肯定的に分類してもよい。検出される最前面の視覚的オブジェクトは、シーンのサブ領域内に位置する。例えば、シーンのサブ領域は、検出される最前面の視覚的オブジェクトが位置する画像データの画像フレームの一部分に対応してもよい。例えば、シーンのサブ領域は、画像フレームのサブ領域に対応してもよく、ここで該サブ領域は、検出された最前面の視覚的オブジェクトを視覚的に識別するためのオブジェクト検出モジュール404によって描かれた境界ボックスによって境界が定められる。
548では、検出された視覚的オブジェクトの背景モデルが決定される。背景モデルは、シーン又はシーンのサブ領域の視覚的表現であるが、しかし、その場合、任意の最前面の視覚的オブジェクトは、シーン又はサブ領域から欠けている。検出された最前面の視覚的オブジェクトの背景モデルは、検出される最前面の視覚的オブジェクトが位置するシーンのサブ領域の背景モデルである。
例えば、544で検出された最前面の視覚的オブジェクトが人間であり、且つシーンのサブ領域が部屋のあるエリアに対応する場合、そのサブ領域の背景モデルは、その人間又は任意の他の人間が存在しない状態での、該部屋のそのエリアを表す。
例えば、544で検出された最前面の視覚的オブジェクトが車両であり、且つそのシーンのサブ領域が、該車両が位置する駐車場の一部分に対応する場合、そのサブ領域の背景モデルは、その車両、又は任意の他の車両が存在しない状態での、該駐車場のその部分を表す。
552では、基礎分類器は、544で検出された最前面の視覚的オブジェクトを肯定的な訓練例として使用した機械学習を基礎分類器に適用することによって、任意選択的に更に訓練される。
556では、基礎分類器は、検出された最前面の視覚的オブジェクトを否定的な訓練例として使用した機械学習を基礎分類器に適用することによって、更に訓練される。
ステップ544からステップ556は、検出された且つ/又は分類された複数の視覚的オブジェクトに対して、繰り返してもよい。544で検出された各視覚的オブジェクトに対して、視覚的オブジェクトが位置するシーンのサブ領域に特有である背景モデルが、548で決定され、且つ、556で基礎分類器を訓練するために適用される。
他の例において、基礎分類器は、複数の訓練例のバッチを使用した機械学習を基礎分類器に適用することによって、訓練してもよい。このバッチは、複数の異なるシーンのサブ領域の中で検出された最前面の視覚的オブジェクトの複数の背景モデルを含む。
幾つかの実施形態において、ステップ544及びステップ556は、基礎分類器の更新が反復プロセスに追従するように繰り返される、ということは理解されるであろう。即ち、1つ以上の訓練例の第1のバッチは、第1の反復において、機械学習によって基礎分類器を訓練するために適用してもよい。第2のバッチの複数の訓練例は、続いて起こる第2の反復において、機械学習によって第1の反復の後に訓練された基礎分類器を更に訓練するために、更に適用してもよい。
516では、ステップ556の後で訓練された、及び、任意選択的にステップ552の後で訓練された基礎分類器は、付加的な最前面の視覚的オブジェクトの分類のために、現場において配備される。
本明細書の別の箇所で説明されるように、基礎分類器の訓練は、訓練される分類器を配備する前に実行してもよく、又は、オブジェクト分類器が既に現場で配備されている間に実行してもよい。
図6Aから図6Fは、シーンのサブ領域で検出された最前面の視覚的オブジェクト、及びそれらの対応する背景モデルを示す。例えば、図6Aは、歩道部分の上を歩いている人を示す。歩いている人は、検出される最前面の視覚的オブジェクトである。図6Bは、図6Aの視覚的オブジェクトの背景モデルを示す。背景モデルは、歩いている人、又は他の任意の最前面の視覚的オブジェクトが存在しない状態での、歩道の同じ部分を示す、ということは正しく認識されるであろう。
図6Cは、飛行機の階段を降りている人を示す。人が、検出される最前面の視覚的オブジェクトである。図6Dは、図6Cの最前面の視覚的オブジェクトの背景を示す。背景モデルは、人又は他の任意の最前面の視覚的オブジェクトが存在しない状態での、同じ飛行機の階段を示す、ということは正しく認識されるであろう。
図6Eは、道路の部分を走行する車両を示す。車両は、検出される最前面の視覚的オブジェクトである。図6Fは、図6Eの最前面の視覚的オブジェクトの背景モデルを示す。背景モデルは、車両又は他の任意の最前面の視覚的オブジェクトが存在しない状態での、道路の同じ部分を示す、ということは正しく認識されるであろう。
様々な実施例によれば、検出される視覚的オブジェクトの背景モデルは、履歴的画像フレームから決定される。最前面の視覚的オブジェクトは、映像捕捉デバイスによって捕捉される映像を形成する画像データの連続した画像フレームの現在の画像フレームの、ある与えられたサブ領域内で検出される。履歴的画像フレームは、連続した画像フレームにおける以前の画像フレームであり、ここで該連続した画像フレームにおいては、最前面の視覚的オブジェクト及び、他の任意の最前面の視覚的オブジェクトは、その以前の画像フレームからは欠けている。この場合、現在の画像フレーム及び履歴的画像フレームは、同じシーンを表す。即ち、映像捕捉デバイスは、履歴的画像フレームの時間と現在の画像フレームの時間との間は静止しており(即ち、動いていない)、その結果として、映像捕捉デバイスは、同じシーンを捕捉している。最前面の視覚的オブジェクトが位置する現在の画像フレームのサブ領域に対応する履歴的画像フレームのある与えられたサブ領域は、履歴的画像フレームから取り入れられる。このようにして取り入れられた履歴的画像フレームは、検出された最前面の視覚的オブジェクトの背景モデルである。この取り入れられた履歴的画像フレームは、基礎分類器の更なる訓練のために、否定的な例として556で提供される。
様々な実施例によれば、シーン全体の完全な背景モデルは、最初に構成してもよい。シーンのある与えられたサブ領域の背景モデルは、その後、完全な背景モデルから抜き出すことが可能である。
例えば、あまり忙しくないシーンでは(そのようなシーンでは、最前面の視覚的オブジェクトがあまり生じない)、最前面のオブジェクトが全く無い単一の履歴的画像フレームを、完全な背景モデルとして使用してもよい。
より忙しいシーンでは、シーン内にいつでも、少なくとも1つの最前面の視覚的オブジェクトが常に存在するかもしれない。そのようなシーンに対しては、完全な背景モデルを形成するために、複数の履歴的画像フレームから異なるサブ領域を集計することによって、完全な背景モデルを構成してもよい。
一例によれば、複数の履歴的画像フレームが選択される。これらの履歴的画像フレームの各々は、任意の最前面のオブジェクトが無い画像フレームの、少なくとも1つのサブ領域を含む。
各選択された履歴的画像フレームの任意の最前面の部ジェクトが無い、1つ以上のサブ領域の座標が決定される。これらのサブ領域は、それらのそれぞれの履歴的画像フレームから取り入れてもよい。
複数の履歴的画像から取り入れられるようなサブ領域は、その後、集計されて、集計された画像を形成する。シーン全体を表す集計された画像は、複数の履歴的画像フレームを適切に選択することによって得ることが可能であり、その結果として、任意の最前面のオブジェクトが無い、これらのフレームのサブ領域は、シーン全体を集合的に含む。従って、集計された画像は、シーンの完全な背景モデルを形成する。例えば、複数の履歴的画像から取り入れられるような画像のサブ領域は、当技術分野で既知である縫い合わせの方法に従って、集計された画像を形成するように縫い合わせてもよい。
従って、シーンのある与えられたサブ領域内に最前面の視覚的オブジェクトを検出した後、視覚的オブジェクトが検出される、与えられたサブ領域に対応する集計された画像のサブ領域を取り入れることによって、そのサブ領域の背景モデルを得ることが可能である。
図7Aは、広場であるシーン例を表す第1の完全な履歴的画像フレームを示す。食事エリア及び草の多いエリアの一部を含む第1のサブ領域700は、任意の最前面の視覚的オブジェクトが無い、ということは正しく認識されるであろう。従って、第1のサブ領域700は、完全な背景モデルを形成するための、集計されるべきサブ領域の1つとして使用してもよい。しかしながら、階段を含む第2のサブ領域708は、その中に位置する人を有する。第1の完全な履歴的画像フレームの中の、この第2のサブ領域708は最前面の視覚的オブジェクトを含むので、完全な背景モデルを構築するために、第2のサブ領域708を使用することは可能でない。
図7Bは、広場の同じシーンを表す、第2の完全な履歴的画像フレームを示す。第2の完全な履歴的画像フレームは、第1の完全な履歴的画像よりも時間的に早い点で捕捉された。第2の完全な履歴的画像フレームの中の第2のサブ領域708は、最前面の視覚的オブジェクトが無い、ということは正しく認識されるであろう。第1の完全な履歴的画像フレームの中の階段にいた人は、今は完全に階段を降りている。従って、第2の完全な履歴的画像フレームの中のこの第2のサブ領域708は、完全な背景モデルを形成するための、集計されるべきサブ領域の1つとして使用してもよい。完全な背景モデルを形成するために適切であるシーンの他のサブ領域は、同じ方法で決定してもよい。
さて図8を参照すると、そこには、代替的な実施例による、基礎分類器の更なる訓練のための、改善されたコンピュータ履行型の方法558のフローチャートが例示されている。代替的な例の方法558は、方法540と同じステップを含むが、しかしまた、付加的なステップ560及びステップ564を含む。
560では、誤分類されたシーンのサブ領域が提供される。誤分類されたシーンのサブ領域とは、次のようなサブ領域のことを指す。即ち、該サブ領域においては、該サブ領域がその部類の任意のオブジェクトを実際には含まない場合、オブジェクト分類器が、特定の部類に属しているオブジェクトを含むものとして、該サブ領域を誤って分類してしまった、というようなサブ領域のことである。
誤分類されたサブ領域は、管理された環境の中で決定されるかもしれない。この場合、該管理された環境においては、オブジェクト分類器によって分類されるオブジェクトは、オブジェクト分類器によって行われた任意の誤分類を識別する人間によって見直される。
誤分類されたサブ領域は、部分的に管理された環境において決定されるかもしれないし、又は完全に管理された環境において決定されるかもしれない。一例において、オブジェクトが存在しない画像フレームのサブ領域が、オブジェクト分類器に供給される可能性がある。該サブ領域が特定の部類に属するオブジェクト(背景以外のもの)含むという、オブジェクト分類器による分類は、誤ったものであろう。そして該サブ領域は、誤分類されたサブ領域として識別される。
誤分類されたサブ領域が識別されるシーンは、544で最前面の視覚的オブジェクトが検出されるシーンと同じシーンであるかもしれない。代わりに、誤分類されたサブ領域のシーンは、最前面の視覚的オブジェクトが検出されるシーンと異なっているかもしれない。
564では、基礎分類器は、誤分類されたサブ領域を否定的な訓練例として使用した機械学習を基礎分類器に適用することによって、更に訓練される。
516では、検出された視覚的オブジェクトの背景モデル、誤分類されたサブ領域及び、任意選択的に、検出された視覚的オブジェクトから訓練された分類器は、更に検出された視覚的オブジェクトの分類のために配備される。
さて図9を参照すると、そこには、一実施例による、基礎分類器のシーン特有の訓練のための、改善されたコンピュータ履行型の方法600のフローチャートが例示されている。方法例600の数多くのステップは、方法例540のステップと類似であるか、又は同じであり、且つ、方法例540に関して提供される説明は、方法例600に対しても適用可能である、ということは理解されるであろう。シーン特有の方法600はまた、代替的な方法例560に従って適用してもよい、ということは理解されるであろう。
504では、基礎分類器が提供される。
基礎分類器を提供することに続いて、基礎分類器の訓練が始まる。基礎分類器は、特に現在の実世界のシーンに対して訓練される。現在のシーンは、特定の場所に位置決めされ、且つ、特定の方向に向けられた特定のカメラの視野に対応してもよい。
544では、最前面の視覚的オブジェクトが、現在のシーンを表す画像データ内で検出される。
548では、検出されたオブジェクトの背景モデルが決定される。
552では、544で現在のシーンから検出された最前面の視覚的オブジェクトを肯定的な訓練例として使用した機械学習を基礎分類器に適用することによって、基礎分類器が任意選択的に訓練される。
556では、548で決定された最前面の視覚的オブジェクトの背景モデルを否定的な訓練例として使用した機械学習を基礎分類器に適用することによって、基礎分類器が訓練される。
516では、最前面の視覚的オブジェクト及び/又は現在のシーンの背景モデルに基づいて訓練された基礎分類器が、現在のシーンで見つけられるオブジェクトを分類するために配備される。
現在のシーンが変わらないままである限り、ステップ544からステップ556は、現在のシーンで見つけられる複数の例を使用した機械学習を適用することによって基礎分類器を更に訓練するように繰り返してもよい、ということは理解されるであろう。本明細書の別の箇所で説明されるように、ステップ544からステップ556は、基礎分類器の更新が反復プロセスに追従するように、繰り返してもよい。
608では、現在のシーンが変化したかどうかが決定される。現在のシーンにおけるそのような変化は、そのシーンを捕捉していたカメラの場所における変化のために起こるかもしれない。そのような変化はまた、そのシーンを捕捉していたカメラの向きにおける変化のために起こるかもしれない。そのような変化は更にまた、そのシーンを捕捉していたカメラの設定における変化のために起こるかもしれない。ここで設定における変化とは、カメラによって適用されるズーム、又はカメラの動作モード(例えば、通常の光モードから低光モードへの切り換え)における著しい変化のようなものである。
もし608でシーンが変わらないままである場合、方法600は、シーン内で付加的な視覚的オブジェクトを検出すると共に分類するために、544へ戻ってもよい。代わりに、方法600は、現在のシーンに対して、ステップ544からステップ556で訓練されたオブジェクト分類器の配備を続けるために、516に戻ってもよい。
もしシーンが608で変わる場合、方法は、少なくとも部分的には基礎分類器へ逆戻りするために、ステップ616へ進む。幾つかの例において、シーンに変化がある場合、516において現在配備されているオブジェクト分類器は、基礎分類器へ完全に逆戻りする。
ステップ616で基礎分類器へ逆戻りした後、シーンにおける変化から生じる新しいシーンを、現在のシーンとして設定してもよい。方法600は、その後、「新しい」現在のシーンで見つけられる最前面の視覚的オブジェクトを検出すると共に分類するために、544へ戻ってもよい。ステップ616の逆戻りの後で、それらのオブジェクトに対応するこれらのオブジェクト及び/又は背景モデルを、基礎分類器を更新するために、適用してもよい。
基礎分類器へ逆戻りすることは、次の状況では有用かもしれなく、正しく認識されるであろう。その状況とは、最初のシーン及び続いて起こるシーンの特性は、著しく異なっており、その結果として、最初のシーンの特性に従う基礎分類器の訓練は、次に起こるシーンには適用できない、というものである。基礎分類器へ逆戻りすることによって、特に次に起こるシーンの特性のために、分類器を再訓練することが可能である。
実験
一実験によれば、訓練例の異なるセットを使用して訓練される場合に、基礎分類器(Alex Krizhevsky, Ilya Sutskever, Geoffrey Hinton, "ImageNet Classification with deep convolution neural networks", NIPS 2012において説明される、「AlexNet」として知られる深い畳み込みニューラルネットワークの具体的なアーキテクチャ)が評価された。
訓練例は、VIRATデータセット(http://www.viratdata.org)から取得された。このデータセットは、様々な静止カメラからの、300以上の映像を含む。人間部類の視覚的オブジェクト及び車両部類の視覚的オブジェクトが、VIRATデータセットから引き出され、且つ、第1セットの訓練例として使用された。背景モデルは、訓練例として使用された各視覚的オブジェクトに対して決定された。これらの背景モデルは、第2セットの訓練例として使用される。
人間部類及び車両部類に加えて、背景部類に属する訓練例もまた、VIRATデータセットから引き出された。背景部類の訓練例を生成するために、人間部類の最前面の視覚的オブジェクト又は車両部類の最前面の視覚的オブジェクトを含まない画像サンプルが準備された。各画像サンプルは、VIRATデータセットの中で見つけられる映像の画像フレームが取り入れられた部分である。ニューラルネットワーク分類器に基づかない分類器のような、単純なオブジェクト分類器が、これらの画像サンプルを分類するために使用される。単純な分類器が、人間部類又は車両部類に入る視覚的オブジェクトを含むものとして画像サンプルの任意の1つを分類する場合、誤分類が起こる。これらの誤分類された画像サンプルは、第3のセットの訓練例に含まれる。
AlexNet分類器は、VIRATデータセットから引き出される訓練例によって訓練されるべき基礎分類器として提供される。肯定的な訓練例及び否定的な訓練例が、Berkeley Vision and Learning Center(caffe.berkeleyvision.orgにおいて入手可能)からのCaffe deep learning frameworkを使用して、基礎分類器を訓練するために適用される。基礎分類器の更新は、Tesla K80 GPU上で実施された。
実験の第1の部分において、肯定的な訓練例(100の肯定的な訓練例)として第1のセットの例を適用することによって、及び否定的な訓練例(100の否定的な訓練例)として第2のセットの訓練例を適用することによって、基礎分類器が訓練された。基礎分類器のこの訓練によって、第1の訓練された試験分類器が産出された。
実験の第2の部分において、肯定的な訓練例(100の肯定的な訓練例)として第1のセットの例を適用することによって、及び否定的な訓練例(100の否定的な訓練例)として第3のセットの訓練例を適用することによって、基礎分類器が訓練された。基礎分類器のこの訓練によって、第2の訓練された試験分類器が産出された。
実験の第3の部分において、肯定的な訓練例(100の肯定的な訓練例)としての第1のセットの例を適用することによって、及び否定的な訓練例として第2のセットの訓練例と第3のセットの訓練例とを混合したものを適用することによって、基礎分類器が訓練された。より正確には、基礎分類器を訓練するために、第2のセットから50の訓練例、及び第3のセットから50の訓練例が、否定的な訓練例として適用された。基礎分類器のこの訓練によって、第3の訓練された試験分類器が産出された。
第1の訓練された試験分類器、第2の訓練された試験分類器、及び第3の訓練された試験分類器の各々は、組織内の映像データセットからの映像の試験セット対するオブジェクト分類のために配備された。分類器の各々を配備した場合のエラーレートが測定された。視覚的オブジェクトが誤分類される場合、又は、背景画像(例えば、最前面の視覚的オブジェクトが存在しない)が、人間部類又は車両部類にある視覚的オブジェクトであるとして分類される場合、エラーが発生したと考えられる。
表1は、試験セットの映像に含まれる最前面の視覚的オブジェクトを分類するために配備される場合の、第1の訓練された試験分類器の性能を示す混乱マトリックスである。
表1:
表2は、試験セットの映像に含まれる最前面の視覚的オブジェクトを分類するために配備される場合の、第2の訓練された試験分類器の性能を示す混乱マトリックスである。
表2:
表3は、試験セットの映像に含まれる最前面の視覚的オブジェクトを分類するために配備される場合の、第3の訓練された試験分類器の性能を示す混乱マトリックスである。
表3:
第1の訓練された試験分類器のエラーレートは14.36%であり、第2の訓練された試験分類器のエラーレートは15.42%であり、且つ第3の訓練された試験分類器のエラーレートは9.92%である。
基礎分類器(第1の訓練された試験分類器及び第3の訓練された試験分類器)を訓練するために、最前面の視覚的オブジェクトの背景モデルを使用することによって、第2の訓練された試験分類器よりも低いエラーレートが示されたが、ここで第2の訓練された試験分類器においては、背景モデルは訓練サンプルとして使用されなかった、ということは正しく認識されるであろう。より低いエラーレートは、性能の改善を指し示すものである。より重要なことであるが、最前面の視覚的オブジェクトの背景モデルと背景部類のオブジェクトとを一緒に組み合わせたものを否定的な訓練例として使用することによって、著しく改善された性能が示される(第2の訓練された試験分類器に対して、35.6%低いエラーレート)、ということは正しく認識されるであろう。
特別な理論に結びつけることなく、分類器を訓練するために、検出された視覚的オブジェクトの背景モデルを否定的な訓練例として使用することによって、分類器がシーンのオブジェクトを誤分類することが起こる頻度は減少するであろう。ここで別な方法をとった場合、該オブジェクトは、そのシーンの背景の一部を形成する。
戻って図6Cを参照すると、画像の中に示されるシーンのサブ領域が、人及び街灯柱を含む、ということは正しく認識されるであろう。人は最前面の視覚的オブジェクトであり、且つ街灯柱は、シーンの背景の一部を形成する。しかしながら、このサブ領域が肯定的な訓練例として使用される場合、基礎分類器は、人部類の最前面の視覚的オブジェクトとして、街灯柱を認識するように訓練させられるであろう。例えば、もしシーンのこのサブ領域が、関心のあるオブジェクトを有することが多い実在の場所に対応する場合(例えば、頻繁に使用される廊下、小道、又は道路)、街灯柱は、複数のサブ領域に現れ、その場合、該複数のサブ領域は、各々が肯定的な訓練例として使用されるかもしれない。これは、分類器が、人部類のオブジェクトの事例として、街灯柱を認識するように訓練される可能性を高めるかもしれない。サブ領域の背景モデルを否定的な訓練例として使用することは、街灯柱がシーンの背景の一部を形成するというふうに分類器を訓練することによって、この効果を少なくとも部分的に打ち消すかもしれない。
同様に、図6Fに示される背景モデルを使用して分類器を訓練することによって、分類器は、背景の一部を形成するものとして、垂直梁を認識するように訓練され、それによって、垂直梁又はそれと類似のオブジェクトを、人間部類又は車両部類に属するものとして分類する可能性を減少させる。
より一般的には、特別な理論に結びつけることなく、背景モデルを使用して分類器を訓練することは、分類器が、実在のオブジェクトを正しく認識するように訓練されることをもたらす。この場合、該実世界のオブジェクトは、背景オブジェクトであるものとして、シーンの背景の一部を形成する。例えば、最前面の視覚的オブジェクトがしばしば検出されるようなシーンのサブ領域では、背景モデルを使用すること、そのサブ領域の背景モデルを否定的な訓練例として使用することは、分類器が、オブジェクトを誤って分類するように訓練される可能性を減少させるかもしれない。この場合、該オブジェクトは、特別な部類に属する最前面の視覚的オブジェクトとして、背景の一部を形成する。
上の説明は実施形態の例を提供している一方で、説明された実施形態の精神及び動作原理から逸脱することなく、説明された実施形態の幾つかの特徴及び/又は機能が変更を受けやすい、ということは正しく認識されるであろう。従って、上で説明されてきたものは、非制限的であると例証されることが意図されている。そして、添付の特許請求の範囲に規定される本発明の範囲から逸脱することなく、他の変形及び変更がなされるであろう、ということは当業者によって理解されるであろう。

Claims (21)

  1. コンピュータ履行型のオブジェクト分類器を訓練するための方法であって、
    シーンのサブ領域内に最前面の視覚的オブジェクトを検出するステップと、
    前記シーンの前記サブ領域の背景モデルを決定するステップであって、任意の最前面の視覚的オブジェクトが前記サブ領域から欠けている場合、前記背景モデルは前記サブ領域を表す、ステップと、
    前記サブ領域の前記背景モデルを否定的な訓練例として使用するコンピュータ履行型の機械学習によって、前記オブジェクト分類器を訓練するステップと、
    を備える、方法。
  2. 請求項1に記載の方法であって、
    前記検出された最前面の視覚的オブジェクトを肯定的な訓練例として使用する機械学習によって、前記オブジェクト分類器を更に訓練するステップを更に備える、方法。
  3. 請求項1又は請求項2に記載の方法であって、
    前記シーンの前記サブ領域の前記背景モデルを決定するステップは、
    捕捉された履歴的画像フレームを選択するステップであって、この選択は、任意の最前面のオブジェクトが、前記シーンの前記サブ領域に対応する前記履歴的画像フレームのサブ領域から欠けている場合に当てはまる、ステップと、
    前記履歴的画像フレームから、前記シーンの前記サブ領域に対応する前記サブ領域を取り入れるステップであって、前記取り入れられた画像フレームは、前記シーンの前記サブ領域の前記背景モデルである、ステップと、
    を備える、方法。
  4. 請求項1又は請求項2に記載の方法であって、
    前記シーンの前記サブ領域の前記背景モデルを決定するステップは、
    複数の履歴的画像フレームの各々の中で、任意の最前面のオブジェクトが無い1つ以上のサブ領域を決定するステップと、
    前記シーン全体を表す完全な背景画像を形成するために、前記複数の履歴的画像から1つ以上のサブ領域を集計するステップと、
    前記完全な背景画像から、前記シーンの前記サブ領域に対応するサブ領域を取り入れるステップであって、前記取り入れられた完全な背景画像は、前記シーンの前記サブ領域の前記背景モデルである、ステップと、
    を備える、方法。
  5. 請求項4に記載の方法であって、
    前記複数の履歴的画像から前記1つ以上のサブ領域を集計するステップは、シーン全体を表す画像を形成するために、前記1つ以上のサブ領域を縫い合わせるステップを備える、方法。
  6. 請求項1から請求項5のいずれか一項に記載の方法であって、
    前記オブジェクト分類器は、特に現在のシーンに対して訓練される、方法。
  7. 請求項6に記載の方法であって、
    前記現在のシーンが新しいシーンに変わることに際して、前記現在のシーンに特有の訓練無しに、前記オブジェクト分類器へ逆戻りし、
    前記新しいシーンからの背景モデルを使用した機械学習によって、前記オブジェクト分類器を訓練する、方法。
  8. 請求項1から請求項7のいずれか一項に記載の方法であって、
    前記オブジェクト分類器は、管理された学習を部分的に使用して準備される、方法。
  9. 請求項1から請求項8のいずれか一項に記載の方法であって、
    前記コンピュータ履行型の機械学習は、畳み込みニューラルネットワーク、サポートベクトルマシン、デシジョンツリー、ランダムフォレスト、及びカスケード分類器の少なくとも1つから選択される、方法。
  10. 請求項1から請求項9のいずれか一項に記載の方法であって、
    誤分類されたシーンのサブ領域を否定的な訓練例として使用するコンピュータ履行型の機械学習によって、前記オブジェクト分類器を訓練するステップを更に備える、方法。
  11. 請求項1から請求項10の方法の1つに従って訓練される、コンピュータ履行型のオブジェクト分類器。
  12. コンピュータ履行型のオブジェクト分類器を分割するためのシステムであって、
    プロセッサと、
    前記プロセッサによって実行される場合、前記システムが動作を実行することを引き起こすプログラム命令を格納するコンピュータ可読な格納デバイスであって、該動作は、
    シーンのサブ領域内に最前面の視覚的オブジェクトを検出するステップと、
    前記シーンの前記サブ領域の背景モデルを決定するステップであって、前記背景モデルは、任意の最前面の視覚的オブジェクトが前記サブ領域から欠けている場合、前記サブ領域を表す、ステップと、
    前記サブ領域の前記背景モデルを否定的な訓練例として使用するコンピュータ履行型の機械学習によって、前記オブジェクト分類器を訓練するステップと、
    を備える、コンピュータ可読な格納デバイスと、
    を備える、システム。
  13. 請求項12に記載のシステムであって、
    前記動作は、検出された最前面の視覚的オブジェクトを肯定的な訓練例として使用する機械学習によって、前記オブジェクト分類器を訓練するステップを更に備える、システム。
  14. 請求項12又は請求項13に記載のシステムであって、
    前記シーンの前記サブ領域の前記背景モデルを決定するステップは、
    捕捉された履歴的画像フレームを選択するステップであって、この選択は、任意の最前面のオブジェクトが、前記シーンの前記サブ領域に対応する前記履歴的フレームから欠けている場合に当てはまる、ステップと、
    前記履歴的画像フレームから、前記シーンの前記サブ領域に対応する前記サブ領域を取り入れるステップであって、前記取り入れられた画像は、前記シーンの前記サブ領域の前記背景モデルである、ステップと、
    を備える、システム。
  15. 請求項12又は請求項13に記載のシステムであって、
    前記シーンの前記サブ領域の前記背景モデルを決定するステップは、
    複数の履歴的画像フレームの各々の中で、任意の最前面のオブジェクトが無い1つ以上のサブ領域を決定するステップと、
    シーン全体を表す完全な背景画像を形成するために、前記複数の履歴的画像から前記1つ以上のサブ領域を集計するステップと、
    前記完全な背景画像から、前記シーンの前記サブ領域に対応するサブ領域を取り入れるステップであって、前記取り入れられた完全な背景画像は、前記シーンの前記サブ領域の前記背景モデルである、ステップと、
    を備える、システム。
  16. 請求項15に記載のシステムであって、
    前記複数の履歴的画像から前記1つ以上のサブ領域を集計するステップは、前記シーン全体を表す画像を形成するために、前記1つ以上のサブ領域を縫い合わせるステップを備える、システム。
  17. 請求項12から請求項16のいずれか一項に記載のシステムであって、
    前記オブジェクト分類器は、特に現在のシーンに対して訓練される、システム。
  18. 請求項17に記載のシステムであって、
    前記動作は、
    前記現在のシーンが新しいシーンに変わることに際して、前記現在のシーンに特有な訓練無しに、前記オブジェクト分類器へ逆戻りするステップと、
    前記新しいシーンからの背景モデルを使用した機械学習によって、前記オブジェクト分類器を訓練するステップと、
    を更に備える、システム。
  19. 請求項12から請求項18のいずれか一項に記載のシステムであって、
    前記オブジェクト分類器は、管理された学習を部分的に使用して準備される、システム。
  20. 請求項12から請求項19のいずれか一項に記載のシステムであって、
    前記コンピュータ履行型の機械学習は、畳み込みニューラルネットワーク、サポートベクトルマシン、デシジョンツリー、ランダムフォレスト、及びカスケード分類器から選択される、システム。
  21. 請求項12から請求項20のいずれか一項に記載の方法であって、
    前記動作は、誤分類されたシーンのサブ領域を否定的な訓練例として使用したコンピュータ履行型の機械学習によって、前記オブジェクト分類器を訓練するステップを更に備える、システム。
JP2018568468A 2016-03-17 2017-03-14 機械学習によってオブジェクト分類器を訓練するためのシステム及び方法 Active JP7026062B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201662309777P 2016-03-17 2016-03-17
US62/309,777 2016-03-17
PCT/CA2017/050334 WO2017156628A1 (en) 2016-03-17 2017-03-14 System and method for training object classifier by machine learning

Publications (3)

Publication Number Publication Date
JP2019512827A true JP2019512827A (ja) 2019-05-16
JP2019512827A5 JP2019512827A5 (ja) 2020-04-16
JP7026062B2 JP7026062B2 (ja) 2022-02-25

Family

ID=59850998

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018568468A Active JP7026062B2 (ja) 2016-03-17 2017-03-14 機械学習によってオブジェクト分類器を訓練するためのシステム及び方法

Country Status (12)

Country Link
US (1) US10776926B2 (ja)
JP (1) JP7026062B2 (ja)
KR (1) KR102462572B1 (ja)
CN (1) CN109154976B (ja)
AU (1) AU2017233723B2 (ja)
CA (1) CA3017027A1 (ja)
DE (1) DE112017001311T5 (ja)
GB (1) GB2566369B (ja)
IL (1) IL261696B (ja)
SE (1) SE1851266A1 (ja)
TW (1) TWI759286B (ja)
WO (1) WO2017156628A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021018816A (ja) * 2019-07-19 2021-02-15 ユーアイパス, インコーポレイテッドUiPath, Inc. ロボティックプロセスオートメーション用のコンピュータビジョンモデルの再訓練
JPWO2019215780A1 (ja) * 2018-05-07 2021-05-20 日本電気株式会社 識別システム、モデル再学習方法およびプログラム

Families Citing this family (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9594983B2 (en) * 2013-08-02 2017-03-14 Digimarc Corporation Learning systems and methods
US10217001B2 (en) * 2016-04-14 2019-02-26 KickView Corporation Video object data storage and processing system
WO2018033137A1 (zh) * 2016-08-19 2018-02-22 北京市商汤科技开发有限公司 在视频图像中展示业务对象的方法、装置和电子设备
WO2018033156A1 (zh) * 2016-08-19 2018-02-22 北京市商汤科技开发有限公司 视频图像的处理方法、装置和电子设备
GB2560177A (en) 2017-03-01 2018-09-05 Thirdeye Labs Ltd Training a computational neural network
GB2560387B (en) 2017-03-10 2022-03-09 Standard Cognition Corp Action identification using neural networks
US10229322B2 (en) * 2017-04-06 2019-03-12 Ants Technology (Hk) Limited Apparatus, methods and computer products for video analytics
US10140557B1 (en) * 2017-05-23 2018-11-27 Banuba Limited Increasing network transmission capacity and data resolution quality and computer systems and computer-implemented methods for implementing thereof
US10853965B2 (en) 2017-08-07 2020-12-01 Standard Cognition, Corp Directional impression analysis using deep learning
US10650545B2 (en) 2017-08-07 2020-05-12 Standard Cognition, Corp. Systems and methods to check-in shoppers in a cashier-less store
US11200692B2 (en) 2017-08-07 2021-12-14 Standard Cognition, Corp Systems and methods to check-in shoppers in a cashier-less store
US10474991B2 (en) 2017-08-07 2019-11-12 Standard Cognition, Corp. Deep learning-based store realograms
US11232687B2 (en) 2017-08-07 2022-01-25 Standard Cognition, Corp Deep learning-based shopper statuses in a cashier-less store
US11250376B2 (en) 2017-08-07 2022-02-15 Standard Cognition, Corp Product correlation analysis using deep learning
US10474988B2 (en) 2017-08-07 2019-11-12 Standard Cognition, Corp. Predicting inventory events using foreground/background processing
US10692220B2 (en) * 2017-10-18 2020-06-23 International Business Machines Corporation Object classification based on decoupling a background from a foreground of an image
US20190149778A1 (en) * 2017-11-16 2019-05-16 Jungo Connectivity Ltd. Method for variable recording of a scene based on scene content
EP3495771A1 (en) * 2017-12-11 2019-06-12 Hexagon Technology Center GmbH Automated surveying of real world objects
CN107818571B (zh) * 2017-12-11 2018-07-20 珠海大横琴科技发展有限公司 基于深度学习网络和均值漂移的船只自动跟踪方法及系统
US10599958B2 (en) 2017-12-14 2020-03-24 Avigilon Corporation Method and system for classifying an object-of-interest using an artificial neural network
TWI664584B (zh) * 2017-12-27 2019-07-01 中華電信股份有限公司 影像式人流計數之特定人物排除系統及方法
US10475191B2 (en) * 2018-01-17 2019-11-12 Sensormatic Electronics, LLC System and method for identification and suppression of time varying background objects
EP3513730A1 (en) * 2018-01-18 2019-07-24 Koninklijke Philips N.V. System and method for image decomposition of a projection image
US20190294924A1 (en) * 2018-03-21 2019-09-26 Seesure Computer vision training using paired image data
CN108875676B (zh) * 2018-06-28 2021-08-10 北京旷视科技有限公司 活体检测方法、装置及系统
KR102112754B1 (ko) * 2018-07-06 2020-05-19 한국항공우주연구원 기계학습 기반의 영상 인식 방법 및 기계학습 기반의 영상 인식 시스템
CN111126107A (zh) * 2018-10-31 2020-05-08 杭州海康威视数字技术股份有限公司 一种信息确定方法、装置及电子设备
US11024037B2 (en) * 2018-11-15 2021-06-01 Samsung Electronics Co., Ltd. Foreground-background-aware atrous multiscale network for disparity estimation
CN109670532B (zh) * 2018-11-23 2022-12-09 腾讯医疗健康(深圳)有限公司 生物体器官组织图像的异常识别方法、装置及系统
US10902264B2 (en) * 2018-11-25 2021-01-26 International Business Machines Corporation Automatic generation of secondary class annotations
US10963757B2 (en) * 2018-12-14 2021-03-30 Industrial Technology Research Institute Neural network model fusion method and electronic device using the same
US11216953B2 (en) 2019-03-26 2022-01-04 Samsung Electronics Co., Ltd. Apparatus and method for image region detection of object based on seed regions and region growing
US11373298B2 (en) * 2019-03-28 2022-06-28 Canon Medical Systems Corporation Apparatus and method for training neural networks using small, heterogeneous cohorts of training data
US11556860B2 (en) * 2019-04-15 2023-01-17 International Business Machines Corporation Continuous learning system for models without pipelines
US11232575B2 (en) 2019-04-18 2022-01-25 Standard Cognition, Corp Systems and methods for deep learning-based subject persistence
KR102316557B1 (ko) * 2019-06-04 2021-10-25 주식회사 아이도트 자궁경부암 자동 진단 시스템
WO2020246676A1 (ko) * 2019-06-04 2020-12-10 주식회사 아이도트 자궁경부암 자동 진단 시스템
US11232327B2 (en) * 2019-06-19 2022-01-25 Western Digital Technologies, Inc. Smart video surveillance system using a neural network engine
US11620570B2 (en) * 2019-06-24 2023-04-04 Kyndkyl, Inc. Self-learning ontology-based cognitive assignment engine
US11488310B1 (en) * 2019-09-30 2022-11-01 Amazon Technologies, Inc. Software-based image processing using an associated machine learning model
US11386649B2 (en) 2019-11-15 2022-07-12 Maxar Intelligence Inc. Automated concrete/asphalt detection based on sensor time delay
US11250260B2 (en) 2019-11-15 2022-02-15 Maxar Intelligence Inc. Automated process for dynamic material classification in remotely sensed imagery
US11010606B1 (en) 2019-11-15 2021-05-18 Maxar Intelligence Inc. Cloud detection from satellite imagery
US11216666B2 (en) * 2019-12-11 2022-01-04 Fujifilm Business Innovation Corp. Understanding normality of an environment using semantic information from images
KR102311798B1 (ko) * 2019-12-12 2021-10-08 포항공과대학교 산학협력단 다중 객체 추적 방법 및 장치
US20230067541A1 (en) * 2020-04-16 2023-03-02 Intel Corporation Patch based video coding for machines
TWI781410B (zh) * 2020-05-28 2022-10-21 國立雲林科技大學 光源光紋辨識系統及其方法
KR102436314B1 (ko) 2020-06-25 2022-08-24 정여빈 안면 인식 최적화를 위한 클라우드 시스템
US11361468B2 (en) 2020-06-26 2022-06-14 Standard Cognition, Corp. Systems and methods for automated recalibration of sensors for autonomous checkout
US11303853B2 (en) 2020-06-26 2022-04-12 Standard Cognition, Corp. Systems and methods for automated design of camera placement and cameras arrangements for autonomous checkout
KR102388335B1 (ko) * 2020-07-28 2022-04-19 계명대학교 산학협력단 샴 랜덤 포레스트를 이용한 다수 객체 추적 방법 및 장치
TW202205143A (zh) * 2020-07-30 2022-02-01 杰悉科技股份有限公司 影像物件標籤方法
US11443541B2 (en) * 2020-08-28 2022-09-13 Sensormatic Electronics, LLC Classification of person type in a visual medium
KR102576747B1 (ko) * 2020-11-06 2023-09-11 한국전자통신연구원 심층신경망을 기반으로 하는 객체 검출기의 지역 최적화를 위한 시스템 및 이를 위한 로컬 데이터베이스 생성 방법
CN112668410B (zh) * 2020-12-15 2024-03-29 浙江大华技术股份有限公司 分拣行为检测方法、系统、电子装置和存储介质
CN112560698B (zh) * 2020-12-18 2024-01-16 北京百度网讯科技有限公司 图像处理方法、装置、设备和介质
KR102612941B1 (ko) 2020-12-24 2023-12-12 주식회사 유인원테크 디지털 합성 안면 및 디지털 위조 안면 검증 시스템
KR102264252B1 (ko) * 2021-01-18 2021-06-14 보은전자방송통신(주) 압축 영상에서의 이동객체 검출방법 및 이를 수행하는 영상 감시 시스템
US11745766B2 (en) 2021-01-26 2023-09-05 Ford Global Technologies, Llc Unseen environment classification
TWI774258B (zh) * 2021-03-08 2022-08-11 瑞昱半導體股份有限公司 用於使用者介面的處理系統及處理方法
US11558550B1 (en) * 2021-06-28 2023-01-17 International Business Machines Corporation Privacy-protecting multi-pass street-view photo-stitch
US11335203B1 (en) * 2021-08-20 2022-05-17 Beta Air, Llc Methods and systems for voice recognition in autonomous flight of an electric aircraft

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011059810A (ja) * 2009-09-07 2011-03-24 Nippon Soken Inc 画像認識システム
JP2011060221A (ja) * 2009-09-14 2011-03-24 Sumitomo Electric Ind Ltd 識別器生成方法、コンピュータプログラム、識別器生成装置及び所定物体検出装置
US20150054824A1 (en) * 2013-08-21 2015-02-26 Canon Kabushiki Kaisha Object detection method, object detection device, and image pickup device
JP2015187759A (ja) * 2014-03-26 2015-10-29 キヤノン株式会社 画像検索装置、画像検索方法

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4517409B2 (ja) * 1998-11-09 2010-08-04 ソニー株式会社 データ処理装置およびデータ処理方法
US7956889B2 (en) * 2003-06-04 2011-06-07 Model Software Corporation Video surveillance system
US7627171B2 (en) 2003-07-03 2009-12-01 Videoiq, Inc. Methods and systems for detecting objects of interest in spatio-temporal signals
US7421114B1 (en) 2004-11-22 2008-09-02 Adobe Systems Incorporated Accelerating the boosting approach to training classifiers
US7676081B2 (en) * 2005-06-17 2010-03-09 Microsoft Corporation Image segmentation of foreground from background layers
US7929729B2 (en) * 2007-04-02 2011-04-19 Industrial Technology Research Institute Image processing methods
US8150098B2 (en) * 2007-12-20 2012-04-03 Eastman Kodak Company Grouping images by location
GB2492246B (en) 2008-03-03 2013-04-10 Videoiq Inc Dynamic object classification
TWI442326B (zh) * 2009-12-02 2014-06-21 Chung Shan Inst Of Science 影像辨識方法及影像辨識系統
CN101807260B (zh) * 2010-04-01 2011-12-28 中国科学技术大学 变化场景下行人检测的方法
JP2011228918A (ja) * 2010-04-20 2011-11-10 Sony Corp 情報処理装置、情報処理方法およびプログラム
US8385632B2 (en) * 2010-06-01 2013-02-26 Mitsubishi Electric Research Laboratories, Inc. System and method for adapting generic classifiers for object detection in particular scenes using incremental training
AU2011265429B2 (en) 2011-12-21 2015-08-13 Canon Kabushiki Kaisha Method and system for robust scene modelling in an image sequence
CN103870839A (zh) * 2014-03-06 2014-06-18 江南大学 视频目标在线多特征跟踪方法
US9275289B2 (en) 2014-03-27 2016-03-01 Xerox Corporation Feature- and classifier-based vehicle headlight/shadow removal in video
US20150363660A1 (en) 2014-06-12 2015-12-17 Asap54.Com Ltd System for automated segmentation of images through layout classification
CN104077577A (zh) * 2014-07-03 2014-10-01 浙江大学 一种基于卷积神经网络的商标检测方法
US9710729B2 (en) * 2014-09-04 2017-07-18 Xerox Corporation Domain adaptation for image classification with class priors
CN104778474B (zh) * 2015-03-23 2019-06-07 四川九洲电器集团有限责任公司 一种用于目标检测的分类器构建方法及目标检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011059810A (ja) * 2009-09-07 2011-03-24 Nippon Soken Inc 画像認識システム
JP2011060221A (ja) * 2009-09-14 2011-03-24 Sumitomo Electric Ind Ltd 識別器生成方法、コンピュータプログラム、識別器生成装置及び所定物体検出装置
US20150054824A1 (en) * 2013-08-21 2015-02-26 Canon Kabushiki Kaisha Object detection method, object detection device, and image pickup device
JP2015187759A (ja) * 2014-03-26 2015-10-29 キヤノン株式会社 画像検索装置、画像検索方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2019215780A1 (ja) * 2018-05-07 2021-05-20 日本電気株式会社 識別システム、モデル再学習方法およびプログラム
JP7001150B2 (ja) 2018-05-07 2022-01-19 日本電気株式会社 識別システム、モデル再学習方法およびプログラム
US11423647B2 (en) 2018-05-07 2022-08-23 Nec Corporation Identification system, model re-learning method and program
JP2021018816A (ja) * 2019-07-19 2021-02-15 ユーアイパス, インコーポレイテッドUiPath, Inc. ロボティックプロセスオートメーション用のコンピュータビジョンモデルの再訓練
JP7034217B2 (ja) 2019-07-19 2022-03-11 ユーアイパス,インコーポレイテッド ロボティックプロセスオートメーション用のコンピュータビジョンモデルの再訓練
US11487973B2 (en) 2019-07-19 2022-11-01 UiPath, Inc. Retraining a computer vision model for robotic process automation
US11688192B2 (en) 2019-07-19 2023-06-27 UiPath, Inc. Retraining a computer vision model for robotic process automation

Also Published As

Publication number Publication date
GB2566369A (en) 2019-03-13
CN109154976A (zh) 2019-01-04
KR20180135898A (ko) 2018-12-21
CA3017027A1 (en) 2017-09-21
IL261696A (en) 2018-10-31
AU2017233723A1 (en) 2018-10-04
SE1851266A1 (sv) 2018-10-16
CN109154976B (zh) 2023-07-07
GB201816451D0 (en) 2018-11-28
TWI759286B (zh) 2022-04-01
AU2017233723B2 (en) 2021-07-01
TW201737134A (zh) 2017-10-16
DE112017001311T5 (de) 2018-11-29
JP7026062B2 (ja) 2022-02-25
GB2566369B (en) 2021-08-25
US20170270674A1 (en) 2017-09-21
IL261696B (en) 2021-02-28
KR102462572B1 (ko) 2022-11-04
GB2566369A8 (en) 2019-03-27
US10776926B2 (en) 2020-09-15
WO2017156628A1 (en) 2017-09-21

Similar Documents

Publication Publication Date Title
JP7026062B2 (ja) 機械学習によってオブジェクト分類器を訓練するためのシステム及び方法
US11023707B2 (en) System and method for selecting a part of a video image for a face detection operation
Buric et al. Ball detection using YOLO and Mask R-CNN
US8200011B2 (en) Context processor for video analysis system
Choudhury et al. An evaluation of background subtraction for object detection vis-a-vis mitigating challenging scenarios
AU2019343959B2 (en) Region proposal with tracker feedback
Kalsotra et al. Background subtraction for moving object detection: explorations of recent developments and challenges
KR102035592B1 (ko) 육안 인식 검사원의 부하경감을 위한 등급별 영상인식 기술을 이용한 cctv 영상내 의심물체 부분검사 지원 시스템 및 방법
EP4035070B1 (en) Method and server for facilitating improved training of a supervised machine learning process
Janakiramaiah et al. RETRACTED ARTICLE: Automatic alert generation in a surveillance systems for smart city environment using deep learning algorithm
US20200145623A1 (en) Method and System for Initiating a Video Stream
Lyu et al. Small object recognition algorithm of grain pests based on SSD feature fusion
Farooq et al. Motion-shape-based deep learning approach for divergence behavior detection in high-density crowd
CN112232107A (zh) 一种图像式烟雾探测系统及方法
Buch et al. Local feature saliency classifier for real-time intrusion monitoring
Kinattukara et al. Clustering based neural network approach for classification of road images
Acharya et al. Recognition of human unusual activity in surveillance videos
Pava et al. Object Detection and Motion Analysis in a Low Resolution 3-D Model
Ghareeb Mohamed Early Flame Detection System Using Real-Time Machine-Vision and Image Analysis
Manjula et al. An Experimental Comparative Analysis of Human Abnormal Action Identification on “SAIAZ” Video Dataset Using SVM, ResNet50, and LSTM Model
Vasudevan et al. Multi-layered Object Identification and Detection Using Deep CNN Detector
Ong Moving object detection for visual surveillance application
Fairchild A real-life system for identifying and monitoring objects for user-specified scenarios in live CCTV
Heras Evangelio Background subtraction for the detection of moving and static objects in video surveillance

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200305

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200305

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210420

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210427

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20210603

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20210608

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210721

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20210817

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211217

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20211217

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20211227

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20220104

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220118

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220214

R150 Certificate of patent or registration of utility model

Ref document number: 7026062

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350