JP6424163B2 - ビデオ内の対象物を検出するための方法、装置及びシステム - Google Patents

ビデオ内の対象物を検出するための方法、装置及びシステム Download PDF

Info

Publication number
JP6424163B2
JP6424163B2 JP2015532044A JP2015532044A JP6424163B2 JP 6424163 B2 JP6424163 B2 JP 6424163B2 JP 2015532044 A JP2015532044 A JP 2015532044A JP 2015532044 A JP2015532044 A JP 2015532044A JP 6424163 B2 JP6424163 B2 JP 6424163B2
Authority
JP
Japan
Prior art keywords
human
foreground
video
image
positions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015532044A
Other languages
English (en)
Other versions
JP2015528614A (ja
JP2015528614A5 (ja
Inventor
ゾン ザン、
ゾン ザン、
ウエイホン イン、
ウエイホン イン、
ピーター ベネティアナ、
ピーター ベネティアナ、
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Avigilon Fortress Corp
Original Assignee
Avigilon Fortress Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Avigilon Fortress Corp filed Critical Avigilon Fortress Corp
Publication of JP2015528614A publication Critical patent/JP2015528614A/ja
Publication of JP2015528614A5 publication Critical patent/JP2015528614A5/ja
Application granted granted Critical
Publication of JP6424163B2 publication Critical patent/JP6424163B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/75Determining position or orientation of objects or cameras using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/54Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30232Surveillance

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Closed-Circuit Television Systems (AREA)
  • Burglar Alarm Systems (AREA)

Description

本出願は、2013年3月15日付で出願された米国特許出願第13/838、511号及び2012年9月12日付で出願された米国仮出願第61/700、033号の優先権の利益を主張するものであり、これらの開示内容はそのまま本願の一部を構成するものである。
本開示は、ビデオ監視方法及びシステム、ビデオ検証方法及びシステム等のビデオ監視に関する。人間を検出することができるビデオ監視システム、装置及び方法が開示されている。ビデオ監視システム、装置及び方法は、ビデオストリームにおいて人間の数をカウントすること及び/又は人間の群集シナリオを監視することができる。
インテリジェントビデオ監視(IVS)システムは、ビデオのフィードにおいて対象イベントをリアルタイム又はオフラインで(例えば、以前に録画されて記録されたビデオをレビューすることにより)検出するのに使用することができる。通常、このタスクは、対象ターゲットを検出及び追跡することによって達成される。これは、現場が混雑していない場合、通常はうまく機能する。しかしながら、そのようなシステムの性能は、現場が混雑している場合には著しく低下することがある。実際には、そのような混雑した場面が頻繁に発生するため、このように、群衆の中において人間を検出することができることへの関心は非常に高い。そのような人間の検出は、群集密度、群集の形成及び群集の消散等の計数や他の群集分析として使用することができる。
従来の群集の分析作業は、特定のスポーツや宗教的なイベント等のいくつかの特定の非常に混雑した場面に対応するものである。しかしながら、大群衆が時折形成される、より一般的な監視シナリオに焦点を当てる必要もある。これらには、街路、ショッピングセンター、空港、バス停及び鉄道の駅等の公共の場所が含まれる。
最近では、群集密度の推定又は群衆における人数を数える問題は、研究コミュニティだけでなく、産業界においても非常に注目されている。既存のアプローチには、主にマップベース(間接)のアプローチ及び/又は検出ベース(直接)のアプローチが含まれる。
マップベースのアプローチは、人間ターゲットの数をモーションピクセルの量、フォアグラウンドブロブサイズ、フォアグラウンドエッジ、フォアグラウンドコーナーのグループ、及び他の画像特徴等のような、抽出された画像特徴にマッピングすることを試みることができる。マップベースのアプローチにおいては、通常、さまざまな種類のビデオシナリオのトレーニングが必要である。研究は、主に、人数のカウントと上手く一致する信頼性のある特徴を探すこと、及び影やカメラ視野の奥行などの幾つかの特殊な問題にどう対処するかに焦点を当てている。多くのシナリオにおいて、マップベースのアプローチは、十分なトレーニングビデオが与えられると、かなり正確な人間の計数の推定値を提供することができる。しかしながら、パフォーマンスは、通常、シーンに依存するものであり、各個人の実際の場所が得られない場合がある。
検出ベースのアプローチにおいては、それぞれの個々の人間ターゲットを識別することにより、シーン内の人数をカウントすることができる。研究は、人間の検出、人間のパーツの検出、及び検出と追跡の共同検討に焦点を当ててきた。これらのアプローチは、軽く混雑するシナリオにおいて、より正確な検出及びカウントを提供することができる。各個人の位置が得られる場合、局部的群衆密度を計算することが可能である。これらのアプローチの主要な課題は、高い計算コスト、視点依存性の学習及び比較的大きな人間画像サイズの要件である。
ここで説明する実施形態は、既存システムのこれらの問題の一部に対処するものである。
米国特許第7、868、912号明細書 米国特許第7、932、923号明細書 米国特許第7、825、954号明細書 米国特許第7、801、330号明細書
Z.チャン、PL ベニチアナとAJリプトン著「堅牢な人間の検出と追跡システムは、人間モデルベースカメラキャリブレーションを使用する」(第8回国際ワークショップビジュアルサーベイランス、2008年)
開示された実施形態は、人間対象物等の対象物を検出するためのビデオ画像の知能型解析のための方法、装置及びシステムを提供する。
幾つかの実施形態では、ビデオ内の人間対象を検出する方法は、以下を含む。ビデオ画像の特定のピクセルがフォアグラウンドピクセルであると決定すること。フォアグラウンドピクセルのグループは、ビデオ画像内のN位置のそれぞれについて、1又はそれ以上のフォアグラウンドブロブのフォアグラウンドブロブセットを構成するものであり、Nは整数である。所定の形をフォアグラウンドブロブセットと比較してその位置における人間の対応する確率を得、それによってN位置に対応するN確率を得ること。そして、N確立を用いて、X人間が前記フォアグラウンドブロブセットによって表わされることを決定すること。但し、Xは整数である。
ビデオ内の人間対象を検出する方法は、以下を含むものであってもよい。現実世界のシーンのビデオ画像のピクセルがフォアグラウンドピクセルであることを決定すること。そのフォアグラウンドピクセルのグループは、1又はそれ以上のフォアグラウンドブロブのフォアグラウンドブロブセットを構成するものである。ビデオ画像の内のN位置(Nは整数)のそれぞれについて、所定の形をフォアグラウンドブロブセットと比較して、X人間(Xは整数)がそのフォアグラウンドブロブセットによって表されることを決定すること。
方法には、そのX人間のそれぞれの位置を決定することを含んでもよい。そのX人間のそれぞれの位置は、現実世界の物理的な地面上の位置のような、現実世界の水平面内の位置として決定しても良い。
人間対象物の検出は、群衆解析及び他のイベント検出のために、人間をカウントするために使用される。
システム及びデバイスは、そのような方法を実行するように構成されるように開示されている。
本明細書に記載の動作をコンピュータに実行させるように構成されたソフトウエアを含むコンピュータ読取可能媒体は、本発明の更なる実施形態を含む。
例示的な実施形態は、添付図面と併せて以下の詳細な説明から、より明確に理解される。図面は、本明細書に記載された非限定的な例示的実施形態を表すものである。
図1は、本発明の例示的実施形態に係る例示的なビデオ監視システムを示す。 図2は、本発明の例示的実施形態に係るビデオ監視システムからのビデオストリームからの例示的なフレームを示す。 図3Aは、本発明の例示的実施形態に係るターゲット検出及び計数の例示的なフロー図である。 図3Bは、いくつかの人間モデルが二次元ビデオ画像を占める例を示すものであり、それぞれの人間モデルが二次元ビデオ画像に対して異なる位置に対応している。 図3Cは、対応する人間モデル320にそれぞれ関連付けられた(x、y)識別座標321の単一の行を示す。 図3Dは、人間確率マップを計算するための例示的な方法を示す。 図3Eは、ビデオ画像内の人間モデルのベスト数を見出す一部としての確率マップの単一のパスを実行する例示的な方法を示す。 図3Fは、ビデオ画像内の人間モデルのベスト数を見出すための確率マップの複数のパスを実行する方法を示す。 図4は、3Dシリンダーモデルと、それに相当する2D凸ハルモデルとを含む一般的な人間モデルを示す。 図5は、幾つかの人間画像サンプルを使用して測定される一般的なフラットアースカメラモデルを示す。 図6Aは、例示的な検出結果を示す。 図6Bは、例示的な検出結果を示す。 図6Cは、例示的な検出結果を示す。 図7Aは、人間の検出結果に基づく人間群衆密度に関する一例を示す。 図7Bは、人間の検出結果に基づく人間群衆密度に関する一例を示す。 図7Cは、人間の検出結果に基づく人間群衆密度に関する一例を示す。 図8は、様々な群衆関連イベントを検出するための例示的な実施例を示す。 図9は、混雑領域を定義し検出する方法の例示的な方法を示す。 図10は、各検出された人間ターゲットに関する例示的なプロセスを示す。 図11は、各群集領域に関する例示的なプロセスを示す。 図12は、群衆の「集合」及び「消散」を定義し検出するために用い得る方法を示す。 図13は、群衆集合スポットの定義の一例を示す。 図14Aは、群衆集合スポットの一例を示す。 図14Bは、群衆集合スポットの一例を示す。 図15は、群集集合スポットを検出する例示的な方法を示す。 図16は、群衆集合スポットを更新して群衆の「集合」及び「消散」イベントを検出する方法の例示的な例を示す。 図17は、複数のビデオカメラを使用する例示的な実施例を示す。
種々の例示的な実施形態は、いくつかの例示的な実施形態が示される添付図面を参照して、より詳細に説明される。しかし、本発明は、多くの異なった形態で具現化され得るものであり、本明細書に記載の例示的実施形態に限定されるものであると解釈されるべきではない。これらの例示的な実施形態は、単に例示であり、本明細書に提供される詳細情報を必要としない多くの実施形態及び変形形態が可能である。また、本開示は、代替実施例の詳細を提供するが、それらの代替案のリストは網羅的ではないことが強調されるべきである。さらに、本明細書に記載の全ての特徴のあらゆる可能な変形を一覧表示するのは実行不可能であるため、様々な例の間における詳細の一貫性は、そのような詳細が必要とされると解釈されるべきではない。特許請求の範囲の表現は、本発明の要件を決定する際に参照されるべきである。図面において、レイヤ及び領域のサイズ及び相対的なサイズは、明確にするために誇張されることがある。同様の要素には同様の番号が付与される。
また、第一、第二、第三などの用語が様々な要素を説明するために使用されることがあるが、それらの要素はこれらの用語によって限定されるべきではないと理解されなければならない。これらの用語は、ある要素を別の要素から区別するために使用される。したがって、以下において論じられる第1の要素は、本発明の概念の教示から逸脱することなく第2の要素と呼ぶことができる。本明細書において、「及び/又は」という用語は、列挙された関連項目の一つ又は複数のあらゆる組合せを含む。
また、要素が別の要素に「接続」又は「結合」されると言及される場合、直接接続されるか、他の要素に結合されるか、あるいは他の要素が介在し得る。対照的に、要素が別の要素に「直接接続」又は「直接結合」されると記載される場合、介在する要素は存在しない。要素間の関係を説明するために使用される他の用語は、(例えば、「の間」に対し「間に直接」、「隣接」に対し「直接隣接」等)同様に解釈されるべきである。
本明細書で使用される用語は、特定の例示的な実施形態を説明する目的のためであり、本発明の概念を限定することを意図するものではない。本明細書で使用する場合、単数形「a」、「an」及び「the」は、文脈が明確に示さない限り、複数形も含むことを意図している。さらに、本明細書で使用される場合、「含む」という用語は、「含む」及び/又は、述べられた特徴、整数、ステップ、動作、要素、及び/又は構成要素の存在を特定することが理解されるであろうが、1つ又は複数の他の特徴、整数、ステップ、動作、要素、構成要素、及び/又はそれらの群の付加の存在を排除するものではない。
他に定義しない限り、本明細書で使用される(技術用語及び科学用語を含む)全ての用語は、一般に本発明の概念が属する技術分野の当業者に理解されるのと同じ意味を有する。このような一般的に使用される辞書に定義されるような用語は、関連技術の文脈におけるそれらの意味と一致する意味を有すると解釈されるべきであり、明確に定義されない限り、理想化又は過度に形式的な意味に解釈されるべきでないと理解されるべきである。
定義
本発明を説明する際に、以下の定義(上記を含む)が全体を通じて適用される。
「ビデオ」は、アナログ及び/又はデジタル形式で表わされる動画に言及することもある。ビデオの例としては、以下のものが含まれ得る。テレビ、映画、ビデオカメラや他のオブザーバーからの画像シーケンス、ライブフィードからの画像シーケンス、コンピュータ生成画像シーケンス、コンピュータグラフィックスエンジンからの画像シーケンス、コンピュータ読取可能媒体、デジタルビデオディスク(DVD)、又は高精細ディスク(HDD)等の記憶装置からの画像シーケンス、 IEEE 1394ベースのインタフェースからの画像シーケンス、ビデオデジタイザからの画像シーケンス、あるいはネットワークからの画像シーケンス。
「ビデオシーケンス」は、ビデオの一部又は全てに言及する場合がある。
「ビデオカメラ」は、ビジュアル記録用の装置に言及する場合がある。ビデオカメラの例としては、以下の1つ又はそれ以上を含むことがある。ビデオ撮像装置及びレンズ装置、ビデオカメラ、デジタルビデオカメラ、カラーカメラ、白黒カメラ、カメラ、カムコーダ、PCカメラ、ウェブカメラ、赤外線(IR)ビデオカメラ、低照度ビデオカメラ、熱ビデオカメラ、有線方式テレビ(CCTV)カメラ、パン・チルト・ズーム(PTZ)カメラ、ビデオ検知装置。ビデオカメラは、関心領域の監視を実行するように配置することができる。
「ビデオ処理」は、例えば、圧縮、編集、監視、及び/又は検証を含むビデオの任意の操作及び/又は分析のことを言う場合がある。
「フレーム」は、ビデオ内の特定の画像やその他の個別のユニットを言う場合がある。
「コンピュータ」は、構造化された入力を受け付け、所定のルールに従って構造化入力を処理し、出力として処理結果を生成することができる、1又はそれ以上の装置及び/又は1つ又はそれ以上のシステムのことを言う場合がある。コンピュータの例には、以下のものが含まれ得る。コンピュータ、固定及び/又はポータブルコンピュータ、並列及び/又は非並列に作動する、単一のプロセッサ、複数のプロセッサ、又はマルチコアプロセッサを有するコンピュータ、汎用コンピュータ、スーパーコンピュータ、メインフレーム、スーパーミニコンピュータ、ミニコンピュータ、ワークステーション、マイクロコンピュータ、サーバー、クライアント、双方向テレビ、ウェブアプライアンス、インターネット回線付きの電気通信装置、コンピュータと双方向テレビのハイブリッド組み合わせ、ポータブルコンピュータ、タブレットパーソナルコンピュータ(PC)、パーソナルデジタルアシスタント(PDA)、携帯電話、例えば、デジタル信号プロセッサ(DSP)、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、アプリケーション固有命令がセットされたプロセッサ(ASIP)、チップ、チップス、又はチップセットのような、コンピュータ及び/又はソフトウェアをエミュレートするための、アプリケーション固有ハードウェア、チップ(SoC)上のシステム、又はマルチプロセッサシステムオンチップ(MPSoC)、光コンピュータ、量子コンピュータ、生物学的なコンピュータ、1つ又は複数の格納されたソフトウェアプログラムに従ってデータを受け取り、処理し、結果を生成する装置、典型的には、入力、出力、ストレージ、算術、論理、及び制御ユニット。
「ソフトウェア」は、コンピュータを動作させるための所定のルールのことを言う。ソフトウェアの例としては、以下のものがある。ソフトウェア、コードセグメント、命令、アプレット、プリコンパイルされたコード、コンパイルされたコード、解釈されたコード、コンピュータプログラム、プログラムされたロジック。
「コンピュータ読取可能媒体」は、コンピュータによってアクセス可能なデータを格納するために使用される任意のストレージデバイスのことを言うことがある。コンピュータ読取可能媒体の例としては、以下のものがある。磁気ハードディスク、フロッピー(登録商標)ディスク、CD−ROMやDVDなどの光学ディスク、磁気テープ、フラッシュリムーバブルメモリ、メモリチップ、及び/又は機械可読命令を格納できる他のタイプの媒体。
「コンピュータシステム」とは、コンピュータを動作させるためのソフトウエアを具現化するコンピュータ読取可能媒体を備えた、1つ又は複数のコンピュータを有するシステムのことを言うことがある。コンピュータシステムの例としては、以下のものがある。ネットワークによってリンクされたコンピュータシステムを介して情報を処理するための分散コンピュータシステム、コンピュータシステム間で情報を送信及び/又は受信するためのネットワークを介して互いに接続された2つ以上のコンピュータシステム、及びデータを受け入れることができ、1つ又はそれ以上の格納されたソフトウェアプログラムに従ってデータを処理することができ、結果を生成することができる、1つ又はそれ以上の装置及び/又はシステム、典型的には、入力、出力、ストレージ、算術、論理、及び制御ユニットを含む。
「ネットワーク」は、通信設備によって接続された多数のコンピュータ及び関連デバイスのことを言う場合がある。ネットワークには、ケーブルや、電話又は他の通信リンクを介して行われるような一時的な接続などの恒久的な接続を含む場合がある。ネットワークは、さらに、ハードワイヤード接続(例えば、同軸ケーブル、ツイストペア、光ファイバ、光導波路など)及び/又は無線接続を含む場合がある(例えば、無線周波数波形、自由空間光波形、音響波形等)。ネットワークの例としては、以下のものが含まれる。インターネットやイントラネット等のインターネット、イントラネット、ローカルエリアネットワーク(LAN)、広域ネットワーク(WAN)、インターネットとイントラネット等のネットワークの組み合わせ。例示的なネットワークは、インターネットプロトコル(IP)、非同期転送モード(ATM)、及び/又は同期光ネットワーク(SONET)、ユーザデータグラムプロトコル(UDP)、IEEE 802.Xなどの多数のプロトコルのうちのいずれかで動作することができる。
いくつかの実施形態では、群衆密度推定方法、システム及び装置は、既存のビデオコンテンツ解析方法、システム及び装置に基づくものがある。基本的な推定精度要件に加えて、このアプローチは、以下の1又はそれ以上を含む場合がある。
カメラビューの独立性は、カメラの位置、画角、ターゲット上のピクセルの数などにかかわらず、広い範囲のばらつきのアプリケーションシナリオで動作する実施形態を許容する。
リアルタイムで実行し得る比較的低い計算コスト。実施形態では、組込みシステムで実施されても良い。
複雑な初期設定及びトレーニングが低減され及び/又は除去され、より利便性と所有コストの削減が可能になる。
本明細書に開示されたいくつかの例は、検出ベースのアプローチを含み、トレーニングの必要はない。その例は、一般的なIVSシステムで実施することができ、それは既に基本検出及び追跡のタスクを実行し、信頼性の高いフォアグラウンドマスクを提供している。凸領域人間画像モデルは、それぞれのフォアグラウンド領域における人間ターゲットの数を推定するために使用することができる、全ての画像ピクセルについて計算されてもよい。カメラキャリブレーションデータは、カメラの視野内の領域において実際の群衆密度の測定値を提供するために使用される、物理的な世界における地上面への画像面からのマッピングを提供することができる。実際の群衆密度測定(複数可)を使用して、関心のある他のイベント、例えば、「群衆ホットスポット」、「群衆集合」「群衆消散」等を検出してもよい。
図1は、本発明の実施形態に係るビデオ監視システム101を示している。このビデオ監視システムは、ビデオストリームにおける人間群集活動を検出し、監視するように構成してもよい。ビデオ監視システム101は、群衆密度を分析するために使用する場合のような、人間の検出に関心がある様々な用途に使用することができる。例えば、実施形態は、不審な人々の集まりの検出、歩行者の交通統計収集、異常な群衆の形成及び/又は消散の検出等に適用され得る。このビデオ監視システム101は、ビデオソース102(例えば、記録されたビデオを備えたビデオカメラや、ハードドライブ等のようなメモリ)、変化検出モジュール103、動き検出モジュール104、フォアグラウンドブロブ検出モジュール105、人間検出モジュール106、ターゲット追跡モジュール107、イベント検出モジュール108を含むことができる。この実施形態では、ビデオソース(例えば、ビデオカメラ)は静止している。しかしながら、当業者であれば、本発明は、更に、モバイルビデオソースにも適用されるものであると認識するであろう。この実施形態では、ビデオソースが単一のビデオストリームを提供している。しかし、本発明は、複数のビデオストリームを使用して処理することをも企図している。
このビデオ監視システムは、一般的な静止プラットフォームIVSシステムで実施することができる。一例として、ベネティアナー等に発行された米国特許第7、868、912号、リプトン等に発行された米国特許第7、932、923号を挙げることができ、これらはそれら全体が参照により本明細書に組み込まれるものであり、IVSシステムの例示的な詳細は、ここに記載された実施形態を実施するためにも使用され得るものである。米国特許第7、868、912号明細書及び米国特許第7、932、923号明細書は、本明細書に開示された実施形態で使用することができる、生成されたビデオプリミティブを使用して、イベント検出のような、ビデオからの情報を取得する(リアルタイム処理又は以降の処理であってもよい)ビデオプリミティブ(又はメタデータ)の生成及び下流の処理の例示的な詳細のために参照により援用される。各モジュール103乃至108、ならびにそれらの個々の成分は、単独で、又は他のモジュール/部品と組み合わせて、専用のハードウェア(回路)、ソフトウェア及び/又はファームウェアによって実施することができる。例えば、ソフトウェアでプログラムされた汎用コンピュータは、それら全てのモジュールを実行することができる。このように、本明細書に記載の動作を実行するようにコンピュータを構成するために使用することができるソフトウェアを含むコンピュータ読取可能媒体は、本発明の更なる実施形態もを含む。別の例として、本明細書に記載のシステム、装置及び方法を実行するために、様々なコンピューティング、光学構成要素は、以下の1又はそれ以上を使用することができる。汎用コンピュータ、スーパーコンピュータ、メインフレーム、スーパーミニコンピュータ、ミニコンピュータ、ワークステーション、マイクロコンピュータ、サーバー、双方向テレビ、コンピュータと双方向テレビのハイブリッド組み合わせ、スマートフォン、タブレット、コンピュータ及び/又はソフトウェアをエミュレートするアプリケーション固有のハードウェア。これらには、1つ又は複数のプロセッサ、複数のフィールドプログラマブルゲートアレイ(FPGA)のいずれか、コンピュータメモリ、コンピュータによってアクセス可能なデータを格納するために使用される任意のストレージデバイスのようなコンピュータ読取可能媒体(例えば、プロセッサは、カメラ装置から受信したデータに様々なアルゴリズムを実行してもよいし、コンピュータメモリは、その後、様々なピクセルに関する情報を格納することができ、ブロブ検出、目標検出、及びイベント検出の結果を格納することができる)を含むものであっても良い。コンピュータ読取可能媒体の例には、磁気ハードディスク、フロッピー(登録商標)ディスク、CD−ROMやDVDなどの光学ディスク、磁気テープ、メモリチップ、ソリッドステートストレージデバイス、電子メールの送受信や、ネットワークにアクセスする際に使用されるもののような、コンピュータ可読電子データを搬送するために使用される搬送波が含まれる。具体的なコンピュータ読取可能媒体は、物理的に有形である、上述したようなコンピュータ読取可能媒体を含む。さらに、ソフトウェアは、本明細書に記載の方法を実行するためにコンピューティング及び/又は光学部品と組み合わせて使用することができる。ソフトウェアは、コンピュータを動作させるためのルール及び/又はアルゴリズムを含むことができ、例えば、コードセグメント、命令、コンピュータプログラム、及びプログラムされたロジックを含むことができる。ビデオソース102とモジュール103乃至108は、単一のシステム内であってもよいし、分散させてもよい。例えば、ビデオソース102は、監視すべき領域に配置されたビデオカメラであっても良い。ビデオソース102は、モジュール103乃至107が配置されているモニタリング位置(例えば、監視する位置とは別の第二の位置)にビデオストリームを提供する。イベント検出モジュール108は、監視場所と第二場所とは別の第三の位置(例えば、中央局)に設けられてもよい。本明細書に記載の種々のモジュール、コンピュータ、カメラ、及び他の映像機器は、ネットワークを介して接続することができ、それらは電話や他の通信リンクを介して行われるようなケーブル又は一時的な接続などの恒久的な接続であっても良く、また無線通信リンクであっても良い。ネットワークの例には、インターネットのようなインターネット、イントラネット、ローカルエリアネットワーク(LAN)、広域ネットワーク(WAN)、インターネットやイントラネットなどのネットワークの組み合わせが含まれる。上述した様々なハードウェア及びソフトウェアの例はまた、本明細書に参照により組み込まれた特許文献に詳細に記載されている。
変更ピクセルは、以前に得られた背景画像とは異なる、ビデオソース102によって提供されるビデオ画像のピクセルとして変化検出モジュール103によって検出することができる。背景画像は動的であってもよい。動的背景画像モデルは、連続的に構築され、入力ビデオフレームから更新されてもよい。したがって、ビデオ画像を変更する照明、天候の変化は、背景画像において考慮することができる。104において、フレーム差分は、移動ピクセルを検出するために使用され得る。105において、モジュール103からの変更ピクセル及びモジュール104からの移動ピクセルの一方又は両方が、空間的にフォアグラウンドブロブにグループ化されるフォアグラウンドピクセルを決定するために考慮される。ビデオ画像は、既存のビデオコンテンツ分析システム及び方法によって処理することができ、2010年11月2日に公開され、チャン等に付与された米国特許第7、825、954号明細書に記載され、その内容は全体として参照により本明細書に組み込まれたように、フォアグラウンド、フォアグラウンドブロブ、関心のフォアグラウンドブロブ(例えば、人フォアグラウンドブロブ等)が抽出される。深度センサ情報は、必要に応じて潜在的な人間として検出された各オブジェクトの現実世界の高さや大きさを推定するために使用することができ、その結果、潜在的な人間ターゲット(対象ではないブロブとは対照的に)に対応するブロブは、より正確に同定される。深度センサ情報は、必要に応じて、影、鏡面反射、関心領域外と検出された物体、遠すぎる(例えば、それが正確な分析を可能にするのに十分に近くない)オブジェクト、又はビデオ画像の不良解析のリスクを増加させることのあるビデオ画像の他の要素を排除するのに使用することができる。奥行き情報の使用の例示的な詳細は、チャン等の米国特許出願第13/744、254号明細書に見出すことができ、その内容は全体として参照により組み込まれる。ブロブは、ターゲット追跡モジュール107において時空ターゲットを形成するために経時的に追跡され、そして最後に、イベント検出モジュール108は、ターゲット検出と追跡処理の出力を使用してユーザによって定義された関心のあるイベントを検出する。ブロブへのフォアグラウンドピクセルの単純な空間的なグループ分けに代えて又は加えて、人間検出モジュール106は、キャリブレーション情報、さらに混雑したシナリオで人間を検知する凸領域形人間モデルを使用する。いくつかの例では、全く必要ない又は最小限のトレーニングは、シーン内の人間オブジェクトを検出するために事前に必要とされる。そして、イベント検出モジュール108では、いくつかの新規イベント検出手法を実施することができ、人検出部106で人間検出結果を使用してもよい。
図2は、屋外広場、通り、観光スポット、鉄道の駅、ショッピングモール、メトロの駅等を含むIVSシステム101のためのいくつかの一般的なアプリケーションシナリオに対応するビデオ画像を示す。見ればわかるように、ビデオ撮影されているシーンに対するカメラの位置に応じて、ビデオ画像を占有する人間の相対的な大きさや形状が異なる。
図3Aは、ビデオ監視システム101の複数の例示的な詳細を提供するブロック図を示す。フォアグラウンドブロブ検出モジュール105は、図1におけるものと同じであってもよい。モジュール301、302、303、304、305及び306は、図1の人検知モジュール106の構成要素であってもよい。人体ピクセル検出モジュール301は、変化検出部103からの変化ピクセルの結果に基づいて、人体ピクセルを検出する。これらのピクセルは、(例えば、輝度差及び/又は色差がそれぞれの閾値を超える)背景画像モデルと非常に異なるか、又は高コンフィデントフォアグラウンドエッジピクセルの間に位置している。これらは、画像内の正当な人体ピクセルである可能性が最も高いと考えられている。検出された人体ピクセルの一例として、例えば、図6Aの301aを挙げることができる。それらはほとんどの場合、影や反射を表しているので、他の変化ピクセルは、さらに、人間検出処理から除外してもよい。フォアグラウンドブロブの境界が現在のビデオフレームの画像のエッジと整列する場合、人間境界ピクセル検出モジュール302は、人間境界ピクセルを検出する。検出された人間境界ピクセルの一例として、例えば、図6Aの302aを挙げることができる。人間検出を行う際に、他の分析は、人体が検出されたことの決定を支援するために(上記のもののに代えて、又は加えて)実施されてもよい。例えば、それぞれの潜在的人間ブロブが境界フォアグラウンドエッジピクセルの特定の数を含まなければならないことを必要とすることができる。他の例として、他の処理はブロブを、人間以外の対象物(例えば車両)と関連付けて認識しても良く、更に人間検出処理からそのようなブロブを排除しても良い。潜在的な人間であるとみなされない他のフォアグラウンドブロブは、フォアグラウンドブロブセットから除外しても良い。あるいは、任意の検出されたブロブは、フォアグラウンドブロブセットの一部であってもよい。
一般的な人間モデルモジュール303は、一般的な人間の3D及び2Dモデルを提供する。例えば、一般的な人間モデルモジュール303は、現実世界の3次元人間モデルをビデオ画像の2次元画像平面にマッピング又は投影することによって、2次元人間モデルを3次元人間モデルに変換しても良い。図4は、画像平面330上に対応する二次元人間モデル303bにマッピングされた例示的な3Dモデル303aを示している。3D人間モデル303aは、シリンダのグループ(例えば、脚が1つのシリンダ、胴体が1つのシリンダ、頭が1つのシリンダ)のような単純な3D形状のセットであってもよい。地面(現実の世界の地面)に対するビデオカメラの異なる角度がビデオカメラの画像平面における異なった形状の2D人間モデル303bを得るために使われるように、同じ三次元人間モデル303a(例えば、シリンダモデル)が、種々のビデオカメラの位置で使用することができる。例えば、一例としての3Dシリンダ人間モデルを考慮して、特定の場所のトップダウンビューを提供するカメラアングルは、2D画像平面内の円にマッピングしても良く、同じ位置の斜視図を有するカメラ角度が3Dシリンダー人間モデルを細長い形を有する異なる形状にマッピングしても良い。図17に示す例では、カメラ1702と比較して3D人間モデル303aのより多くの側面を有することができるカメラ1704と比較して、カメラ1702は、3D人間モデル303のより多くのトップダウンビューを有することができる。もし3D人間モデル303aからカメラ1702及び1704の距離が同じであれば、カメラ1702の画像平面にマッピングされる対応する2D人間モデルは、カメラ1704の画像平面にマッピングされた2D人間モデルよりもコンパクトである(例えば、短い)。2D人間モデルは、2D画像平面への3D人間モデルの投影の外部エッジの点を補間することにより得ることができる凸形状を有していてもよい。
図4は、2D画像平面330にマッピングされた3Dシリンダモデル303aと、それに対応する2D凸ハルモデル303bとを含む一般的な人間モデルを示す。3D人間モデル303は、脚シリンダーと、胴体シリンダと、頭シリンダとで構成されている。各シリンダの長さ及び半径は、典型的な普通の人間の典型的な寸法を表す物理統計データに対応することができる。図4に示すように、これらの3つのシリンダーは、頭部面と、肩面と、尻面と、足面との4つの主要な面を有する。特定の位置における対応する2D人間モデルを得るために、均一に、4つの主要面の周囲に沿ってサンプリングし、カメラキャリブレーションパラメータを使用して、各3Dサンプル点を2D画像平面上へ投影し、2D画像空間内の特定の位置に対して適切な大きさ及び向きを決定する。これらの対応する画像のサンプル点は、次いで2D画像人間モデルとして使用することができる凸形成方法で、画像上の凸ハルを形成するために用いることができる。
図5は、いくつかの人間の画像サンプルを使用して測定することができる、一般的なフラットアースカメラモデルを示している。このカメラモデルは、3つのパラメータのみが含まれる場合がある。即ち、地面に対するカメラの高さ、カメラのチルトアップ角度、及び焦点距離である。これらのパラメータは、記載内容全体がいずれも参照により本明細書に組み込まれる、「堅牢な人間の検出と追跡システムは、人間モデルベースカメラキャリブレーションを使用する」(第8回国際ワークショップビジュアルサーベイランス、2008年、Z.チャン、PL ベニチアナとAJリプトン)及び2010年9月21日に公開されたチャン等の米国特許第7、801、330号に記載されているように、ビデオフレームから三つ以上の人間サンプルを用いて推定することができる。
代替的に、又はそれに加えて、一般的な人間モデルモジュール303は、ビデオ画像を撮影するビデオカメラのカメラアングルに応じて修正(例えば、2D画像平面の垂直軸に対して延伸、収縮、傾斜)される所定の2Dモデルを有するものであってもよい。いくつかの一般的な人間モデルは、一般的な人間モデルモジュール303によって提供され得る。人間モデルは、また、例示的な付属品のためのモデリングを含むものであっても良い。屋外でシステムを使用する場合、例えば、第1の人間モデルを、暖かい天候時用として使用し、第2の大きな人間モデルを、寒い天候時用として使用し(コートが着用されることが予測され、それが人間モデルの一部とみなされる)、第三の人間モデルは、雨天時用として使用する(傘が使用されることが予測され、それが人間モデルの一部とみなされる)ことができる。
一般的な人間モデルモジュール303は、画像空間内の対応する位置で2D人間モデルの様々な大きさの推定値をも提供する。画像空間は、ビデオソース102によって提供されたビデオのフレーム内の画像の二次元空間に対応してもよい。画像空間は、画像空間内の位置がピクセル座標によって識別されるように、ピクセル単位で測定しても良い。ビデオカメラは、三次元の現実世界の2次元画像を含むビデオ画像をとることができる。人間が現実世界内の特定の場所に存在する場合、その人間は、二次元ビデオ画像内の特定の場所に、フォアグラウンドの一定量を占めることが予想される。もし人間がビデオカメラから遠い場合は、人間の画像サイズは、ビデオカメラに近い人間の画像サイズに比べて相対的に小さいことが予測される。二次元ビデオ画像空間内の複数の位置のそれぞれについて、一般的な人間モデルモジュール303は、2次元画像空間内の位置に対応するサイズを有する人間モデルを提供してもよい。各位置に対して、2D人間モデルは、2次元ビデオ画像の画像空間内の各位置に応じた寸法及び/又はサイズを有することができる。これらの人間モデルの向きも、2次元画像空間内の位置に対応するものであっても良い。例えば、一部のカメラレンズ(例えば、広角レンズ)が、第1方向がビデオ画像フレームの一側であり、第2方向が第1の方向と異なる、ビデオ画像フレームの第2側として、現実の世界で鉛直方向を表してもよい。2D人間モデルは、現実世界の垂直方向の異なる表現に対応して、ビデオ画像フレームの異なる側(及び他の場所)で異なる向きを有するものであっても良い。
2Dビデオ画像空間内の複数の人間モデルのそれぞれの位置は、2Dビデオ画像空間内の識別座標に関連付けられてもよい。識別座標は、2Dビデオ画像空間を有するビデオ画像のピクセル位置に対応することができる。例えば、ピクセル配列の第10行、第22列に対応する位置は、(10、22)の識別座標をに対応することができる。2Dビデオ画像空間内の複数の位置のそれぞれについて、一般的な人間モデルモジュール303は、人間モデルの特定のポイントを、関連する識別座標にマッピングすることができる。例えば、人間モデルの特定の点は、人間の頭に対応する人間モデルの最上部であってもよく、人間の足に対応する人間モデルの底部であってもよく、人間の中心に対応する人間モデルの形状の重心であっても良い。人間モデルの残りの部分は、人間モデルの特定の点と人間モデルの残りの部分との間の固定された関係に基づいて、人間モデルの関連付けられた識別座標及びサイズに対する2Dビデオビデオ画像空間にマッピングすることができる。例えば、ヒトモデルを円であると仮定する。2Dビデオ画像空間内の各ピクセルに対して、対応する円の中心がマッピングされ(例えば、2Dビデオ画像空間の座標(x、y)に関連付けられ、)、円形の残りは、円の対応サイズ(及びその円の中心に対する既知の関係)考慮して、2Dビデオ画像空間にマッピングされる。3次元現実世界における人間の特定の部分の位置(例えば、ヒトの頭の最上部、人間の足の底部、人間の中心等)は、2次元ビデオ画像内の位置に固有の対応関係を有することがあり、従って、2次元ビデオ画像内の人間のこの特定の点の存在は、三次元の現実世界の中で人間の位置を決定するために使用され得る。
一般的な人間モデルモジュール303も、2次元画像空間内の各特定の場所のための人間モデルのサイズを決定することができる。人体モデルのサイズは、ビデオ監視システム101のキャリブレーションから得ることができる。たとえば、ビデオ監視システム101がキャリブレーションの目的のためにビデオを取りながら、既知のサイズのキャリブレーションモデルが監視すべきエリアを動き回るようにしても良い。キャリブレーションモデルは、監視エリアを歩き回る既知の高さの人間でも良い。キャリブレーション中、システムは、フォアグラウンドブロブとしてビデオ内にキャリブレーションモデルを特定してもよいし、フォアグラウンドブロブが所定の大きさ(例えば、所定の高さ)に対応しているものであると(例えば、キャリブレーションモデルのサイズに関するビデオ監視システム101に提供されるキャリブレーション情報にアクセスすることによって)認識しても良い。キャリブレーションモデルが、ビデオキャリブレーション中にモニターされるべき領域内を移動するにつれて、ビデオ画像内の様々な位置で、システムは、2Dビデオ画像のサイズにキャリブレーションモデルの既知の高さを相関させても良い。例えば、キャリブレーションモデルの中心が(x1、y1)の位置にあるとき、キャリブレーションモデルの高さは15ピクセルであってもよい(又はいくつかの他の測定で測定することができる)。キャリブレーションモデルの中心が、位置(x2、y2)である場合、キャリブレーションモデルは、高さ27ピクセルであってもよい。キャリブレーションモデルの中心が、位置(x2、y2)である場合、キャリブレーションモデルは、高さ27ピクセルであってもよい。このように、ビデオ監視システム101は、2Dビデオ画像を相関させることによって、2Dビデオ画像の大きさをキャリブレーションモデルの既知のサイズ(例えば、高さ)に相関させることによって、2Dビデオ画像内の特定の場所(例えば、(x、y)座標))での2Dビデオ画像の寸法を現実世界での大きさ(例えば、高さ)に相関させても良い。現実世界のサイズと二次元画像内の特定の場所(例えば、(x、y)座標))で2Dビデオ画像内の寸法の間(この較正によって得られた)既知の相関に基づいて、2Dビデオ画像空間内の人間モデルの2Dサイズは、リアルな3D世界内で平均的な人間のサイズに対応して、2Dビデオ画像内の様々な位置((x、y)の座標))のそれぞれについて計算されてもよい。
キャリブレーション手法の例については、リプトン等に発行された米国特許第7、932、923号明細書、チャン等に発行された米国特許第7、801、330号明細書をご参照頂きたい。各々の内容はその全体が参照により本明細書に組み込まれる。一般的に、カメラの高さ(H)、検出されたオブジェクトの外側の境界(例えば、人間の上部及び底部)のような、視野角(ΘΗ、θν)の垂直方向と水平方向のカメラの視野、及びカメラのチルト角(α)及びその他の情報のような、入力された、あるいはキャリブレーション手法を介して得られたパラメータを用いて、カメラシステムは、一般に、識別をする目的でオブジェクトの現実世界サイズと形状を決定することができる。
人間ベースのカメラキャリブレーションモデル304は、ビデオ画像空間内の適切な対応する場所と一緒に、一般的な人間モデルモジュール303から適切なサイズの人間モデルを受信して格納することができる。これらの人間モデルと対応する位置は、ルックアップテーブルに格納しても良い。例えば、ビデオ画像空間内と外の複数(x、y)座標のそれぞれは、対応する人間モデルを識別するために使用され得る。例えば、(x、y)識別座標が人間モデルの重心に対応するとき、位置(x1、y1)を中心としたビデオ画像内の人間オブジェクトの存在を推定する際に、人間ベースのカメラキャリブレーションモデル304のルックアップテーブルは、入力として位置(x1、y1)を受信し、(サイズと2D画像空間内の位置とを含む)対応する人間モデルを提供してもよい。例えば、出力は、2D画像空間内の境界を含んでも良く、又は対応する人間モデルを記述するために、画像空間内のピクセルの完全なセット(例えば、全てのピクセルの座標(x、y))を含んでもよい。
図3Bは、いくつかの人間モデルが、二次元ビデオ画像を占める例を示しており、それぞれが二次元ビデオ画像に対して異なる位置に対応している。図示のように、4つの人間モデル320a、320b、320c、320dは、二次元ビデオ画像に対する、異なる(x、y)識別座標と関連付けられている。人間モデル320aは、三次元実世界においてビデオソースから最も遠い位置に対応し、最も小さい。人間モデル320b、320c及び320dは、ビデオソースに順次近い3次元の現実世界内の位置に対応する。人間モデル320a、320b、320c、320dは、全て同じ完全人間形状モデルから得られる。しかし、完全な人間形状モデルの一部のみが、特定の位置での二次元ビデオ画像を占有することが推定されてもよい。ここでは、完全な人間の形状モデルは、二次元ビデオ画像空間330を部分的にのみ占有している人間形状320cと320dに対応するものと推定され、人間モデル320cは、完全人間形モデルの胴部と頭部との組み合わせであると推定され、人間モデル320dは完全な人間形状モデルの頭部のみに対応すると推定される。
各人間モデル320a、320b、320c及び320dは、2次元ビデオ画像に対して(x、y)識別座標に関連付けられる。この例では、特定人の人間モデル320a、320b、320cの識別座標は、人間モデルの重心に対応している。推定形状320a、320bは及び320cに関連付けられた(x、y)識別座標は、それぞれ321a、321b、及び321cであり、ビデオ画像の座標(x、y)に含まれる。推定形状320dに関連付けられた(x、y)識別座標は、ビデオ画像の座標(x、y)から外れている。つまり、この例では、320dと関連付けられた人間形状の重心モデルは、ビデオ画像の下に位置し、したがって、その識別(x、y)座標は、この例では、ビデオ画像の座標の外側にある負のy軸の値を有する(図3Bに示されていない)。計算を簡単にするために、(x、y)識別座標は、特定する座標321a、321b、及び321cもビデオ画像のピクセルを識別するように、ピクセル単位で増分してもよい。
図3Bは、説明を容易にする目的のために、4つのそれぞれの識別座標に関連付けられている4人だけのモデルを示している。しかし、人間ベースのカメラキャリブレーションモデル304は、人間モデルが互いに重複するような多数の(x、y)識別座標の人間モデルを格納しても良い。図3Cは、説明を容易にするために、対応する人間モデル320にそれぞれ関連付けられた(x、y)識別座標321の単一の行を示す。理解を容易にする目的で、単一の行のみが示されているが、人間モデルは、画像領域330の上に、x方向及びy方向に規則的に分布され得る、複数列の(x、y)識別座標を設けてもよい。既に述べたように、形状のサイズは、(図3Cでは同じ大きさを有するものとして示されているが)異なる位置で異なっても良い。例えば、人間ベースのカメラキャリブレーションモデル304は、2D画像空間330の(x、y)識別座標として2D画像空間330内のピクセル毎に、また2D画像空間330内に少なくとも部分的に位置する人間のモデルに関連付けられた2D画像空間330の外における(x、y)座標として、人間の形状を記憶しても良い。例えば、ビデオ画像空間330内の全ての(x、y)のピクセル座標について、人間ベースのカメラキャリブレーションモデル304は、人体モデルの重心がビデオ画像のビデオ画像空間330内の(x、y)識別座標に位置しているときに、人間によって占有されることが期待されるビデオ画像空間330内のサブ空間の(x、y)識別座標と関連する人間モデル(境界又はピクセルのセットを含んでもよい)を記憶してもよい。ビデオ画像空間330内のサブ空間内の人体モデルに関連付けられたビデオ画像空間330の外側の全ての(x、y)識別座標を含んでいてもよい(即ち、完全な人間モデルの一部が、ビデオ画像空間330のサブ空間内に位置しても良い)。いくつかの状況では、サブ空間に言及した上記は、全体のビデオ画像空間330を含むことができる(人間が完全にビデオ画像を占めるように配置されたときの推定値に相当する)。人間ベースのカメラキャリブレーションモデル304は、ルックアップテーブルとして、(x、y)識別座標と関連する人間モデルを記憶してもよい。この例では、完全な人間形状モデルの重心は、人間モデルの(x、y)識別座標に対応するが、人間の形状モデルの他の識別ポイントを使用することができる(例えば、目、鼻、頭の中心、頭の頂部、足指、足底等)。
人間確率マップ計算モジュール305は、フォアグラウンドブロブ検出モジュール105によって出力されたビデオ画像出力の特定のフレームのセットフォアグラウンドブロブと、人間ベースカメラキャリブレーションモデル304から出力された対応する識別座標出力を備えた人間モデルとを使い、各画像ピクセル位置毎のように、二次元ビデオ画像内の複数の場所のそれぞれについて人間ターゲット確率を計算する。複数の計算された確率は、確率マップを作成するために複数の場所に関連付けられてもよい。複数の場所は、人間モデルの(x、y)識別座標と同じであってもよい。
各(x、y)識別座標について、計算して、ビデオ画像内に人間のターゲットが存在する対応する確率が決定される。(x、y)識別座標が、ビデオ画像のピクセルと1対1で対応している場合、確率計算は、ビデオ画像のピクセル毎に行われる。例えば、各画像ピクセルに対して、対応する人間確率を、画像中心が検討中のピクセルにある人間ターゲットが存在する可能性として計算することができる。確率マップは、各(x、y)識別座標に確率計算の各々にマッピングして作成することができる。確率マップは、関連する計算された確率に(入力としての)各(x、y)座標を関連付けて、ルックアップテーブルに格納することができる。このルックアップテーブルは、人間ベースのカメラキャリブレーションモデルモジュール304のルックアップテーブルと同じであってもよく(エントリとして人間モデルを格納する)、又は第二の別個のルックアップテーブルであってもよい。
上記したように、識別座標はビデオ画像空間から外れるかもしれず、従って、計算して、(これらの識別座標と関連した画像空間(人間モデル)に入っている対応する完全な人間の2Dモデルの部分に関する)ビデオ画像内の人間オブジェクトの存在の対応する可能性を決定する。たとえば、2D完全人間モデルの重心が識別座標と一致するならば、それはビデオ画像空間の外側に位置するかもしれないが、完全な人間モデルの一部であるビデオ画像空間内の2D人間モデルと一致するかもしれない。たとえば、たとえこの完全な人間モデル(例えば、完全な人間モデルのおへそに近い)の重心が画像空間(対応する肩/頭2D人間モデルを確認するのに用いられる識別座標と一致している重心)から外れるとしても、完全な人間モデルの肩と頭は2D人間モデル(型と頭は画像空間に入っている)を構成するかもしれない。幾つかの例では、完全な人間の2Dモデルの特定のパーセンテージは、なされる(又は考慮される)確率計算のために、画像空間内に入らなければならない。たとえば、完全な人間の2Dモデルの10%未満又は20%未満が画像空間(又は、人間モデルが完全な人間の2Dモデルの10%又は20%未満未満であるとき)内にあるとき、識別座標と関連した確率値はゼロにセットされ、あるいは無視しても良い。幾つかの例では、完全な人間の2Dモデルの40%未満が画像空間内であるとき、識別座標と関連した確率値はゼロにセットしても良い。(x, y)識別座標に関する確率計算は、対応する(x, y)識別座標とフォアグラウンドブロブセットに関連した人間モデルのリコールである場合がある。たとえば、各(x, y)識別座標についての確率計算は、人体ピクセルのリコール及び対応する(x, y)識別座標と関連した人間モデル内の人間の境界線ピクセルであっても良い。対応する(x, y)識別座標に関連した人間モデルは、人間ベースのカメラキャリブレーションモデルモジュール304から出力され(例えば、モジュール304のルックアップテーブルに保存され)ても良い。セットされたフォアグラウンドブロブは、フォアグラウンドブロブ検出モジュール105から出力されても良い。フォアグラウンドブロブセットを有する推定された形のリコールは、人間モデル領域にセットされたフォアグラウンドブロブと重なる人間モデル域の比率として計算されても良い。特定の閾値を超えない確率計算は、無視しても良い。たとえば、0.4未満(0〜1のスケールで)の計算された可能性は、その場所を中心として人間ターゲットがないことを示しても良い。リコール計算以外の計算は、複数推定された形の各々に対応するビデオ画像内に人間オブジェクトが存在する可能性を決定しても良い。計算された可能性は推定であることが理解されよう。このように、(0から1のスケールで)1である計算された可能性は、関連した対応する場所で人間が存在する絶対的な確実性を示すものではない。
各(x, y)識別座標についての可能性計算は、対応する(x, y)識別座標とフォアグラウンドブロブセットと関連した人間モデルのリコールであっても良い。たとえば、各(x, y)識別座標についての可能性計算は、対応する(x, y)識別座標と関連した人間モデルの内の人体ピクセルのリコールと人間の境界線ピクセルであっても良い。対応する(x, y)識別座標と関連した人間モデルは、人間ベースのカメラキャリブレーションモデルモジュール304からの出力であっても良い(例えば、モジュール304のルックアップテーブルに保存される)。フォアグラウンドブロブセットは、フォアグラウンドブロブ検出モジュール105からの出力であっても良い。フォアグラウンドブロブセットを有する推定された形のリコールは、フォアグラウンドブロブセットと重なる人間モデル域と人間モデル領域との比率として計算しても良い。特定の閾値を超えない可能性計算は、無視しても良い。たとえば、計算された確率0.4未満(0〜1のスケールで)は、その場所を中心に人間ターゲットがないことを示す可能性がある。リコール計算以外の計算は、複数推定された形の各々と一致しているビデオ画像内に人間オブジェクトが存在する可能性を決定しても良い。計算された確率が推定であることが理解されよう。このように、1(0〜1のスケールで)の計算された確率は、関連した対応する場所における人間の存在の絶対的な確実性を示すものではない。
図3Dは人間の確率マップを計算する例示的な方法を例示するものであり、それは図3Aのシステムによって実行される。ステップS340で、304のキャリブレートされたカメラモデルは、2D画像空間のイメージ面を現実の世界の地表面にマップするのに用い得る。ステップS342で、人間モデルは、2D画像空間においてN箇所(Nは、整数であり2又はそれ以上)で得られる。キャリブレートされたカメラモデル304は、2D画像空間の画像ピクセル位置ごとの人間モデルとして対応する凸ハル形人間モデルを得るのに用いることができる。人間モデルの各々は、2D画像空間における識別座標と関連付けられても良い。たとえば、マッピングを識別座標に実行するとき、人間モデルの人間の重心点を参照点として使っても良い。2D画像空間の識別座標が画像空間内の人間の重心であるとすれば、現実の世界の地表面上のその対応する身体的な足跡位置は、キャリブレートされたカメラモデル(例えば、図5で示すように)を通して計算することができる。それから、一般的な3D(例えば、複数のシリンダーを有する)人間モデルは、その足跡位置に配置される。3Dモデルのサイズは、前に得られたキャリブレーションデータと一致しても良い。一般的な3D人間モデルは、2D画像空間で人間モデルを得るために、2D画像面に投射され、あるいはマップされても良い。たとえば、3D多シリンダー人間モデルの投射は、関連識別座標(例えば、考慮中の画像点)に重心があるイメージ人間モデルとして、対応する2D画像凸ハルを作成するのに用いることができる。このように、あらゆる有効な画像ピクセルは、その画像位置でおよその人間のサイズと形状を示す、対応する凸領域形人間モデル(人間モデルとして)を有しても良い。計算コストを下げるために、凸領域形人間モデルは、システムの初期化で事前計算しても良く、人間の凸面モデルの長方形の境界箱は、インテグラルイメージを用いたおよその人間リコール比を得るのに用いられることができる。ステップS344で、フォアグラウンドブロブセットは、ビデオ画像から抽出され得る。フォアグラウンドブロブセットは、モジュール301よって抽出された人間フォアグラウンドピクセルブロブ及び/又はモジュール302で抽出された人間境界ピクセルを用いて検出される一又は複数のフォアグラウンドブロブからなるものであっても良い。ステップS346において、N箇所の各々について、その位置の人間の存在の確率が計算されて、確率マップが得られる。十分な人間境界ピクセルが画像人間凸モデルにある場合、人間確率測定は人間リコール比として定義され得る。この例における人間リコール比は、この人間凸モデルの総面積を超える、イメージ人間凸モデルで301において計算された人間フォアグラウンドピクセルの数である。図3Dのプロセスのステップの順序は、示された順序以外の順序で実行されても良い。たとえば、ステップ344は、ステップ340と342の一方又は両方の前に実行されても良い。
図3Aを参照して、305で計算された人間確率マップに基づいて、人間ターゲット推定モジュール306は、ビデオ画像とそれらの位置で人間モデル(例えば、人間オブジェクト)のベスト数を見出すことができる。グローバル最適化方法は、人間モデルとそれらの位置のベスト数を見出すのに用いることができる。もし、m(m1、...、mM)が画像空間内の全ての潜在的人間モデルからの人間モデルのMセットを意味するならば、目的は、基準関数f(n*)が全体の最大に達するように、最適なセットn*を見つけることである。つまり、目的は、以下を見つけることである。
nは、画像空間における複数人間モデルの特定のセットであり、f(n)はその人間モデルのセットのために計算される関数である。
さらに以下で議論されるように、関数f(n)は人間モデルの選ばれた数セットの各々のために計算され、各々のセットが、確率マップからmi位置(mi位置は、各パスごとに選ばれ、数miはこれらのパスの各々毎に異なっても良い)を選択する。各々のパス毎に変えられる位置を選ぶのに用いられる特定の抑圧的な基準で、人間モデルの各セットは、確率マップのパス(又はスキャン)で選ばれても良い。ここで、関数f(n)は、以下のとおり、定義される。
ここに、Rは人間リコール比であり、これは、nの選択された人間モデルのグループの全域の上の人間のフォアグラウンド領域のパーセンテージとして定義される。Pは、人間の精度であり、nの選択された人間モデルのグループと重なっているフォアグラウンド領域のパーセンテージである。Oは、人間重複比率であり、それはnの互いに選択された人間モデルのいずれかの重複の領域の、全てのnの選択された人間モデルによって占められた領域に対する比率である。wR、wP及びwOは、重さである。あまりに多くの人間の重複なしでフォアグラウンド領域(フォアグラウンドブロブセット)と人間モデル(m人間モデルのセット)のユニオンとの間のベストマッチングを発見することが有利な場合がある。実際には、上記3つの重さを決定することは、検出結果にかなり影響を与えることがあり、例えば、もしより多くの重さが人間重複比率を減らすようになされれば、より少ない人間の集計の結果となる。
miの選択された人間モデルの各々は、人間確率マップ計算モジュール305で出力された確率マップを参照することによって選択されても良い。いくつかのパスは、計算f(n)を実行させられることがあり、各パスは、一般的な人間モデルモジュール303によって提供され、人間ベースのカメラキャリブレーションモデル304(例えば、ルックアップテーブルの(x, y)識別座標に関連付けられた2D人間モデルからのmi人間モデルのサブセットを選択する。前述のように、miの値は、これらのパスの各々で異なることがある。人間モデルの選択基準は、異なる人間モデルが異なるパスで選ばれるようにパスごとに異なることがある(おそらく、人間モデルの異なる数miが異なるパス毎に選ばれる)。選択基準は、確率マップによって示されるように、確率閾値Pthと関連付けられる選択された人間モデルを要求することを含むでも良い。選択基準は、どんな以前に選択された2D人間モデルから離れた最小限の距離Dminである、次に選択された2D人間モデルを含む場合もある。最小限の距離Dminは、現実世界の地面上の距離であっても良い。たとえば、2D人間モデルの重心は、3D現実世界の内の位置にマップされ、あるいは翻訳されることがあり、それらの間の距離は計算されることがある。最小限の距離Dminは2D画像面内で計算されても良いが、ビデオ画像ソースの近くの人間モデルにとって、より大きな分離が、より遠い人間モデルより2D画像面で要求されることがあるように、2D画像面内の距離は対応する3D位置を反映しても良い。
幾つかの例示的な実施形態において、確率マップの1又は複数の速い1パススキャンが、人間のカウントと、対応する位置を決定するのに用いられる。図3Eは、ビデオ画像内でベスト数の人間モデルを見つけることの一部として確率マップの一回のパスを実行する方法を示す。図3Eの方法は、人間ターゲット推定モジュール306によって実施されても良い。ステップS350で、確率マップは、局部的最大(特定の選択基準によって資格を与えられるかもしれない)を見つけるためにスキャンされる。確率マップは、ビデオソースに最も近い現実世界における位置と一致する利用可能未選択局部的最大を見つけるためにスキャンされても良い。確率マップの底は、ビデオ画像の底と一致しても良い。多くの実施例では、監視機能を実行するビデオカメラは、モニターされる地域内における人間の頭のレベルより高い位置に取り付けられても良い。このように、ビデオ画像の底は、ビデオソースに最も近い位置に対応しても良い。この例においてボトムトップから確率マップをスキャニングすることは、ビデオ画像内の閉塞対象物に一致しそうにない人間モデルの選択を許す。
確率マップは局部的最大点を見つけるために底からトップまでスキャンされたることがあり、画像空間内の複数位置の各々について(確率マップに保存された)以前に計算された確率の局部的最大を示します。局部的最大は、すぐ近隣の(x, y)識別座標(例えば、すぐに近隣のピクセル)の各々の確率値より高い確率値を有する(x, y)識別座標(例えば、ピクセル)であっても良い。局部的最大点が見つかったら、その識別座標としてこの局部的最大点と関連付けられた人間モデルが、ステップS352のmi人間モデルのセットの1つとして選ばれる。ステップS354で、この選択されたモデルの内部領域(例えば、2D人間モデルの境界線内)内のピクセルの全て、及びこの選択されたモデルから離れた最小距離Dminと一致しているピクセル(例えば、現実世界の地面上で最小距離を表しているビデオ画像のピクセル)はこのパスにおいて更なる考慮から除外される(そして、一時的にこのパスのために確率マップから取り除かれても良い)。この実施例では、ピクセルが人間モデルの識別座標に対応し、この説明が、ピクセル位置でない識別座標に等しく適用できる点に注意して頂きたい。幾つかの実施例において、ビデオ画像自体は現段階でさらに分析される必要はない。そして、ピクセルは確率マップから一時的に単に除去することによって、更なる考慮から除外されても良い。この確率マップは、確率閾値Phより大きく除外されていないピクセルに関連付けられた人間確率マップの確率の他の局部的最大点を選択するために、再びスキャンされる。ステップS356において、有効なピクセルが考慮されたかどうかが決定される。即ち、その確率は、その選択基準によって排除されておらず、確率マップのスキャンにける他の人間モデルの選択によっても排除されていない値についてリビューされる。全ての有効なピクセルが考慮されて地図から取り外されるまで、確率マップのスキャンは続けられる。このようにして、mi人間モデルは、確率マップのこのスキャンで選択される。このパスについて、関数f(mi)がmi人間モデルのこのセットのために計算される。
各オンパススキャンが選択基準の異なるセットで、確率マップの追加のスキャンを実行しても良い。図3Fは、ビデオ画像内の人間モデルのベスト数を見出すように、確率マップの複数のパスを実行する方法を示す。図3Fの方法は、人間ターゲット推定モジュール306によって実施することができる。ここでは、Dmin(最小距離)とPth(確率閾値)の少なくとも1つの値は、各走査で異なっても良い。ステップS360で、選択基準は、特定のオンパススキャンについて設定される。選択基準がどれくらい変更されるか(どれくらいスキャンされるか)は、望ましい正確さと計算オーバーヘッドを考慮して、ケースバイケースで決定され得る。ステップS362で、確率マップのスキャンが行われて、選択基準に従ってm人間モデルのセットを選択される。値mは0又はそれ以上の整数であり、選択(例えば、ステップS362を実行している図3Fの各ループごとに)ごとに異なる。ステップS362は、図3Eの方法に対応しても良い。ステップS364で、基準関数が選択されたmi人間モデルについて計算され、例えば、対応するf(mi)は、この走査において選択されたmi人間モデルについて計算される。追加のスキャンが、新しい選択基準(S366)で実行されても良い。確率マップの全てのスキャンが完了したとき、スキャンのグループのf(n)、nε{m1、...mM}が決定される。この最大値に対応する人間モデルのセットは、ビデオ画像(S368)内の人間オブジェクトに対応すると決定される。ビデオ画像内で人間オブジェクトを代表すると決定された人間モデルの(x,y)識別座標(例えば、ピクセル位置)を使って、地面上の本当の世界位置を決定しても良い。
他の実施形態において、mが画像空間内の全ての潜在的人間モデルからの人間モデルのセットを意味するならば、目的は、基準関数g(m*)がグローバル最大に達するように、最適にセットされたm*を見つけることである。つまり、目的は、以下の最大限を見つけることである。
ここに、nは、画像空間内の複数の人間モデルの特定の一つであり、mは、選択された人間モデルの数(これは、異なる要約計算で異なることがある)であり、f(n)は、モデルのグループではなく、m人間モデルの各々について計算される関数である。
ここで、関数f(n)は以下のとおり定義される。
ここに、Rは人間リコール比であり、それは選択された人間モデルの全領域上の人間フォアグラウンド領域のパーセンテージとして定義される。Pは、人間精度であり、それは選択された人間モデルと重なっているフォアグラウンド領域のパーセンテージである。Oは、人間重複比率であり、それは第1ないしn−1番の人間モデルによって占めされる領域[シグマf(n)を計算する際に現在のパスで以前に選択kされた人間モデルによって示された領域]選択されたn番目の人間モデルの重複である。wR、wPとwOは、重さである。上述の確率マップをスキャンするパスの各々は、各パスについて確率マップの局部的最大を選択する際の選択基準の異なる制約で、シグマf(n)を計算することと関連付けられても良い。ここに記載されたもの以外の他の関数f(n)を用いても良い。
図6A、6Bと6Cは、1つの実施例に係るビデオ監視システム101の検出結果を示すものである。1つの入力フレームについては、図6Aは人体検出モジュール301と人体境界ピクセル検出モジュール302の出力であり、ピクセル301aは検出された人体ピクセルであり、ピクセル302aは人体境界ピクセルを示している。フォアグラウンドブロブセットは、検出された人体ピクセル301aと人体境界ピクセル302aの組合せとして、図6Aに示される。検出された人体ピクセルと人体境界ピクセルは、ビデオ画像空間330を定めているオリジナルビデオ画像フレーム上で重ねあわされる。この実施例では、このビデオ画像フレーム(フォアグラウンドブロブセット以外)内のビデオ画像の残りは、背景画像の一部である。
図6Bは、図6Aから計算された人間確率マップを示すものである。この例では、確率0に対応する黒と、確率1に対応する白とで、人間確率マップは、グレイスケール上で計算された確率を表している。計算された確率の各々は、対応する人間モデルの識別座標に対応するピクセルに対応する画像空間330内で、位置が表わされる。
図6Cは最終的な人間の検出結果を示すものであり、検出された人間に対応する複数の人間モデル320(ピンクの凸形アウトライン)を示す。これらの人間モデルの各々は、3D現実世界における検出された人間の位置を特定し得る識別座標(例えば重心)によって関連付けられ、現実世界(図示せず)の地面にマップされても良い。
図7A、7B及び7Cは、人間検出結果に基づく人間群衆密度を測定する例を示すものである。図7Aは、ビデオ監視システム101検出結果の例示的な結果を示すものであり、複数の2D人間モデル320(ピンクの凸ハル)を示し、各々が検出された人間に対応するものでオリジナルビデオ画像に示されている。図7Bは、検出された人間を現実の物理的地面にマップしたものを示し、図7Aのビデオ画像を上下逆にして表しており、丸のそれぞれは現実世界の物理的地面にマップした人間モデル320を示し、従って現実世界における検出された人間の位置を特定するものである。キャリブレーションが、較正モデルの既知の寸法、2Dイメージ内の位置、画像スペース内の対応する寸法間の相関関係を提供するので、検出された人間ターゲットは、物理的な地面上にマップすることができる。既知の位置で、計算して、所定の特定された(例えば、ユーザーによって選択された)地域内で、又は、全ての地域内で人々の数を数える。計算は、単位面積あたりの人の数を決定するためになされても良い。各地上位置での真の群衆密度測定は、直接計算されることもある。群衆密度測定の実際の定義は、真のアプリケーション、特に、モニターされる群衆のサイズに依存する場合もある。たとえば、図6A、6B及び6Cに示されるシナリオにおいて、群衆密度測定として半径2メートル内における人の数を使うこともある。図7A、7Bと7Cにおけるシナリオでは、ある位置における群衆密度は、半径6メートル内における人の数として定義されることがある。図7Cは、半径6メートルで明度が高い程、群衆密度が高いことを示す群衆密度マップを示す。
ビデオフレームごとの群衆密度測定に基づいて、図8に示すような多くの群衆関連イベントを検出することができ、その群衆関連イベントには、群衆検知、群衆集合及び群衆消散があり、それらは図1のイベント検出モジュール108のモジュール801、802及び803でそれぞれ検知することができる。図9は、混雑した領域をどのように定義し、検出するかの例示的な方法を示す。ブロック901は、群衆領域イベントを定義する方法を示す。ユーザーは、先ず(例えば、画像空間内の)画像に関して、関心の領域を最初に選ぶ。次いで、幾つかの群衆密度閾値を、群衆がどれぐらいかを決定するのに用いても良い。閾値は、特定の半径内の面積内における人の数であっても良い。ヒステリシス閾値が、よりロバストなパフォーマンスのために使われることもある。たとえば、群衆密度を半径3メートル内の人の数であると定義するならば、2つの群衆密度閾値:Thigh=10とTlow=8をセットしても良い。対応する群衆密度がThighと等しいかそれより大きい場合だけ、群衆領域は、混雑領域となる。対応する群衆密度がTlowと同じかそれより少ない場合だけ、群衆領域は非混雑領域となる。群衆領域は特定された群衆によって定義されても良く、フレームからフレームに位置や形を変えても良い。群衆領域の重心は、群衆位置を記述するのに用いても良い。最小期間閾値は、群衆領域がイベント検出を誘発する前の群衆として保たなければならない最小限の時間期間を定めても良い。新しいビデオフレーム入力については、ブロック902は、全ての検出された人間ターゲットが群衆領域に属しているかどうかを見、次いでブロック903が全ての検出された人間ターゲットをチェックして、そのステータスを更新する。一旦検知されると、群衆及びそれらの位置は、ビデオ画像のフレーム毎に、追跡されても良い。たとえば、群衆が検出され、最小閾値に適合し続ける限り、その領域に関連付けられた人間モデルは、それらが最少群衆密度に適合する領域にある限り、ビデオ画像の以降のフレーム内の群衆を定義するものとしても良い。追加の群衆モデルは、それらが検出された群衆領域内に移動するとき、その検出されたた群衆領域に加えられても良い。
図10は、各検出された人間ターゲットに関する例示的なプロセスを示す。ブロック1001は、現在のターゲットが既存の群衆地域内であるか或いはその近くであるかどうか調べる。もし「イエス」であるなら、ブロック1001はその地域について人数を更新する。もし「ノー」であるなら、ブロック1002は、現在のターゲットの位置上の群衆密度を計算し、次いでブロック1004が、群衆密度値が閾値値Thighと同じかそれ以上であるかをチェックする。もし、「イエス」であるなら、新しい群衆地域が、現在のターゲットを中心に作られる。もし「ノー」であるなら、次の人間ターゲットを処理し続ける。
図11は、各群衆領域での例示的なプロセスを示す。ブロック1101は、ターゲットプロセス結果に基づいて領域面積及び群衆数を更新する。 ブロック1102は、密度数がユーザーが定めた閾値よりも更に大きいかどうかをチェックし、もし「ノー」であるなら、群衆領域をモニタリングリストから取り除く。ブロック1104は、更に、プロセス中の群衆領域の群衆期間が、ユーザー定義の閾値と等しいかそれより長いかどうかチェックし、「イエス」であるなら、ブロック1105は、更に、対応する群衆イベントが報告されたかどうかチェックし、もし報告されていなければ、ブロック1106は、群衆イベントを報告し、その群衆領域を「報告済み」とするような、措置をとる。
図12は、群衆の「集合」及び「消散」イベントを定義し、検出するのに用いられ得る方法を示す。ここに、「集合」、「消散」は、群衆集合スポットの形成及び終了の2つのプロセスに言及するものである。この実施例では、群衆集合スポットは、局部的に静止群衆密度が高い領域に言及するものであり、例えばパレードのような移動する群衆とは異なる。しかし、本発明はそれに制限されるものではなく、この方法は移動する群衆の集合スポットの定義にも適用され得る。ブロック1201は、群衆集合スポットがどのように定義されるかについて説明している。ユーザーは、先ず画像について、関心地域を最初に選んでも良く、ついで、幾つかの群衆密度閾値が、群衆が有効な集合スポットとして考慮される群衆として保持されなければならない最少期間閾値を定義しても良い。ブロック1202は、群衆集合スポットを検出する。ブロック1203は、検出された群衆集合スポットを更新しモニターし、群衆の「集合」及び「消散」イベントを検出する。
図13は、群衆集合スポットを定義する1例を示す。それは、1301として示される内側領域と、1302として示される外側地域とを有する。2つの領域は、中心点O、短い半径r、及び長い半径Rによって定義され得る。この例では、群衆集合スポットは、以下の2つの基準を満たすものとしても良い。
*内側の領域の群衆密度は、あらかじめ定められた閾値と等しいかそれより大きくなければならない。
*外側領域内の人数は、内側領域内の人数より少なくなければならない(例えば、2倍、4倍、10倍以上小さい)。あるいは、外側領域の群衆密度は、内側領域の群衆密度より少なくなければならない(例えば、2倍、4倍、10倍以上少ない)。
上記2つの基準は、内側の領域が群衆集合スポットであって、大群衆内の領域ではないことを示すこともある。
図14A及び14Bは、群衆集合スポットの例を示す。図14Aと図14Bとは、それぞれビデオフレームと、現実世界の物理的な地面にマップされた検出された人間ターゲットを示す。図14Aは、より多くの人間ターゲットを有するが、図14Bだけが上で定義した群衆集合スポットを含む。
図15は、群衆集合スポットを検出する例示的な方法を示す。各検出された人間ターゲットについて、それが既存の群衆集合スポットに属しているかどうかを、ブロック1501がチェックする。もし、「イエス」であるなら、それはブロック1502において、対応する群衆集合スポットの現状を更新するのに用いられる。もし、「ノー」であるなら、ブロック1503は、現在のターゲットが新しい群衆集合スポットの中心であるかどうかチェックする。もし、「イエス」であるなら、ブロック1504は、更なるモニタリングのために新しい群衆集合スポットを始める。もし「ノー」であるなら、モジュールは次の人間検出チェックを続ける。
図16は、群衆集合スポットを更新し、また群衆の「集合」及び「消散」を検出する例示的な方法を示す。ブロック1601は、考慮中のビデオフレーム上の新しい人間検出結果を用いてた群衆集合スポットの位置と面積を更新する。ブロック1602は、群衆「集合」イベントが現在の群衆集合スポットから検出されたかどうかをチェックする。もし「ノー」であるなら、ブロック1603は、群衆集合スポットが所定の期間でうまく更新されたかどうかチェックすることによって「集合」イベントを検出し続ける。この期間閾値は、ルール定義時間でユーザーによってセットされても良い。群衆集合スポットが「集合」イベントを一旦生成すると、ブロック1604は、更に、「消散」イベントを検出するために集合スポットをモニターする。ここで、群衆「消散」イベントは、群衆集合スポットが短期間で空のスポット或いは低密度のスポット(例えば、最小群衆密度閾値Tlowより低い)になるものとして、定義される。ブロック1604は、群衆集合スポットの2つの特別な瞬間、すなわち混雑しなくなる時及び空あるいは密度が低くなる時とを検出する。これらの2つの瞬間の間の時間が、ユーザーが定義した閾値よりも短い場合、群衆「消散」イベントが検出される。
図17は、本発明が適用され得るマルチカメラシステムの例を示す。この実施例では、2台のカメラ1702と1704が、異なる視点から目的とする場面のビデオ画像を別々に撮影する。ここに記述されるビデオ監視システム101と方法は、変化検出モジュール103、動き検出モジュール104、フォアグラウンドブロブ検出モジュール105、一般的な人間モデルモジュール303、人間ベースのカメラキャリブレーションモデル304、及び人間の確率マップ計算モジュール305用の各カメラ1702と1704ごとここに記載されたものと同じであっても良い。つまり、各カメラは、これらモジュールのためのそれ自体のモジュール又はモジュール機能(回路が共有されるならば)を有するものであっても良い。
各ビデオカメラ1702、1704の人間ベースのカメラキャリブレーションモジュール304により提供されるそれぞれの画像空間への2D人間モデルは、現実世界の物理的な地面の座標と関連付けられることがある。たとえば、カメラごとの人間ベースのカメラキャリブレーションモデルモジュール304については、追加のエントリが対応する物理的な地面座標のためになされ、それによってN人間モデルを同じものと関連付ける。カメラ1702、1704の各々について人間の確率マップを計算する際に、各々の確率マップの確率は、2D画像空間よりもむしろ物理的な地面にマップされても良い。
1つの実施例では、人間のベスト数を検出する人間ターゲット推定モジュール306は、上述したような方法で、1台のカメラの最初の確率マップのスキャンを実行しても良い。つまり、検索基準の制約のなかで、最初の確率マップの局部的最大を検知する。人間モデルm(m1、...mM)のMセットの最大を決定するために基準関数を計算する際に、目的は、以下を見つけることである。
nは、複数3D人間モデルの特定のセットであり、確率が2つの人間確率マップの各々にマップされた物理的な地面で識別座標を持つことがある。つまり、モデルセットごとに人間モデルと関連付けられるように現実の世界で点を選択すると、この点と関連した2D画像空間人間モデルは、各カメラシステムごとに特定され、一つの人間モデルはf1(n)を計算するため、他の一つはf2(n)と他を計算するのに用いられる。f1(n)及びf2(n)は、ここに記述された関数と同じであっても良い(適切なビデオ画像から抽出された人間フォアグラウンドブロブセット又は人間のフォアグラウンド領域)。
ここで(ビデオ画像とそのビデオ画像の人間フォアグラウンド領域に関連付けられたそれぞれのn選択された2D人間モデルについて)、Rは、人間リコール比であり、nの選択された人間モデルのグループの全領域上の人間フォアグラウンド領域のパーセンテージとして定義される。Pは、人間の精度であり、nの選択された人間モデルのグループと重複するフォアグラウンド領域のパーセンテージである。Oは人間重複比率であり、1番目からn−1番目の人間モデルによって占められた領域[f(n)を計算する際に、現在のパスにおいて以前に選択された人間モデルによって占められた領域]を有する選択された第n番目の人間モデルが全てのnの人間モデルによって占められた領域に対する、n選択された人間モデルのいずれかの重複の領域の比率である。wR、wP、wOは、重さである。重さは、関数fi(n)とf2(n)との間で異なることがあることに注意すべきである。次の局部的最大を選択する際に更に考慮するピクセルの除外は、前に選択された人間モデルバックの地面座標に関連付けられた3D人間モデルを、それぞれのイメージ面における2つの確率マップへ投影しても良い。
更なる選択肢として、単一確率マップを、複数のカメラに使用しても良い。図17の実施例では、確率計算を、ここに記載したように2Dビデオ画像の各々について行い、それぞれが2D画像面に一致する2つの画像面確率マップを作成しても良い。特定の閾値(画像面確率マップ毎に同じ又は異なっても良い)を超えなければ、画像面確率マップの確率は、ゼロにセットされても良い。各画像面確率マップ内の識別座標は、画像面確率マップの各々について現実の世界の地面座標に翻訳されても良く、各々のビデオ画像について地面確率マップを作成する。2つの地面確率マップは、同じ地面座標を共有する確率を増やすことによって合併して、合併された確率マップを作成しても良い。合併された地面確率マップは、局部的最大を見い出すためにスキャンされても良い。各見い出された局部的最大は、それぞれの画像空間内のビデオ画像のそれぞれについて別々の人間モデルを特定するものであり、適切であれば(上述した)f1(n)又はf2(n)を計算するのに用いられても良い。複数の局部的最大についての合併された地面確率マップの複数のスキャンを実行することは、以降の人間モデル(ビデオ画像のそれぞれにつき1つ)を見い出し、次の計算をするために行われても良い。
選択制約(例えば3D現実世界内の最小確率閾値と最小距離)は変えても良く、新スキャンパスがm人間3Dモデル(この実施例では2mの2D人間モデルと一致)の最適のセットを見い出すために実行されます。
もう一つの実施例において、人間のベスト数を見い出す人間ターゲット推定モジュール306は、上述した方法で、1台のカメラの最初の確率マップのスキャン、つまり、検索基準の制約の中で、最初の確率マップの局部的最大の検索を実行しても良い。m人間モデルのセットについて、最大を決定するために基準関数を計算する際、目的は、以下の最大を見い出すことである。
Nは、確率が2つの人間の確率マップの各々にマップされた物理的な地面の識別座標である。つまり、現実の世界でポイントを選ぶと、そのポイントに関連付けられた2D画像空間人間モデルは、一つの人間モデルはf1(n)を計算するのに用いられ、他の人間モデルはf2(n)を計算するのに用いられ、各カメラシステムごとに特定される。f1(n)及びf2(n)は、上述の関数と同じであっても良い(それぞれの適切なビデオ画像から抽出された人間フォアグラウンドブロブセット又は人間のフォアグラウンド領域)。
ここで、Rは、人間リコール比であり、それは選択された人間モデルの全領域上の人間フォアグラウンド領域のパーセンテージとして定義される。Pは人間精度であり、それは選択された人間モデルと重複しているフォアグラウンド領域のパーセンテージである。Oは人間重複比率であり、それは第1番目から第n−1番目までの人間モデルによって占められた領域[シグマf(n)を計算する際に現在のパスで以前に選択された人間モデルによって占められた領域]を有する、選択された第n番目の人間モデルの重複である。wR、wP及びwOは、重さである。重さは、関数f1(n)とf2(n)との間で異なることがある点に注意されたい。次の局部的最大を選択する際に更なに考慮するピクセルの除外は、以前に選択された人間モデルバックの地面座標と関連付けられた3D人間モデルを、それぞれのイメージ面で2つの確率マップの各々に投影しても良い。
あるいは別の変形例として、単一の確率マップを、複数のカメラのために使用されても良い。図17の実施例において、確率計算は、ここに記載されたように2Dビデオ画像の各々についてなされ、それぞれの2D画像面に対応する2つの画像面確率マップを作成しても良い。画像面確率マップの確率は、もし特定の閾値(各画像面確率マップ毎に同じ又は異なる)を超えなければ、ゼロにセットしても良い。各画像面確率マップ内の識別座標は、画像面確率マップの各々について現実世界の地面座標に翻訳されても良く、各ビデオ画像について地面確率マップが作成される。2つの地面確率マップは、同じ地面座標を共有する確率を増やすことによって合併されて、合併された確率マップを作成しても良い。合併された地面確率マップは、局部的最大を見い出すためにスキャンされても良い。各局部最大は、適切であれば、f1(n)又はf2(n)(前述)を計算するのに用いら得るそれぞれの画像空間内で、ビデオ画像の各々について、別々の人間モデルを特定しても良い。複数の局部的最大のために合併された地面確率マップの複数のスキャンを実行することは、以降の人間モデル(ビデオ画像の各々のため)を見い出して、以下を計算するためになされても良い。
選択制約(例えば3D現実世界内の最小確率閾値と最小距離)は変えても良く、新しいスキャンパスがm人間3Dモデル(この実施例では2mの2D人間モデルと一致)の最適のセットを見い出すために実行される。
以上、実施形態を説明したが、それらに限定されるものとして解釈されてはならない。幾つかの実施形態を記述したが、当業者は、本開示の新規な教示と長所から実質的に離れる実施形態において様々な変更が可能であることを容易に認識するであろう。たとえば、本開示は、ビデオ画像内における人間オブジェクトの検出について記述したが、本発明はそれに限定されるものではなく、また他の対象物を検出しても良い。

Claims (29)

  1. ビデオ内で人間オブジェクトを見つける方法であって、
    ビデオ画像の複数のピクセルについて、フォアグラウンドピクセルであると決定すること、ここで、一群の前記フォアグラウンドピクセルは、一又は複数のフォアグラウンドブロブからなるフォアグラウンドブロブセットを構成し、
    前記ビデオ画像内に規則的に分布しているN個の所定位置(Nは1を超える正の整数)のそれぞれに対応するN個の所定形状のそれぞれについて、対応する前記所定形状と前記フォアグラウンドブロブセットとを比較することによって第1の値を算出すること、ここで、前記第1の値は、対応する前記所定位置における人間の確率を得て、それによって前記N個の位置に対応するN個の確率を得るために用いられ、
    前記N個の確率を用いて、前記フォアグラウンドブロブセットによってX人の人間(Xは非負の整数)が表わされることを決定すること、及び
    前記X人の人間が表わされていることについての前記決定を用いて、レポート、アラーム、及びイベント検出のうちの少なくとも一つを提供すること、を含み、
    前記N個の位置のそれぞれに対応する前記所定形状のサイズは、ビデオシステムのキャリブレーションに応答して決定され、
    前記N個の所定形状のそれぞれについての、対応する前記所定形状と前記フォアグラウンドブロブセットとの前記比較は、対応する前記所定形状と前記フォアグラウンドブロブセットとの重複領域の量を分析することを含む、方法。
  2. 前記X人の人間のそれぞれの位置を決定するために前記N個の確率を使うことをさらに含む、
    請求項1に記載の方法。
  3. 前記X人の人間のそれぞれについて前記決定された位置は、前記ビデオ画像に対応する画像面内の位置である、
    請求項2に記載の方法。
  4. 前記X人の人間のそれぞれについて前記決定された位置は、現実の世界に対応する物理的地面についての位置である、
    請求項2に記載の方法。
  5. 前記ビデオ画像の複数のフォアグラウンドピクセルを決定することは、フォアグラウンドオブジェクトの無いビデオ画像の第1フレームと、前記フォアグラウンドオブジェクトを含むビデオ画像の第2フレームとの比較を含む、
    請求項1に記載の方法。
  6. 前記所定形状は、前記N個の位置のそれぞれについて同じである、
    請求項1に記載の方法。
  7. 前記N個の位置のうちの少なくとも幾つかについての前記所定形状は、異なるサイズを有する、
    請求項1に記載の方法。
  8. 前記ビデオシステムの前記キャリブレーションは、前記N個の位置のそれぞれにおける平均的な人間サイズに対応する前記ビデオ画像の一部の画像サイズを決定することを含み、
    前記N個の位置のそれぞれについての前記所定形状のサイズは、対応する前記画像サイズに応答して決定される、
    請求項1に記載の方法。
  9. フォアグラウンドピクセルである前記ビデオ画像の複数のピクセルの決定に先立ち、前記N個の位置のそれぞれについて、対応する前記位置に人間が存在するときに前記ビデオ画像内において占められるフォアグラウンド画像部分を推定することによって、対応する前記所定形状を決定することをさらに含む、
    請求項1に記載の方法。
  10. 前記N個の位置のそれぞれについての前記フォアグラウンド画像部分の前記推定は、前記ビデオ画像の画像面上への現実世界における人間のモデルの投影に基づく、
    請求項9に記載の方法。
  11. 前記ビデオ画像は複数の画像フレームを有し、各画像フレームは、前記N個の位置を有する2次元画像を含み、前記N個の位置のそれぞれは、前記二次元画像内の対応するx,y座標によって特定される、
    請求項1に記載の方法。
  12. 前記N個の位置のそれぞれは、前記ビデオ画像に対応する画像面に関して、前記N個の所定形状のうちの対応する1つに関連付けられる、
    請求項11に記載の方法。
  13. 前記N個の位置のそれぞれについて、関連する確率を求めるために、対応する前記所定形状及び前記フォアグラウンドブロブセットのリコール比を計算することをさらに含む、
    請求項1に記載の方法。
  14. 前記N個の位置のそれぞれについて、前記リコール比の計算は、(a)前記所定形状によって占められた領域と前記フォアグラウンドブロブセットの重複からなる領域と、(b)前記所定形状によって占められた前記領域と、の比を決定することを含む、
    請求項13に記載の方法。
  15. 前記N個の確率を有する確率マップを作成すること、及び
    前記確率マップの確率の極大値を決定すること、
    をさらに含む、請求項1に記載の方法。
  16. 前記確率マップの極大値に対応して前記N個の位置のうちの第1の位置を選択すること、
    前記第1の位置に対応する第1の所定形状を得ること、及び
    前記第1の所定形状によって占められた領域と前記フォアグラウンドブロブセットの重複の量を分析すること、
    をさらに含む、請求項1に記載の方法。
  17. (a)前記第1の所定形状によって占められた領域と前記フォアグラウンドブロブセットの重複からなる領域と、(b)前記所定形状によって占められた前記領域との第1の比を計算することをさらに含み、
    前記第1の比は、前記フォアグラウンドブロブセットによってX人の人間が表されることを決定するために用いられる、
    請求項16に記載の方法。
  18. 前記N個の位置のうちのm個の位置(mは整数)のそれぞれについて、精度値及びリコール値を計算することをさらに含み、
    前記m個の位置のそれぞれは前記確率マップの極大値に対応する、
    請求項15に記載の方法。
  19. 前記N個の確率に基づいて、前記N個の所定形状のサブセットを選択すること、及び
    前記N個の所定形状の選択されたサブセットによって占められた領域と前記フォアグラウンドブロブセットによって占められた領域との重複を分析すること、
    をさらに含む、請求項1に記載の方法。
  20. 前記N個の位置の1番目からm番目を順に選択することをさらに含み、
    (m−1)番目の位置の選択は、前記(m−1)番目の位置から第1の所定距離内にある、前記N個の位置のうちの後続する1つの選択を排除する、
    請求項1に記載の方法。
  21. 前記N個の位置の1番目からm番目を順に選択することをさらに含み、
    前記N個の位置のうちの次の位置の選択は、前記ビデオ画像の底縁に近い位置を選択すること、
    請求項1に記載の方法。
  22. ビデオ内で人間オブジェクトを見つける方法であって、
    現実世界のシーンのビデオ画像の複数のピクセルについて、フォアグラウンドピクセルであると決定すること、ここで、一群の前記フォアグラウンドピクセルは、一又は複数のフォアグラウンドブロブからなるフォアグラウンドブロブセットを構成し、
    前記ビデオ画像内に規則的に分布しているN個の所定位置(Nは1を超える正の整数)のそれぞれに対応するN個の所定形状のそれぞれについて、対応する前記所定形状と前記フォアグラウンドブロブセットとを比較することによって第1の値を算出すること、ここで、前記第1の値は、前記フォアグラウンドブロブセットによって表されるX人の人間(Xは非負の整数)を決定するために用いられ、前記X人の人間のそれぞれの位置は、前記現実世界の水平面内の位置として決定され、及び
    前記X人の人間が表わされていることについての前記決定を用いて、群衆密度が閾値を超える場合に、レポート、アラーム及びイベント検出のうちの少なくとも一つを提供すること、を含み、
    前記N個の位置のそれぞれに対応する前記所定形状のサイズは、ビデオシステムのキャリブレーションに応答して決定され、
    前記ビデオシステムは前記ビデオ画像を得るために用いられ、
    前記N個の所定形状のそれぞれについての、対応する前記所定形状と前記フォアグラウンドブロブセットとの前記比較は、対応する前記所定形状と前記フォアグラウンドブロブセットとの重複領域の量を分析することを含む、方法。
  23. 前記X人の人間の位置の少なくとも幾つかをレビューすることによって、群衆の存在を検出することをさらに含む、
    請求項22に記載の方法。
  24. X人の人間のうちのY人が前記現実世界の前記水平面の領域内に位置すると決定されたときに、群衆の存在を決定することをさらに含む、
    請求項22に記載の方法。
  25. 前記現実世界の前記水平面の前記領域は、前記現実世界内に所定の領域サイズを有する所定の地理的形状を含む、
    請求項24に記載の方法。
  26. 前記現実世界の前記水平面の前記領域は、円によって定義される領域を含む、
    請求項24に記載の方法。
  27. 前記ビデオ画像の第1フレームに対応する第1領域内の第1群衆密度を決定すること、
    前記ビデオ画像の第2フレームに対応する前記第1領域内の第2群衆密度を決定すること、及び
    前記第1群衆密度及び前記第2群衆密度に応じて群衆集合イベントを決定すること、
    をさらに含む、請求項22に記載の方法。
  28. 前記ビデオ画像の第1フレームに対応する第1領域内の第1群衆密度を決定すること、
    前記ビデオ画像の第2フレームに対応する前記第1領域内の第2群衆密度を決定すること、及び
    前記第1群衆密度及び前記第2群衆密度に応じて群衆消散イベントを決定すること、
    をさらに含む、請求項22に記載の方法。
  29. 現実世界のシーンのビデオ画像を提供するよう構成されたビデオソースと、
    前記ビデオ画像のフォアグラウンドピクセルを検出するよう構成されたコンピュータとを備え、
    一群の前記フォアグラウンドピクセルは、一又は複数のフォアグラウンドブロブからなるフォアグラウンドブロブセットを構成し、
    前記ビデオ画像内に規則的に分布しているN個の所定位置(Nは1を超える正の整数)のそれぞれに対応するN個の所定形状のそれぞれについて、対応する前記所定形状と前記フォアグラウンドブロブセットとを比較することによって第1の値を算出するよう構成され、
    前記第1の値を用いて前記フォアグラウンドブロブセットによって表されるX人の人間(Xは非負の整数)を決定するよう構成され、
    対応する前記所定形状と前記フォアグラウンドブロブセットとの重複領域の量を分析することによって、前記N個の所定形状のそれぞれについて、対応する前記所定形状と前記フォアグラウンドブロブセットとを比較するよう構成され、
    前記X人の人間が表わされていることについての前記決定を用いて、群衆密度が閾値を超える場合に、レポート、アラーム及びイベント検出のうちの少なくとも一つを提供するよう構成される、
    ビデオ監視システム。
JP2015532044A 2012-09-12 2013-09-12 ビデオ内の対象物を検出するための方法、装置及びシステム Active JP6424163B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201261700033P 2012-09-12 2012-09-12
US61/700,033 2012-09-12
US13/838,511 2013-03-15
US13/838,511 US9165190B2 (en) 2012-09-12 2013-03-15 3D human pose and shape modeling
PCT/US2013/059471 WO2014043353A2 (en) 2012-09-12 2013-09-12 Methods, devices and systems for detecting objects in a video

Publications (3)

Publication Number Publication Date
JP2015528614A JP2015528614A (ja) 2015-09-28
JP2015528614A5 JP2015528614A5 (ja) 2017-05-25
JP6424163B2 true JP6424163B2 (ja) 2018-11-14

Family

ID=50233311

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015532044A Active JP6424163B2 (ja) 2012-09-12 2013-09-12 ビデオ内の対象物を検出するための方法、装置及びシステム

Country Status (15)

Country Link
US (3) US9165190B2 (ja)
EP (1) EP2895986B1 (ja)
JP (1) JP6424163B2 (ja)
KR (1) KR102358813B1 (ja)
CN (2) CN104813339B (ja)
AU (1) AU2013315491B2 (ja)
CA (1) CA2884383C (ja)
IL (1) IL237647B (ja)
MX (1) MX347511B (ja)
MY (1) MY175059A (ja)
RU (1) RU2635066C2 (ja)
SA (1) SA515360136B1 (ja)
SG (1) SG11201501725RA (ja)
WO (1) WO2014043353A2 (ja)
ZA (1) ZA201502413B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12131569B2 (en) 2021-04-26 2024-10-29 Toyota Jidosha Kabushiki Kaisha Apparatus, method, and computer program for human detection

Families Citing this family (146)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103731598B (zh) * 2012-10-12 2017-08-11 中兴通讯股份有限公司 一种智能监控终端及视频监控方法
US10009579B2 (en) * 2012-11-21 2018-06-26 Pelco, Inc. Method and system for counting people using depth sensor
US10043067B2 (en) * 2012-12-03 2018-08-07 Harman International Industries, Incorporated System and method for detecting pedestrians using a single normal camera
US9020189B2 (en) * 2012-12-07 2015-04-28 The Nielsen Company (Us), Llc Methods and apparatus to monitor environments
US9536137B2 (en) 2013-03-26 2017-01-03 Megachips Corporation Object detection apparatus
US10373470B2 (en) 2013-04-29 2019-08-06 Intelliview Technologies, Inc. Object detection
CN105518755A (zh) * 2013-09-06 2016-04-20 日本电气株式会社 安全系统、安全方法和非暂时性计算机可读介质
US11615460B1 (en) 2013-11-26 2023-03-28 Amazon Technologies, Inc. User path development
CA2847707C (en) 2014-03-28 2021-03-30 Intelliview Technologies Inc. Leak detection
CN105096406A (zh) 2014-04-30 2015-11-25 开利公司 用于建筑能耗设备的视频分析系统和智能楼宇管理系统
EP3154024B1 (en) * 2014-06-03 2023-08-09 Sumitomo Heavy Industries, Ltd. Human detection system for construction machine
JP6708122B2 (ja) 2014-06-30 2020-06-10 日本電気株式会社 誘導処理装置及び誘導方法
US10943357B2 (en) 2014-08-19 2021-03-09 Intelliview Technologies Inc. Video based indoor leak detection
US9361524B2 (en) 2014-10-20 2016-06-07 King Abdullah University Of Science & Technology System and method for crowd counting and tracking
US10687022B2 (en) 2014-12-05 2020-06-16 Avigilon Fortress Corporation Systems and methods for automated visual surveillance
US10133937B2 (en) * 2014-12-24 2018-11-20 Hitachi Kokusai Electric Inc. Crowd monitoring system
WO2016114134A1 (ja) * 2015-01-14 2016-07-21 日本電気株式会社 移動状況推定装置、移動状況推定方法およびプログラム記録媒体
US10679177B1 (en) 2015-03-25 2020-06-09 Amazon Technologies, Inc. Using depth sensing cameras positioned overhead to detect and track a movement of a user within a materials handling facility
US11205270B1 (en) 2015-03-25 2021-12-21 Amazon Technologies, Inc. Collecting user pattern descriptors for use in tracking a movement of a user within a materials handling facility
US10810539B1 (en) 2015-03-25 2020-10-20 Amazon Technologies, Inc. Re-establishing tracking of a user within a materials handling facility
US10586203B1 (en) * 2015-03-25 2020-03-10 Amazon Technologies, Inc. Segmenting a user pattern into descriptor regions for tracking and re-establishing tracking of a user within a materials handling facility
US9792505B2 (en) * 2015-03-26 2017-10-17 Beijing Kuangshi Technology Co., Ltd. Video monitoring method, video monitoring system and computer program product
JP6344311B2 (ja) * 2015-05-26 2018-06-20 ソニー株式会社 表示装置、情報処理システム及び制御方法
CN106557765A (zh) * 2015-09-29 2017-04-05 欧姆龙株式会社 注意检测装置以及注意检测方法
CN105279484B (zh) * 2015-10-10 2019-08-06 北京旷视科技有限公司 对象检测方法和对象检测装置
US10083376B2 (en) * 2015-10-19 2018-09-25 Honeywell International Inc. Human presence detection in a home surveillance system
US10323450B2 (en) * 2015-10-20 2019-06-18 Hi-Tech Solutions Ltd. Cloud-base ANPR management
CN105404852B (zh) * 2015-10-28 2019-01-25 广州视源电子科技股份有限公司 一种显示公共卫生间空位的方法及装置
JP6467112B2 (ja) 2015-10-30 2019-02-06 フィリップス ライティング ホールディング ビー ヴィ センサシステムのコミッショニング
CN105574499B (zh) * 2015-12-15 2019-08-20 东华大学 一种基于soc的人数检测统计方法及系统
WO2017114846A1 (en) * 2015-12-28 2017-07-06 Robert Bosch Gmbh Depth sensing based system for detecting, tracking, estimating, and identifying occupancy in real-time
EP3414746B1 (en) 2016-02-11 2020-04-08 Signify Holding B.V. People sensing system.
WO2017166098A1 (en) * 2016-03-30 2017-10-05 Xiaogang Wang A method and a system for detecting an object in a video
US9576205B1 (en) * 2016-03-31 2017-02-21 Pointgrab Ltd. Method and system for determining location of an occupant
JP6732522B2 (ja) * 2016-05-02 2020-07-29 キヤノン株式会社 画像処理装置、画像処理方法およびプログラム
US9607402B1 (en) 2016-05-09 2017-03-28 Iteris, Inc. Calibration of pedestrian speed with detection zone for traffic intersection control
WO2017196515A1 (en) * 2016-05-09 2017-11-16 Iteris, Inc. Pedestrian counting and detection at a traffic intersection based on location of vehicle zones
US10026193B2 (en) 2016-05-24 2018-07-17 Qualcomm Incorporated Methods and systems of determining costs for object tracking in video analytics
IL247101B (en) 2016-08-03 2018-10-31 Pointgrab Ltd Method and system for determining present in the image
JP6776719B2 (ja) * 2016-08-17 2020-10-28 富士通株式会社 移動体群検出プログラム、移動体群検出装置、及び移動体群検出方法
US10607070B2 (en) * 2016-09-30 2020-03-31 Intel Corporation Human search and identification in complex scenarios
CN106503631A (zh) * 2016-10-10 2017-03-15 深圳云天励飞技术有限公司 一种人群分析方法及计算机设备
US9638800B1 (en) 2016-11-22 2017-05-02 4Sense, Inc. Passive tracking system
US9720086B1 (en) 2016-11-22 2017-08-01 4Sense, Inc. Thermal- and modulated-light-based passive tracking system
WO2018129094A1 (en) * 2017-01-06 2018-07-12 Intuitive Surgical Operations, Inc. System and method for registration and coordinated manipulation of augmented reality image components
JP6904731B2 (ja) * 2017-03-01 2021-07-21 株式会社Zozo サイズ測定装置、管理サーバ、ユーザ端末及びサイズ測定システム
JP6851233B2 (ja) * 2017-03-16 2021-03-31 セコム株式会社 物体位置推定装置
US10373320B2 (en) * 2017-03-17 2019-08-06 Uurmi Systems PVT, LTD Method for detecting moving objects in a video having non-stationary background
US20180293735A1 (en) * 2017-04-11 2018-10-11 Sony Corporation Optical flow and sensor input based background subtraction in video content
CN108475072A (zh) * 2017-04-28 2018-08-31 深圳市大疆创新科技有限公司 一种跟踪控制方法、装置及飞行器
IL252032A0 (en) * 2017-04-30 2017-07-31 Pointgrab Ltd A method and system for determining presence from images
JP6835218B2 (ja) * 2017-05-22 2021-02-24 日本電気株式会社 群衆状態認識装置、学習方法および学習プログラム
CN107065686B (zh) * 2017-05-24 2018-08-28 海门卡汶纺织品有限公司 车内环境调节方法
CN107292869B (zh) * 2017-06-07 2020-04-07 西安电子科技大学 基于各向异性高斯核和梯度搜索的图像斑点检测方法
CN107292271B (zh) * 2017-06-23 2020-02-14 北京易真学思教育科技有限公司 学习监控方法、装置及电子设备
US10816354B2 (en) 2017-08-22 2020-10-27 Tusimple, Inc. Verification module system and method for motion-based lane detection with multiple sensors
US10565457B2 (en) 2017-08-23 2020-02-18 Tusimple, Inc. Feature matching and correspondence refinement and 3D submap position refinement system and method for centimeter precision localization using camera-based submap and LiDAR-based global map
US10762673B2 (en) 2017-08-23 2020-09-01 Tusimple, Inc. 3D submap reconstruction system and method for centimeter precision localization using camera-based submap and LiDAR-based global map
US10953880B2 (en) 2017-09-07 2021-03-23 Tusimple, Inc. System and method for automated lane change control for autonomous vehicles
US10953881B2 (en) 2017-09-07 2021-03-23 Tusimple, Inc. System and method for automated lane change control for autonomous vehicles
US10649458B2 (en) 2017-09-07 2020-05-12 Tusimple, Inc. Data-driven prediction-based system and method for trajectory planning of autonomous vehicles
CN109583262B (zh) * 2017-09-28 2021-04-20 财团法人成大研究发展基金会 对象侦测的适应系统与方法
US10410055B2 (en) * 2017-10-05 2019-09-10 TuSimple System and method for aerial video traffic analysis
CN108024098A (zh) * 2017-10-27 2018-05-11 广东傲智创新科技有限公司 野外智能视频监控分析系统
US11328513B1 (en) 2017-11-07 2022-05-10 Amazon Technologies, Inc. Agent re-verification and resolution using imaging
US10607365B2 (en) 2017-11-08 2020-03-31 International Business Machines Corporation Presenting an image indicating a position for a person in a location the person is waiting to enter
CN107901424B (zh) * 2017-12-15 2024-07-26 北京中睿华信信息技术有限公司 一种图像采集建模系统
US11312334B2 (en) 2018-01-09 2022-04-26 Tusimple, Inc. Real-time remote control of vehicles with high redundancy
US11305782B2 (en) 2018-01-11 2022-04-19 Tusimple, Inc. Monitoring system for autonomous vehicle operation
CN108171212A (zh) * 2018-01-19 2018-06-15 百度在线网络技术(北京)有限公司 用于检测目标的方法和装置
US11009356B2 (en) 2018-02-14 2021-05-18 Tusimple, Inc. Lane marking localization and fusion
US11009365B2 (en) 2018-02-14 2021-05-18 Tusimple, Inc. Lane marking localization
US10685244B2 (en) 2018-02-27 2020-06-16 Tusimple, Inc. System and method for online real-time multi-object tracking
CN108491766B (zh) * 2018-03-05 2021-10-26 中山大学 一种端到端的基于深度决策森林的人群计数方法
RU2683499C1 (ru) 2018-03-15 2019-03-28 Антон Владимирович Роженков Система автоматического создания сценарного видеоролика с присутствием в кадре заданного объекта или группы объектов
JP2019176306A (ja) * 2018-03-28 2019-10-10 キヤノン株式会社 監視システム、監視システムの制御方法及びプログラム
SG10201802673VA (en) * 2018-03-29 2019-10-30 Nec Asia Pacific Pte Ltd Method and system for integration and automatic switching of crowd estimation techniques
CN108491843B (zh) * 2018-04-12 2022-11-18 腾讯科技(深圳)有限公司 一种图像处理方法、装置及存储介质
CN110378185A (zh) 2018-04-12 2019-10-25 北京图森未来科技有限公司 一种应用于自动驾驶车辆的图像处理方法、装置
CN110390226B (zh) * 2018-04-16 2021-09-21 杭州海康威视数字技术股份有限公司 人群事件识别方法、装置、电子设备及系统
WO2019206239A1 (en) * 2018-04-27 2019-10-31 Shanghai Truthvision Information Technology Co., Ltd. Systems and methods for detecting a posture of a human object
CN110458854B (zh) 2018-05-02 2022-11-15 北京图森未来科技有限公司 一种道路边缘检测方法和装置
CN108629325B (zh) * 2018-05-11 2021-06-22 北京旷视科技有限公司 物品位置的确定方法、装置及系统
US11163862B2 (en) * 2018-05-16 2021-11-02 International Business Machines Corporation Authentication of users based on snapshots thereof taken in corresponding acquisition conditions
US11669724B2 (en) 2018-05-17 2023-06-06 Raytheon Company Machine learning using informed pseudolabels
CN110505412B (zh) * 2018-05-18 2021-01-29 杭州海康威视数字技术股份有限公司 一种感兴趣区域亮度值的计算方法及装置
WO2019238128A1 (en) 2018-06-14 2019-12-19 Shanghai United Imaging Healthcare Co., Ltd. Methods and systems for image processing
CN109145708B (zh) * 2018-06-22 2020-07-24 南京大学 一种基于rgb和d信息融合的人流量统计方法
US10841723B2 (en) * 2018-07-02 2020-11-17 Harman International Industries, Incorporated Dynamic sweet spot calibration
CN109325963B (zh) * 2018-08-07 2021-05-18 长安大学 一种基于svm的公交乘客三维轨迹分类方法
EP3849868A4 (en) 2018-09-13 2022-10-12 Tusimple, Inc. REMOTE SAFE DRIVING PROCESSES AND SYSTEMS
DE102018122521A1 (de) * 2018-09-14 2020-03-19 Günter Guttroff Verfahren zur Überwachung und Überwachungssystem
EP3629226B1 (en) * 2018-09-26 2020-11-25 Axis AB Method for converting alerts
CN109284574B (zh) * 2018-10-25 2022-12-09 西安科技大学 一种串联桁架结构体系非概率可靠性分析方法
CN109241951A (zh) * 2018-10-26 2019-01-18 北京陌上花科技有限公司 色情图片识别方法、识别模型构建方法及识别模型和计算机可读存储介质
US10942271B2 (en) 2018-10-30 2021-03-09 Tusimple, Inc. Determining an angle between a tow vehicle and a trailer
CN111126117B (zh) * 2018-11-01 2023-05-02 阿里巴巴集团控股有限公司 信息处理方法和装置
US10719707B2 (en) * 2018-11-13 2020-07-21 Vivotek Inc. Pedestrian detection method and related monitoring camera
US12014563B2 (en) 2018-11-21 2024-06-18 Nec Corporation Information processing apparatus, control method, and non-transitory storage medium
KR102118519B1 (ko) 2018-11-22 2020-06-15 삼성전자주식회사 전자 장치 및 그 제어 방법
US11423564B2 (en) * 2018-11-30 2022-08-23 Healthreel, Inc. Body modeling using mobile device
CN111366938B (zh) 2018-12-10 2023-03-14 北京图森智途科技有限公司 一种挂车夹角的测量方法、装置及车辆
US11386306B1 (en) * 2018-12-13 2022-07-12 Amazon Technologies, Inc. Re-identification of agents using image analysis and machine learning
CN111319629B (zh) 2018-12-14 2021-07-16 北京图森智途科技有限公司 一种自动驾驶车队的组队方法、装置及系统
US10957074B2 (en) * 2019-01-29 2021-03-23 Microsoft Technology Licensing, Llc Calibrating cameras using human skeleton
CN110020602A (zh) * 2019-03-07 2019-07-16 苏州诺亚图智能科技有限公司 一种高精度人物区域检测系统
CA3138269A1 (en) * 2019-04-29 2020-11-05 Bae Systems Plc A system and method for localisation using footprints
KR102707085B1 (ko) 2019-04-30 2024-09-19 주식회사 에이치엘클레무브 카메라 보정 시스템 및 그 방법
CN110222579B (zh) * 2019-05-09 2022-12-16 华南理工大学 一种结合运动规律和目标检测的视频对象计数方法
US20200380252A1 (en) 2019-05-29 2020-12-03 Walmart Apollo, Llc Systems and methods for detecting egress at an entrance of a retail facility
US11048948B2 (en) * 2019-06-10 2021-06-29 City University Of Hong Kong System and method for counting objects
US11823460B2 (en) 2019-06-14 2023-11-21 Tusimple, Inc. Image fusion for autonomous vehicle operation
US11178363B1 (en) 2019-06-27 2021-11-16 Objectvideo Labs, Llc Distributed media monitoring
CN110502967B (zh) * 2019-07-01 2020-12-18 光控特斯联(上海)信息科技有限公司 基于人员大数据的目标场景人工智能匹配方法和装置
AU2019100806A4 (en) * 2019-07-24 2019-08-29 Dynamic Crowd Measurement Pty Ltd Real-Time Crowd Measurement And Management Systems And Methods Thereof
US11068747B2 (en) * 2019-09-27 2021-07-20 Raytheon Company Computer architecture for object detection using point-wise labels
CN111652763A (zh) * 2019-10-07 2020-09-11 蒋兴德 基于无线通信的参考平台及方法
CN110796073B (zh) * 2019-10-28 2021-05-25 衢州学院 一种无纹理场景视频中对特定目标区域的侦测方法和装置
US11417104B2 (en) 2019-11-01 2022-08-16 Walmart Apollo, Llc Systems and methods for automatically determining location of an object inside a retail store
US11106904B2 (en) * 2019-11-20 2021-08-31 Omron Corporation Methods and systems for forecasting crowd dynamics
JP7370840B2 (ja) * 2019-12-09 2023-10-30 キヤノン株式会社 画像処理装置、画像処理方法、コンピュータプログラム及び記憶媒体
KR20210097415A (ko) 2020-01-30 2021-08-09 한국전자통신연구원 실시간 영상기반 객체 탐지 방법 및 장치
CN111405239B (zh) * 2020-02-17 2021-08-31 浙江大华技术股份有限公司 监控方法、服务器、监控系统以及计算机可读存储介质
KR20210114728A (ko) * 2020-03-11 2021-09-24 연세대학교 산학협력단 박스 레벨의 객체 위치 정보를 사용한 픽셀 레벨의 동영상 객체 추적 장치
GB2593717B (en) * 2020-03-31 2022-08-24 Imperial College Innovations Ltd Image processing system and method
RU2748581C1 (ru) * 2020-04-02 2021-05-27 Антон Владимирович Роженков Система автоматического создания сценарного видеоролика с присутствием в кадре заданного объекта или группы объектов
EP3893150A1 (en) 2020-04-09 2021-10-13 Tusimple, Inc. Camera pose estimation techniques
US11676391B2 (en) 2020-04-16 2023-06-13 Raytheon Company Robust correlation of vehicle extents and locations when given noisy detections and limited field-of-view image frames
CN111724442B (zh) * 2020-05-28 2022-04-22 上海商汤智能科技有限公司 图像处理方法及装置、电子设备及存储介质
CN111832413B (zh) * 2020-06-09 2021-04-02 天津大学 基于时空多尺度网络的人流密度图估计、定位和跟踪方法
AU2021203567A1 (en) 2020-06-18 2022-01-20 Tusimple, Inc. Angle and orientation measurements for vehicles with multiple drivable sections
US11657613B2 (en) 2020-08-11 2023-05-23 Analog Devices International Unlimited Company Zone based object tracking and counting
JP2022051008A (ja) * 2020-09-18 2022-03-31 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
JP7121781B2 (ja) * 2020-09-28 2022-08-18 ソフトバンク株式会社 情報処理方法、プログラムおよび情報処理装置
JP7265672B2 (ja) * 2020-09-28 2023-04-26 ソフトバンク株式会社 情報処理方法、プログラムおよび情報処理装置
US11348338B2 (en) * 2020-11-04 2022-05-31 Huawei Technologies Co., Ltd. Methods and systems for crowd motion summarization via tracklet based human localization
US11663822B2 (en) 2020-11-24 2023-05-30 Microsoft Technology Licensing, Llc Accurate video event inference using 3D information
JP2022090491A (ja) 2020-12-07 2022-06-17 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム
US11562184B2 (en) 2021-02-22 2023-01-24 Raytheon Company Image-based vehicle classification
CN113392714B (zh) * 2021-05-20 2024-06-14 上海可深信息科技有限公司 一种聚众事件检测方法及系统
JP2022184574A (ja) * 2021-06-01 2022-12-13 キヤノン株式会社 情報処理装置、情報処理方法、及びプログラム
US20230290162A1 (en) * 2022-03-09 2023-09-14 Volvo Car Corporation Pedestrian detection via a boundary cylinder model
CN114743159A (zh) * 2022-03-31 2022-07-12 武汉市江夏区人民政府纸坊街道办事处 一种基于物联网的智慧街道人口大数据综合管理平台
CN114550074B (zh) * 2022-04-25 2022-07-12 成都信息工程大学 一种基于计算机视觉的图像识别方法及系统
US20230415786A1 (en) * 2022-06-24 2023-12-28 Sharper Shape Oy System and method for localization of anomalous phenomena in assets
CN115861572B (zh) * 2023-02-24 2023-05-23 腾讯科技(深圳)有限公司 一种三维建模方法、装置、设备及存储介质

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS50131497A (ja) * 1974-04-03 1975-10-17
US6961443B2 (en) 2000-06-15 2005-11-01 Automotive Systems Laboratory, Inc. Occupant sensor
US7868912B2 (en) 2000-10-24 2011-01-11 Objectvideo, Inc. Video surveillance system employing video primitives
US20050146605A1 (en) 2000-10-24 2005-07-07 Lipton Alan J. Video surveillance system employing video primitives
US8711217B2 (en) * 2000-10-24 2014-04-29 Objectvideo, Inc. Video surveillance system employing video primitives
US7127083B2 (en) 2003-11-17 2006-10-24 Vidient Systems, Inc. Video surveillance system with object detection and probability scoring based on object class
JP2006031645A (ja) * 2004-07-12 2006-02-02 Nariyuki Mitachi 動的群集密度のリアルタイム推定方法及び群集事故防止システム
RU45546U1 (ru) * 2005-01-14 2005-05-10 Шорин Михаил Викторович Модель действия горизонтальной силы гравитации
US20060182339A1 (en) * 2005-02-17 2006-08-17 Connell Jonathan H Combining multiple cues in a visual object detection system
WO2006097681A1 (en) 2005-03-17 2006-09-21 British Telecommunications Public Limited Company Method of tracking objects in a video sequence
US7825954B2 (en) 2005-05-31 2010-11-02 Objectvideo, Inc. Multi-state target tracking
US20090041297A1 (en) * 2005-05-31 2009-02-12 Objectvideo, Inc. Human detection and tracking for security applications
US7801330B2 (en) 2005-06-24 2010-09-21 Objectvideo, Inc. Target detection and tracking from video streams
US20070058836A1 (en) 2005-09-15 2007-03-15 Honeywell International Inc. Object classification in video data
KR101375583B1 (ko) 2005-11-23 2014-04-01 오브젝트비디오 인코퍼레이티드 비디오에서의 물체 조밀도 판단
JP4532419B2 (ja) * 2006-02-22 2010-08-25 富士フイルム株式会社 特徴点検出方法および装置並びにプログラム
US8116564B2 (en) * 2006-11-22 2012-02-14 Regents Of The University Of Minnesota Crowd counting and monitoring
US8358806B2 (en) * 2007-08-02 2013-01-22 Siemens Corporation Fast crowd segmentation using shape indexing
CN101388077A (zh) * 2007-09-11 2009-03-18 松下电器产业株式会社 目标形状检测方法及装置
US8195598B2 (en) 2007-11-16 2012-06-05 Agilence, Inc. Method of and system for hierarchical human/crowd behavior detection
US8103055B2 (en) * 2008-01-11 2012-01-24 Omg Plc Detection of blobs in images
JP5227639B2 (ja) * 2008-04-04 2013-07-03 富士フイルム株式会社 オブジェクト検出方法、オブジェクト検出装置、およびオブジェクト検出プログラム
WO2010080687A1 (en) 2009-01-09 2010-07-15 Thomson Licensing Method and apparatus for detecting and separating objects of interest in soccer video by color segmentation and shape analysis
US8253792B2 (en) * 2009-08-28 2012-08-28 GM Global Technology Operations LLC Vision system for monitoring humans in dynamic environments
WO2012012555A1 (en) * 2010-07-20 2012-01-26 SET Corporation Methods and systems for audience digital monitoring
WO2012114574A1 (ja) * 2011-02-21 2012-08-30 三菱電機株式会社 画像拡大装置及び方法
CN102385803B (zh) * 2011-10-28 2013-09-25 南京邮电大学 基于视频监控的全天候市区车辆跟踪与计数方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12131569B2 (en) 2021-04-26 2024-10-29 Toyota Jidosha Kabushiki Kaisha Apparatus, method, and computer program for human detection

Also Published As

Publication number Publication date
JP2015528614A (ja) 2015-09-28
IL237647A0 (en) 2015-04-30
CN104813339A (zh) 2015-07-29
BR112015005282A8 (pt) 2022-10-04
WO2014043353A2 (en) 2014-03-20
BR112015005282A2 (pt) 2017-07-04
RU2635066C2 (ru) 2017-11-08
IL237647B (en) 2018-06-28
EP2895986A4 (en) 2016-05-04
KR20150067193A (ko) 2015-06-17
KR102358813B1 (ko) 2022-02-04
CN104813339B (zh) 2017-05-10
MX2015003153A (es) 2015-12-16
SA515360136B1 (ar) 2018-08-02
ZA201502413B (en) 2016-07-27
US20140072170A1 (en) 2014-03-13
CN107256377A (zh) 2017-10-17
AU2013315491A1 (en) 2015-04-09
US20150178571A1 (en) 2015-06-25
EP2895986B1 (en) 2019-03-06
MY175059A (en) 2020-06-04
MX347511B (es) 2017-04-28
RU2015109072A (ru) 2016-11-10
WO2014043353A3 (en) 2014-06-26
US9443143B2 (en) 2016-09-13
CA2884383A1 (en) 2014-03-20
CN107256377B (zh) 2021-03-16
US9646212B2 (en) 2017-05-09
US20160379061A1 (en) 2016-12-29
AU2013315491B2 (en) 2018-08-09
SG11201501725RA (en) 2015-04-29
US9165190B2 (en) 2015-10-20
CA2884383C (en) 2021-05-11
EP2895986A2 (en) 2015-07-22

Similar Documents

Publication Publication Date Title
JP6424163B2 (ja) ビデオ内の対象物を検出するための方法、装置及びシステム
US20200279121A1 (en) Method and system for determining at least one property related to at least part of a real environment
JP6295645B2 (ja) 物体検出方法及び物体検出装置
JP4742168B2 (ja) ビデオ監視カメラが検出した対象物の特性を識別する方法および機器
JP6184271B2 (ja) 撮像管理装置、撮像管理システムの制御方法およびプログラム
US8571274B2 (en) Person-judging device, method, and program
US11776213B2 (en) Pose generation apparatus, generation method, and storage medium
CN112562005A (zh) 一种空间标定方法和系统
JP7420146B2 (ja) カメラ校正装置、カメラ校正方法及びカメラ校正プログラム
JP2018197945A (ja) 障害物検出装置および障害物検出方法
Rougier et al. 3D head trajectory using a single camera
Zhang et al. Fast crowd density estimation in surveillance videos without training
JP2017068375A (ja) 複数のカメラ間での人物の追跡装置、追跡方法及びプログラム
Hung et al. Detecting fall incidents of the elderly based on human-ground contact areas
JP2013190938A (ja) ステレオ画像処理装置
BR112015005282B1 (pt) Métodos de detecção de indivíduos humanos em um vídeo
Gupta et al. CVCP-Fusion: On Implicit Depth Estimation for 3D Bounding Box Prediction
Gavriilidis et al. Evaluation of the Lens Distortion Errors in 2-D Image to 3-D World Coordinate Projections
JP2024536355A (ja) 検出領域を適応的に調整するための方法、装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160909

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20161205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20161205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170404

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20170404

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170630

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20170704

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170711

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20170919

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171205

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20180306

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180706

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20180718

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180925

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181022

R150 Certificate of patent or registration of utility model

Ref document number: 6424163

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D02

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D02

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250