JP2016072964A - 被写体再識別のためのシステム及び方法 - Google Patents
被写体再識別のためのシステム及び方法 Download PDFInfo
- Publication number
- JP2016072964A JP2016072964A JP2015164151A JP2015164151A JP2016072964A JP 2016072964 A JP2016072964 A JP 2016072964A JP 2015164151 A JP2015164151 A JP 2015164151A JP 2015164151 A JP2015164151 A JP 2015164151A JP 2016072964 A JP2016072964 A JP 2016072964A
- Authority
- JP
- Japan
- Prior art keywords
- subject
- attribute
- candidate
- camera
- interest
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/53—Recognition of crowd images, e.g. recognition of crowd congestion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/18—Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
- Closed-Circuit Television Systems (AREA)
- Burglar Alarm Systems (AREA)
- Studio Devices (AREA)
Abstract
【課題】候補被写体が着目被写体であるか否かを判定するために使用するカメラ設定を計画する方法を提供する。【解決手段】シーンの中の被写体を識別する方法400であって、カメラの視点と関係なく、着目被写体の複数の属性の各々の独自性411を判定するステップ410と、シーンの中の候補被写体の相対的向き541に基づいて、複数の属性の各々の検出可能性を判定するステップ425と、少なくとも1つの属性の検出可能性を向上させるように、少なくとも1つの属性の判定された独自性411に基づいて、候補被写体を観察するためのカメラ設定461を決定するステップ460と、候補被写体が着目被写体であることの信頼度441を判定する440ために、決定されたカメラ設定461で候補被写体の画像を撮像するステップ420とを備える。【選択図】図4
Description
本発明は、一般に画像処理に関し、特に、候補被写体が着目被写体であるか否かを判定するために使用されるパン値、チルト値及びズーム値などの一連のカメラ設定を計画する方法、システム及び装置に関する。例を挙げると、「候補被写体」及び「着目被写体」という用語は、それぞれ、(i)混雑した空港におり、人混みの中の一人であるにすぎない人物と、(ii)特定の着目人物であると既に識別されている人混みの中の人物とを表す。本発明は、候補被写体が着目被写体であるか否かを判定するために使用される一連のカメラ設定を計画するためのコンピュータプログラムが記録されたコンピュータ可読媒体を含むコンピュータプログラム製品にも関する。
ビデオカメラの大規模ネットワークを使用して、ショッピングセンター、駐車場及び駅などの公共施設が監視下に置かれることが増えている。大規模ビデオ監視が適用される分野は、セキュリティ、保安、交通管理及び業務上の分析などである。そのような多くの用途において重大な業務は、迅速且つ着実に被写体を再識別することであり、これは、ネットワーク内の多数のカメラで特定の着目被写体を発見するという問題である。セキュリティの分野に適用した場合を例にとると、警備員は、望ましくない行為を識別するために特に疑わしいターゲットを含むすべてのビデオフィードを見たいと思うかもしれない。更に業務上の分析の分野の例で言えば、ショッピングセンターは、特定の顧客が買い物をするときの習慣のプロファイルを構築するために多数のカメラでその顧客を追跡することを望むかもしれない。以下の説明中、用語「被写体再識別」は、用語「被写体識別」及び「被写体認識」を含むものと理解されるだろう。
着実に被写体を再識別することは、いくつかの理由により難しい問題である。第1に、ネットワーク内のカメラの間で視点(すなわち、カメラの視野の中の被写体に対するカメラの相対的な向き)及び照明が著しく大きく異なる場合がある。例えば、明るい日差しの中で遠距離からターゲットを観察する屋外用カメラ及び人工照明の下でターゲットを近距離から観察する屋内用カメラの双方が1つのネットワークに含まれる場合もある。更に、多くのターゲットが似たような外見を有し、ごく小さな詳細部でのみ異なっているかもしれない。例えば、公共交通機関にいる多くの通勤者は似たようなビジネスウェアを着用しており、その外見はネックウェアや髪の長さなどの詳細部で違っているだけである。また、多くの場合、公共施設の特徴は、無制御な環境の中で、カメラに対して絶えず変化する予測不可能な距離、速度及び向きで動き回る互いに協調関係のないターゲットから成る群衆を含むことである。用語「協調関係のないターゲット」は、意識的にも、無意識でもカメラに対して特定の関係をまったく維持していないターゲットを表す。最後に、ネットワーク内のカメラの視野は互いに重なり合わない場合もあるので、所定の被写体をある1つのカメラから次のカメラへ継続的に追跡することができない。
被写体再識別の一般的な方法は、(i)外見に基づくか又は属性に基づく方法、及び(ii)固定カメラ又はアクティブカメラに適用される方法を含む。固定カメラを使用する外見に基づく被写体再識別のための既知の方法の1つは、被写体の例示的な画像から色、テクスチャ及び形状に基づく低レベル特徴のベクトルを抽出することにより被写体の外見をモデル化する。それらの特徴は、ターゲットの頭の周囲の縦縞により規定される着目領域において抽出される。再識別は、候補ターゲットの画像及び着目ターゲットの画像から抽出された特徴ベクトルの間のバタチャリヤ(Bhattacharyya)距離に基づいて外見相違スコアを計算することにある程度基づく。
固定カメラで属性に基づく再識別を実行する別の既知の方法は、歩行者の画像から15の2進属性(サングラス、バックパック及びスカートなど)の有無を判定するためにSVM(サポートベクターマシン)分類子のバンクを使用する。SVM分類子は、既知の属性を有する歩行者のトレーニングセットからの2,784次元の低レベル色特徴ベクトル及びテクスチャ特徴ベクトルに対してトレーニングされる。異なる属性が種々の信頼性で検出されるという問題を克服するために、複数対の歩行者の画像を照合するデータセットに基づいて属性距離尺度(マハラノビス距離)が学習される。再識別は、候補ターゲットの画像及び着目ターゲットの画像から抽出された15の属性の間の学習済み属性距離尺度を計算することにある程度基づく。
遠い距離から被写体を観察する場合、固定カメラに基づく上記の再識別方法の性能は劣化する。この状況は、大規模ビデオ監視システムでは一般的である。PTZ(パン・チルト・ズーム)カメラに基づく再識別方法は、遠い距離から候補被写体の高解像度画像を撮像するためにカメラを制御することにより、この限界を克服できる。この方法は、「能動的再識別」の1つの形態と呼ばれる。能動的再識別の既知の方法の1つは、着目被写体を識別するために顔検出を使用する。固定マスターカメラは、ターゲットを検出し且つターゲットの視線方向を推定するために使用され、アクティブスレーブカメラは、選択された候補ターゲットの高解像度顔画像を取得するために使用される。候補ターゲットの選択は、ターゲットを観測することにより得られるターゲットのアイデンティティに関する予測情報利得に基づく。「相互情報量」として知られる「予測情報利得」は、観測を実行した結果、予測されるターゲットのアイデンティティに関する不確実度の減少である。この方法は、スレーブカメラの方に向いており且つ不確実なアイデンティティを有する候補を選択しがちである。この方法の欠点は、特定の視点(すなわち正面)で撮像された非常に見分けやすい特徴(すなわち顔)に依存することである。
情報理論概念に基づく能動的再識別のための別の既知の方法は、候補被写体のクラスに関する予測情報利得を最大にするために、候補被写体の異なる領域のズームインビューを撮像するための一連のPTZ設定を動的に計画する。用語「クラス」は、「本」又は「マグカップ」のような意味的被写体カテゴリを表す。情報利得は、異なるPTZ設定の下で取得された着目被写体の低レベル画像特徴の学習済み分布からある程度は計算される。この方法は、特徴分布を学習するために、利用可能なあらゆるPTZ設定の下で各クラスの被写体の多数の画像をオフラインで取得できると想定する。
別の既知の関連方法では、カメラ設定は、被写体検出器などの確率的オートマトンにおいて相互情報量を最大にするために制御される。確率的オートマトンは、異なるスケールで量子化された画像特徴(「コードワード」としても知られる)を入力として使用する。コードワードは、第1の撮像画像で最初に検出され、更に高い解像度で個別のコードワードを観測するためにカメラ設定は繰り返し更新される。カメラ設定は、確率的オートマトンにおけるセルに対する入力として使用されるコードワードを観測した後に、セルの状態に関する相互情報量を最大にすることにより選択される。先の方法と同様に、この方法でも、確率的オートマトンをトレーニングするために、着目被写体のデータをトレーニングする必要がある。
更に別の既知の方法は、異なる身体領域の一連のズームイン観測に基づいて既知の人物の集団から歩行者を積極的に再識別する。この方法は、まず、候補の全身画像を撮像し、色及びテクスチャに基づいて特徴ベクトルを抽出する。特徴ベクトルは、候補と各集団画像との間のバタチャリヤ距離に基づいて集団をランク付けするために使用される。次に、連続する各観測が、現在のランクに基づいて集団の中で最大の特徴分散を示すズームイン領域として選択される。この方法は、集団中のあらゆる着目被写体に対して全身及びすべての身体領域のズームインビューを利用できると想定する。
本発明の目的は、既存の構成の1つ以上の欠点をほぼ克服するか又は少なくとも軽減することである。
カメラと着目被写体との間の相対的向き関係に関わらず、着目被写体の属性の独自性を判定することにより上記の問題に対処しようとする視点独立独自性判定(VIDD)構成と呼ばれる構成が開示される。これにより、着目被写体を特定の視点の下で先に観察しておく必要があった既存の方法とは異なり、着目被写体が以前に観察されなかった視点で着目被写体を再識別できる。更に、開示されるVIDD構成は、着目被写体の意味的記述に基づく場合、先に撮像された着目被写体の画像がなくても着目被写体を再識別できる。
本発明の第1の態様によれば、シーンの画像の中の被写体をカメラによって識別する方法であって、
カメラの視点とは関係なく、着目被写体の複数の属性の各々の独自性を判定するステップと、
シーンの画像の中の候補被写体の相対的向きに基づいて、該候補被写体の複数の属性の各々の検出可能性を判定するステップと、
少なくとも1つの属性の検出可能性を向上させるように、判定された少なくとも1つの属性の独自性に基づいて候補被写体を観察するためのカメラ設定を決定するステップと、
候補被写体が着目被写体であることの信頼度を判定するために、決定されたカメラ設定で候補被写体の画像を撮像するステップと
を備える方法が提供される。
カメラの視点とは関係なく、着目被写体の複数の属性の各々の独自性を判定するステップと、
シーンの画像の中の候補被写体の相対的向きに基づいて、該候補被写体の複数の属性の各々の検出可能性を判定するステップと、
少なくとも1つの属性の検出可能性を向上させるように、判定された少なくとも1つの属性の独自性に基づいて候補被写体を観察するためのカメラ設定を決定するステップと、
候補被写体が着目被写体であることの信頼度を判定するために、決定されたカメラ設定で候補被写体の画像を撮像するステップと
を備える方法が提供される。
本発明の別の態様によれば、装置であって、
着目被写体の画像及びシーンの中の候補被写体の画像を撮像するカメラと、
プロセッサと、
シーンの画像の中の被写体をカメラによって識別する方法を実行することをプロセッサに指示するためのコンピュータ実行可能ソフトウェアプログラムを記憶するメモリと
を備え、方法は、
カメラの視点とは関係なく、着目被写体の複数の属性の各々の独自性を判定するステップと、
シーンの画像の中の候補被写体の相対的向きに基づいて、該候補被写体の複数の属性の各々の検出可能性を判定するステップと、
少なくとも1つの属性の検出可能性を向上させるように、判定された少なくとも1つの属性の独自性に基づいて候補被写体を観察するためのカメラ設定を決定するステップと、
候補被写体が着目被写体であることの信頼度を判定するために、決定されたカメラ設定で候補被写体の画像を撮像するステップと
を備える装置が提供される。
着目被写体の画像及びシーンの中の候補被写体の画像を撮像するカメラと、
プロセッサと、
シーンの画像の中の被写体をカメラによって識別する方法を実行することをプロセッサに指示するためのコンピュータ実行可能ソフトウェアプログラムを記憶するメモリと
を備え、方法は、
カメラの視点とは関係なく、着目被写体の複数の属性の各々の独自性を判定するステップと、
シーンの画像の中の候補被写体の相対的向きに基づいて、該候補被写体の複数の属性の各々の検出可能性を判定するステップと、
少なくとも1つの属性の検出可能性を向上させるように、判定された少なくとも1つの属性の独自性に基づいて候補被写体を観察するためのカメラ設定を決定するステップと、
候補被写体が着目被写体であることの信頼度を判定するために、決定されたカメラ設定で候補被写体の画像を撮像するステップと
を備える装置が提供される。
本発明の別の態様によれば、シーンの画像の中の被写体をカメラによって識別する装置であって、
カメラの視点とは関係なく、着目被写体の複数の属性の各々の独自性を判定する独自性判定モジュールと、
シーンの画像の中の候補被写体の相対的向きに基づいて、該候補被写体の複数の属性の各々の検出可能性を判定する検出可能性判定モジュールと、
少なくとも1つの属性の検出可能性を向上させるように、判定された少なくとも1つの属性の独自性に基づいて候補被写体を観察するためのカメラ設定を決定するカメラ設定決定モジュールと、
候補被写体が着目被写体であることの信頼度を判定するために、決定されたカメラ設定で候補被写体の画像を撮像する撮像モジュールと
を備える装置が提供される。
カメラの視点とは関係なく、着目被写体の複数の属性の各々の独自性を判定する独自性判定モジュールと、
シーンの画像の中の候補被写体の相対的向きに基づいて、該候補被写体の複数の属性の各々の検出可能性を判定する検出可能性判定モジュールと、
少なくとも1つの属性の検出可能性を向上させるように、判定された少なくとも1つの属性の独自性に基づいて候補被写体を観察するためのカメラ設定を決定するカメラ設定決定モジュールと、
候補被写体が着目被写体であることの信頼度を判定するために、決定されたカメラ設定で候補被写体の画像を撮像する撮像モジュールと
を備える装置が提供される。
本発明の別の態様によれば、シーンの画像の中の被写体をカメラによって識別する方法を実行することをプロセッサに指示するためのコンピュータ実行可能ソフトウェアプログラムを記憶するコンピュータ可読非一時的メモリであって、方法は、
カメラの視点とは関係なく、着目被写体の複数の属性の各々の独自性を判定するステップと、
シーンの画像の中の候補被写体の相対的向きに基づいて、該候補被写体の複数の属性の各々の検出可能性を判定するステップと、
少なくとも1つの属性の検出可能性を向上させるように、判定された少なくとも1つの属性の独自性に基づいて候補被写体を観察するためのカメラ設定を決定するステップと、
候補被写体が着目被写体であることの信頼度を判定するために、決定されたカメラ設定で候補被写体の画像を撮像するステップと
を備えるコンピュータ可読非一時的メモリが提供される。
カメラの視点とは関係なく、着目被写体の複数の属性の各々の独自性を判定するステップと、
シーンの画像の中の候補被写体の相対的向きに基づいて、該候補被写体の複数の属性の各々の検出可能性を判定するステップと、
少なくとも1つの属性の検出可能性を向上させるように、判定された少なくとも1つの属性の独自性に基づいて候補被写体を観察するためのカメラ設定を決定するステップと、
候補被写体が着目被写体であることの信頼度を判定するために、決定されたカメラ設定で候補被写体の画像を撮像するステップと
を備えるコンピュータ可読非一時的メモリが提供される。
本発明の他の態様も開示される。
添付の図面を参照して、本発明の1つ以上の実施形態を説明する。
図1Aは、1つのVIDD構成に従って例示的な着目被写体を説明するために使用される属性を示す簡略化された図である。
図1Bは、VIDD構成が適用されてもよい、PTZカメラにより撮像された例示的な候補被写体の画像を示す簡略化された図である。
図2は、VIDD構成が適用されてもよい、異なるカメラ設定の下で撮像された例示的な候補被写体の画像を示す簡略化された図である。
図3は、1つのVIDD構成に従って候補被写体のアイデンティティを検出された属性に関連付ける信念ネットワークの簡略化された図である。
図4は、VIDD構成に従ってシーンの中の被写体をカメラによって識別する方法を示す概略流れ図である。
、
、
図5、図6A及び図6Bは、全体として、図4の方法の一実現形態に係る候補被写体の相対的向きを判定する方法を示す図である。
図7Aは、図4の方法で使用されるような候補被写体の属性を検出する方法を示す概略流れ図である。
図7Bは、図7Aの方法の一実現形態に係る候補被写体の属性を検出するための着目領域の例を示す図である。
図8は、図4の方法で使用されるような、候補被写体が着目被写体である確率を判定する方法を示す概略流れ図である。
図9は、図4の方法の一実現形態に係る新たなカメラ設定を選択する方法を示す概略流れ図である。
、
図10A及び図10Bは、説明されるVIDD構成を実施できる汎用コンピュータシステムを示す概略ブロック図である。
図11は、本明細書において使用される用語間の関係を示す図である。
図12は、図4のステップ440で使用されるような、独自性を判定する方式の一例を示す図である。
背景状況
添付の図面のうち1つ以上の図で、同一の図中符号を有するステップ及び/又は特徴を参照する場合、本明細書の便宜上、それらのステップ及び/又は特徴は、逆の意図が示されない限り同一の機能又は作用を有する。
添付の図面のうち1つ以上の図で、同一の図中符号を有するステップ及び/又は特徴を参照する場合、本明細書の便宜上、それらのステップ及び/又は特徴は、逆の意図が示されない限り同一の機能又は作用を有する。
尚、「発明の背景」の章及び従来技術の構成に関連する先の章に含まれる説明は、公開及び/又は利用を通してそれぞれ周知の事実になっていると思われる文献又は装置の説明に関連する。その説明は、上記の文献又は装置が従来の技術において一般的な知識の一部を形成するということを本発明の発明者又は特許出願人が表現したものとして解釈されるべきではない。
「発明の背景」の章で言及した従来の能動的再識別方法では、候補被写体又は着目被写体の画像を特定のカメラ設定又は観察条件(可能なすべての観察条件を含む)の下で撮像する必要がある。本明細書において、「観察条件」は、カメラと被写体との間の距離、カメラの焦点距離及び解像度、並びにカメラ(すなわち視点)に対する被写体の向きなどの、被写体の画像が撮像されるときの条件を表す。大規模な監視状況の特徴は、無制御の環境の中でターゲットが互いに協調せず動き回ることである。従って、実際の用途で提示される条件は、既知の能動的再識別方法には不都合である。
本発明は、最も独自性の高い属性の検出可能性を向上させるために使用される一連のカメラ設定を計画することにより、被写体の属性に基づいて、カメラを使用してシーンの中の着目被写体を識別する方法及びシステムを提供する。本明細書において、「属性」は、「髪の長さ」のように、画像の中で観測できる被写体のカテゴリ別特性である。用語「クラス」、「クラスラベル」及び「属性ラベル」は互換性をもって使用され、属性「髪の長さ」に対するクラスラベル「長髪」のように、1つの属性の特定の発現を明示する。特定の画像の中の1つの属性の「検出可能性」は、その画像からその属性を判定できる確実度を表す。
図1A及び図1Bは、VIDD構成が適用されてもよい例示的な使用状況を示す。この例では、目標は、PTZカメラ140の監視下でシーンの画像120の中に着目人物100(この例では着目被写体である)がいると判定することである。以下の説明中、「候補被写体」は、着目被写体になりうるが、現時点では未知のアイデンティティを有するいずれかの観測被写体を表す。例えば、カメラ140により観測されたシーンの画像120の中の歩行者130は、着目被写体100に対する候補被写体である。
図1Bは、デジタルカメラ140により撮像されたシーンの画像120を示す。
図11は、本明細書で使用される用語のうちいくつかを示す。画像1101は、1104のような視覚要素から構成される。用語「画素」、「画素位置」及び「画像位置」は、本明細書を通して、撮像された画像の中の視覚要素のうち1つを表すために互換性をもって使用される。各画素は、撮像されたシーンの特性を特徴付ける1つ以上の値により記述される。一例では、1つの強度値はその画素位置におけるシーンの明るさを特徴付ける。別の例では、値の三重項(triplet)はその画素位置におけるシーンの色を特徴付ける。画像1101中の「領域」1103は、1104のような1つ以上の空間的に隣接する視覚要素の集合体を表す。「特徴」1102は、画像領域1103の中の画素値から判定された導出値又は導出値の集合を表す。一例では、特徴は画像領域1103における色値のヒストグラムである。別の例では、特徴は、領域1103における輝度勾配を推定することにより判定される「エッジ」値である。更に別の例では、特徴は、頭を含む領域のラベル「帽子」のように、画像領域1103における属性を記述するクラスラベルである。クラスラベルは、画像領域1103から抽出された特徴にサポートベクターマシン(SVM)又は他の分類方法を適用することにより判定される。
着目人物100は、「髪の長さ」などの属性の固定集合の用語によって記述され、各属性には個別のクラスラベル(例えば、「長髪」)が割り当てられる。1つのVIDD構成において、属性は着目人物を記述するソフトバイオメトリクスである。ソフトバイオメトリクスは、他の人物を記述するために観測者により好んで使用される特徴を表すカテゴリ別意味的情報を符号化する。一例では、人物は、クラスラベル「長髪」又は「短髪」のうち一方をとるソフトバイオメトリクス(属性)「髪の長さ」を使用して記述される。本明細書において、用語「クラスラベル」と「クラス」は互換性をもって使用され、用語「属性」と「ソフトバイオメトリクス」は互換性をもって使用される。図1Aの例の人物100の場合、ソフトバイオメトリクス記述は、属性「髪の長さ」111に割り当てられたクラスラベル「短髪」と、属性「眼鏡の種類」112に割り当てられたクラスラベル「サングラス着用」と、属性「髭の形」113に割り当てられたクラスラベル「顎鬚あり」と、属性「頭頂部の色の濃淡」114に割り当てられたクラスラベル「淡い色の頭頂部」と、属性「袖の長さ」115に割り当てられたクラスラベル「長袖」と、属性「ズボンの色の濃淡」116に割り当てられたクラスラベル「濃い色のズボン」と、属性「ズボンの長さ」117に割り当てられたクラスラベル「長ズボン」と、属性「手荷物の種類」118に割り当てられたクラスラベル「ショルダーバッグ」とを含んでもよい。ソフトバイオメトリクスは、異なる視点にまたがって検出可能であり、外見の変化(サングラスを外すなど)に容易に適応でき、外見ベースモデルよりコンパクトであり、文字記述又は口頭説明(例えば、犯罪の証人からの書面による供述書)から構成可能である。従って、ソフトバイオメトリクス(及び一般に属性)は、被写体の最小限の記述に基づいて、カメラネットワークの異なる視点から被写体を再識別するというタスクに適する。
以下の説明中、実施形態の大部分は着目人物の識別に関するが、本明細書において説明されるVIDD構成は、他の種類の被写体に対しても同等に実施されてよい。一例によれば、VIDD方法は、「車体の色」、「ヘッドライトの形状」及び「スポイラーの有無」などの属性により記述される着目車両の識別に適用される。別の例では、VIDD方法は、「尾の長さ」、「毛皮の色」及び「毛の長さ」などの属性により記述される着目動物の識別に適用される。属性はどのようなカテゴリ別画像特徴であることも可能であり、意味的特徴でなくてもよい。更に別の例では、VIDD方法は、シーンの中の候補被写体の着目点から抽出された低レベル画像特徴に基づいて学習済み視覚単語の集合を使用して着目被写体を識別する場合に適用される。VIDD構成は、異なる種類のカメラに適用されてもよい。以下の説明の中で使用される一例では、VIDD構成はPTZカメラの向き及びズームを制御するために使用される。別の例では、VIDD構成は焦点及び露光値などの観察条件に影響を及ぼす他のカメラ設定を制御するために使用される。別の例では、VIDD方法は後の処理に備えて静的高解像度ビデオストリームの中で着目領域を選択するために使用される。
以下の説明中、属性の「独自性」は、カメラにより観測されると思われる他の候補被写体と比較した場合に、着目被写体に対してその属性クラスラベルがどれほど特有であるかを表す。他の被写体は、まとめて候補被写体の「母集団」と呼ばれる。一例では、母集団の中で帽子を着用している人物が相対的に少ない場合、クラスラベル「帽子着用」は高い独自性を有する。逆に、母集団における他の多くの人物が帽子を着用している場合(例えば、シーンが晴天の日中の屋外である場合)、「帽子着用」は低い独自性を有する。属性の「検出可能性」は、候補被写体の画像の中でその属性を検出できる確実度を表す。一般に、検出可能性は、カメラと被写体との間の距離、カメラの焦点距離及び解像度、並びにカメラ(すなわち視点)に対する被写体の向きなどの観察条件に伴って変化する。例えば、顔のズームイン正面画像の場合、顎鬚の有無は高い検出可能性を有するかもしれない。逆に、人物がカメラから顔をそむけている場合又は人物がカメラから非常に遠い場所にいる場合には、顎鬚を検出するのは難しいだろう。
図1Bに示されるように、デジタルカメラ140はコンピュータシステム150と通信する。この例示的なVIDD構成は、ある範囲の用途に適用可能である。一例では、コンピュータシステム150は、警備員が対話型ユーザインタフェースを介して不審なターゲットの属性を指定することを可能にし、不審なターゲットであると判定された1つ以上の候補ターゲットの画像を返送する。別の例では、コンピュータは、ショッピングセンターなどの販売スペースを観測する異なるカメラで個別の顧客を識別することができ、販売分析に使用される顧客挙動のモデルを自動的に作成する。更に別の例では、コンピュータシステムは、交通カメラネットワークの中で異なる時点で個別の車両の位置を識別でき、車両の流れを改善するために、この情報を使用して交通信号を制御する。
発明の概要
先に説明したように、本発明は、カメラにより観測される候補被写体が着目被写体であるか否かを判定する方法に関する。先に述べた通り、この問題に対する既知の解決方法では、候補被写体又は着目被写体の画像は特定の観察条件の下で撮像されなくてはならない。例えば、顔認識に基づく既存の方法は、候補被写体及び着目被写体の双方の少なくとも1つの正面顔画像を必要とする。更に、低レベル画像特徴に基づく既存の方法は、実際のすべての観察条件下における候補被写体の画像を必要とする。そのため、観察条件を前述のように制約できない場合、既存の方法の性能は劣化する可能性がある。この制限の一例は、候補ターゲットが広いオープンスペースの中で自由に動けるショッピングセンターで、万引き犯を証人の説明に基づいて(すなわち万引き犯の画像を利用できない)識別するという作業である。
発明の概要
先に説明したように、本発明は、カメラにより観測される候補被写体が着目被写体であるか否かを判定する方法に関する。先に述べた通り、この問題に対する既知の解決方法では、候補被写体又は着目被写体の画像は特定の観察条件の下で撮像されなくてはならない。例えば、顔認識に基づく既存の方法は、候補被写体及び着目被写体の双方の少なくとも1つの正面顔画像を必要とする。更に、低レベル画像特徴に基づく既存の方法は、実際のすべての観察条件下における候補被写体の画像を必要とする。そのため、観察条件を前述のように制約できない場合、既存の方法の性能は劣化する可能性がある。この制限の一例は、候補ターゲットが広いオープンスペースの中で自由に動けるショッピングセンターで、万引き犯を証人の説明に基づいて(すなわち万引き犯の画像を利用できない)識別するという作業である。
本明細書において説明されるVIDD方法は、ある観察条件範囲にわたり検出可能な複数の属性を使用して被写体を記述することにより、上記の制限の問題を克服する。これにより、以前は着目被写体が観測されなかったような観察条件の下で着目被写体を識別できる。更に、方法は、候補被写体のアイデンティティに関する不確実性を最大限に減少させる一連の観測を取得する。これは、与えられた現在の視点(すなわち、カメラに対する候補被写体の相対的向き)に対して、最も独自性の高い属性の検出可能性を改善するためにカメラ設定を能動的に制御することにより実現される。この制御処理は「PTZ検査(interrogation)」と呼ばれる。候補被写体はカメラの視野の中にごく一時的に現れるだけかもしれないので、PTZ検査の目標は、最小限の数の撮像画像によって各候補被写体のアイデンティティに関して取得される情報を最大にすることである。
図10A及び図10Bは、説明される種々のVIDD構成を実施可能な汎用コンピュータシステム150を示す。
図10Aに示されるように、コンピュータシステム150は、コンピュータモジュール1001と、キーボード1002、マウスポインタデバイス1003、スキャナ1026、カメラ140のような1つ以上のカメラ及びマイク1080などの入力デバイスと、プリンタ1015、ディスプレイデバイス1014及びスピーカ1017を含む出力デバイスとを含む。外部変復調器(モデム)トランシーバデバイス1016は、接続1021を介し、通信ネットワーク1020を介して141のような遠隔カメラとの間で通信を実行するためにコンピュータモジュール1001により使用されてもよい。通信ネットワーク1020は、インターネットなどのワイドエリアネットワーク(WAN)、セルラ通信ネットワーク又はプライベートWANであってもよい。接続1021が電話回線である場合、モデム1016は従来の「ダイヤルアップ」モデムであってもよい。あるいは、接続1021が大容量(例えば、ケーブル)接続である場合、モデム1016はブロードバンドモデムであってもよい。通信ネットワーク1020への無線通信のために、無線モデムが使用されてもよい。
コンピュータモジュール1001は、少なくとも1つのプロセッサユニット1005及びメモリユニット1006を通常含む。例えば、メモリユニット1006は、半導体ランダムアクセスメモリ(RAM)及び半導体読み取り専用メモリ(ROM)を有してもよい。コンピュータモジュール1001は、ビデオディスプレイ1014、スピーカ1017及びマイク1080に結合するオーディオ−ビデオインタフェース1007と、キーボード1002、マウス1003、スキャナ1026及びカメラ140に結合し且つ任意にジョイスティック又は他のヒューマンインタフェースデバイス(図示せず)に結合するI/Oインタフェース1013と、外部モデム1016及びプリンタ1015に対応するインタフェース1008とを含む複数の入出力(I/O)インタフェースを更に含む。いくつかの実現形態において、モデム1016は、コンピュータモジュール1001の中に、例えばインタフェース1008の中に組み込まれてもよい。コンピュータモジュール1001は、ローカルエリアネットワーク(LAN)として知られるローカルエリア通信ネットワーク1022に接続1023を介してコンピュータシステム150を結合させるローカルネットワークインタフェース1011を更に有する。図10Aに示されるように、ローカル通信ネットワーク1022は、通常はいわゆる「ファイアウォール」デバイス又は類似の機能性を有するデバイスを含むと考えられる接続1024を介してワイドネットワーク1020に更に結合してもよい。ローカルネットワークインタフェース1011は、イーサネット回路カード、Bluetooth(登録商標)無線構成又はIEEE802.11無線構成を備えてもよいが、インタフェース1011として数々の他の種類のインタフェースが実施されてもよい。
I/Oインタフェース1008及び1013は、直列接続性又は並列接続性のいずれか、あるいはその双方を提供してもよいが、直列接続は、通常ユニバーサルシリアルバス(USB)規格に従って実現され、対応するUSBコネクタ(図示せず)を有する。記憶デバイス1009が設けられ、ハードディスクドライブ(HDD)1010を通常含む。フロッピーディスクドライブ及び磁気テープドライブ(図示せず)などの他の記憶デバイスも使用されてよい。光ディスクドライブ1012は、通常不揮発性データ源として機能するために設けられる。システム150に対する適切なデータ源として、例えば光ディスク(例えば、CD−ROM、DVD、Blu−ray Disc(登録商標))、USB−RAM、ポータブル、外部ハードドライブ及びフロッピーディスクなどのポータブルメモリデバイスが使用されてもよい。
コンピュータモジュール1001の構成要素1005〜1013は、通常相互接続バス1004を介して、当業者には知られている従来の動作モードでコンピュータシステム150が動作するように通信する。例えば、プロセッサ1005は、接続1018を使用してシステムバス1004に結合される。同様に、メモリ1006及び光ディスクドライブ1012は、接続1019によりシステムバス1004に結合される。説明された構成を実施できるコンピュータの例には、IBM−PC及びそのコンパチブル、Sun Sparcstations、Apple Mac(登録商標)又は同様のコンピュータシステムがある。
VIDD方法は、このコンピュータシステム150を使用して実現されてもよく、その場合、以下に説明される図4、図5、図7A、図8及び図9の処理は、コンピュータシステム150で実行可能な1つ以上のVIDDソフトウェアアプリケーションプログラム1033として実現されてもよい。特に、VIDD方法の各ステップは、コンピュータシステム150の中で実行されるソフトウェア1033の命令1031(図10Bを参照)により実行される。ソフトウェア命令1031は、各々が1つ以上の特定のタスクを実行する1つ以上のコードモジュールとして形成されてもよい。ソフトウェアは2つの個別の部分に分割されてもよく、第1の部分及び対応するコードモジュールはVIDD方法を実行し、第2の部分及び対応するコードモジュールは、第1の部分とユーザとの間のユーザインタフェースを管理する。
VIDDソフトウェアは、例えば以下に説明される記憶デバイスを含めて、コンピュータ可読媒体に記憶されてもよい。ソフトウェアは、コンピュータ可読媒体からコンピュータシステム150にロードされ、その後、コンピュータシステム150により実行される。そのようなソフトウェア又はコンピュータプログラムが記録されたコンピュータ可読媒体は、コンピュータプログラム製品である。コンピュータシステム150においてコンピュータプログラム製品を使用することにより、VIDD方法を実現する好都合な装置が得られるのが好ましい。
ソフトウェア1033は通常は、HDD1010又はメモリ1006に記憶される。ソフトウェアは、コンピュータ可読媒体からコンピュータシステム150にロードされ、コンピュータシステム150により実行される。従って、例えばソフトウェア1033は、光ディスクドライブ1012により読み取られる光学的読み取り可能ディスク記憶媒体(例えば、CD−ROM)1025に記憶されてもよい。そのようなソフトウェア又はコンピュータプログラムが記録されたコンピュータ可読媒体は、コンピュータプログラム製品である。コンピュータシステム150においてコンピュータプログラム製品を使用することにより、VIDD構成を実施する装置が得られるのが好ましい。
場合によっては、VIDDアプリケーションプログラム1033は、1つ以上のCD−ROM1025で符号化された形でユーザに供給され、対応するドライブ1012を介して読み取られてもよいが、ユーザによりネットワーク1020又は1022から読み取られてもよい。更に、ソフトウェアは、他のコンピュータ可読媒体からコンピュータシステム150にロードされることも可能である。コンピュータ可読記憶媒体は、記録されている命令及び/又はデータを実行及び/又は処理のためにコンピュータシステム150に提供する何らかの非一時的有形記憶媒体を表す。そのような記憶媒体の例には、デバイスがコンピュータモジュール1001の中にあるか又は外にあるかに関わらず、フロッピーディスク、磁気テープ、CD−ROM、DVD、Blu−ray(登録商標)Disc、ハードディスクドライブ、ROM又は集積回路、USBメモリ、光磁気ディスク、あるいはPCMCIAカードなどのコンピュータ可読カードがある。ソフトウェア、アプリケーションプログラム、命令及び/又はデータのコンピュータモジュール1001への提供に関与してもよい一時的又は非有形コンピュータ可読送信媒体の例には、無線送信チャネル又は赤外線送信チャネル、並びに別のコンピュータ又はネットワーク化デバイスへのネットワーク接続、Eメール送信及びウェブサイトなどに記録された情報を含むインターネット又はイントラネットがある。
前述のアプリケーションプログラム1033の第2の部分及び対応するコードモジュールは、ディスプレイ1014にレンダリングされるか又は他の方法で表現される1つ以上のグラフィカルユーザインタフェース(GUI)を実現するために実行されてもよい。コンピュータシステム150及びアプリケーションのユーザは、GUIと関連するアプリケーションに対するコマンド及び/又は入力の制御を実行するために、通常はキーボード1002及びマウス1003を操作することによって、機能適応可能にインタフェースを操作してもよい。スピーカ1017を介して出力される発話プロンプト及びマイク1080を介して入力されるユーザ音声コマンドを利用するオーディオインタフェースなどの他の形態の機能適応可能ユーザインタフェースも実現されてよい。
図10Bは、プロセッサ1005及び「メモリ」1034の詳細な概略ブロック図である。メモリ1034は、図10Aのコンピュータモジュール1001によりアクセス可能なすべてのメモリモジュール(HDD1009及び半導体メモリ1006を含む)の論理的集合体を表す。
先ずコンピュータモジュール1001の電源が入れられると、パワーオンセルフテスト(POST)プログラム1050が実行される。POSTプログラム1050は、通常、図10Aの半導体メモリ1006のROM1049に記憶される。ソフトウェアを記憶するROM1049のようなハードウェアデバイスは、ファームウェアと呼ばれる場合もある。POSTプログラム1050は、適正な機能を確保するためにコンピュータモジュール1001の中のハードウェアを検査し、通常、プロセッサ1005、メモリ1034(1009、1006)及び基本入出力システムソフトウェア(BIOS)モジュール1051が正しく動作しているか否かを検査する。BIOSモジュール1051も、通常ROM1049に記憶される。POSTプログラム1050の実行が問題なく完了したならば、BIOS1051は図10Aのハードディスクドライブ1010を起動する。ハードディスクドライブ1010の起動によって、ハードディスクドライブ1010に常駐するブートストラップローダプログラム1052がプロセッサ1005を介して実行される。これにより、オペレーティングシステム1053がRAMメモリ1006にロードされ、その後オペレーティングシステム1053は動作を開始する。オペレーティングシステム1053は、プロセッサ管理、メモリ管理、デバイス管理、記憶管理、ソフトウェアアプリケーションインタフェース及び一般的ユーザインタフェースを含む種々の高レベル機能を遂行するためにプロセッサ1005により実行可能なシステムレベルアプリケーションである。
オペレーティングシステム1053は、コンピュータモジュール1001で実行中の各処理又はアプリケーションを別の処理に割り当てられたメモリと衝突することなく実行するのに十分なメモリを確保するために、メモリ1034(1009、1006)を管理する。更に、各処理が有効に実行可能であるように、図10Aのシステム150で利用可能な異なる種類のメモリは適正に使用されなければならない。従って、集合型メモリ1034は、メモリの特定のセグメントがどのように割り当てられるかを例示するのではなく(特に指示のない限り)、コンピュータシステム150によりアクセス可能なメモリの全体図を提供し且つそれがどのように使用されるかを示すことを意図する。
図10Bに示されるように、プロセッサ1005は、制御ユニット1039、演算論理ユニット(ALU)1040、及びキャッシュメモリと呼ばれる場合もあるローカルメモリ又は内部メモリ1048を含む複数の機能モジュールを含む。キャッシュメモリ1048は、レジスタ部分に複数の記憶レジスタ1044〜1046を通常含む。1つ以上の内部バス1041は、これらの機能モジュールを機能的に互いに接続する。通常、プロセッサ1005は、接続1018を使用して、システムバス1004を介して外部デバイスと通信するための1つ以上のインタフェース1042を含む。メモリ1034は、接続1019を使用してバス1004に結合される。
VIDDアプリケーションプログラム1033は、条件付き分岐命令及びループ命令を含んでもよい一連の命令1031を含む。プログラム1033は、プログラム1033の実行に使用されるデータ1032を更に含んでもよい。命令1031及びデータ1032は、メモリの記憶位置1028、1029、1030及び1035、1036、1037にそれぞれ記憶される。命令1031及び記憶位置1028〜1030の相対的な大きさに応じて、記憶位置1030に示される命令により表されるように、特定の命令は1つの記憶位置に記憶されてもよい。あるいは、命令は複数の部分に分割されてもよく、各部分は、記憶位置1028及び1029に示される命令セグメントにより表されるように個別の記憶位置に記憶される。
一般に、プロセッサ1005は命令セットを提供され、命令はプロセッサ1005で実行される。プロセッサ1105は次の入力を待機し、次の入力に対して、プロセッサ1005は、別の命令セットを実行することにより反応する。各入力は、入力デバイス1002、1003のうち1つ以上により生成されたデータ、ネットワーク1020、1002のうち1つを介して外部データ源から受信されたデータ、記憶デバイス1006、1009のうち1つから検索されたデータ、又は対応する読み取り装置1012に差し込まれた記憶媒体1025から検索されたデータ(すべて図10Aに示す)を含む複数のソースのうち1つ以上のソースから提供されてもよい。命令セットを実行した結果、データが出力される場合もある。実行はデータ又は変数をメモリ1034に記憶することを含んでもよい。
開示されるVIDD構成は、メモリ1034の対応する記憶位置1055、1056、1057に記憶される入力変数1054を使用する。VIDD構成は出力変数1061を発生し、出力変数1061は、メモリ1034の対応する記憶位置1062、1063、1064に記憶される。中間変数1058が記憶位置1059、1060、1066及び1067に記憶されてもよい。
図10Bのプロセッサ1005を参照すると、レジスタ1044、1045、1046、演算論理ユニット(ALU)1040及び制御ユニット1039は、プログラム1033を構成する命令セットの命令ごとに「フェッチ、復号、実行」サイクルを実行するために必要とされるマイクロ動作シーケンスを実行するように協働する。各フェッチ、復号、実行サイクルは、
・記憶位置1028、1029、1030から命令1031をフェッチする又は読み取るフェッチ動作、
・命令がフェッチされたか否かを制御ユニット1039が判定する復号動作、及び
・制御ユニット1039及び/又はALU1040が命令を実行する実行動作
を含む。
・記憶位置1028、1029、1030から命令1031をフェッチする又は読み取るフェッチ動作、
・命令がフェッチされたか否かを制御ユニット1039が判定する復号動作、及び
・制御ユニット1039及び/又はALU1040が命令を実行する実行動作
を含む。
その後、次の命令に対して更なるフェッチ、復号、実行サイクルが実行されてもよい。同様に、制御ユニット1039が値を記憶位置1032に記憶する又は書き込む記憶サイクルが実行されてもよい。
図4、図5、図7A、図8及び図9の処理における各ステップ又はサブプロセスは、プログラム1033の1つ以上のセグメントと関連し、プログラム1033の該当するセグメントに関して命令セット中の命令ごとにフェッチ、復号、実行サイクルを実行するように協働するプロセッサ1005のレジスタ部分1044、1045、1047、ALU1040及び制御ユニット1039により実行される。
あるいは、VIDD方法は、VIDD機能又は副機能を実行する1つ以上の集積回路などの専用ハードウェアで実現されてもよい。そのような専用ハードウェアは、グラフィックプロセッサ、デジタルシグナルプロセッサ又は1つ以上のマイクロプロセッサ及び関連メモリを含んでもよく、ビデオカメラなどのプラットホームに常駐してもよい。
図2は、1つのVIDD構成に従ってPTZ検査で使用するための計画処理を示す。候補被写体205を含むシーンの第1の画像200が低倍率のズームで撮像される(図4のステップ420においてVIDD構成ソフトウェア1033の指示に従ってプロセッサ1005により制御されるカメラ140又は別のカメラ141により)。第1の画像200に基づいて、第2の画像(210又は220)が撮像され(VIDD構成に従って図4のステップ420、425、430、440、450及び460を使用して第1の画像200を処理した後に、図4のステップ420においてVIDD構成ソフトウェア1033の指示に従ってプロセッサ1005により制御されるカメラ140又は他のカメラ141により)、第2の画像は、独自属性の検出可能性を向上させるために候補被写体の1つの領域を高解像度で示す。第2の画像(210又は220)に使用されるカメラ設定は、複数の仮カメラ設定の中から選択される。図9のステップ910を使用して判定される「仮カメラ設定」は、ターゲットの「頭」、「胴体」及び「脚」を観測するなどの規則に基づいてあらかじめ確定されてもよいが、第2の画像を撮像するカメラについて可能なすべてのPTZ設定を含んでもよい。
当初のシーンの画像200の領域230に対応する1つの可能ビュー210により、被写体全体205の属性を中程度の検出可能性で検出できる。当初のシーンの画像200の領域240に対応する他の可能ビュー220により、頭220の属性を高い検出可能性で検出できる。ビュー210又はビュー220を撮像するために選択されるカメラ設定は、ビュー210又はビュー220と関連する独自属性の検出可能性の予測増加にある程度基づいて選択される(図8のステップ820においてVIDD構成ソフトウェア1033の指示に従ってプロセッサ1005により判定される)。例えば、着目被写体の最も独自性の高い1つの属性が「顎鬚あり」である場合、顎鬚225の検出可能性を最大にするために、ビュー220が選択される。あるいは、「長ズボン」及び「短髪」が共に独自属性である場合、2つの独自属性、すなわち髪212及びズボン214の双方を観測するための最大検出可能性より低い検出可能性を利用するために、ビュー210が選択されてもよい。
図3は、本発明において被写体識別のために使用されるベイズの推論を使用する信念ネットワーク300を示す。xは、ノード350により表されるように、候補被写体が着目被写体であるか否かの2進決定を表すものとする。以下の説明中、x=1は、候補被写体が着目被写体であるという決定を表し、x=0はその逆を表す。a={ai},i=1,...,Nは、着目被写体のN個の属性aiの集合を表す(属性aiは、例えば「髪の長さ」又は「髭の形」などを表してもよい)。属性aiは、その属性aiのLi個の可能なクラスラベルからクラスラベルli∈{1,...,Li}をとる(クラスラベルliは、例えば属性「髪の長さ」に関して「短髪」又は「長髪」であってもよく、属性「髭の形」に関して「顎鬚あり」又は「きれいに鬚を剃っている」などであってもよい)。d={di},i=1,...,Nは、撮像された画像に適用されるN個の属性検出器diの出力を表す(属性検出器の出力diは、例えば候補ターゲットの属性「髪の長さ」又は「顎鬚あり」の観測を表してもよい)。検出器出力diは、属性aiのLi個の可能なクラスラベルからクラスラベルli∈{1,...,Li}を更にとる(前述のように、クラスラベルliは、例えば属性「髪の長さ」に関する検出器出力では「短髪」又は「長髪」であってもよく、属性「髭の形」に関する検出器出力では「顎鬚あり」又は「きれいに鬚を剃っている」であってもよい)。最後に、νは、ノード380により表される観察条件を表す(観察条件νは、例えばカメラのパン設定、チルト設定及びズーム設定と、カメラに対するターゲットの相対的向きであってもよい)。
図3のネットワーク300は、候補被写体の属性(例えば、「髭の形」、「ズボンの長さ」及び「髪の長さ」)が問題の候補被写体のアイデンティティに依存するという概念を捕捉する(すなわち、候補被写体が着目被写体であるか否か)。ネットワーク300は、ノイズの多い属性検出器の出力が観察条件及び被写体の属性の双方に依存するという概念を更に捕捉する。図3は、2つの属性、すなわちノード360により表されるa1及びノード370により表されるa2と、対応する属性検出器の出力、すなわちノード365により表されるd1及びノード375により表されるd2とに関して信念ネットワーク300を示す。2〜N個の属性からのグラフ構造の一般化は、当業者には容易である。
ベイズ統計では、ランダム事象又は不確実命題の事後確率は、関連証拠が考慮された後に割り当てられる条件付き確率である。これに対し、ベイズの統計的推論において、不確実量の事前確率は、何らかの証拠が考慮される前の不確実性を表す。以下の説明中、用語「確率」、「尤度」、「信頼度」及び「不確実性」は、特に指示のない限り、命題における信念の程度を記述するために互換性をもって使用される。
図3に基づいて、観察条件νで撮像された候補被写体の画像からの属性検出の集合d={di}を与えられた場合の候補被写体が着目被写体である事後確率p(x|d,ν)(すなわち信頼度)は、以下の式(1)に従った「事後確率式」により定義される。
式(1)は、ターゲットのアイデンティティに関する新たな信頼度(すなわち事後p(x|d,ν))を計算するために、観測結果(すなわち検出器出力di)によるターゲットのアイデンティティに関する先行信頼度(すなわち事前p(x))と、それらの観測結果の信頼性に関する知識(すなわち観察条件νの下での属性aiの検出可能性)とを組み合わせる。上記の式(1)において、項p(x)は、図8のステップ810の出力811に対応し、候補被写体が着目被写体である事前確率を表す。項p(ai|x)は、被写体のアイデンティティxが与えられた場合の属性aiを有する被写体の確率を表す。例えば、p(a1|x=1)は、着目被写体が属性a1を有する確率であり、p(a1|x=0)は、母集団からの無作為の被写体が属性a1を有する確率である。確率1203、1206(図12を参照)は、図4のステップ410の出力411である式(1)の項p(ai|x=1)及びp(ai|x=0)にそれぞれ対応する。項p(di|ai,ν)は、被写体の属性ai及び観察条件νが与えられた場合に観測された属性検出器出力diの確率である。この量は、観察条件νの下で観測された場合の、図8のステップ820の出力821に対応する属性aiの検出可能性を表す。例えば、a1が2進属性クラスラベルである場合、p(d1=1|a1=0,ν)は、観察条件νの下で属性a1を不正確に検出する確率(「偽陽性」検出としても知られる)であり、p(d1=1|a1=1,ν)は、観察条件νの下で属性a1を正確に検出する確率(「真陽性」検出としても知られる)である。
1つの構成において、着目被写体又は母集団からの被写体が属性aiを有する確率をそれぞれ表す条件付き確率分布p(ai|x=1)及びp(ai|x=0)は、T≧1とした場合、T個のトレーニング画像から経験的に決定される。p(ai|x=1)の場合、T個のトレーニング画像は、着目被写体の画像である。p(ai|x=0)の場合、T個のトレーニング画像は、母集団からの無作為被写体の画像である。まず、各トレーニング画像は、属性aiに関する検出器によって処理され、その結果、出力の集合di={di t}、t=1,...,Tが取得される。次に、di中の各クラスラベルliの頻度から、トレーニング画像中の被写体に関する検出器出力の周辺分布p(di|x=j)(j=0又は1)を近似することができる。最後に、式(2)に従って「属性推論制約」により定義されるように制約線形システムが構成される。
上記の式(2)は、着目被写体又は母集団からの被写体の画像に関する検出器出力の中のクラスラベルの観測頻度(すなわち周辺分布p(di|x=j))を、被写体が対応する属性を有する尤度(すなわち未知の確率p(ai=li|x=j))と関連付ける。式(2)において、項p(ai=li|x=j)は、属性aiに関して被写体がクラスラベルliを有する尤度を表し、これは、例えば、クラスラベル「眼鏡」に対応するliに関する図12のp(ai=li|x=1)の確率1203又はp(ai=li|x=0)の確率1206により表される。これらの確率は図4のステップ410の出力411にも対応する。項p(di|ai=li,ν)は観察条件νの下の属性aiの検出可能性である。1つの構成において、属性の検出可能性は、以下に更に詳細に説明されるように、観察条件νの下で撮像された試験集合に対して、その属性の属性分類子の性能に基づいて判定される。項p(ν)は観察条件νの下で画像を撮像する事前確率である。一例において、p(ν)は、可能な観察条件ごとに画像が均一な頻度で撮像されると仮定することにより判定される。式(2)の中の不等式0≦p(ai=li|x=j)≦1は、確率が常に0以上、1以下の範囲内の量で表現されるという制約を表す。式(2)はLi個の制約を提供し、その1つは、正規化制約Σlip(ai=li|x=j)=1と置き換えられる。p(ai=li|x=j)(j=0又は1である)のLi個の未知の値に対して、当該技術で知られている方法を使用して、上記の系を解くことができる。
図3に示される信念ネットワークに基づいて、情報理論原理を使用してPTZ検査が公式化される。先に述べたように、PTZ検査の目標は、候補被写体のアイデンティティxに関する不確実性を最大限に減少させるカメラ設定を選択することである。ν*は、選択されたカメラ設定に対応する最適観察条件を表すものとする。不確実性を減少させるための情報理論方式は、観察条件ν*の下で属性dを検出した後に被写体のアイデンティティxに関する相互情報量I(x;d|ν*)(すなわち、予測情報利得)が最大になるようにν*を選択することである。図3に基づいて、相互情報量I(x;d|ν)は、以下の式(3)に従って「相互情報量目的関数」により定義される。
式(3)は、予測観察条件νの下で被写体の属性dを観測した結果得られた候補被写体のアイデンティティxに関する不確実性の予測される減少を表す。予測観察条件νは、図9のステップ915の出力916に対応する。相互情報量I(x;d|ν)は、k番目の予測観察条件に関する図9のステップ930の出力931を表すタプル(tuple)(ν,I(x;d|ν))kに対して、式(3)及び関連する観察条件vを使用して計算される。項p(x=j)は、候補被写体のアイデンティティの事前確率を表し、これは、図4のステップ440の事後確率p(x|d,ν)411出力と等しい。x=1の場合、項p(d|x,ν)は、予測観察条件νの下で着目被写体に関して属性検出の特定の集合dを観測する確率を表し、x=0の場合、項p(d|x,ν)は、観察条件νの下で一般母集団の中の1つの被写体に関して同一の属性検出dを観測する確率を表す。項p(d|ν)は、観察条件νの下で属性検出の特定の集合dを観測する確率(すなわち被写体のアイデンティティとは関係なく)を表す。項p(d|x,ν)及びp(d|ν)は、以下の式(4)及び(5)に従って定義される。
式(4)の項p(ai=li|x)及び式(5)の項p(ai=li|x=j)は、被写体のアイデンティティxが与えられた場合に被写体が属性aiのクラスラベルliを有する確率を表す。これらの値は、例えば図12の確率1203、1206に対応し、図4のステップ410の出力411である。式(4)及び(5)の項p(di|ai=li,ν)は、観察条件νの下の属性aiの検出可能性を表し、図9のステップ920の出力921に対応する。項p(x=j)は、候補被写体のアイデンティティの事前確率を表し、これは、図4のステップ440における事後確率p(x|d,ν)411出力と等しい。最適観察条件ν*は、以下の式(6)に従って式(3)の相互情報量目的関数を最大にすることにより取得される。
式(6)は、候補被写体のアイデンティティに関する不確実性を最大限に減少させる観察条件を選択する。式(6)により計算される最適観察条件ν*に対応するカメラ設定は、図4のステップ460の新たなカメラ設定出力461に対応する。
実施形態(実施例及び代替例と共に)
図4は、シーンの中の被写体をカメラによって識別する方法400を示す。方法400の目標は、最小限の数の観測によって着目被写体100を識別するために一連のカメラ設定461を決定することである。図1Bに示されるような候補被写体130が図1Aに示される着目被写体100であるか否かを判定するために候補被写体130を含むシーンの画像120を撮像するPTZカメラ140に関連して、方法400を例示する。着目被写体は、以下に説明される方法を使用して判定される所定の複数の属性により記述される。方法400は、候補被写体130が着目被写体100と同一の種類の属性を共有することを除き、候補被写体130に関する事前の仮定をしない。例えば、1つのVIDD構成において、候補被写体130及び着目被写体100は、共に、クラス「長髪」又は「短髪」を含む属性「髪の長さ」を有する歩行者である。別のVIDD構成では、候補被写体及び着目被写体は、共に、クラス「円形」又は「矩形」を含む属性「ヘッドライトの形状」を有する車両である。以下の説明は、方法400全体の概要である。ステップ410、420、425、430、440、450及び460の更なる詳細、実施例及び代替実現形態は後に説明される。
実施形態(実施例及び代替例と共に)
図4は、シーンの中の被写体をカメラによって識別する方法400を示す。方法400の目標は、最小限の数の観測によって着目被写体100を識別するために一連のカメラ設定461を決定することである。図1Bに示されるような候補被写体130が図1Aに示される着目被写体100であるか否かを判定するために候補被写体130を含むシーンの画像120を撮像するPTZカメラ140に関連して、方法400を例示する。着目被写体は、以下に説明される方法を使用して判定される所定の複数の属性により記述される。方法400は、候補被写体130が着目被写体100と同一の種類の属性を共有することを除き、候補被写体130に関する事前の仮定をしない。例えば、1つのVIDD構成において、候補被写体130及び着目被写体100は、共に、クラス「長髪」又は「短髪」を含む属性「髪の長さ」を有する歩行者である。別のVIDD構成では、候補被写体及び着目被写体は、共に、クラス「円形」又は「矩形」を含む属性「ヘッドライトの形状」を有する車両である。以下の説明は、方法400全体の概要である。ステップ410、420、425、430、440、450及び460の更なる詳細、実施例及び代替実現形態は後に説明される。
図4は、1つのVIDD構成に従ってシーンの中の被写体をカメラによって識別する方法400を示す概略流れ図である。方法400は開始ステップ405で開始される。開始ステップ405は、VIDDソフトウェア1033の指示に従ってプロセッサ1005により実行され、着目被写体100の属性を判定できるようにするための情報が入力として受信される。VIDD構成の1つの用途では、この情報は、着目被写体の1つ以上の画像の形である。例えば、異常な行動又は疑わしい行動をしている被写体が選択され、画像として撮像される。この画像は、着目被写体100の挙動を更に詳細に解析するためにステップ405に提供される。VIDD構成の別の用途において、ステップ405に提供される情報は、証人の説明のような、着目被写体の意味的記述の形である。例えば、迷子などの被写体の居場所を特定し、保護するために、被写体の意味的記述がステップ405に提供される。
次に、制御は、ステップ405からステップ410へ進む。ステップ410は、VIDDソフトウェア1033の指示に従ってプロセッサ1005により実行され、以下に図12を参照して更に詳細に説明されるように、着目被写体の複数の属性の各々の独自性を判定する。方法のステップ410は、前述のようにプロセッサ1005により実行可能であり及び/又は着目被写体の属性の独自性を判定するソフトウェア、ハードウェア又は複合ハードウェア/ソフトウェアモジュールにより実現可能である。以下の説明の中で挙げられる他の方法ステップについても同様のことが当てはまる。
図12は、1つのVIDD構成において、所定の属性ラベル(クラスラベルとも呼ばれる)の独自性が着目被写体の属性ラベルの確率及び他の何らかの被写体の属性ラベルの確率を含むタプルによりどのように表現されるかを示す実施例1200を示す。属性の独自性は、着目被写体の属性ラベルの確率及び母集団における属性ラベルの頻度を含むタプルを構成することにより表現される。実施例1200の場合、人物1201は着目被写体であり、着目被写体の1つの属性ラベルが「眼鏡着用」1202である。実施例1200における属性ラベル1202の確率1203は95%であり、これは、着目被写体1201が95%の確率で眼鏡を着用していることを示す。実施例1200において、人物の集合1204は着目候補被写体の母集団であり、実施例1200における対応する属性ラベル1205の確率1206は60%であり、これは、母集団1204の中の着目候補被写体が眼鏡を着用している確率は60%であることを示す。実施例1200の場合、所定の属性ラベル「眼鏡着用」の独自性を示すタプルは(1203、1206)である。
確率1203、1206(図4の411を参照)は、式(1)の項p(ai|x=1)及びp(ai|x=0)にそれぞれ対応するが、これらは、どの特定のカメラの視点とも無関係な着目被写体の属性aiの独自性の尺度である。
1つのVIDD構成において、着目被写体の属性ラベルaiの確率p(ai|x=1)は、意味的(文字又は口頭)記述から判定される。一実施例において、着目被写体は、「眼鏡類」、「袖の長さ」及び「髭の形」という3つの属性により指定され、証人は、着目被写体を「Tシャツと眼鏡を着用している」と記述する。証人の信頼度(又は信用度)に基づいて、属性「袖の長さ」に関する「半袖」の確率は0.9と割り当てられ、属性「眼鏡類」に関する「眼鏡着用」の確率は0.95と割り当てられる。更に、証人は顎鬚の有無を述べなかったので、属性「髭の形」に関する「きれいに鬚を剃っている」の確率は0.7と割り当てられる。証人が顎鬚の有無を記憶していなかった可能性もあるので、この属性ラベルには「半袖」又は「眼鏡着用」より低い信頼度が割り当てられる。別のVIDD構成において、着目被写体の属性ラベルの確率は、警備員又は他の担当者が着目被写体の1つ以上の画像を手動操作で検査することにより判定される。更に別のVIDD構成では、着目被写体の属性ラベルの確率は、着目被写体の1つ以上の画像の自動アノテーションにより判定される。自動アノテーションは、まず、図7Aの方法430の実施例を使用して属性を検出し、次に、クラスラベルにおける確率分布p(ai=li|x=1)に関して式(2)の属性推論制約を解決することにより実現される。
処理400のステップ410において属性ラベルの独自性を判定するために、他の何らかの被写体(すなわち着目被写体以外の被写体)の属性ラベルの確率p(ai|x=0)も決定されなければならない。1つのVIDD構成では、属性を共有する他のすべての被写体を含む母集団から無作為に選択された被写体に対応して、調査及び市場調査から取り出された知識などの専門知識から、属性ラベルの確率が判定される。別のVIDD構成において、問題のシーンの画像120を撮像するいずれかのカメラにより先に観測された被写体の母集団から無作為に選択された被写体に対応して、先に観測された被写体の中における属性の頻度から属性ラベルの確率が判定される。更に別のVIDD構成において、被写体の属性の周期的な変化(例えば、歩行者は夜間より日中にサングラスを着用する頻度が高い)を考慮して、異なる日時及び異なる季節で独立した属性統計を維持する。そこで、方法400のステップ420において候補被写体が検出された場合、候補被写体の画像が撮像された時刻に対応する属性統計を選択することにより、属性ラベルの独自性が判定される。
次に、方法400はステップ410からステップ420へ進む。ステップ420は、VIDDソフトウェア1033の指示に従ってプロセッサ1005により実行され、1つ以上のフレームがPTZカメラ140により撮像され、候補被写体130が検出され且つ追跡される。前述のように、ステップ420は、候補被写体の画像が撮像された時刻に対応する属性統計を使用して判定される属性ラベルの独自性を使用する。1つのVIDD構成において、ステップ420で、固定カメラ設定による多数のフレームにわたり背景モデルが維持されるガウス分布の混合物(Mixture of Gaussian、MoG)などの統計的背景画素モデル化方法を使用して前景分離を実行することにより、候補被写体が検出される。別のVIDD構成では、前景分離方法は離散コサイン変換ブロックで実行される。更に別のVIDD構成において、前景分離は例えばスーパー画素を使用して、フレームの非監視セグメンテーション(unsupervised segmentation)によって実行される。更に別のVIDD構成では、候補被写体は、歩行者検出器などの教師あり機械学習方法を使用して検出される。歩行者検出器は、歩行者見本のトレーニングセットに基づいて、1組の着目領域を歩行者を含む又は含まないとして分類する。1つのVIDD構成において、ステップ420の出力は、画像平面120において候補被写体130を含む着目領域を示す矩形のバウンディングボックス135(図1を参照)である。別のVIDD構成では、ステップ420の出力は、候補被写体に属する画素の領域と背景に属する画素の領域とを示すバイナリ画像マップである。
シーンによっては、ステップ420で2つ以上の候補被写体が検出される場合もある。ステップ420の一実現形態において、被写体検出に続いて、多数のフレームにわたる同一の候補被写体の観測を関連付けるために、検出された候補被写体について被写体追跡が実行される。1つのVIDD構成では、追跡は、ブラウン運動を想定し、1つのフレームの候補被写体を先行フレームの最も近い画素位置における候補被写体と関連付けることにより実行される。別のVIDD構成において、追跡は、カルマンフィルタ又はパーティクルフィルタなどの再帰的ベイズフィルタを使用して被写体の運動を推定することにより実行される。更に別のVIDD構成において、追跡は、位置情報及び速度情報に加えて、被写体に関する外見情報を使用して実行される。
次に、方法400はステップ420からステップ425へ進む。ステップ425は、VIDDソフトウェア1033の指示に従ってプロセッサ1005により実行され、以下に図5を参照して更に詳細に説明されるように、カメラ140の視点に対する候補被写体130の相対的向きを判定する。1つのVIDD構成において、相対的向きは、候補被写体の画像を1組の個別の向きクラス(例えば、「前向き」、「横向き」及び「後向き」)に分類するための機械学習方式を使用して判定される。分類子は各クラスからの1組の見本に対してトレーニングされる。別のVIDD構成では、相対的向きは、エッジなどの抽出特徴に基づいて、候補被写体のモデルを候補被写体の画像に当てはめるために、モデルベースポーズ推定を使用して判定される。更に別のVIDD構成において、相対的向きは、式(7)の方位角θにより表される候補被写体の運動方向に基づいて判定される。このVIDD構成の実施例は、図5、図6A及び図6Bを参照して以下に更に詳細に説明される。
次に、方法400はステップ425からステップ430へ進む。ステップ430は、VIDDソフトウェア1033の指示に従ってプロセッサ1005により実行され、以下に図7A及び図7Bを参照して更に詳細に説明されるように、ステップ420で検出された候補被写体の属性を分類する。1つのVIDD構成において、属性は、検出された候補の特徴と各属性クラスの1つ以上のテンプレート画像との間のマッチングスコアを計算することにより分類される。別のVIDD構成では、属性は、検出された候補の1つの領域から抽出された特徴に所定の閾値を適用することにより分類される。例えば、クラス「明」及び「暗」を含む属性「シャツの色調」は、胴体領域の画素の平均グレイレベルに所定の閾値を適用することにより分類される。更に別のVIDD構成において、属性は教師あり学習を使用して分類され、分類子は各クラスの1組のラベル付きトレーニング画像から学習される。
次に、方法400はステップ430からステップ440へ進む。ステップ440は、VIDDソフトウェア1033の指示に従ってプロセッサ1005により実行され、図8を参照して以下に更に詳細に説明されるように、ステップ410で判定された着目被写体の属性、ステップ430で判定された候補被写体の属性及びステップ425で判定された候補被写体の相対的向きに基づいて、候補被写体が着目被写体であることの信頼度(式(1)からp(x|d,ν)を判定する。1つのVIDD構成において、ステップ440は、式(1)における事後確率を計算する。次に、制御はステップ440から決定ステップ450へ進む。決定ステップ450は、VIDDソフトウェア1033の指示に従ってプロセッサ1005により実行され、計算された事後確率441に基づいて候補被写体のアイデンティティを判定できるか否かを判定する。1つのVIDD構成において、ステップ440で判定される事後確率は、上限閾値、例えば0.95及び下限閾値、例えば0.05と比較される。事後確率が上限閾値より高いか又は下限閾値より低い場合、候補被写体のアイデンティティの信頼度は高く、そうでない場合、候補被写体のアイデンティティの信頼度は低い。候補被写体のアイデンティティの信頼度が低い場合、制御はNOの矢印に従い、ステップ450から、図9を参照して以下に更に詳細に説明されるステップ460へ進む。ステップ460は、VIDDソフトウェア1033の指示に従ってプロセッサ1005により実行され、新たなカメラ設定を計画する。候補被写体のアイデンティティの信頼度が高い場合、制御はYESの矢印に従い、ステップ450から終了ステップ499へ進む。
ステップ460は、最も高い独自性で観測可能な属性の検出可能性を増加させることにより、候補被写体のアイデンティティの推定値の信頼度を改善するために、カメラ設定を決定する。1つのVIDD構成において、所定の規則に基づいて固定のカメラ設定の集合が生成され、候補被写体のアイデンティティに関する情報量の増加を最大にする設定が選択される。例えば、規則は、歩行者の場合、「頭」、「胴体」及び「脚」などの候補被写体の特定の領域のズームインビューに基づいてカメラ設定を生成してもよい。別のVIDD構成では、候補被写体のアイデンティティに関する情報量の増加を最大にするカメラ設定を決定するために、反復降下探索などの数値最適化が実行される。ステップ460で新たなカメラ設定を計画した後、制御はステップ420に戻り、候補被写体が着目被写体であることの信頼度を更新するために、新たなカメラ設定を使用して候補被写体の新たな画像が撮像される。
候補被写体の最終的なアイデンティティは、終了ステップ499において式(1)を使用して決定される最終事後確率により判定される。1つのVIDD構成において、候補被写体の最終事後確率は、所定の上限閾値、例えば0.95及び下限閾値、例えば0.05と比較される。事後確率が上限閾値より高い場合、候補被写体は着目被写体であると分類される。事後確率が下限閾値より低い場合、候補被写体は着目被写体ではないと分類される。
図4は、VIDD構成を実現するための一実施形態400を示し、この場合、1つの候補被写体が着目被写体であるか否かを判定するために一連の観測が計画される。この方法の変形も同等に実施されてよい。VIDDの1つの変形例では、2つ以上の候補被写体のアイデンティティを判定するために一連の観測が計画される。この変形の一実施形態において、ステップ420は多数の候補被写体を検出し且つ追跡し、ステップ425は各候補被写体の相対的向きを判定する。ステップ430は、他の候補被写体とは独立して、各候補被写体の属性を分類する。同様に、ステップ440は、他の候補被写体とは独立して、各候補被写体が着目被写体であるか否かの事後確率を決定する。1つのVIDD構成において、次にステップ450は、少なくとも1つの候補被写体が着目被写体であることの信頼度が高いか否かを決定する。高い信頼度を有する場合、制御は終了ステップ499へ進み、最も高い事後確率を有する被写体が着目被写体として分類される。そうでない場合、制御はステップ460へ進み、ステップ460は、すべての候補被写体に関してアイデンティティの信頼度を最大にするための新たなカメラ設定を計画する。
方法400の別の代替変形例では、ユーザ(例えば、警備員)は方法400を監視し、着目被写体が識別された時点で処理を終了する。この変形の一実現形態において、ステップ440は、候補被写体ごとの事後確率を計算し、すべての候補被写体を着目被写体であるとして最高の信頼度から最低の信頼度までランク付けする。決定ステップ450の一実現形態において、最上位にランク付けされた被写体(例えば、最高の事後確率を有する3つの被写体)がユーザに提示される。それらの被写体のうち1つが着目被写体であるとユーザが決定した場合、制御は終了ステップ499へ進む。いずれの被写体も着目被写体ではないとユーザが決定した場合、制御はステップ460へ進み、ステップ460は、先に挙げたVIDD構成で説明したように新たなカメラ設定を計画する。
図5は、運動方向に基づいて候補被写体の相対的向き541を判定するための図4の方法400のステップ425の例示的な実現形態を示す。図6A及び図6Bに示されるように、シーンの画像600中の候補被写体620を参照して一例として方法425を説明する。方法425は、2つの異なる時点で撮像された1対のフレームにおける観測に従って、候補被写体の位置の変化に対する1次有限差分近似に基づいて運動方向を判定する。この方法により判定された相対的向き541は、所定のカメラ設定における各属性の検出可能性を判定するために、方法440のステップ820(図8を参照)及び方法460のステップ920(図9を参照)で使用される。
図5の方法425は、VIDDソフトウェア1033の指示に従ってプロセッサ1005により実行される開始ステップ505で開始され、開始ステップ505において、シーンの現在のフレーム600及び先行時点で撮像されたフレームが入力として受信される。現在のフレーム及び先行フレームの両方は、候補被写体を含む。次に、制御はステップ505からステップ510へ進む。ステップ510は、VIDDソフトウェア1033の指示に従ってプロセッサ1005により実行され、現在のフレーム中の、候補被写体の位置を表すポイントを決定する。このポイントは、方法400のステップ420の一実現形態で検出されるような候補被写体を含むバウンディングボックスに対して判定されてもよい。例えば、ステップ510の一実現形態において、バウンディングボックスの最も下方の縁部の中心(すなわち「フットプリント」)が候補被写体の位置とみなされる。ステップ510の別の実現形態では、バウンディングボックスの重心が候補被写体の位置とみなされるが、これはノイズに対してより強固と言える。ステップ510の他の実現形態は、候補被写体の位置を特定するために特定の部分の位置を使用してもよい。例えば、歩行者を対象とするステップ510の別の代替実現形態は、「オメガシェープ」検出器を使用して検出される候補被写体の頭の位置を使用する。この位置は、異なるフレームにわたり高い精度で弁別でき且つ検出可能であるという利点を有する。更に別の代替VIDD構成は、候補被写体の前景マスク上の最低位置のポイント(方法400のステップ420の一実現形態で検出される)を候補被写体の位置として使用する。
次に、制御はステップ510からステップ520へ進む。ステップ520は、VIDDソフトウェア1033の指示に従ってプロセッサ1005により実行され、先行フレームの中の、候補被写体の位置を表すポイントを決定する。ステップ520の実現形態は、先に説明したステップ510の代替実現形態(先行フレームに適用される)と同一であり、ステップ510及び520の双方に同一の実現形態が使用される。これにより、現在のフレームと先行フレームとの間のポイントの相対的位置は、候補被写体に対するポイントの位置のずれではなく、運動方向を表すことが保証される。
次に、方法425はステップ520からステップ530へ進む。ステップ530は、VIDDソフトウェア1033の指示に従ってプロセッサ1005により実行され、ステップ510及び520で決定された位置に基づいて候補被写体の運動方向を判定する。1つのVIDD構成において、ステップ530は、先行フレームから現在のフレームまでの候補被写体の位置の相対的変化を表すベクトルを計算する。
図6Aは、一例としてステップ510、520及び530の一実現形態を示す。まず、ステップ510において、現在のフレームの中の候補被写体620の最低位置のポイント640が決定される。次に、ステップ520において、先行フレームの中の候補被写体610の最低位置のポイント630が決定される。最後に、先行位置630から現在位置640に至るまでのベクトル650が運動方向に対する一次有限差分近似として計算される。このベクトルは、図6Aに654により示され、Δxとして表される画像の水平方向への位置変化と、図6Aに652により示され、Δyとして表される垂直方向への位置変化とに分解される。
次に、制御はステップ530からステップ540へ進む。ステップ540は、VIDDソフトウェア1033の指示に従ってプロセッサ1005により実行され、ステップ530で決定された運動方向に基づいて候補被写体の向きを決定する。ステップ540の一実現形態において、図6Bに示されるように、候補被写体の相対的向きは、シーンの地平面に対する方位角θにより表される。このVIDD構成では、0°の方位角θは、図6Bに方向660により示されるように、被写体がカメラの方に向いていることを表し、180°の方位角は、図6Bに方向665により示されるように、被写体がカメラに背を向けていることを表す。カメラのチルト角度をψとすると、0°のチルトは、カメラが水平であることに対応し、90°のチルトは、カメラが下向きであることに対応する。そこで、Δx及びΔyにより表される運動方向から地平面における候補被写体の方位角θを次のように近似計算するために、式(7)に従って「地平面向き式」が定義されてもよい。
ステップ540の一実現形態において、式(7)を使用して計算された方位角は、候補被写体の相対的向きとして利用される。ステップ540の別の実現形態では、式(7)を使用して計算された方位角は、1組の個別の角度の中で最も近い角度に更に量子化される。これにより、処理440のステップ820(図8を参照)で判定される属性の検出可能性を少数の可能な観察条件により特徴付けることができる。量子化は図6Bを参照して例示される。図6Bは、45°ごとの規則的な間隔で規定された8つの個別の向きへの量子化を示す。図6Aに示される運動方向650の例で言えば、量子化の結果、図6Aに方向670により示されるように被写体の向きは225°になる。次に、方法425はステップ540から終了ステップ599へ進み、終了ステップ599は候補被写体の決定された相対的向き541を出力する。
図5の方法425は、図4の方法400のステップ425の一実現形態を示し、この場合、候補被写体の向きは、運動方向から判定される。この方法の変形例も同等に実施されてよい。VIDD構成の1つの代替例において、運動方向は、候補被写体の位置の変化に対する第2の、すなわち更に高次の有限差分近似に基づいて、候補被写体を含む現在のフレーム及び2つ以上の先行フレームから推定される。別の代替VIDD構成では、運動方向は、候補被写体の先行するすべての観測に基づいて、カルマンフィルタ又は粒子フィルタなどの再帰的ベイズフィルタにより推定される。運動方向に基づかない方法400のステップ425の他の実現形態も可能である。例えば、1つの代替VIDD構成は、個別の向きクラスを分類するために機械学習方式を使用し、別の代替VIDD構成は、モデルベースポーズ推定を使用する。これらの代替VIDD構成の双方については先に説明した。
図7Aは、候補被写体の属性のノイズの多い観測を検出する方法430(図4を参照)の一例を示す。このステップで検出されたノイズの多い観測は、方法400のステップ440で候補被写体が着目被写体であることの信頼度を判定するために使用される。図3の実施例により示されるベイズのモデルの場合、このステップで検出されるノイズの多い観測は、ノード365の変数d1及びノード375の変数d2にそれぞれ対応する。これらの検出は、ノード360及び370における属性a1及びa2のノイズの多い観測である。図7Bの候補被写体760に関連して、方法430の実施例を説明する。方法430は開始ステップ705で開始される。開始ステップ705は、VIDDソフトウェア1033の指示に従ってプロセッサ1005により実行され、このステップにおいて、方法400のステップ420で検出された候補被写体の画像が入力として受信される。次に、方法430は開始ステップ705からステップ710へ進む。ステップ710は、VIDDソフトウェア1033の指示に従ってプロセッサ1005により実行され、すべての属性の集合から未処理属性を選択する。
次に、制御はステップ710からステップ720へ進む。ステップ720は、VIDDソフトウェア1033の指示に従ってプロセッサ1005により実行され、選択された属性を分類するために、処理される着目領域を判定する。例えば、1つのVIDD構成において、図7Bの着目領域780及び785は、属性「髭の形」及び「ズボンの長さ」を分類するためにそれぞれ使用される。着目領域の判定は入力データを整列(align)させるので、これは、属性分類子の正確度を向上させる上で重要なステップである。1つのVIDD構成では、着目領域は、方法400の検出ステップ420で判定された候補被写体のバウンディングボックス770との間の一定の関係により判定される。別のVIDD構成において、属性の着目領域は、候補被写体の特定の部分を検出することにより判定される。一実施例において、歩行者に対して着目領域を判定するために、「オメガシェープ」頭検出器が使用される。
次に、方法430はステップ720からステップ730へ進む。ステップ730は、VIDDソフトウェア1033の指示に従ってプロセッサ1005により実行され、選択された属性の着目領域内の画素値から特徴ベクトルを構成する。このステップは、高次元画像データを、更に効率よく分類可能な低次元特徴ベクトルに縮小し、照明、視点及び他のノイズ源の変化に対する分類子の強固さを改善する。例えば、RGB画像からの20×20画素領域の1,200個の色値をわずか27個の値による3×3×3RGBヒストグラムに次元縮小することができる。RGBヒストグラムは、画素の空間的レイアウトを切り捨てるので、元の画素領域より視点に対する不変性が増す。1つのVIDD構成において、特徴は、画像コンテンツの色、形状及びテクスチャに関する低レベル画像記述子である。低レベル色別記述子の例は、着目領域について計算されたグレイスケール色ヒストグラム、RGB色ヒストグラム、HSV色ヒストグラム及び色コレログラムである。低レベル形状別記述子の例は、有向勾配のヒストグラム(HOG)、スケール不変特徴変換(SIFT)及びシェープレットである。低レベルテクスチャ別記述子の例は、ローカルバイナリパターン(LBP)及びガボールフィルタヒストグラムである。別のVIDD構成では、特徴は、属性クラスの1組のラベル付きトレーニング画像から学習される。一実施例において、属性クラス間の分離を最大限にする部分空間投影を学習するために、フィッシャー判別解析が適用される。
次に、制御はステップ730からステップ740へ進む。ステップ740は、VIDDソフトウェア1033の指示に従ってプロセッサ1005により実行され、ステップ730で抽出された特徴を使用して、候補被写体の選択された属性にクラスラベルを割り当てる。一例を挙げると、属性「ズボンの長さ」の場合、ステップ740は、領域785で抽出された特徴に基づいて、候補被写体が「長ズボン」又は「半ズボン」のいずれに分類されるべきかを決定する。属性分類子は、クラスラベルごとの1組の例画像に基づいて、教師あり機械学習法を使用してトレーニングされる。1つのVIDD構成において、属性分類子は、方法400を実行する前に、オフライントレーニング段階の間にトレーニングされる。代替VIDD構成では、属性分類子は、例えば着目被写体が正しく識別されていたか否かに関するユーザからのフィードバックに基づいて、方法400の実行中にオンラインで更新される。属性を検出するために、多くの分類技術のうち1つが使用されてもよい。1つのVIDD構成において、属性分類子は、異なる属性クラスラベルを判別するためにサポートベクターマシン(SVM)を使用する。別のVIDD構成では、属性分類子は属性クラスラベルを判別するために決定木を使用する。更に別のVIDD構成において、属性分類子は、属性クラスラベルを判別するために人工ニューラルネットワーク(ANN)を使用する。更に別のVIDD構成では、属性分類子は、k最近傍法(k−NN)照合を使用して実現される。
候補被写体の選択された属性にクラスラベルを割り当てた後、方法430はステップ740から決定ステップ750へ進む。決定ステップ750は、VIDDソフトウェア1033の指示に従ってプロセッサ1005により実行され、未処理の属性が残っているか否かを判定する。未処理属性が残っている場合、制御はYESの矢印に従い、決定ステップ750から属性選択ステップ710に戻る。すべての属性が処理済みである場合、制御はNOの矢印に従い、決定ステップ750から終了ステップ799へ進む。方法430の実施例が終了ステップ799に到達すると、開始ステップ705で受信された候補被写体の画像に基づいて、すべての属性の集合の中のあらゆる属性がクラスラベルを割り当てられたことになる。それらの属性は、式(1)により定義される事後確率式の右側のノイズの多い観測di431により表され、式(1)の左側で検出の集合d(d={di})によりまとめて同等に表される。
図8は、方法400の一実現形態で使用されるような、候補被写体が着目被写体であることの信頼度を判定する方法440(図4を参照)の一実施例を示す。方法440は開始ステップ805で開始され、開始ステップ805において、方法400のステップ425で判定された候補被写体の相対的向き541、方法400のステップ430で検出された属性クラスラベルの集合431及び方法400のステップ410で判定された着目被写体の各属性の独自性411が入力として受信される。
次に、制御はステップ805からステップ810へ進む。ステップ810は、VIDDソフトウェア1033の指示に従ってプロセッサ1005により実行され、候補被写体が着目被写体である事前確率811を判定する。このステップで判定される事前確率は、式(1)を使用して事後確率を計算する際に項p(x)として使用される。1つのVIDD構成において、候補被写体が先行フレームで観測されていた場合、事前確率は、前記先行フレームに基づいて方法400のステップ440で判定された事後確率の値をとる。候補被写体が以前に観測されていなかった場合、事前確率は所定の値に設定される。1つのVIDD構成において、候補被写体のアイデンティティの最大不確実性を示すために、0.5の所定の値が使用される。別のVIDD構成では、所定の値は手動操作による候補被写体の検査に基づいてオペレータにより設定される。更に別のVIDD構成では、所定の値は、着目被写体の位置が事前にわかっていると仮定して、着目被写体が画像中で観測される尤度に基づく。
次に、方法440はステップ810からステップ815へ進む。ステップ815は、VIDDソフトウェア1033の指示に従ってプロセッサ1005により実行され、候補被写体の画像が撮像された観察条件816を判定する。観察条件は、式(1)により定義される事後確率の式の中でνにより表される。観察条件は、図4の方法400のステップ425で判定された候補被写体の相対的向きを含む。1つのVIDD構成において、観察条件は、照明条件(例えば、屋内証明又は屋外照明)を更に含む。別のVIDD構成では、観察条件は、方法400のステップ420で検出された候補被写体の大きさにより判定される候補被写体の画像の空間分解能に関する情報を更に含む。更に別のVIDD構成では、観察条件は、焦点距離などのカメラの内部パラメータに関する情報を更に含む。
次に、方法440はステップ815からステップ820へ進む。ステップ820は、VIDDソフトウェア1033の指示に従ってプロセッサ1005により実行され、方法400のステップ425で判定された候補被写体の相対的向き(例えば、式(7)の方位角θ541)を含む観察条件に基づいて、候補被写体の画像120の中の各属性の検出可能性821を判定する。このステップで判定される検出可能性821は、式(1)を使用して事後確率を計算する際に項p(di|ai,ν)として使用される。1つのVIDD構成において、検出可能性は、候補被写体の属性を検出する方法430の実施例のステップ740で使用された分類子の性能に基づく。属性分類子の性能は、特定の観察条件νの下で撮像された前記属性を伴う異なる被写体のラベル付き試験画像の集合に対して分類子を試験することにより判定される。従って、特定の観察条件における属性の検出可能性は、前記観察条件の下で撮像された試験集合に対するその属性の属性分類子の性能に基づいて判定可能である。そこで、検出可能性は、試験結果から次のように判定される。p(d=1|a=1,ν)は、属性検出器の真陽性率の値をとり、p(d=0|a=1,ν)は、属性検出器の偽陰性率の値をとり、p(d=1|a=0,ν)は、属性検出器の偽陽性率の値をとり、最後に、p(d=0|a=0,ν)は、属性検出器の真陰性率の値をとる。各属性の検出可能性を完全に特徴づけるために、すべての着目観察条件νの下で撮像された試験画像の集合を使用して、以上説明した試験が繰り返される。1つのVIDD構成において、各属性の検出可能性は、方法400を実行する前に、オフライントレーニング段階の間に事前に計算される。別のVIDD構成では、各属性の検出可能性は方法400の実行中にオンラインで更新される。一実施例において、検出可能性は、着目被写体が正しく識別されていたか否かに関するユーザからのフィードバックに基づいてオンラインで更新される。
次に、方法440はステップ820からステップ830へ進む。ステップ830は、VIDDソフトウェア1033の指示に従ってプロセッサ1005により実行され、候補被写体が着目被写体である事後確率441を計算する。1つのVIDD構成において、事後確率441(すなわちp(x|d,ν))は、方法440のステップ810で判定された事前確率p(x)(すなわち811)、方法400のステップ410で判定された各属性の独自性411p(ai|x)、方法400のステップ430で検出された属性ラベルd(すなわち431)及び方法440のステップ820で判定された各属性の検出可能性821p(di|ai,ν)に基づいて式(1)を使用して計算される。
場合によっては、PTZカメラは、候補被写体の小さな領域にズームインするが、その場合、被写体のすべての属性を観測できるわけではない。例えば、PTZカメラが頭にズームインした場合、ズボンの長さは観測不可能である。ステップ830の一実現形態は、カメラの設定及び被写体の相対的向きに基づいて、どの属性が観測されないかを判定し、観測された属性のみに関して、式(1)の分子及び分母の積の項を計算することにより事後確率を判定する。しかし、その結果、使用される属性の数が少ない場合に属性の独自性が低下する恐れもあるので、事後確率の推定は楽観的となるかもしれない。先の例に従って、着目被写体と同一の髪の色(観測される属性)を有するが、ズボンの長さ(観測されない属性)は異なる候補を考える。その場合、髪の色のみを使用して計算される事後確率は楽観的なほど高くなるだろう。この問題を克服するために、ステップ830の代替実現形態は、現在のフレームで見えている属性に関しては現在のフレームの検出に対して分子及び分母の積の項を計算し、現在のフレームで観測不可能である属性に関しては先行フレームからの最前の検出を代用することにより、式(1)の事後確率を計算する。
事後確率を計算した後、方法440はステップ830から終了ステップ899へ進む。終了ステップ899は、VIDDソフトウェア1033の指示に従ってプロセッサ1005により実行され、候補被写体が着目被写体であるか否かに関する現在の知識を表す計算済み事後確率441を出力する。
図8の方法440は、図4の方法400のステップ440の一実現形態を示す。この方法の変形例も同等に実施されてよい。先に説明したVIDD構成の想定は、各候補被写体を独立して再識別できるというものである。実際には、多くともただ1つの候補被写体をタグ付けターゲット(すなわち着目被写体)にすることしかできないので、同一のビューの中に現れる多数の候補被写体が独立しているとは言えないかもしれない。方法440の代替実現形態では、バイナリアイデンティティ変数x∈{0,1}をマルチクラス変数y∈{0,1,2,...}に置き換えることで、この制限に対処する。尚、y=0は、いずれの候補被写体も着目被写体ではないことを示し、y=jは、候補jが着目被写体であることを示す。方法440のステップ810、815及び820は、現在の画像の中のすべての候補被写体に対して事前確率、観察条件及び属性の検出可能性を同時に判定する。そこで、ステップ830は事後確率p(y|d1,ν1,d2,ν2,...)を計算し、dj及びνjは、それぞれ、候補jの検出された属性及び観察条件である。
図9は、図4の方法400で使用されるような、新たなカメラ設定を判定する方法460の一実施例を示す。方法460(図9を参照)の目的は、着目被写体の少なくとも1つの属性の検出可能性を向上させることにより候補被写体のアイデンティティの信頼度を改善するために、該少なくとも1つの属性の独自性にある程度基づいて候補被写体を観察するための最適カメラ設定を決定することである。従って、候補被写体を観察するためのカメラ設定の判定は、少なくとも1つの属性の検出可能性を向上させるように、少なくとも1つの属性の判定された独自性に基づくことができる。図1Bに示される例示的なVIDD構成の場合、カメラ設定は、PTZカメラ140のパン設定、チルト設定及びズーム設定に対応する。別のVIDD構成では、カメラ設定は高解像度ビデオストリームの中の1つの着目領域に対応する。図9に示される方法460の実現形態は、カメラ設定の空間にわたる数値探索であり、最適カメラ設定が識別されるまで、仮カメラ設定が繰り返し選択され、試験される。
方法460(図9を参照)は開始ステップ905で開始される。開始ステップ905は、VIDDソフトウェア1033の指示に従ってプロセッサ1005により実行され、方法400のステップ410で判定された着目被写体の属性の独自性411p(ai|x)、方法400のステップ425で判定された候補被写体の相対的向き541(すなわち方位角θ)及び方法400のステップ440で判定された候補被写体のアイデンティティの事後確率441p(x|d,ν)が入力として受信される。
次に、制御は開始ステップ905からステップ910へ進む。ステップ910は、VIDDソフトウェア1033の指示に従ってプロセッサ1005によって実行され、仮カメラ設定が選択される。φ911は仮カメラ設定を表すものとする。ステップ910の一実現形態において、仮カメラ設定は、事前定義済み規則の集合に基づいて選択される。このVIDD構成の1つの変形例では、規則は、頭、上半身及び脚などの候補被写体の1組の着目領域を定義する。仮カメラ設定は、複数の着目領域のうち1つを高解像度で観察するために選択される。ステップ910の少なくとも1つの実現形態において、候補被写体の少なくとも1つの属性を確実に観測できるように、選択された仮カメラ設定を妥当とし、また属性を観測できなければ、その仮カメラ設定は放棄され且つ異なる設定が選択される。
次に、方法460(図9を参照)はステップ910からステップ915へ進む。ステップ915は、VIDDソフトウェア1033の指示に従ってプロセッサ1005により実行され、仮カメラ設定を使用して撮像された場合に候補被写体を観測できると考えられる観察条件916を予測する。観察条件916は、式(3)の相互情報量目的関数の中のνにより表され、候補被写体の予測相対的向きを含む。ステップ915の一実現形態において、候補被写体の現在の相対的向き541(方法400のステップ425で、すなわち図5のステップ540で判定される)が予測相対的向きとして使用される。しかし、実際に使用されている多くのカメラは、短い時間(「作動時間」)のうちに新たなカメラ設定を適用し且つ候補被写体の新たなフレームを取得しなければならない。例えば、PTZカメラは、方向を変え、新たなフレームを撮像するのに数秒を要するだろう。この時間の中で、候補被写体もその相対的向きを変えるかもしれない。そのような変化を考慮に入れるために、ステップ915の一実現形態は、被写体追跡及び推定作動時間に基づいて、次のフレームを撮像する時点における、後の時点における候補被写体の向きを予測する。予測相対的向きは、予測観察条件において現在の向きの代わりに使用される。ステップ915の他の実現形態は、現在のカメラ設定ではなく、仮カメラ設定に基づく観察条件を使用する点を除き、方法440のステップ815の実現形態と共通している。
次に、制御はステップ915からステップ920へ進む。ステップ920は、VIDDソフトウェア1033の指示に従ってプロセッサ1005により実行され、ステップ915で判定された予測観察条件に基づいて、仮カメラ設定における候補被写体の各属性の検出可能性を予測する。従って、複数の属性の各々の検出可能性の判定は、シーン中の候補被写体の向きに基づくことができる。ステップ920の実現形態は、方法440のステップ820の実現形態と共通しており、現在の画像の観察条件の代わりに、仮カメラ設定の予測観察条件921が使用される。ステップ920の少なくとも1つの実現形態において、出力921は、予測観察条件νの下の各属性検出器の真陽性率p(di=1|ai=1,ν)、偽陽性率p(di=1|ai=0,ν)、真陰性率p(di=0|ai=0,ν)及び偽陰性率p(di=0|ai=1,ν)を指定する確率の集合である。
次に、方法460(図9を参照)はステップ920からステップ930へ進む。ステップ930は、VIDDソフトウェア1033の指示に従ってプロセッサ1005により実行され、候補被写体が仮カメラ設定を使用して観測されたとした場合の候補被写体のアイデンティティに関する情報量の増加を判定する。1つのVIDD構成において、情報量の増加は、式(3)の相互情報量目的関数に従って測定される。従って、候補被写体を観察するためのカメラ設定で観測された属性と、候補被写体のアイデンティティとの間の相互情報量を最大にすることにより、前記カメラ設定を判定できる。この式の項(式(4)及び(5)も参照)は、ステップ920で判定された各属性の検出可能性p(di|ai,ν)、方法400のステップ410で判定された着目被写体の属性の独自性p(ai|x)及び事前確率項p(x)により表される候補被写体が着目被写体であることの信頼度である。事前確率項は、方法400のステップ440で判定された候補被写体のアイデンティティの事後確率p(x|d,ν)の値をとる。従って、候補被写体が着目被写体であることの信頼度に基づいて、候補被写体を観察するためのカメラ設定を判定できる。ステップ910で選択された仮カメラ設定及びそれに対応してk番目の仮カメラ設定に対してステップ930で判定された情報量の増加は、タプル(φ,I(x;d|ν))kを構成し、このタプルはコンピュータメモリに記憶される。
次に、方法460(図9を参照)はステップ930から決定ステップ940へ進む。決定ステップ940は、VIDDソフトウェア1033の指示に従ってプロセッサ1005により実行され、追加の仮カメラ設定が処理されるべきか否かを判定する。候補被写体の着目領域に基づいて仮カメラ設定が生成される1つのVIDD構成において、前記着目領域のすべてに関して情報量の増加が判定されるまで、追加の仮カメラ設定は、ステップ940により順次処理される。追加の仮カメラ設定が処理されるべきである場合、制御はYESの矢印に従い、ステップ940からステップ910に戻る。追加の仮カメラ設定が残っていない場合、制御はNOの矢印に従い、ステップ940からステップ950へ進む。ステップ950は、VIDDソフトウェア1033の指示に従ってプロセッサ1005により実行され、新たなカメラ設定を選択する。ステップ950の一実現形態において、ステップ910で選択された仮カメラ設定を記録する記憶されたタプル931(φ,I(x;d|ν))k(k=1...K、Kは仮カメラ設定の数である)と、方法460(図9を参照)の繰り返しごとにステップ930で判定される対応する相互情報量とが比較される。記憶されているタプル(φ,I(x;d|ν))kの中から最大の相互情報量を有するタプルに対応するタプル(φ*,I*(x;d|ν))が選択され、選択されたタプルからのカメラ設定φ*が図9のステップ450で新たなカメラ設定461として出力される。
図9の方法460は、図4に示される方法400のステップ460の一実現形態を示す。この方法の変形例も同等に実施されてよい。先に説明したVIDD構成は、候補被写体の着目領域に基づく仮カメラ設定の規則ベース生成に対応する。代替VIDD構成では、カメラ設定の空間にわたる反復降下探索に対応して、直前の反復における仮カメラ設定(又は1回目の反復では現在のカメラ設定)に基づいてステップ910で新たな仮カメラ設定が判定される。次に、ステップ940は、反復降下が収束したか否かを試験し、ステップ950は、収束時の最終カメラ設定を出力する。このVIDD構成の一実施例において、ステップ910は、式(3)の相互情報量目的関数の勾配に基づいてカメラ設定の増分変化を計算し、ステップ940は、相互情報量の変化が連続する反復回の間の閾値を下回ったか否かを試験する。
方法460(図9を参照)の他の変形例は、候補被写体が着目被写体であるか否かを判定するために必要とされる観測の数を更に減少させることを目的とする。式(3)の相互情報量目的関数における1つの暗黙の仮定は、異なる時点における同一の属性の観測は独立しているということである。しかし、現実の属性検出器は、近傍のフレームに対して相関検出を発生しがちである。すなわち、短時間で同一の属性を繰り返し観測しても、被写体のアイデンティティに関する新たな情報はごくわずかしか生成されない。同一の属性の反復観測を回避するために、方法460(図9を参照)の一実現形態は、閾値時間、例えば5秒の中で属性を再観測させるようなカメラ設定を放棄するために、選択ステップ910でフィルタを課する。従って、候補被写体を観察するためのカメラ設定の判定は、閾値時間の中で先に観測された属性を観測させようとするカメラ設定をいずれも除外することができる。
式(3)における別の暗黙の仮定は、候補被写体が着目被写体であることを確認する情報は、候補被写体が着目被写体ではないことを確認する情報と同等に重要であるということである。しかし、実際のシステムは、特に多くの候補被写体を含むシーンの場合、候補被写体が着目被写体であることを確認する情報を優先的にシークすることにより更に効率よく動作できるだろう。例えば、半ズボンと眼鏡を身に着けた着目人物と、2人の候補人物を含むシーンを考える。シーンの最初の画像で、第1の人物は長ズボンを身に着けていることが観測され、第2の人物は半ズボンを身に着けていることが観測されている。第1の人物の眼鏡を観測することでも情報利得は同様になるだろうが、これが着目人物の発見に直接つながるので、システムは、第2の人物の眼鏡を観測するために優先的にズームインすべきである。ステップ930の1つの代替実現形態では、式(3)の相互情報量目的関数の代わりに、次の式(8)に従って定義される「重み付き相互情報量目的関数」が使用される。
式(3)は不確実性の重み付き減少を判定し、着目被写体である尤度が高い候補被写体に、着目被写体である尤度が低い被写体より高い値が優先的に割り当てられる。従って、候補被写体が着目被写体であることの信頼度に基づいて、相互情報量に重み付けすることができる。式(8)の項I(x;d|ν)は、式(3)を使用して計算された相互情報量であり、Iw(x;d|ν)は重み付き相互情報量である。項p(x=1)は、候補被写体が着目被写体である確率であり、この項には、方法400のステップ440で判定された事後確率p(x|d,ν)441の値が割り当てられる。項Ph及びPlは、候補被写体のアイデンティティが低い不確実性を有することを試験するための相互事前定義済み確率閾値(例えば、それぞれ0.8と0.1)である。最後に、wh及びwlは、それぞれ、着目被写体である尤度が高い候補及び着目被写体である尤度が低い候補に対応する相互事前定義済み重み付け係数(例えば、それぞれ2.0と0.0)である。式(8)を使用して計算された重み付き相互情報量及びk番目の仮カメラ設定のカメラ設定は、タプル(φ,Iw(x;d|ν))kを構成し、このタプルはコンピュータメモリに記憶される。ステップ950の1つの代替実現形態において、記憶されている複数のタプル(φ,Iw(x;d|ν))kの中から最大の重み付き相互情報量を有するタプルに対応するタプル(φ*,Iw *(x;d|ν))が選択され、選択されたタプルからのカメラ設定φ*が図9のステップ450で新たなカメラ設定461として出力される。式(3)の相互情報量の代わりに式(8)で定義される重み付き相互情報量を使用することにより、期待できる候補を更に多く観測できる。この結果、類似する候補被写体に他の被写体より優先して多くの観測が割り当てられることになるので、類似する候補被写体の独自性が改善される。
説明した構成は、コンピュータ及びデータ処理の分野に適用可能であり、特に監視及びセキュリティの分野に適用される。
以上の説明は、本発明のいくつかの実施形態を説明したにすぎず、それらの実施形態は例示的であり、限定的なものではなく、本発明の範囲及び精神から逸脱することなく、実施形態に対して変形及び/又は変更を実施することが可能である。
本明細書において、言葉「備える」は、「主に含むが、必ずしもそれのみを含むとは限らない」、「有し」又は「含む」という意味であり、「それのみから構成される」ことを意味するものではない。「備える」などの言葉「備える」の変形は、対応して変化された意味を有する。
Claims (12)
- シーンの画像の中の被写体をカメラによって識別する方法であって、
カメラの視点とは関係なく、着目被写体の複数の属性の各々の独自性を判定するステップと、
前記シーンの画像中の候補被写体の相対的向きに基づいて該候補被写体の複数の属性の各々の検出可能性を判定するステップと、
少なくとも1つの属性の検出可能性を向上させるように、少なくとも1つの属性の前記判定された独自性に基づいて前記候補被写体を観察するためのカメラ設定を決定するステップと、
前記候補被写体が前記着目被写体であることの信頼度を判定するために、前記決定されたカメラ設定で前記候補被写体の画像を撮像するステップと
を備えることを特徴とする方法。 - 前記候補被写体を観察するための前記カメラ設定は、前記候補被写体が前記着目被写体であることの信頼度に依存することを特徴とする請求項1記載の方法。
- 前記複数の属性はソフトバイオメトリクスであることを特徴とする請求項1記載の方法。
- 前記ソフトバイオメトリクスは、前記着目被写体の文字記述又は口頭説明であることを特徴とする請求項3記載の方法。
- 属性の独自性を判定する前記ステップは、前記着目被写体の属性ラベルの確率と、前記候補被写体の母集団における前記属性ラベルの頻度とを含むタプルを構成するステップを含むことを特徴とする請求項1記載の方法。
- 属性の検出可能性を判定する前記ステップは、
前記候補被写体が前記着目被写体である事前確率を判定するステップと、
前記候補被写体の画像が撮像された観察条件を判定するステップと、
前記観察条件の下で撮像された前記属性を有する異なる被写体の1組の試験画像に対して属性分類子を試験するステップと
を含むことを特徴とする請求項1記載の方法。 - 前記候補被写体を観察するための前記カメラ設定を決定する前記ステップは、
仮カメラ設定を選択するステップと、
前記仮カメラ設定を使用して前記候補被写体の各属性の検出可能性を予測するステップと、
前記仮カメラ設定を使用して観測された前記候補被写体のアイデンティティに関する情報量の増加を判定するステップと、
前記情報量の増加を最大にすることに応じて、前記候補被写体を観察するための前記カメラ設定を決定するステップと
を含むことを特徴とする請求項1記載の方法。 - 前記情報量の増加は、前記カメラ設定において観測された属性と前記候補被写体の前記アイデンティティとの間の相互情報量に依存しており、前記相互情報量は、前記候補被写体が前記着目被写体であることの信頼度に基づいて重み付けされることを特徴とする請求項7記載の方法。
- 前記候補被写体を観察するためのカメラ設定を決定する前記ステップは、閾値時間中に先に観測された属性を観測させるカメラ設定をすべて除外することを特徴とする請求項1記載の方法。
- 装置であって、
着目被写体の画像及びシーンの中の候補被写体の画像(120)を撮像するカメラと、
プロセッサと、
前記シーンの画像中の被写体を前記カメラによって識別する方法を実行することを前記プロセッサに指示するコンピュータ実行可能ソフトウェアプログラムを記憶するメモリと
を備え、前記方法は、
カメラの視点とは関係なく、前記着目被写体の複数の属性の各々の独自性を判定するステップと、
前記候補被写体の相対的向きに基づいて、前記シーンの画像中の候補被写体の複数の属性の各々の検出可能性を判定するステップと、
少なくとも1つの属性の検出可能性を向上させるように、少なくとも1つの属性の前記判定された独自性に基づいて前記候補被写体を観察するためのカメラ設定を決定するステップと、
前記候補被写体が前記着目被写体であることの信頼度を判定するために、前記決定されたカメラ設定で前記候補被写体の画像を撮像するステップと
を備えることを特徴とする装置。 - シーンの画像の中の被写体をカメラによって識別する装置であって、
カメラの視点とは関係なく、着目被写体の複数の属性の各々の独自性を判定する独自性判定モジュールと、
前記シーンの画像中の候補被写体の相対的向きに基づいて、該候補被写体の複数の属性の各々の検出可能性を判定する検出可能性判定モジュールと、
少なくとも1つの属性の検出可能性を向上させるように、少なくとも1つの属性の前記判定された独自性に基づいて前記候補被写体を観察するためのカメラ設定を決定するカメラ設定決定モジュールと、
前記候補被写体が前記着目被写体であることの信頼度を判定するために、前記決定されたカメラ設定で前記候補被写体の画像を撮像する撮像モジュールと
を備えることを特徴とする装置。 - シーンの画像の中の被写体をカメラによって識別する方法を実行することをプロセッサに指示するためのコンピュータ実行可能ソフトウェアプログラムを格納したコンピュータ可読非一時的メモリであって、方法は、
カメラの視点とは関係なく、着目被写体の複数の属性の各々の独自性を判定するステップと、
前記シーンの画像中の候補被写体の相対的向きに基づいて、該候補被写体の複数の属性の各々の検出可能性を判定するステップと、
少なくとも1つの属性の検出可能性を向上させるように、少なくとも1つの属性の前記判定された独自性に基づいて前記候補被写体を観察するためのカメラ設定を決定するステップと、
前記候補被写体が前記着目被写体であることの信頼度を判定するために、前記決定されたカメラ設定で前記候補被写体の画像を撮像するステップと
を備えることを特徴とするコンピュータ可読非一時的メモリ。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
AU2014240213 | 2014-09-30 | ||
AU2014240213A AU2014240213B2 (en) | 2014-09-30 | 2014-09-30 | System and Method for object re-identification |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016072964A true JP2016072964A (ja) | 2016-05-09 |
JP6018674B2 JP6018674B2 (ja) | 2016-11-02 |
Family
ID=54293037
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015164151A Active JP6018674B2 (ja) | 2014-09-30 | 2015-08-21 | 被写体再識別のためのシステム及び方法 |
Country Status (5)
Country | Link |
---|---|
US (2) | US9852340B2 (ja) |
EP (1) | EP3002710A1 (ja) |
JP (1) | JP6018674B2 (ja) |
CN (1) | CN105469029B (ja) |
AU (1) | AU2014240213B2 (ja) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018101317A (ja) * | 2016-12-21 | 2018-06-28 | ホーチキ株式会社 | 異常監視システム |
JP2018206373A (ja) * | 2017-06-06 | 2018-12-27 | ローベルト ボッシュ ゲゼルシャフト ミット ベシュレンクテル ハフツング | 車両のための、対象物を分類するための方法および装置 |
JPWO2018070032A1 (ja) * | 2016-10-14 | 2019-08-08 | 株式会社Fuji | 画像処理装置 |
JP2020035443A (ja) * | 2018-08-24 | 2020-03-05 | 株式会社豊田中央研究所 | センシング装置 |
JP2020043533A (ja) * | 2018-09-13 | 2020-03-19 | 凸版印刷株式会社 | 映像伝送システム、映像伝送装置、および、映像伝送プログラム |
WO2020080140A1 (ja) * | 2018-10-19 | 2020-04-23 | ソニー株式会社 | センサ装置、信号処理方法 |
WO2020174566A1 (ja) * | 2019-02-26 | 2020-09-03 | 日本電気株式会社 | 監視装置、追跡方法、及び非一時的なコンピュータ可読媒体 |
WO2021157133A1 (ja) | 2020-02-03 | 2021-08-12 | コニカミノルタ株式会社 | 再同定装置、再同定プログラム、および再同定方法 |
US11146725B2 (en) | 2019-03-25 | 2021-10-12 | Nec Corporation | Information processing apparatus, camera control method, program, camera apparatus, and image processing system |
JP7498459B2 (ja) | 2023-03-22 | 2024-06-12 | Toppanホールディングス株式会社 | 映像伝送システム、映像伝送装置、および、映像伝送プログラム |
Families Citing this family (88)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9488833B2 (en) * | 2014-02-07 | 2016-11-08 | International Business Machines Corporation | Intelligent glasses for the visually impaired |
US9495763B1 (en) * | 2015-09-28 | 2016-11-15 | International Business Machines Corporation | Discovering object pathways in a camera network |
US10867162B2 (en) * | 2015-11-06 | 2020-12-15 | Nec Corporation | Data processing apparatus, data processing method, and non-transitory storage medium |
CN106803056B (zh) * | 2015-11-26 | 2020-11-06 | 华为技术有限公司 | 一种肢体关系的估计方法及装置 |
WO2017128273A1 (en) * | 2016-01-29 | 2017-08-03 | Hewlett Packard Enterprise Development Lp | Error block determination |
US10395137B2 (en) * | 2016-03-11 | 2019-08-27 | Irvine Sensors Corporation | Method and processing unit for correlating image data content from disparate sources |
US10331982B2 (en) * | 2016-03-11 | 2019-06-25 | Irvine Sensors Corp. | Real time signal processor for analyzing, labeling and exploiting data in real time from hyperspectral sensor suites (Hy-ALERT) |
DE112017002468T5 (de) * | 2016-05-13 | 2019-01-24 | Numenta, Inc. | Schlussfolgern und Lernen basierend auf sensomotorischen Eingabedaten |
US11100414B2 (en) | 2016-05-13 | 2021-08-24 | Numenta, Inc. | Inferencing and learning based on sensorimotor input data |
US10410097B2 (en) | 2016-06-06 | 2019-09-10 | Mutualink, Inc. | System and method for distributed intelligent pattern recognition |
JP2018005555A (ja) * | 2016-07-01 | 2018-01-11 | ソニー株式会社 | 画像処理装置、情報処理装置、および方法、並びにプログラム |
US10832031B2 (en) * | 2016-08-15 | 2020-11-10 | Apple Inc. | Command processing using multimodal signal analysis |
FR3055161B1 (fr) * | 2016-08-19 | 2023-04-07 | Safran Identity & Security | Procede de surveillance au moyen d’un systeme multi-capteur |
CN107872644B (zh) * | 2016-09-23 | 2020-10-09 | 亿阳信通股份有限公司 | 视频监控方法及装置 |
US10346723B2 (en) * | 2016-11-01 | 2019-07-09 | Snap Inc. | Neural network for object detection in images |
CN108073929B (zh) * | 2016-11-15 | 2023-11-24 | 北京三星通信技术研究有限公司 | 基于动态视觉传感器的物体检测方法及设备 |
WO2018100928A1 (ja) * | 2016-11-30 | 2018-06-07 | キヤノン株式会社 | 画像処理装置および方法 |
MX2019006588A (es) * | 2016-12-05 | 2019-10-09 | Avigilon Corp | Sistema y metodo de busqueda por apariencia. |
US10198657B2 (en) * | 2016-12-12 | 2019-02-05 | National Chung Shan Institute Of Science And Technology | All-weather thermal-image pedestrian detection method |
US10560660B2 (en) | 2017-01-04 | 2020-02-11 | Intel Corporation | Rectilinear viewport extraction from a region of a wide field of view using messaging in video transmission |
CN106845416B (zh) * | 2017-01-20 | 2021-09-21 | 百度在线网络技术(北京)有限公司 | 障碍物识别方法及装置、计算机设备及可读介质 |
GB2560177A (en) | 2017-03-01 | 2018-09-05 | Thirdeye Labs Ltd | Training a computational neural network |
GB2560387B (en) * | 2017-03-10 | 2022-03-09 | Standard Cognition Corp | Action identification using neural networks |
WO2018175968A1 (en) * | 2017-03-24 | 2018-09-27 | Numenta, Inc. | Location processor for inferencing and learning based on sensorimotor input data |
FR3065098A1 (fr) * | 2017-04-05 | 2018-10-12 | Stmicroelectronics (Rousset) Sas | Procede de detection en temps reel d'une scene par un appareil, par exemple un appareil de communication sans fil, et appareil correspondant |
CN109791615B (zh) * | 2017-05-05 | 2023-07-28 | 京东方科技集团股份有限公司 | 用于检测并跟踪目标对象的方法、目标对象跟踪设备和计算机程序产品 |
US10395385B2 (en) | 2017-06-27 | 2019-08-27 | Qualcomm Incorporated | Using object re-identification in video surveillance |
US11250376B2 (en) | 2017-08-07 | 2022-02-15 | Standard Cognition, Corp | Product correlation analysis using deep learning |
US11232687B2 (en) | 2017-08-07 | 2022-01-25 | Standard Cognition, Corp | Deep learning-based shopper statuses in a cashier-less store |
US10474988B2 (en) | 2017-08-07 | 2019-11-12 | Standard Cognition, Corp. | Predicting inventory events using foreground/background processing |
US11200692B2 (en) | 2017-08-07 | 2021-12-14 | Standard Cognition, Corp | Systems and methods to check-in shoppers in a cashier-less store |
US10853965B2 (en) | 2017-08-07 | 2020-12-01 | Standard Cognition, Corp | Directional impression analysis using deep learning |
US10474991B2 (en) | 2017-08-07 | 2019-11-12 | Standard Cognition, Corp. | Deep learning-based store realograms |
US10650545B2 (en) | 2017-08-07 | 2020-05-12 | Standard Cognition, Corp. | Systems and methods to check-in shoppers in a cashier-less store |
CN109426769A (zh) * | 2017-08-24 | 2019-03-05 | 合肥虹慧达科技有限公司 | 人脸辅助的虹膜识别方法及虹膜识别系统 |
US20190065833A1 (en) * | 2017-08-30 | 2019-02-28 | Qualcomm Incorporated | Detecting false positives in face recognition |
US11012683B1 (en) | 2017-09-28 | 2021-05-18 | Alarm.Com Incorporated | Dynamic calibration of surveillance devices |
US10636173B1 (en) * | 2017-09-28 | 2020-04-28 | Alarm.Com Incorporated | Dynamic calibration of surveillance devices |
CN107704824B (zh) * | 2017-09-30 | 2020-05-29 | 北京正安维视科技股份有限公司 | 基于空间约束的行人重识别方法及设备 |
US10592550B2 (en) | 2017-10-13 | 2020-03-17 | International Business Machines Corporation | System and method for species and object recognition |
US11252323B2 (en) * | 2017-10-31 | 2022-02-15 | The Hong Kong University Of Science And Technology | Facilitation of visual tracking |
CN107871143B (zh) * | 2017-11-15 | 2019-06-28 | 深圳云天励飞技术有限公司 | 图像识别方法及装置、计算机装置和计算机可读存储介质 |
CN107832799A (zh) * | 2017-11-20 | 2018-03-23 | 北京奇虎科技有限公司 | 基于摄像头场景的对象识别方法及装置、计算设备 |
US10552707B2 (en) * | 2017-12-07 | 2020-02-04 | Qualcomm Incorporated | Methods and devices for image change detection |
KR101982942B1 (ko) * | 2017-12-21 | 2019-05-27 | 건국대학교 산학협력단 | 객체 추적 방법 및 이를 수행하는 장치들 |
CN109993032B (zh) * | 2017-12-29 | 2021-09-17 | 杭州海康威视数字技术股份有限公司 | 一种共享单车目标识别方法、装置及相机 |
JP7133926B2 (ja) * | 2018-01-15 | 2022-09-09 | キヤノン株式会社 | 情報処理装置、システム、情報処理方法 |
WO2019177596A1 (en) * | 2018-03-13 | 2019-09-19 | Harman International Industries, Incorporated | Apparatus and method for automatic failure threshold detection for images |
CN108537136B (zh) * | 2018-03-19 | 2020-11-20 | 复旦大学 | 基于姿态归一化图像生成的行人重识别方法 |
CN108830258A (zh) * | 2018-06-28 | 2018-11-16 | 深圳市必发达科技有限公司 | 一种泳池人数即时显示方法 |
IL260438B (en) * | 2018-07-05 | 2021-06-30 | Agent Video Intelligence Ltd | A method and system for identifying objects in video |
US10762328B2 (en) * | 2018-10-22 | 2020-09-01 | Dell Products, Lp | Method and apparatus for identifying a device within the internet of things using interrogation |
CN109376664B (zh) * | 2018-10-29 | 2021-03-09 | 百度在线网络技术(北京)有限公司 | 机器学习训练方法、装置、服务器和介质 |
CN109447021B (zh) * | 2018-11-08 | 2020-11-27 | 北京灵汐科技有限公司 | 一种属性检测方法及属性检测装置 |
JP7172472B2 (ja) * | 2018-11-09 | 2022-11-16 | 富士通株式会社 | ルール生成装置、ルール生成方法及びルール生成プログラム |
WO2020100540A1 (ja) * | 2018-11-15 | 2020-05-22 | ソニー株式会社 | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム |
CN109697457B (zh) * | 2018-11-26 | 2021-01-08 | 北京图森智途科技有限公司 | 物体重识别系统的训练方法、物体重识别方法及相关设备 |
CN111291585B (zh) * | 2018-12-06 | 2023-12-08 | 杭州海康威视数字技术股份有限公司 | 一种基于gps的目标跟踪系统、方法、装置及球机 |
CN109784186B (zh) * | 2018-12-18 | 2020-12-15 | 深圳云天励飞技术有限公司 | 一种行人重识别方法、装置、电子设备及计算机可读存储介质 |
CN111343416B (zh) * | 2018-12-18 | 2021-06-01 | 华为技术有限公司 | 一种分布式图像分析方法、系统及存储介质 |
CN109782850B (zh) * | 2019-01-04 | 2020-09-29 | 北京灵优智学科技有限公司 | 支持多种网络接入的全交互智能教育机 |
CN109800721B (zh) * | 2019-01-24 | 2020-10-23 | 深圳大学 | 一种多目标跟踪方法及系统 |
CN109801389A (zh) * | 2019-03-18 | 2019-05-24 | 重庆睿驰智能科技有限公司 | 基于环视系统的付费辅助系统 |
TWI772627B (zh) * | 2019-03-19 | 2022-08-01 | 財團法人工業技術研究院 | 人物重識別方法、人物重識別系統及影像篩選方法 |
US11232575B2 (en) | 2019-04-18 | 2022-01-25 | Standard Cognition, Corp | Systems and methods for deep learning-based subject persistence |
EP3736562A1 (en) * | 2019-05-06 | 2020-11-11 | FEI Company | Method of examining a sample using a charged particle microscope |
US20230119593A1 (en) * | 2019-06-21 | 2023-04-20 | One Connect Smart Technology Co., Ltd. | Method and apparatus for training facial feature extraction model, method and apparatus for extracting facial features, device, and storage medium |
KR102547405B1 (ko) * | 2019-07-31 | 2023-06-26 | 한국과학기술원 | 객체 재인식 장치 및 방법 |
US11343564B2 (en) | 2019-08-14 | 2022-05-24 | Samsung Electronics Co., Ltd | Automated learning platform of a content provider and method thereof |
CN110706258B (zh) * | 2019-10-10 | 2022-10-04 | 北京百度网讯科技有限公司 | 对象追踪方法及装置 |
CN110944113B (zh) * | 2019-11-25 | 2021-04-27 | 维沃移动通信有限公司 | 对象显示方法及电子设备 |
CN110929679B (zh) * | 2019-12-05 | 2023-06-16 | 杭州电子科技大学 | 一种基于gan的无监督自适应行人重识别方法 |
CN111191059B (zh) * | 2019-12-31 | 2023-05-05 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、计算机存储介质及电子设备 |
US11024043B1 (en) | 2020-03-27 | 2021-06-01 | Abraham Othman | System and method for visually tracking persons and imputing demographic and sentiment data |
CN111372062B (zh) * | 2020-05-02 | 2021-04-20 | 北京花兰德科技咨询服务有限公司 | 人工智能图像通信系统及记录方法 |
FR3111452B1 (fr) * | 2020-06-11 | 2023-01-06 | Sangle Ferriere Bruno | Procédé de protection automatique d’un objet, d’une personne ou d’une information ou œuvre visuelle vis-à-vis d’un risque d’observation non désirée |
US11361468B2 (en) | 2020-06-26 | 2022-06-14 | Standard Cognition, Corp. | Systems and methods for automated recalibration of sensors for autonomous checkout |
US11303853B2 (en) | 2020-06-26 | 2022-04-12 | Standard Cognition, Corp. | Systems and methods for automated design of camera placement and cameras arrangements for autonomous checkout |
JP2022011704A (ja) * | 2020-06-30 | 2022-01-17 | キヤノン株式会社 | 画像処理装置、画像処理方法およびプログラム |
KR20220027651A (ko) | 2020-08-27 | 2022-03-08 | 삼성전자주식회사 | 증강 현실 컨텐트를 제공하는 전자 장치와 이의 동작 방법 |
US20220147735A1 (en) * | 2020-11-10 | 2022-05-12 | Nec Laboratories America, Inc. | Face-aware person re-identification system |
CN112734804B (zh) * | 2021-01-07 | 2022-08-26 | 支付宝(杭州)信息技术有限公司 | 图像数据标注的系统和方法 |
CN112633426B (zh) * | 2021-03-11 | 2021-06-15 | 腾讯科技(深圳)有限公司 | 处理数据类别不均衡的方法、装置、电子设备及存储介质 |
US11915434B2 (en) | 2021-04-20 | 2024-02-27 | Alwaysai, Inc. | Systems and methods for object re-identification |
AU2021204589A1 (en) * | 2021-06-14 | 2023-01-05 | Sensetime International Pte. Ltd. | Methods and apparatuses for determining object classification |
WO2022263908A1 (en) * | 2021-06-14 | 2022-12-22 | Sensetime International Pte. Ltd. | Methods and apparatuses for determining object classification |
KR102582683B1 (ko) * | 2021-10-08 | 2023-09-26 | 주식회사 오픈잇 | 검증 대상자를 검증하는 방법, 및 이를 이용하는 서버 및 프로그램 |
WO2023064990A1 (en) * | 2021-10-21 | 2023-04-27 | Meat & Livestock Australia Limited | Computer implemented system, method and device for counting animals |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004023373A (ja) * | 2002-06-14 | 2004-01-22 | Canon Inc | 画像処理装置及びその方法、並びにコンピュータプログラム及びコンピュータ可読記憶媒体 |
JP2007158860A (ja) * | 2005-12-06 | 2007-06-21 | Canon Inc | 撮影システム、撮影装置、画像切替装置、およびデータ保持装置 |
JP2012156752A (ja) * | 2011-01-26 | 2012-08-16 | Canon Inc | 監視領域制御方法 |
WO2013108686A1 (ja) * | 2012-01-17 | 2013-07-25 | ソニー株式会社 | 情報処理装置および方法、並びにプログラム |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2343945B (en) * | 1998-11-18 | 2001-02-28 | Sintec Company Ltd | Method and apparatus for photographing/recognizing a face |
CN1254904A (zh) * | 1998-11-18 | 2000-05-31 | 株式会社新太吉 | 用于拍摄/识别脸孔的方法和装置 |
WO2006034135A2 (en) * | 2004-09-17 | 2006-03-30 | Proximex | Adaptive multi-modal integrated biometric identification detection and surveillance system |
US9342594B2 (en) * | 2008-10-29 | 2016-05-17 | International Business Machines Corporation | Indexing and searching according to attributes of a person |
US10424342B2 (en) * | 2010-07-28 | 2019-09-24 | International Business Machines Corporation | Facilitating people search in video surveillance |
US9396412B2 (en) * | 2012-06-21 | 2016-07-19 | Siemens Aktiengesellschaft | Machine-learnt person re-identification |
US9633263B2 (en) * | 2012-10-09 | 2017-04-25 | International Business Machines Corporation | Appearance modeling for object re-identification using weighted brightness transfer functions |
CN103617413B (zh) * | 2013-11-07 | 2015-05-20 | 电子科技大学 | 一种在图像中识别物体的方法 |
-
2014
- 2014-09-30 AU AU2014240213A patent/AU2014240213B2/en active Active
-
2015
- 2015-08-21 JP JP2015164151A patent/JP6018674B2/ja active Active
- 2015-09-29 US US14/869,791 patent/US9852340B2/en active Active
- 2015-09-29 EP EP15187420.3A patent/EP3002710A1/en not_active Withdrawn
- 2015-09-30 CN CN201510642148.XA patent/CN105469029B/zh active Active
-
2017
- 2017-11-15 US US15/814,282 patent/US10248860B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004023373A (ja) * | 2002-06-14 | 2004-01-22 | Canon Inc | 画像処理装置及びその方法、並びにコンピュータプログラム及びコンピュータ可読記憶媒体 |
JP2007158860A (ja) * | 2005-12-06 | 2007-06-21 | Canon Inc | 撮影システム、撮影装置、画像切替装置、およびデータ保持装置 |
JP2012156752A (ja) * | 2011-01-26 | 2012-08-16 | Canon Inc | 監視領域制御方法 |
WO2013108686A1 (ja) * | 2012-01-17 | 2013-07-25 | ソニー株式会社 | 情報処理装置および方法、並びにプログラム |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2018070032A1 (ja) * | 2016-10-14 | 2019-08-08 | 株式会社Fuji | 画像処理装置 |
JP2018101317A (ja) * | 2016-12-21 | 2018-06-28 | ホーチキ株式会社 | 異常監視システム |
JP2018206373A (ja) * | 2017-06-06 | 2018-12-27 | ローベルト ボッシュ ゲゼルシャフト ミット ベシュレンクテル ハフツング | 車両のための、対象物を分類するための方法および装置 |
JP2020035443A (ja) * | 2018-08-24 | 2020-03-05 | 株式会社豊田中央研究所 | センシング装置 |
JP7351139B2 (ja) | 2018-08-24 | 2023-09-27 | 株式会社豊田中央研究所 | センシング装置 |
JP2020043533A (ja) * | 2018-09-13 | 2020-03-19 | 凸版印刷株式会社 | 映像伝送システム、映像伝送装置、および、映像伝送プログラム |
JP7256491B2 (ja) | 2018-09-13 | 2023-04-12 | 凸版印刷株式会社 | 映像伝送システム、映像伝送装置、および、映像伝送プログラム |
US11495008B2 (en) | 2018-10-19 | 2022-11-08 | Sony Group Corporation | Sensor device and signal processing method |
WO2020080140A1 (ja) * | 2018-10-19 | 2020-04-23 | ソニー株式会社 | センサ装置、信号処理方法 |
US11785183B2 (en) | 2018-10-19 | 2023-10-10 | Sony Group Corporation | Sensor device and signal processing method |
WO2020174566A1 (ja) * | 2019-02-26 | 2020-09-03 | 日本電気株式会社 | 監視装置、追跡方法、及び非一時的なコンピュータ可読媒体 |
JPWO2020174566A1 (ja) * | 2019-02-26 | 2021-12-16 | 日本電気株式会社 | 監視装置、追跡方法、及びプログラム |
US11882542B2 (en) | 2019-02-26 | 2024-01-23 | Nec Corporation | Monitoring device, tracking method, and non-transitory computer-readable medium |
US11146725B2 (en) | 2019-03-25 | 2021-10-12 | Nec Corporation | Information processing apparatus, camera control method, program, camera apparatus, and image processing system |
US11647279B2 (en) | 2019-03-25 | 2023-05-09 | Nec Corporation | Information processing apparatus, camera control method, program, camera apparatus, and image processing system |
WO2021157133A1 (ja) | 2020-02-03 | 2021-08-12 | コニカミノルタ株式会社 | 再同定装置、再同定プログラム、および再同定方法 |
JP7498459B2 (ja) | 2023-03-22 | 2024-06-12 | Toppanホールディングス株式会社 | 映像伝送システム、映像伝送装置、および、映像伝送プログラム |
Also Published As
Publication number | Publication date |
---|---|
US9852340B2 (en) | 2017-12-26 |
CN105469029A (zh) | 2016-04-06 |
AU2014240213A1 (en) | 2016-04-14 |
US20180075300A1 (en) | 2018-03-15 |
CN105469029B (zh) | 2020-04-03 |
AU2014240213B2 (en) | 2016-12-08 |
US20160092736A1 (en) | 2016-03-31 |
EP3002710A1 (en) | 2016-04-06 |
JP6018674B2 (ja) | 2016-11-02 |
US10248860B2 (en) | 2019-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6018674B2 (ja) | 被写体再識別のためのシステム及び方法 | |
US20220343665A1 (en) | Systems and methods for machine learning-based site-specific threat modeling and threat detection | |
US10755080B2 (en) | Information processing apparatus, information processing method, and storage medium | |
Owens et al. | Application of the self-organising map to trajectory classification | |
Elhamod et al. | Automated real-time detection of potentially suspicious behavior in public transport areas | |
Zhang et al. | Mining semantic context information for intelligent video surveillance of traffic scenes | |
US9798923B2 (en) | System and method for tracking and recognizing people | |
US10110801B2 (en) | Methods and systems for controlling a camera to perform a task | |
Shahzad et al. | A smart surveillance system for pedestrian tracking and counting using template matching | |
US10445885B1 (en) | Methods and systems for tracking objects in videos and images using a cost matrix | |
Azorín-López et al. | Human behaviour recognition based on trajectory analysis using neural networks | |
Zaidi et al. | Video anomaly detection and classification for human activity recognition | |
Nodehi et al. | Multi-metric re-identification for online multi-person tracking | |
Novas et al. | Live monitoring in poultry houses: A broiler detection approach | |
Krithika et al. | MAFONN-EP: A minimal angular feature oriented neural network based emotion prediction system in image processing | |
Chang et al. | Robust abandoned object detection and analysis based on online learning | |
Azorin-Lopez et al. | Self-organizing activity description map to represent and classify human behaviour | |
Narayan et al. | Learning deep features for online person tracking using non-overlapping cameras: A survey | |
Doulamis et al. | An architecture for a self configurable video supervision | |
Clapés et al. | User identification and object recognition in clutter scenes based on RGB-Depth analysis | |
Spinello et al. | Scene in the loop: Towards adaptation-by-tracking in RGB-D data | |
US20230386185A1 (en) | Statistical model-based false detection removal algorithm from images | |
Garcia et al. | On-line normality modelling and anomaly event detection using spatio-temporal motion patterns | |
Kumaran et al. | Temporal Unknown Incremental Clustering (TUIC) Model for Analysis of Traffic Surveillance Videos | |
Verma et al. | Contextual Information Based Anomaly Detection for a Multi-Scene UAV Aerial Videos |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160805 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160902 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160930 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6018674 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |