JP2016072964A

JP2016072964A - 被写体再識別のためのシステム及び方法

Info

Publication number: JP2016072964A
Application number: JP2015164151A
Authority: JP
Inventors: マイフェイ; fei Mai; リチャードタイラージェフリー; Richard Taylor Geoffrey
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2014-09-30
Filing date: 2015-08-21
Publication date: 2016-05-09
Anticipated expiration: 2035-08-21
Also published as: US9852340B2; CN105469029A; AU2014240213A1; US20180075300A1; CN105469029B; AU2014240213B2; US20160092736A1; EP3002710A1; JP6018674B2; US10248860B2

Abstract

【課題】候補被写体が着目被写体であるか否かを判定するために使用するカメラ設定を計画する方法を提供する。【解決手段】シーンの中の被写体を識別する方法４００であって、カメラの視点と関係なく、着目被写体の複数の属性の各々の独自性４１１を判定するステップ４１０と、シーンの中の候補被写体の相対的向き５４１に基づいて、複数の属性の各々の検出可能性を判定するステップ４２５と、少なくとも１つの属性の検出可能性を向上させるように、少なくとも１つの属性の判定された独自性４１１に基づいて、候補被写体を観察するためのカメラ設定４６１を決定するステップ４６０と、候補被写体が着目被写体であることの信頼度４４１を判定する４４０ために、決定されたカメラ設定４６１で候補被写体の画像を撮像するステップ４２０とを備える。【選択図】図４

Description

本発明は、一般に画像処理に関し、特に、候補被写体が着目被写体であるか否かを判定するために使用されるパン値、チルト値及びズーム値などの一連のカメラ設定を計画する方法、システム及び装置に関する。例を挙げると、「候補被写体」及び「着目被写体」という用語は、それぞれ、（ｉ）混雑した空港におり、人混みの中の一人であるにすぎない人物と、（ｉｉ）特定の着目人物であると既に識別されている人混みの中の人物とを表す。本発明は、候補被写体が着目被写体であるか否かを判定するために使用される一連のカメラ設定を計画するためのコンピュータプログラムが記録されたコンピュータ可読媒体を含むコンピュータプログラム製品にも関する。

ビデオカメラの大規模ネットワークを使用して、ショッピングセンター、駐車場及び駅などの公共施設が監視下に置かれることが増えている。大規模ビデオ監視が適用される分野は、セキュリティ、保安、交通管理及び業務上の分析などである。そのような多くの用途において重大な業務は、迅速且つ着実に被写体を再識別することであり、これは、ネットワーク内の多数のカメラで特定の着目被写体を発見するという問題である。セキュリティの分野に適用した場合を例にとると、警備員は、望ましくない行為を識別するために特に疑わしいターゲットを含むすべてのビデオフィードを見たいと思うかもしれない。更に業務上の分析の分野の例で言えば、ショッピングセンターは、特定の顧客が買い物をするときの習慣のプロファイルを構築するために多数のカメラでその顧客を追跡することを望むかもしれない。以下の説明中、用語「被写体再識別」は、用語「被写体識別」及び「被写体認識」を含むものと理解されるだろう。

着実に被写体を再識別することは、いくつかの理由により難しい問題である。第１に、ネットワーク内のカメラの間で視点（すなわち、カメラの視野の中の被写体に対するカメラの相対的な向き）及び照明が著しく大きく異なる場合がある。例えば、明るい日差しの中で遠距離からターゲットを観察する屋外用カメラ及び人工照明の下でターゲットを近距離から観察する屋内用カメラの双方が１つのネットワークに含まれる場合もある。更に、多くのターゲットが似たような外見を有し、ごく小さな詳細部でのみ異なっているかもしれない。例えば、公共交通機関にいる多くの通勤者は似たようなビジネスウェアを着用しており、その外見はネックウェアや髪の長さなどの詳細部で違っているだけである。また、多くの場合、公共施設の特徴は、無制御な環境の中で、カメラに対して絶えず変化する予測不可能な距離、速度及び向きで動き回る互いに協調関係のないターゲットから成る群衆を含むことである。用語「協調関係のないターゲット」は、意識的にも、無意識でもカメラに対して特定の関係をまったく維持していないターゲットを表す。最後に、ネットワーク内のカメラの視野は互いに重なり合わない場合もあるので、所定の被写体をある１つのカメラから次のカメラへ継続的に追跡することができない。

被写体再識別の一般的な方法は、（ｉ）外見に基づくか又は属性に基づく方法、及び（ｉｉ）固定カメラ又はアクティブカメラに適用される方法を含む。固定カメラを使用する外見に基づく被写体再識別のための既知の方法の１つは、被写体の例示的な画像から色、テクスチャ及び形状に基づく低レベル特徴のベクトルを抽出することにより被写体の外見をモデル化する。それらの特徴は、ターゲットの頭の周囲の縦縞により規定される着目領域において抽出される。再識別は、候補ターゲットの画像及び着目ターゲットの画像から抽出された特徴ベクトルの間のバタチャリヤ（Bhattacharyya）距離に基づいて外見相違スコアを計算することにある程度基づく。

固定カメラで属性に基づく再識別を実行する別の既知の方法は、歩行者の画像から１５の２進属性（サングラス、バックパック及びスカートなど）の有無を判定するためにＳＶＭ（サポートベクターマシン）分類子のバンクを使用する。ＳＶＭ分類子は、既知の属性を有する歩行者のトレーニングセットからの２，７８４次元の低レベル色特徴ベクトル及びテクスチャ特徴ベクトルに対してトレーニングされる。異なる属性が種々の信頼性で検出されるという問題を克服するために、複数対の歩行者の画像を照合するデータセットに基づいて属性距離尺度（マハラノビス距離）が学習される。再識別は、候補ターゲットの画像及び着目ターゲットの画像から抽出された１５の属性の間の学習済み属性距離尺度を計算することにある程度基づく。

遠い距離から被写体を観察する場合、固定カメラに基づく上記の再識別方法の性能は劣化する。この状況は、大規模ビデオ監視システムでは一般的である。ＰＴＺ（パン・チルト・ズーム）カメラに基づく再識別方法は、遠い距離から候補被写体の高解像度画像を撮像するためにカメラを制御することにより、この限界を克服できる。この方法は、「能動的再識別」の１つの形態と呼ばれる。能動的再識別の既知の方法の１つは、着目被写体を識別するために顔検出を使用する。固定マスターカメラは、ターゲットを検出し且つターゲットの視線方向を推定するために使用され、アクティブスレーブカメラは、選択された候補ターゲットの高解像度顔画像を取得するために使用される。候補ターゲットの選択は、ターゲットを観測することにより得られるターゲットのアイデンティティに関する予測情報利得に基づく。「相互情報量」として知られる「予測情報利得」は、観測を実行した結果、予測されるターゲットのアイデンティティに関する不確実度の減少である。この方法は、スレーブカメラの方に向いており且つ不確実なアイデンティティを有する候補を選択しがちである。この方法の欠点は、特定の視点（すなわち正面）で撮像された非常に見分けやすい特徴（すなわち顔）に依存することである。

情報理論概念に基づく能動的再識別のための別の既知の方法は、候補被写体のクラスに関する予測情報利得を最大にするために、候補被写体の異なる領域のズームインビューを撮像するための一連のＰＴＺ設定を動的に計画する。用語「クラス」は、「本」又は「マグカップ」のような意味的被写体カテゴリを表す。情報利得は、異なるＰＴＺ設定の下で取得された着目被写体の低レベル画像特徴の学習済み分布からある程度は計算される。この方法は、特徴分布を学習するために、利用可能なあらゆるＰＴＺ設定の下で各クラスの被写体の多数の画像をオフラインで取得できると想定する。

別の既知の関連方法では、カメラ設定は、被写体検出器などの確率的オートマトンにおいて相互情報量を最大にするために制御される。確率的オートマトンは、異なるスケールで量子化された画像特徴（「コードワード」としても知られる）を入力として使用する。コードワードは、第１の撮像画像で最初に検出され、更に高い解像度で個別のコードワードを観測するためにカメラ設定は繰り返し更新される。カメラ設定は、確率的オートマトンにおけるセルに対する入力として使用されるコードワードを観測した後に、セルの状態に関する相互情報量を最大にすることにより選択される。先の方法と同様に、この方法でも、確率的オートマトンをトレーニングするために、着目被写体のデータをトレーニングする必要がある。

更に別の既知の方法は、異なる身体領域の一連のズームイン観測に基づいて既知の人物の集団から歩行者を積極的に再識別する。この方法は、まず、候補の全身画像を撮像し、色及びテクスチャに基づいて特徴ベクトルを抽出する。特徴ベクトルは、候補と各集団画像との間のバタチャリヤ距離に基づいて集団をランク付けするために使用される。次に、連続する各観測が、現在のランクに基づいて集団の中で最大の特徴分散を示すズームイン領域として選択される。この方法は、集団中のあらゆる着目被写体に対して全身及びすべての身体領域のズームインビューを利用できると想定する。

本発明の目的は、既存の構成の１つ以上の欠点をほぼ克服するか又は少なくとも軽減することである。

カメラと着目被写体との間の相対的向き関係に関わらず、着目被写体の属性の独自性を判定することにより上記の問題に対処しようとする視点独立独自性判定（ＶＩＤＤ）構成と呼ばれる構成が開示される。これにより、着目被写体を特定の視点の下で先に観察しておく必要があった既存の方法とは異なり、着目被写体が以前に観察されなかった視点で着目被写体を再識別できる。更に、開示されるＶＩＤＤ構成は、着目被写体の意味的記述に基づく場合、先に撮像された着目被写体の画像がなくても着目被写体を再識別できる。

本発明の第１の態様によれば、シーンの画像の中の被写体をカメラによって識別する方法であって、
カメラの視点とは関係なく、着目被写体の複数の属性の各々の独自性を判定するステップと、
シーンの画像の中の候補被写体の相対的向きに基づいて、該候補被写体の複数の属性の各々の検出可能性を判定するステップと、
少なくとも１つの属性の検出可能性を向上させるように、判定された少なくとも１つの属性の独自性に基づいて候補被写体を観察するためのカメラ設定を決定するステップと、
候補被写体が着目被写体であることの信頼度を判定するために、決定されたカメラ設定で候補被写体の画像を撮像するステップと
を備える方法が提供される。

本発明の別の態様によれば、装置であって、
着目被写体の画像及びシーンの中の候補被写体の画像を撮像するカメラと、
プロセッサと、
シーンの画像の中の被写体をカメラによって識別する方法を実行することをプロセッサに指示するためのコンピュータ実行可能ソフトウェアプログラムを記憶するメモリと
を備え、方法は、
カメラの視点とは関係なく、着目被写体の複数の属性の各々の独自性を判定するステップと、
シーンの画像の中の候補被写体の相対的向きに基づいて、該候補被写体の複数の属性の各々の検出可能性を判定するステップと、
少なくとも１つの属性の検出可能性を向上させるように、判定された少なくとも１つの属性の独自性に基づいて候補被写体を観察するためのカメラ設定を決定するステップと、
候補被写体が着目被写体であることの信頼度を判定するために、決定されたカメラ設定で候補被写体の画像を撮像するステップと
を備える装置が提供される。

本発明の別の態様によれば、シーンの画像の中の被写体をカメラによって識別する装置であって、
カメラの視点とは関係なく、着目被写体の複数の属性の各々の独自性を判定する独自性判定モジュールと、
シーンの画像の中の候補被写体の相対的向きに基づいて、該候補被写体の複数の属性の各々の検出可能性を判定する検出可能性判定モジュールと、
少なくとも１つの属性の検出可能性を向上させるように、判定された少なくとも１つの属性の独自性に基づいて候補被写体を観察するためのカメラ設定を決定するカメラ設定決定モジュールと、
候補被写体が着目被写体であることの信頼度を判定するために、決定されたカメラ設定で候補被写体の画像を撮像する撮像モジュールと
を備える装置が提供される。

本発明の別の態様によれば、シーンの画像の中の被写体をカメラによって識別する方法を実行することをプロセッサに指示するためのコンピュータ実行可能ソフトウェアプログラムを記憶するコンピュータ可読非一時的メモリであって、方法は、
カメラの視点とは関係なく、着目被写体の複数の属性の各々の独自性を判定するステップと、
シーンの画像の中の候補被写体の相対的向きに基づいて、該候補被写体の複数の属性の各々の検出可能性を判定するステップと、
少なくとも１つの属性の検出可能性を向上させるように、判定された少なくとも１つの属性の独自性に基づいて候補被写体を観察するためのカメラ設定を決定するステップと、
候補被写体が着目被写体であることの信頼度を判定するために、決定されたカメラ設定で候補被写体の画像を撮像するステップと
を備えるコンピュータ可読非一時的メモリが提供される。

本発明の他の態様も開示される。

添付の図面を参照して、本発明の１つ以上の実施形態を説明する。
図１Ａは、１つのＶＩＤＤ構成に従って例示的な着目被写体を説明するために使用される属性を示す簡略化された図である。図１Ｂは、ＶＩＤＤ構成が適用されてもよい、ＰＴＺカメラにより撮像された例示的な候補被写体の画像を示す簡略化された図である。図２は、ＶＩＤＤ構成が適用されてもよい、異なるカメラ設定の下で撮像された例示的な候補被写体の画像を示す簡略化された図である。図３は、１つのＶＩＤＤ構成に従って候補被写体のアイデンティティを検出された属性に関連付ける信念ネットワークの簡略化された図である。図４は、ＶＩＤＤ構成に従ってシーンの中の被写体をカメラによって識別する方法を示す概略流れ図である。、、図５、図６Ａ及び図６Ｂは、全体として、図４の方法の一実現形態に係る候補被写体の相対的向きを判定する方法を示す図である。図７Ａは、図４の方法で使用されるような候補被写体の属性を検出する方法を示す概略流れ図である。図７Ｂは、図７Ａの方法の一実現形態に係る候補被写体の属性を検出するための着目領域の例を示す図である。図８は、図４の方法で使用されるような、候補被写体が着目被写体である確率を判定する方法を示す概略流れ図である。図９は、図４の方法の一実現形態に係る新たなカメラ設定を選択する方法を示す概略流れ図である。、図１０Ａ及び図１０Ｂは、説明されるＶＩＤＤ構成を実施できる汎用コンピュータシステムを示す概略ブロック図である。図１１は、本明細書において使用される用語間の関係を示す図である。図１２は、図４のステップ４４０で使用されるような、独自性を判定する方式の一例を示す図である。

背景状況
添付の図面のうち１つ以上の図で、同一の図中符号を有するステップ及び／又は特徴を参照する場合、本明細書の便宜上、それらのステップ及び／又は特徴は、逆の意図が示されない限り同一の機能又は作用を有する。

尚、「発明の背景」の章及び従来技術の構成に関連する先の章に含まれる説明は、公開及び／又は利用を通してそれぞれ周知の事実になっていると思われる文献又は装置の説明に関連する。その説明は、上記の文献又は装置が従来の技術において一般的な知識の一部を形成するということを本発明の発明者又は特許出願人が表現したものとして解釈されるべきではない。

「発明の背景」の章で言及した従来の能動的再識別方法では、候補被写体又は着目被写体の画像を特定のカメラ設定又は観察条件（可能なすべての観察条件を含む）の下で撮像する必要がある。本明細書において、「観察条件」は、カメラと被写体との間の距離、カメラの焦点距離及び解像度、並びにカメラ（すなわち視点）に対する被写体の向きなどの、被写体の画像が撮像されるときの条件を表す。大規模な監視状況の特徴は、無制御の環境の中でターゲットが互いに協調せず動き回ることである。従って、実際の用途で提示される条件は、既知の能動的再識別方法には不都合である。

本発明は、最も独自性の高い属性の検出可能性を向上させるために使用される一連のカメラ設定を計画することにより、被写体の属性に基づいて、カメラを使用してシーンの中の着目被写体を識別する方法及びシステムを提供する。本明細書において、「属性」は、「髪の長さ」のように、画像の中で観測できる被写体のカテゴリ別特性である。用語「クラス」、「クラスラベル」及び「属性ラベル」は互換性をもって使用され、属性「髪の長さ」に対するクラスラベル「長髪」のように、１つの属性の特定の発現を明示する。特定の画像の中の１つの属性の「検出可能性」は、その画像からその属性を判定できる確実度を表す。

図１Ａ及び図１Ｂは、ＶＩＤＤ構成が適用されてもよい例示的な使用状況を示す。この例では、目標は、ＰＴＺカメラ１４０の監視下でシーンの画像１２０の中に着目人物１００（この例では着目被写体である）がいると判定することである。以下の説明中、「候補被写体」は、着目被写体になりうるが、現時点では未知のアイデンティティを有するいずれかの観測被写体を表す。例えば、カメラ１４０により観測されたシーンの画像１２０の中の歩行者１３０は、着目被写体１００に対する候補被写体である。

図１Ｂは、デジタルカメラ１４０により撮像されたシーンの画像１２０を示す。

図１１は、本明細書で使用される用語のうちいくつかを示す。画像１１０１は、１１０４のような視覚要素から構成される。用語「画素」、「画素位置」及び「画像位置」は、本明細書を通して、撮像された画像の中の視覚要素のうち１つを表すために互換性をもって使用される。各画素は、撮像されたシーンの特性を特徴付ける１つ以上の値により記述される。一例では、１つの強度値はその画素位置におけるシーンの明るさを特徴付ける。別の例では、値の三重項（triplet）はその画素位置におけるシーンの色を特徴付ける。画像１１０１中の「領域」１１０３は、１１０４のような１つ以上の空間的に隣接する視覚要素の集合体を表す。「特徴」１１０２は、画像領域１１０３の中の画素値から判定された導出値又は導出値の集合を表す。一例では、特徴は画像領域１１０３における色値のヒストグラムである。別の例では、特徴は、領域１１０３における輝度勾配を推定することにより判定される「エッジ」値である。更に別の例では、特徴は、頭を含む領域のラベル「帽子」のように、画像領域１１０３における属性を記述するクラスラベルである。クラスラベルは、画像領域１１０３から抽出された特徴にサポートベクターマシン（ＳＶＭ）又は他の分類方法を適用することにより判定される。

着目人物１００は、「髪の長さ」などの属性の固定集合の用語によって記述され、各属性には個別のクラスラベル（例えば、「長髪」）が割り当てられる。１つのＶＩＤＤ構成において、属性は着目人物を記述するソフトバイオメトリクスである。ソフトバイオメトリクスは、他の人物を記述するために観測者により好んで使用される特徴を表すカテゴリ別意味的情報を符号化する。一例では、人物は、クラスラベル「長髪」又は「短髪」のうち一方をとるソフトバイオメトリクス（属性）「髪の長さ」を使用して記述される。本明細書において、用語「クラスラベル」と「クラス」は互換性をもって使用され、用語「属性」と「ソフトバイオメトリクス」は互換性をもって使用される。図１Ａの例の人物１００の場合、ソフトバイオメトリクス記述は、属性「髪の長さ」１１１に割り当てられたクラスラベル「短髪」と、属性「眼鏡の種類」１１２に割り当てられたクラスラベル「サングラス着用」と、属性「髭の形」１１３に割り当てられたクラスラベル「顎鬚あり」と、属性「頭頂部の色の濃淡」１１４に割り当てられたクラスラベル「淡い色の頭頂部」と、属性「袖の長さ」１１５に割り当てられたクラスラベル「長袖」と、属性「ズボンの色の濃淡」１１６に割り当てられたクラスラベル「濃い色のズボン」と、属性「ズボンの長さ」１１７に割り当てられたクラスラベル「長ズボン」と、属性「手荷物の種類」１１８に割り当てられたクラスラベル「ショルダーバッグ」とを含んでもよい。ソフトバイオメトリクスは、異なる視点にまたがって検出可能であり、外見の変化（サングラスを外すなど）に容易に適応でき、外見ベースモデルよりコンパクトであり、文字記述又は口頭説明（例えば、犯罪の証人からの書面による供述書）から構成可能である。従って、ソフトバイオメトリクス（及び一般に属性）は、被写体の最小限の記述に基づいて、カメラネットワークの異なる視点から被写体を再識別するというタスクに適する。

以下の説明中、実施形態の大部分は着目人物の識別に関するが、本明細書において説明されるＶＩＤＤ構成は、他の種類の被写体に対しても同等に実施されてよい。一例によれば、ＶＩＤＤ方法は、「車体の色」、「ヘッドライトの形状」及び「スポイラーの有無」などの属性により記述される着目車両の識別に適用される。別の例では、ＶＩＤＤ方法は、「尾の長さ」、「毛皮の色」及び「毛の長さ」などの属性により記述される着目動物の識別に適用される。属性はどのようなカテゴリ別画像特徴であることも可能であり、意味的特徴でなくてもよい。更に別の例では、ＶＩＤＤ方法は、シーンの中の候補被写体の着目点から抽出された低レベル画像特徴に基づいて学習済み視覚単語の集合を使用して着目被写体を識別する場合に適用される。ＶＩＤＤ構成は、異なる種類のカメラに適用されてもよい。以下の説明の中で使用される一例では、ＶＩＤＤ構成はＰＴＺカメラの向き及びズームを制御するために使用される。別の例では、ＶＩＤＤ構成は焦点及び露光値などの観察条件に影響を及ぼす他のカメラ設定を制御するために使用される。別の例では、ＶＩＤＤ方法は後の処理に備えて静的高解像度ビデオストリームの中で着目領域を選択するために使用される。

以下の説明中、属性の「独自性」は、カメラにより観測されると思われる他の候補被写体と比較した場合に、着目被写体に対してその属性クラスラベルがどれほど特有であるかを表す。他の被写体は、まとめて候補被写体の「母集団」と呼ばれる。一例では、母集団の中で帽子を着用している人物が相対的に少ない場合、クラスラベル「帽子着用」は高い独自性を有する。逆に、母集団における他の多くの人物が帽子を着用している場合（例えば、シーンが晴天の日中の屋外である場合）、「帽子着用」は低い独自性を有する。属性の「検出可能性」は、候補被写体の画像の中でその属性を検出できる確実度を表す。一般に、検出可能性は、カメラと被写体との間の距離、カメラの焦点距離及び解像度、並びにカメラ（すなわち視点）に対する被写体の向きなどの観察条件に伴って変化する。例えば、顔のズームイン正面画像の場合、顎鬚の有無は高い検出可能性を有するかもしれない。逆に、人物がカメラから顔をそむけている場合又は人物がカメラから非常に遠い場所にいる場合には、顎鬚を検出するのは難しいだろう。

図１Ｂに示されるように、デジタルカメラ１４０はコンピュータシステム１５０と通信する。この例示的なＶＩＤＤ構成は、ある範囲の用途に適用可能である。一例では、コンピュータシステム１５０は、警備員が対話型ユーザインタフェースを介して不審なターゲットの属性を指定することを可能にし、不審なターゲットであると判定された１つ以上の候補ターゲットの画像を返送する。別の例では、コンピュータは、ショッピングセンターなどの販売スペースを観測する異なるカメラで個別の顧客を識別することができ、販売分析に使用される顧客挙動のモデルを自動的に作成する。更に別の例では、コンピュータシステムは、交通カメラネットワークの中で異なる時点で個別の車両の位置を識別でき、車両の流れを改善するために、この情報を使用して交通信号を制御する。
発明の概要
先に説明したように、本発明は、カメラにより観測される候補被写体が着目被写体であるか否かを判定する方法に関する。先に述べた通り、この問題に対する既知の解決方法では、候補被写体又は着目被写体の画像は特定の観察条件の下で撮像されなくてはならない。例えば、顔認識に基づく既存の方法は、候補被写体及び着目被写体の双方の少なくとも１つの正面顔画像を必要とする。更に、低レベル画像特徴に基づく既存の方法は、実際のすべての観察条件下における候補被写体の画像を必要とする。そのため、観察条件を前述のように制約できない場合、既存の方法の性能は劣化する可能性がある。この制限の一例は、候補ターゲットが広いオープンスペースの中で自由に動けるショッピングセンターで、万引き犯を証人の説明に基づいて（すなわち万引き犯の画像を利用できない）識別するという作業である。

本明細書において説明されるＶＩＤＤ方法は、ある観察条件範囲にわたり検出可能な複数の属性を使用して被写体を記述することにより、上記の制限の問題を克服する。これにより、以前は着目被写体が観測されなかったような観察条件の下で着目被写体を識別できる。更に、方法は、候補被写体のアイデンティティに関する不確実性を最大限に減少させる一連の観測を取得する。これは、与えられた現在の視点（すなわち、カメラに対する候補被写体の相対的向き）に対して、最も独自性の高い属性の検出可能性を改善するためにカメラ設定を能動的に制御することにより実現される。この制御処理は「ＰＴＺ検査（interrogation）」と呼ばれる。候補被写体はカメラの視野の中にごく一時的に現れるだけかもしれないので、ＰＴＺ検査の目標は、最小限の数の撮像画像によって各候補被写体のアイデンティティに関して取得される情報を最大にすることである。

図１０Ａ及び図１０Ｂは、説明される種々のＶＩＤＤ構成を実施可能な汎用コンピュータシステム１５０を示す。

図１０Ａに示されるように、コンピュータシステム１５０は、コンピュータモジュール１００１と、キーボード１００２、マウスポインタデバイス１００３、スキャナ１０２６、カメラ１４０のような１つ以上のカメラ及びマイク１０８０などの入力デバイスと、プリンタ１０１５、ディスプレイデバイス１０１４及びスピーカ１０１７を含む出力デバイスとを含む。外部変復調器（モデム）トランシーバデバイス１０１６は、接続１０２１を介し、通信ネットワーク１０２０を介して１４１のような遠隔カメラとの間で通信を実行するためにコンピュータモジュール１００１により使用されてもよい。通信ネットワーク１０２０は、インターネットなどのワイドエリアネットワーク（ＷＡＮ）、セルラ通信ネットワーク又はプライベートＷＡＮであってもよい。接続１０２１が電話回線である場合、モデム１０１６は従来の「ダイヤルアップ」モデムであってもよい。あるいは、接続１０２１が大容量（例えば、ケーブル）接続である場合、モデム１０１６はブロードバンドモデムであってもよい。通信ネットワーク１０２０への無線通信のために、無線モデムが使用されてもよい。

コンピュータモジュール１００１は、少なくとも１つのプロセッサユニット１００５及びメモリユニット１００６を通常含む。例えば、メモリユニット１００６は、半導体ランダムアクセスメモリ（ＲＡＭ）及び半導体読み取り専用メモリ（ＲＯＭ）を有してもよい。コンピュータモジュール１００１は、ビデオディスプレイ１０１４、スピーカ１０１７及びマイク１０８０に結合するオーディオ−ビデオインタフェース１００７と、キーボード１００２、マウス１００３、スキャナ１０２６及びカメラ１４０に結合し且つ任意にジョイスティック又は他のヒューマンインタフェースデバイス（図示せず）に結合するＩ／Ｏインタフェース１０１３と、外部モデム１０１６及びプリンタ１０１５に対応するインタフェース１００８とを含む複数の入出力（Ｉ／Ｏ）インタフェースを更に含む。いくつかの実現形態において、モデム１０１６は、コンピュータモジュール１００１の中に、例えばインタフェース１００８の中に組み込まれてもよい。コンピュータモジュール１００１は、ローカルエリアネットワーク（ＬＡＮ）として知られるローカルエリア通信ネットワーク１０２２に接続１０２３を介してコンピュータシステム１５０を結合させるローカルネットワークインタフェース１０１１を更に有する。図１０Ａに示されるように、ローカル通信ネットワーク１０２２は、通常はいわゆる「ファイアウォール」デバイス又は類似の機能性を有するデバイスを含むと考えられる接続１０２４を介してワイドネットワーク１０２０に更に結合してもよい。ローカルネットワークインタフェース１０１１は、イーサネット回路カード、Ｂｌｕｅｔｏｏｔｈ（登録商標）無線構成又はＩＥＥＥ８０２．１１無線構成を備えてもよいが、インタフェース１０１１として数々の他の種類のインタフェースが実施されてもよい。

Ｉ／Ｏインタフェース１００８及び１０１３は、直列接続性又は並列接続性のいずれか、あるいはその双方を提供してもよいが、直列接続は、通常ユニバーサルシリアルバス（ＵＳＢ）規格に従って実現され、対応するＵＳＢコネクタ（図示せず）を有する。記憶デバイス１００９が設けられ、ハードディスクドライブ（ＨＤＤ）１０１０を通常含む。フロッピーディスクドライブ及び磁気テープドライブ（図示せず）などの他の記憶デバイスも使用されてよい。光ディスクドライブ１０１２は、通常不揮発性データ源として機能するために設けられる。システム１５０に対する適切なデータ源として、例えば光ディスク（例えば、ＣＤ−ＲＯＭ、ＤＶＤ、Ｂｌｕ−ｒａｙＤｉｓｃ（登録商標））、ＵＳＢ−ＲＡＭ、ポータブル、外部ハードドライブ及びフロッピーディスクなどのポータブルメモリデバイスが使用されてもよい。

コンピュータモジュール１００１の構成要素１００５〜１０１３は、通常相互接続バス１００４を介して、当業者には知られている従来の動作モードでコンピュータシステム１５０が動作するように通信する。例えば、プロセッサ１００５は、接続１０１８を使用してシステムバス１００４に結合される。同様に、メモリ１００６及び光ディスクドライブ１０１２は、接続１０１９によりシステムバス１００４に結合される。説明された構成を実施できるコンピュータの例には、ＩＢＭ−ＰＣ及びそのコンパチブル、ＳｕｎＳｐａｒｃｓｔａｔｉｏｎｓ、ＡｐｐｌｅＭａｃ（登録商標）又は同様のコンピュータシステムがある。

ＶＩＤＤ方法は、このコンピュータシステム１５０を使用して実現されてもよく、その場合、以下に説明される図４、図５、図７Ａ、図８及び図９の処理は、コンピュータシステム１５０で実行可能な１つ以上のＶＩＤＤソフトウェアアプリケーションプログラム１０３３として実現されてもよい。特に、ＶＩＤＤ方法の各ステップは、コンピュータシステム１５０の中で実行されるソフトウェア１０３３の命令１０３１（図１０Ｂを参照）により実行される。ソフトウェア命令１０３１は、各々が１つ以上の特定のタスクを実行する１つ以上のコードモジュールとして形成されてもよい。ソフトウェアは２つの個別の部分に分割されてもよく、第１の部分及び対応するコードモジュールはＶＩＤＤ方法を実行し、第２の部分及び対応するコードモジュールは、第１の部分とユーザとの間のユーザインタフェースを管理する。

ＶＩＤＤソフトウェアは、例えば以下に説明される記憶デバイスを含めて、コンピュータ可読媒体に記憶されてもよい。ソフトウェアは、コンピュータ可読媒体からコンピュータシステム１５０にロードされ、その後、コンピュータシステム１５０により実行される。そのようなソフトウェア又はコンピュータプログラムが記録されたコンピュータ可読媒体は、コンピュータプログラム製品である。コンピュータシステム１５０においてコンピュータプログラム製品を使用することにより、ＶＩＤＤ方法を実現する好都合な装置が得られるのが好ましい。

ソフトウェア１０３３は通常は、ＨＤＤ１０１０又はメモリ１００６に記憶される。ソフトウェアは、コンピュータ可読媒体からコンピュータシステム１５０にロードされ、コンピュータシステム１５０により実行される。従って、例えばソフトウェア１０３３は、光ディスクドライブ１０１２により読み取られる光学的読み取り可能ディスク記憶媒体（例えば、ＣＤ−ＲＯＭ）１０２５に記憶されてもよい。そのようなソフトウェア又はコンピュータプログラムが記録されたコンピュータ可読媒体は、コンピュータプログラム製品である。コンピュータシステム１５０においてコンピュータプログラム製品を使用することにより、ＶＩＤＤ構成を実施する装置が得られるのが好ましい。

場合によっては、ＶＩＤＤアプリケーションプログラム１０３３は、１つ以上のＣＤ−ＲＯＭ１０２５で符号化された形でユーザに供給され、対応するドライブ１０１２を介して読み取られてもよいが、ユーザによりネットワーク１０２０又は１０２２から読み取られてもよい。更に、ソフトウェアは、他のコンピュータ可読媒体からコンピュータシステム１５０にロードされることも可能である。コンピュータ可読記憶媒体は、記録されている命令及び／又はデータを実行及び／又は処理のためにコンピュータシステム１５０に提供する何らかの非一時的有形記憶媒体を表す。そのような記憶媒体の例には、デバイスがコンピュータモジュール１００１の中にあるか又は外にあるかに関わらず、フロッピーディスク、磁気テープ、ＣＤ−ＲＯＭ、ＤＶＤ、Ｂｌｕ−ｒａｙ（登録商標）Ｄｉｓｃ、ハードディスクドライブ、ＲＯＭ又は集積回路、ＵＳＢメモリ、光磁気ディスク、あるいはＰＣＭＣＩＡカードなどのコンピュータ可読カードがある。ソフトウェア、アプリケーションプログラム、命令及び／又はデータのコンピュータモジュール１００１への提供に関与してもよい一時的又は非有形コンピュータ可読送信媒体の例には、無線送信チャネル又は赤外線送信チャネル、並びに別のコンピュータ又はネットワーク化デバイスへのネットワーク接続、Ｅメール送信及びウェブサイトなどに記録された情報を含むインターネット又はイントラネットがある。

前述のアプリケーションプログラム１０３３の第２の部分及び対応するコードモジュールは、ディスプレイ１０１４にレンダリングされるか又は他の方法で表現される１つ以上のグラフィカルユーザインタフェース（ＧＵＩ）を実現するために実行されてもよい。コンピュータシステム１５０及びアプリケーションのユーザは、ＧＵＩと関連するアプリケーションに対するコマンド及び／又は入力の制御を実行するために、通常はキーボード１００２及びマウス１００３を操作することによって、機能適応可能にインタフェースを操作してもよい。スピーカ１０１７を介して出力される発話プロンプト及びマイク１０８０を介して入力されるユーザ音声コマンドを利用するオーディオインタフェースなどの他の形態の機能適応可能ユーザインタフェースも実現されてよい。

図１０Ｂは、プロセッサ１００５及び「メモリ」１０３４の詳細な概略ブロック図である。メモリ１０３４は、図１０Ａのコンピュータモジュール１００１によりアクセス可能なすべてのメモリモジュール（ＨＤＤ１００９及び半導体メモリ１００６を含む）の論理的集合体を表す。

先ずコンピュータモジュール１００１の電源が入れられると、パワーオンセルフテスト（ＰＯＳＴ）プログラム１０５０が実行される。ＰＯＳＴプログラム１０５０は、通常、図１０Ａの半導体メモリ１００６のＲＯＭ１０４９に記憶される。ソフトウェアを記憶するＲＯＭ１０４９のようなハードウェアデバイスは、ファームウェアと呼ばれる場合もある。ＰＯＳＴプログラム１０５０は、適正な機能を確保するためにコンピュータモジュール１００１の中のハードウェアを検査し、通常、プロセッサ１００５、メモリ１０３４（１００９、１００６）及び基本入出力システムソフトウェア（ＢＩＯＳ）モジュール１０５１が正しく動作しているか否かを検査する。ＢＩＯＳモジュール１０５１も、通常ＲＯＭ１０４９に記憶される。ＰＯＳＴプログラム１０５０の実行が問題なく完了したならば、ＢＩＯＳ１０５１は図１０Ａのハードディスクドライブ１０１０を起動する。ハードディスクドライブ１０１０の起動によって、ハードディスクドライブ１０１０に常駐するブートストラップローダプログラム１０５２がプロセッサ１００５を介して実行される。これにより、オペレーティングシステム１０５３がＲＡＭメモリ１００６にロードされ、その後オペレーティングシステム１０５３は動作を開始する。オペレーティングシステム１０５３は、プロセッサ管理、メモリ管理、デバイス管理、記憶管理、ソフトウェアアプリケーションインタフェース及び一般的ユーザインタフェースを含む種々の高レベル機能を遂行するためにプロセッサ１００５により実行可能なシステムレベルアプリケーションである。

オペレーティングシステム１０５３は、コンピュータモジュール１００１で実行中の各処理又はアプリケーションを別の処理に割り当てられたメモリと衝突することなく実行するのに十分なメモリを確保するために、メモリ１０３４（１００９、１００６）を管理する。更に、各処理が有効に実行可能であるように、図１０Ａのシステム１５０で利用可能な異なる種類のメモリは適正に使用されなければならない。従って、集合型メモリ１０３４は、メモリの特定のセグメントがどのように割り当てられるかを例示するのではなく（特に指示のない限り）、コンピュータシステム１５０によりアクセス可能なメモリの全体図を提供し且つそれがどのように使用されるかを示すことを意図する。

図１０Ｂに示されるように、プロセッサ１００５は、制御ユニット１０３９、演算論理ユニット（ＡＬＵ）１０４０、及びキャッシュメモリと呼ばれる場合もあるローカルメモリ又は内部メモリ１０４８を含む複数の機能モジュールを含む。キャッシュメモリ１０４８は、レジスタ部分に複数の記憶レジスタ１０４４〜１０４６を通常含む。１つ以上の内部バス１０４１は、これらの機能モジュールを機能的に互いに接続する。通常、プロセッサ１００５は、接続１０１８を使用して、システムバス１００４を介して外部デバイスと通信するための１つ以上のインタフェース１０４２を含む。メモリ１０３４は、接続１０１９を使用してバス１００４に結合される。

ＶＩＤＤアプリケーションプログラム１０３３は、条件付き分岐命令及びループ命令を含んでもよい一連の命令１０３１を含む。プログラム１０３３は、プログラム１０３３の実行に使用されるデータ１０３２を更に含んでもよい。命令１０３１及びデータ１０３２は、メモリの記憶位置１０２８、１０２９、１０３０及び１０３５、１０３６、１０３７にそれぞれ記憶される。命令１０３１及び記憶位置１０２８〜１０３０の相対的な大きさに応じて、記憶位置１０３０に示される命令により表されるように、特定の命令は１つの記憶位置に記憶されてもよい。あるいは、命令は複数の部分に分割されてもよく、各部分は、記憶位置１０２８及び１０２９に示される命令セグメントにより表されるように個別の記憶位置に記憶される。

一般に、プロセッサ１００５は命令セットを提供され、命令はプロセッサ１００５で実行される。プロセッサ１１０５は次の入力を待機し、次の入力に対して、プロセッサ１００５は、別の命令セットを実行することにより反応する。各入力は、入力デバイス１００２、１００３のうち１つ以上により生成されたデータ、ネットワーク１０２０、１００２のうち１つを介して外部データ源から受信されたデータ、記憶デバイス１００６、１００９のうち１つから検索されたデータ、又は対応する読み取り装置１０１２に差し込まれた記憶媒体１０２５から検索されたデータ（すべて図１０Ａに示す）を含む複数のソースのうち１つ以上のソースから提供されてもよい。命令セットを実行した結果、データが出力される場合もある。実行はデータ又は変数をメモリ１０３４に記憶することを含んでもよい。

開示されるＶＩＤＤ構成は、メモリ１０３４の対応する記憶位置１０５５、１０５６、１０５７に記憶される入力変数１０５４を使用する。ＶＩＤＤ構成は出力変数１０６１を発生し、出力変数１０６１は、メモリ１０３４の対応する記憶位置１０６２、１０６３、１０６４に記憶される。中間変数１０５８が記憶位置１０５９、１０６０、１０６６及び１０６７に記憶されてもよい。

図１０Ｂのプロセッサ１００５を参照すると、レジスタ１０４４、１０４５、１０４６、演算論理ユニット（ＡＬＵ）１０４０及び制御ユニット１０３９は、プログラム１０３３を構成する命令セットの命令ごとに「フェッチ、復号、実行」サイクルを実行するために必要とされるマイクロ動作シーケンスを実行するように協働する。各フェッチ、復号、実行サイクルは、
・記憶位置１０２８、１０２９、１０３０から命令１０３１をフェッチする又は読み取るフェッチ動作、
・命令がフェッチされたか否かを制御ユニット１０３９が判定する復号動作、及び
・制御ユニット１０３９及び／又はＡＬＵ１０４０が命令を実行する実行動作
を含む。

その後、次の命令に対して更なるフェッチ、復号、実行サイクルが実行されてもよい。同様に、制御ユニット１０３９が値を記憶位置１０３２に記憶する又は書き込む記憶サイクルが実行されてもよい。

図４、図５、図７Ａ、図８及び図９の処理における各ステップ又はサブプロセスは、プログラム１０３３の１つ以上のセグメントと関連し、プログラム１０３３の該当するセグメントに関して命令セット中の命令ごとにフェッチ、復号、実行サイクルを実行するように協働するプロセッサ１００５のレジスタ部分１０４４、１０４５、１０４７、ＡＬＵ１０４０及び制御ユニット１０３９により実行される。

あるいは、ＶＩＤＤ方法は、ＶＩＤＤ機能又は副機能を実行する１つ以上の集積回路などの専用ハードウェアで実現されてもよい。そのような専用ハードウェアは、グラフィックプロセッサ、デジタルシグナルプロセッサ又は１つ以上のマイクロプロセッサ及び関連メモリを含んでもよく、ビデオカメラなどのプラットホームに常駐してもよい。

図２は、１つのＶＩＤＤ構成に従ってＰＴＺ検査で使用するための計画処理を示す。候補被写体２０５を含むシーンの第１の画像２００が低倍率のズームで撮像される（図４のステップ４２０においてＶＩＤＤ構成ソフトウェア１０３３の指示に従ってプロセッサ１００５により制御されるカメラ１４０又は別のカメラ１４１により）。第１の画像２００に基づいて、第２の画像（２１０又は２２０）が撮像され（ＶＩＤＤ構成に従って図４のステップ４２０、４２５、４３０、４４０、４５０及び４６０を使用して第１の画像２００を処理した後に、図４のステップ４２０においてＶＩＤＤ構成ソフトウェア１０３３の指示に従ってプロセッサ１００５により制御されるカメラ１４０又は他のカメラ１４１により）、第２の画像は、独自属性の検出可能性を向上させるために候補被写体の１つの領域を高解像度で示す。第２の画像（２１０又は２２０）に使用されるカメラ設定は、複数の仮カメラ設定の中から選択される。図９のステップ９１０を使用して判定される「仮カメラ設定」は、ターゲットの「頭」、「胴体」及び「脚」を観測するなどの規則に基づいてあらかじめ確定されてもよいが、第２の画像を撮像するカメラについて可能なすべてのＰＴＺ設定を含んでもよい。

当初のシーンの画像２００の領域２３０に対応する１つの可能ビュー２１０により、被写体全体２０５の属性を中程度の検出可能性で検出できる。当初のシーンの画像２００の領域２４０に対応する他の可能ビュー２２０により、頭２２０の属性を高い検出可能性で検出できる。ビュー２１０又はビュー２２０を撮像するために選択されるカメラ設定は、ビュー２１０又はビュー２２０と関連する独自属性の検出可能性の予測増加にある程度基づいて選択される（図８のステップ８２０においてＶＩＤＤ構成ソフトウェア１０３３の指示に従ってプロセッサ１００５により判定される）。例えば、着目被写体の最も独自性の高い１つの属性が「顎鬚あり」である場合、顎鬚２２５の検出可能性を最大にするために、ビュー２２０が選択される。あるいは、「長ズボン」及び「短髪」が共に独自属性である場合、２つの独自属性、すなわち髪２１２及びズボン２１４の双方を観測するための最大検出可能性より低い検出可能性を利用するために、ビュー２１０が選択されてもよい。

図３は、本発明において被写体識別のために使用されるベイズの推論を使用する信念ネットワーク３００を示す。ｘは、ノード３５０により表されるように、候補被写体が着目被写体であるか否かの２進決定を表すものとする。以下の説明中、ｘ＝１は、候補被写体が着目被写体であるという決定を表し、ｘ＝０はその逆を表す。ａ＝｛ａ_ｉ｝，ｉ＝１，．．．，Ｎは、着目被写体のＮ個の属性ａ_ｉの集合を表す（属性ａ_ｉは、例えば「髪の長さ」又は「髭の形」などを表してもよい）。属性ａ_ｉは、その属性ａ_ｉのＬ_ｉ個の可能なクラスラベルからクラスラベルｌ_ｉ∈｛１，．．．，Ｌ_ｉ｝をとる（クラスラベルｌ_ｉは、例えば属性「髪の長さ」に関して「短髪」又は「長髪」であってもよく、属性「髭の形」に関して「顎鬚あり」又は「きれいに鬚を剃っている」などであってもよい）。ｄ＝｛ｄ_ｉ｝，ｉ＝１，．．．，Ｎは、撮像された画像に適用されるＮ個の属性検出器ｄ_ｉの出力を表す（属性検出器の出力ｄ_ｉは、例えば候補ターゲットの属性「髪の長さ」又は「顎鬚あり」の観測を表してもよい）。検出器出力ｄ_ｉは、属性ａ_ｉのＬ_ｉ個の可能なクラスラベルからクラスラベルｌ_ｉ∈｛１，．．．，Ｌ_ｉ｝を更にとる（前述のように、クラスラベルｌ_ｉは、例えば属性「髪の長さ」に関する検出器出力では「短髪」又は「長髪」であってもよく、属性「髭の形」に関する検出器出力では「顎鬚あり」又は「きれいに鬚を剃っている」であってもよい）。最後に、νは、ノード３８０により表される観察条件を表す（観察条件νは、例えばカメラのパン設定、チルト設定及びズーム設定と、カメラに対するターゲットの相対的向きであってもよい）。

図３のネットワーク３００は、候補被写体の属性（例えば、「髭の形」、「ズボンの長さ」及び「髪の長さ」）が問題の候補被写体のアイデンティティに依存するという概念を捕捉する（すなわち、候補被写体が着目被写体であるか否か）。ネットワーク３００は、ノイズの多い属性検出器の出力が観察条件及び被写体の属性の双方に依存するという概念を更に捕捉する。図３は、２つの属性、すなわちノード３６０により表されるａ_１及びノード３７０により表されるａ_２と、対応する属性検出器の出力、すなわちノード３６５により表されるｄ_１及びノード３７５により表されるｄ_２とに関して信念ネットワーク３００を示す。２〜Ｎ個の属性からのグラフ構造の一般化は、当業者には容易である。

ベイズ統計では、ランダム事象又は不確実命題の事後確率は、関連証拠が考慮された後に割り当てられる条件付き確率である。これに対し、ベイズの統計的推論において、不確実量の事前確率は、何らかの証拠が考慮される前の不確実性を表す。以下の説明中、用語「確率」、「尤度」、「信頼度」及び「不確実性」は、特に指示のない限り、命題における信念の程度を記述するために互換性をもって使用される。

図３に基づいて、観察条件νで撮像された候補被写体の画像からの属性検出の集合ｄ＝｛ｄ_ｉ｝を与えられた場合の候補被写体が着目被写体である事後確率ｐ（ｘ｜ｄ，ν）（すなわち信頼度）は、以下の式（１）に従った「事後確率式」により定義される。

式（１）は、ターゲットのアイデンティティに関する新たな信頼度（すなわち事後ｐ（ｘ｜ｄ，ν））を計算するために、観測結果（すなわち検出器出力ｄ_ｉ）によるターゲットのアイデンティティに関する先行信頼度（すなわち事前ｐ（ｘ））と、それらの観測結果の信頼性に関する知識（すなわち観察条件νの下での属性ａ_ｉの検出可能性）とを組み合わせる。上記の式（１）において、項ｐ（ｘ）は、図８のステップ８１０の出力８１１に対応し、候補被写体が着目被写体である事前確率を表す。項ｐ（ａ_ｉ｜ｘ）は、被写体のアイデンティティｘが与えられた場合の属性ａ_ｉを有する被写体の確率を表す。例えば、ｐ（ａ_１｜ｘ＝１）は、着目被写体が属性ａ_１を有する確率であり、ｐ（ａ_１｜ｘ＝０）は、母集団からの無作為の被写体が属性ａ_１を有する確率である。確率１２０３、１２０６（図１２を参照）は、図４のステップ４１０の出力４１１である式（１）の項ｐ（ａ_ｉ｜ｘ＝１）及びｐ（ａ_ｉ｜ｘ＝０）にそれぞれ対応する。項ｐ（ｄ_ｉ｜ａ_ｉ，ν）は、被写体の属性ａ_ｉ及び観察条件νが与えられた場合に観測された属性検出器出力ｄ_ｉの確率である。この量は、観察条件νの下で観測された場合の、図８のステップ８２０の出力８２１に対応する属性ａ_ｉの検出可能性を表す。例えば、ａ_１が２進属性クラスラベルである場合、ｐ（ｄ_１＝１｜ａ_１＝０，ν）は、観察条件νの下で属性ａ_１を不正確に検出する確率（「偽陽性」検出としても知られる）であり、ｐ（ｄ_１＝１｜ａ_１＝１，ν）は、観察条件νの下で属性ａ_１を正確に検出する確率（「真陽性」検出としても知られる）である。

１つの構成において、着目被写体又は母集団からの被写体が属性ａ_ｉを有する確率をそれぞれ表す条件付き確率分布ｐ（ａ_ｉ｜ｘ＝１）及びｐ（ａ_ｉ｜ｘ＝０）は、Ｔ≧１とした場合、Ｔ個のトレーニング画像から経験的に決定される。ｐ（ａ_ｉ｜ｘ＝１）の場合、Ｔ個のトレーニング画像は、着目被写体の画像である。ｐ（ａ_ｉ｜ｘ＝０）の場合、Ｔ個のトレーニング画像は、母集団からの無作為被写体の画像である。まず、各トレーニング画像は、属性ａ_ｉに関する検出器によって処理され、その結果、出力の集合ｄ_ｉ＝｛ｄ_ｉ ^ｔ｝、ｔ＝１，．．．，Ｔが取得される。次に、ｄ_ｉ中の各クラスラベルｌ_ｉの頻度から、トレーニング画像中の被写体に関する検出器出力の周辺分布ｐ（ｄ_ｉ｜ｘ＝ｊ）（ｊ＝０又は１）を近似することができる。最後に、式（２）に従って「属性推論制約」により定義されるように制約線形システムが構成される。

上記の式（２）は、着目被写体又は母集団からの被写体の画像に関する検出器出力の中のクラスラベルの観測頻度（すなわち周辺分布ｐ（ｄ_ｉ｜ｘ＝ｊ））を、被写体が対応する属性を有する尤度（すなわち未知の確率ｐ（ａ_ｉ＝ｌ_ｉ｜ｘ＝ｊ））と関連付ける。式（２）において、項ｐ（ａ_ｉ＝ｌ_ｉ｜ｘ＝ｊ）は、属性ａ_ｉに関して被写体がクラスラベルｌ_ｉを有する尤度を表し、これは、例えば、クラスラベル「眼鏡」に対応するｌ_ｉに関する図１２のｐ（ａ_ｉ＝ｌ_ｉ｜ｘ＝１）の確率１２０３又はｐ（ａ_ｉ＝ｌ_ｉ｜ｘ＝０）の確率１２０６により表される。これらの確率は図４のステップ４１０の出力４１１にも対応する。項ｐ（ｄ_ｉ｜ａ_ｉ＝ｌ_ｉ，ν）は観察条件νの下の属性ａ_ｉの検出可能性である。１つの構成において、属性の検出可能性は、以下に更に詳細に説明されるように、観察条件νの下で撮像された試験集合に対して、その属性の属性分類子の性能に基づいて判定される。項ｐ（ν）は観察条件νの下で画像を撮像する事前確率である。一例において、ｐ（ν）は、可能な観察条件ごとに画像が均一な頻度で撮像されると仮定することにより判定される。式（２）の中の不等式０≦ｐ（ａ_ｉ＝ｌ_ｉ｜ｘ＝ｊ）≦１は、確率が常に０以上、１以下の範囲内の量で表現されるという制約を表す。式（２）はＬ_ｉ個の制約を提供し、その１つは、正規化制約Σ_ｌｉｐ（ａ_ｉ＝ｌ_ｉ｜ｘ＝ｊ）＝１と置き換えられる。ｐ（ａ_ｉ＝ｌ_ｉ｜ｘ＝ｊ）（ｊ＝０又は１である）のＬ_ｉ個の未知の値に対して、当該技術で知られている方法を使用して、上記の系を解くことができる。

図３に示される信念ネットワークに基づいて、情報理論原理を使用してＰＴＺ検査が公式化される。先に述べたように、ＰＴＺ検査の目標は、候補被写体のアイデンティティｘに関する不確実性を最大限に減少させるカメラ設定を選択することである。ν^＊は、選択されたカメラ設定に対応する最適観察条件を表すものとする。不確実性を減少させるための情報理論方式は、観察条件ν^＊の下で属性ｄを検出した後に被写体のアイデンティティｘに関する相互情報量Ｉ（ｘ；ｄ｜ν^＊）（すなわち、予測情報利得）が最大になるようにν^＊を選択することである。図３に基づいて、相互情報量Ｉ（ｘ；ｄ｜ν）は、以下の式（３）に従って「相互情報量目的関数」により定義される。

式（３）は、予測観察条件νの下で被写体の属性ｄを観測した結果得られた候補被写体のアイデンティティｘに関する不確実性の予測される減少を表す。予測観察条件νは、図９のステップ９１５の出力９１６に対応する。相互情報量Ｉ（ｘ；ｄ｜ν）は、ｋ番目の予測観察条件に関する図９のステップ９３０の出力９３１を表すタプル（tuple）（ν，Ｉ（ｘ；ｄ｜ν））_ｋに対して、式（３）及び関連する観察条件ｖを使用して計算される。項ｐ（ｘ＝ｊ）は、候補被写体のアイデンティティの事前確率を表し、これは、図４のステップ４４０の事後確率ｐ（ｘ｜ｄ，ν）４１１出力と等しい。ｘ＝１の場合、項ｐ（ｄ｜ｘ，ν）は、予測観察条件νの下で着目被写体に関して属性検出の特定の集合ｄを観測する確率を表し、ｘ＝０の場合、項ｐ（ｄ｜ｘ，ν）は、観察条件νの下で一般母集団の中の１つの被写体に関して同一の属性検出ｄを観測する確率を表す。項ｐ（ｄ｜ν）は、観察条件νの下で属性検出の特定の集合ｄを観測する確率（すなわち被写体のアイデンティティとは関係なく）を表す。項ｐ（ｄ｜ｘ，ν）及びｐ（ｄ｜ν）は、以下の式（４）及び（５）に従って定義される。

式（４）の項ｐ（ａ_ｉ＝ｌ_ｉ｜ｘ）及び式（５）の項ｐ（ａ_ｉ＝ｌ_ｉ｜ｘ＝ｊ）は、被写体のアイデンティティｘが与えられた場合に被写体が属性ａ_ｉのクラスラベルｌ_ｉを有する確率を表す。これらの値は、例えば図１２の確率１２０３、１２０６に対応し、図４のステップ４１０の出力４１１である。式（４）及び（５）の項ｐ（ｄ_ｉ｜ａ_ｉ＝ｌ_ｉ，ν）は、観察条件νの下の属性ａ_ｉの検出可能性を表し、図９のステップ９２０の出力９２１に対応する。項ｐ（ｘ＝ｊ）は、候補被写体のアイデンティティの事前確率を表し、これは、図４のステップ４４０における事後確率ｐ（ｘ｜ｄ，ν）４１１出力と等しい。最適観察条件ν^＊は、以下の式（６）に従って式（３）の相互情報量目的関数を最大にすることにより取得される。

式（６）は、候補被写体のアイデンティティに関する不確実性を最大限に減少させる観察条件を選択する。式（６）により計算される最適観察条件ν^＊に対応するカメラ設定は、図４のステップ４６０の新たなカメラ設定出力４６１に対応する。
実施形態（実施例及び代替例と共に）
図４は、シーンの中の被写体をカメラによって識別する方法４００を示す。方法４００の目標は、最小限の数の観測によって着目被写体１００を識別するために一連のカメラ設定４６１を決定することである。図１Ｂに示されるような候補被写体１３０が図１Ａに示される着目被写体１００であるか否かを判定するために候補被写体１３０を含むシーンの画像１２０を撮像するＰＴＺカメラ１４０に関連して、方法４００を例示する。着目被写体は、以下に説明される方法を使用して判定される所定の複数の属性により記述される。方法４００は、候補被写体１３０が着目被写体１００と同一の種類の属性を共有することを除き、候補被写体１３０に関する事前の仮定をしない。例えば、１つのＶＩＤＤ構成において、候補被写体１３０及び着目被写体１００は、共に、クラス「長髪」又は「短髪」を含む属性「髪の長さ」を有する歩行者である。別のＶＩＤＤ構成では、候補被写体及び着目被写体は、共に、クラス「円形」又は「矩形」を含む属性「ヘッドライトの形状」を有する車両である。以下の説明は、方法４００全体の概要である。ステップ４１０、４２０、４２５、４３０、４４０、４５０及び４６０の更なる詳細、実施例及び代替実現形態は後に説明される。

図４は、１つのＶＩＤＤ構成に従ってシーンの中の被写体をカメラによって識別する方法４００を示す概略流れ図である。方法４００は開始ステップ４０５で開始される。開始ステップ４０５は、ＶＩＤＤソフトウェア１０３３の指示に従ってプロセッサ１００５により実行され、着目被写体１００の属性を判定できるようにするための情報が入力として受信される。ＶＩＤＤ構成の１つの用途では、この情報は、着目被写体の１つ以上の画像の形である。例えば、異常な行動又は疑わしい行動をしている被写体が選択され、画像として撮像される。この画像は、着目被写体１００の挙動を更に詳細に解析するためにステップ４０５に提供される。ＶＩＤＤ構成の別の用途において、ステップ４０５に提供される情報は、証人の説明のような、着目被写体の意味的記述の形である。例えば、迷子などの被写体の居場所を特定し、保護するために、被写体の意味的記述がステップ４０５に提供される。

次に、制御は、ステップ４０５からステップ４１０へ進む。ステップ４１０は、ＶＩＤＤソフトウェア１０３３の指示に従ってプロセッサ１００５により実行され、以下に図１２を参照して更に詳細に説明されるように、着目被写体の複数の属性の各々の独自性を判定する。方法のステップ４１０は、前述のようにプロセッサ１００５により実行可能であり及び／又は着目被写体の属性の独自性を判定するソフトウェア、ハードウェア又は複合ハードウェア／ソフトウェアモジュールにより実現可能である。以下の説明の中で挙げられる他の方法ステップについても同様のことが当てはまる。

図１２は、１つのＶＩＤＤ構成において、所定の属性ラベル（クラスラベルとも呼ばれる）の独自性が着目被写体の属性ラベルの確率及び他の何らかの被写体の属性ラベルの確率を含むタプルによりどのように表現されるかを示す実施例１２００を示す。属性の独自性は、着目被写体の属性ラベルの確率及び母集団における属性ラベルの頻度を含むタプルを構成することにより表現される。実施例１２００の場合、人物１２０１は着目被写体であり、着目被写体の１つの属性ラベルが「眼鏡着用」１２０２である。実施例１２００における属性ラベル１２０２の確率１２０３は９５％であり、これは、着目被写体１２０１が９５％の確率で眼鏡を着用していることを示す。実施例１２００において、人物の集合１２０４は着目候補被写体の母集団であり、実施例１２００における対応する属性ラベル１２０５の確率１２０６は６０％であり、これは、母集団１２０４の中の着目候補被写体が眼鏡を着用している確率は６０％であることを示す。実施例１２００の場合、所定の属性ラベル「眼鏡着用」の独自性を示すタプルは（１２０３、１２０６）である。

確率１２０３、１２０６（図４の４１１を参照）は、式（１）の項ｐ（ａ_ｉ｜ｘ＝１）及びｐ（ａ_ｉ｜ｘ＝０）にそれぞれ対応するが、これらは、どの特定のカメラの視点とも無関係な着目被写体の属性ａ_ｉの独自性の尺度である。

１つのＶＩＤＤ構成において、着目被写体の属性ラベルａ_ｉの確率ｐ（ａ_ｉ｜ｘ＝１）は、意味的（文字又は口頭）記述から判定される。一実施例において、着目被写体は、「眼鏡類」、「袖の長さ」及び「髭の形」という３つの属性により指定され、証人は、着目被写体を「Ｔシャツと眼鏡を着用している」と記述する。証人の信頼度（又は信用度）に基づいて、属性「袖の長さ」に関する「半袖」の確率は０．９と割り当てられ、属性「眼鏡類」に関する「眼鏡着用」の確率は０．９５と割り当てられる。更に、証人は顎鬚の有無を述べなかったので、属性「髭の形」に関する「きれいに鬚を剃っている」の確率は０．７と割り当てられる。証人が顎鬚の有無を記憶していなかった可能性もあるので、この属性ラベルには「半袖」又は「眼鏡着用」より低い信頼度が割り当てられる。別のＶＩＤＤ構成において、着目被写体の属性ラベルの確率は、警備員又は他の担当者が着目被写体の１つ以上の画像を手動操作で検査することにより判定される。更に別のＶＩＤＤ構成では、着目被写体の属性ラベルの確率は、着目被写体の１つ以上の画像の自動アノテーションにより判定される。自動アノテーションは、まず、図７Ａの方法４３０の実施例を使用して属性を検出し、次に、クラスラベルにおける確率分布ｐ（ａ_ｉ＝ｌ_ｉ｜ｘ＝１）に関して式（２）の属性推論制約を解決することにより実現される。

処理４００のステップ４１０において属性ラベルの独自性を判定するために、他の何らかの被写体（すなわち着目被写体以外の被写体）の属性ラベルの確率ｐ（ａ_ｉ｜ｘ＝０）も決定されなければならない。１つのＶＩＤＤ構成では、属性を共有する他のすべての被写体を含む母集団から無作為に選択された被写体に対応して、調査及び市場調査から取り出された知識などの専門知識から、属性ラベルの確率が判定される。別のＶＩＤＤ構成において、問題のシーンの画像１２０を撮像するいずれかのカメラにより先に観測された被写体の母集団から無作為に選択された被写体に対応して、先に観測された被写体の中における属性の頻度から属性ラベルの確率が判定される。更に別のＶＩＤＤ構成において、被写体の属性の周期的な変化（例えば、歩行者は夜間より日中にサングラスを着用する頻度が高い）を考慮して、異なる日時及び異なる季節で独立した属性統計を維持する。そこで、方法４００のステップ４２０において候補被写体が検出された場合、候補被写体の画像が撮像された時刻に対応する属性統計を選択することにより、属性ラベルの独自性が判定される。

次に、方法４００はステップ４１０からステップ４２０へ進む。ステップ４２０は、ＶＩＤＤソフトウェア１０３３の指示に従ってプロセッサ１００５により実行され、１つ以上のフレームがＰＴＺカメラ１４０により撮像され、候補被写体１３０が検出され且つ追跡される。前述のように、ステップ４２０は、候補被写体の画像が撮像された時刻に対応する属性統計を使用して判定される属性ラベルの独自性を使用する。１つのＶＩＤＤ構成において、ステップ４２０で、固定カメラ設定による多数のフレームにわたり背景モデルが維持されるガウス分布の混合物（ＭｉｘｔｕｒｅｏｆＧａｕｓｓｉａｎ、ＭｏＧ）などの統計的背景画素モデル化方法を使用して前景分離を実行することにより、候補被写体が検出される。別のＶＩＤＤ構成では、前景分離方法は離散コサイン変換ブロックで実行される。更に別のＶＩＤＤ構成において、前景分離は例えばスーパー画素を使用して、フレームの非監視セグメンテーション（unsupervised segmentation）によって実行される。更に別のＶＩＤＤ構成では、候補被写体は、歩行者検出器などの教師あり機械学習方法を使用して検出される。歩行者検出器は、歩行者見本のトレーニングセットに基づいて、１組の着目領域を歩行者を含む又は含まないとして分類する。１つのＶＩＤＤ構成において、ステップ４２０の出力は、画像平面１２０において候補被写体１３０を含む着目領域を示す矩形のバウンディングボックス１３５（図１を参照）である。別のＶＩＤＤ構成では、ステップ４２０の出力は、候補被写体に属する画素の領域と背景に属する画素の領域とを示すバイナリ画像マップである。

シーンによっては、ステップ４２０で２つ以上の候補被写体が検出される場合もある。ステップ４２０の一実現形態において、被写体検出に続いて、多数のフレームにわたる同一の候補被写体の観測を関連付けるために、検出された候補被写体について被写体追跡が実行される。１つのＶＩＤＤ構成では、追跡は、ブラウン運動を想定し、１つのフレームの候補被写体を先行フレームの最も近い画素位置における候補被写体と関連付けることにより実行される。別のＶＩＤＤ構成において、追跡は、カルマンフィルタ又はパーティクルフィルタなどの再帰的ベイズフィルタを使用して被写体の運動を推定することにより実行される。更に別のＶＩＤＤ構成において、追跡は、位置情報及び速度情報に加えて、被写体に関する外見情報を使用して実行される。

次に、方法４００はステップ４２０からステップ４２５へ進む。ステップ４２５は、ＶＩＤＤソフトウェア１０３３の指示に従ってプロセッサ１００５により実行され、以下に図５を参照して更に詳細に説明されるように、カメラ１４０の視点に対する候補被写体１３０の相対的向きを判定する。１つのＶＩＤＤ構成において、相対的向きは、候補被写体の画像を１組の個別の向きクラス（例えば、「前向き」、「横向き」及び「後向き」）に分類するための機械学習方式を使用して判定される。分類子は各クラスからの１組の見本に対してトレーニングされる。別のＶＩＤＤ構成では、相対的向きは、エッジなどの抽出特徴に基づいて、候補被写体のモデルを候補被写体の画像に当てはめるために、モデルベースポーズ推定を使用して判定される。更に別のＶＩＤＤ構成において、相対的向きは、式（７）の方位角θにより表される候補被写体の運動方向に基づいて判定される。このＶＩＤＤ構成の実施例は、図５、図６Ａ及び図６Ｂを参照して以下に更に詳細に説明される。

次に、方法４００はステップ４２５からステップ４３０へ進む。ステップ４３０は、ＶＩＤＤソフトウェア１０３３の指示に従ってプロセッサ１００５により実行され、以下に図７Ａ及び図７Ｂを参照して更に詳細に説明されるように、ステップ４２０で検出された候補被写体の属性を分類する。１つのＶＩＤＤ構成において、属性は、検出された候補の特徴と各属性クラスの１つ以上のテンプレート画像との間のマッチングスコアを計算することにより分類される。別のＶＩＤＤ構成では、属性は、検出された候補の１つの領域から抽出された特徴に所定の閾値を適用することにより分類される。例えば、クラス「明」及び「暗」を含む属性「シャツの色調」は、胴体領域の画素の平均グレイレベルに所定の閾値を適用することにより分類される。更に別のＶＩＤＤ構成において、属性は教師あり学習を使用して分類され、分類子は各クラスの１組のラベル付きトレーニング画像から学習される。

次に、方法４００はステップ４３０からステップ４４０へ進む。ステップ４４０は、ＶＩＤＤソフトウェア１０３３の指示に従ってプロセッサ１００５により実行され、図８を参照して以下に更に詳細に説明されるように、ステップ４１０で判定された着目被写体の属性、ステップ４３０で判定された候補被写体の属性及びステップ４２５で判定された候補被写体の相対的向きに基づいて、候補被写体が着目被写体であることの信頼度（式（１）からｐ（ｘ｜ｄ，ν）を判定する。１つのＶＩＤＤ構成において、ステップ４４０は、式（１）における事後確率を計算する。次に、制御はステップ４４０から決定ステップ４５０へ進む。決定ステップ４５０は、ＶＩＤＤソフトウェア１０３３の指示に従ってプロセッサ１００５により実行され、計算された事後確率４４１に基づいて候補被写体のアイデンティティを判定できるか否かを判定する。１つのＶＩＤＤ構成において、ステップ４４０で判定される事後確率は、上限閾値、例えば０．９５及び下限閾値、例えば０．０５と比較される。事後確率が上限閾値より高いか又は下限閾値より低い場合、候補被写体のアイデンティティの信頼度は高く、そうでない場合、候補被写体のアイデンティティの信頼度は低い。候補被写体のアイデンティティの信頼度が低い場合、制御はＮＯの矢印に従い、ステップ４５０から、図９を参照して以下に更に詳細に説明されるステップ４６０へ進む。ステップ４６０は、ＶＩＤＤソフトウェア１０３３の指示に従ってプロセッサ１００５により実行され、新たなカメラ設定を計画する。候補被写体のアイデンティティの信頼度が高い場合、制御はＹＥＳの矢印に従い、ステップ４５０から終了ステップ４９９へ進む。

ステップ４６０は、最も高い独自性で観測可能な属性の検出可能性を増加させることにより、候補被写体のアイデンティティの推定値の信頼度を改善するために、カメラ設定を決定する。１つのＶＩＤＤ構成において、所定の規則に基づいて固定のカメラ設定の集合が生成され、候補被写体のアイデンティティに関する情報量の増加を最大にする設定が選択される。例えば、規則は、歩行者の場合、「頭」、「胴体」及び「脚」などの候補被写体の特定の領域のズームインビューに基づいてカメラ設定を生成してもよい。別のＶＩＤＤ構成では、候補被写体のアイデンティティに関する情報量の増加を最大にするカメラ設定を決定するために、反復降下探索などの数値最適化が実行される。ステップ４６０で新たなカメラ設定を計画した後、制御はステップ４２０に戻り、候補被写体が着目被写体であることの信頼度を更新するために、新たなカメラ設定を使用して候補被写体の新たな画像が撮像される。

候補被写体の最終的なアイデンティティは、終了ステップ４９９において式（１）を使用して決定される最終事後確率により判定される。１つのＶＩＤＤ構成において、候補被写体の最終事後確率は、所定の上限閾値、例えば０．９５及び下限閾値、例えば０．０５と比較される。事後確率が上限閾値より高い場合、候補被写体は着目被写体であると分類される。事後確率が下限閾値より低い場合、候補被写体は着目被写体ではないと分類される。

図４は、ＶＩＤＤ構成を実現するための一実施形態４００を示し、この場合、１つの候補被写体が着目被写体であるか否かを判定するために一連の観測が計画される。この方法の変形も同等に実施されてよい。ＶＩＤＤの１つの変形例では、２つ以上の候補被写体のアイデンティティを判定するために一連の観測が計画される。この変形の一実施形態において、ステップ４２０は多数の候補被写体を検出し且つ追跡し、ステップ４２５は各候補被写体の相対的向きを判定する。ステップ４３０は、他の候補被写体とは独立して、各候補被写体の属性を分類する。同様に、ステップ４４０は、他の候補被写体とは独立して、各候補被写体が着目被写体であるか否かの事後確率を決定する。１つのＶＩＤＤ構成において、次にステップ４５０は、少なくとも１つの候補被写体が着目被写体であることの信頼度が高いか否かを決定する。高い信頼度を有する場合、制御は終了ステップ４９９へ進み、最も高い事後確率を有する被写体が着目被写体として分類される。そうでない場合、制御はステップ４６０へ進み、ステップ４６０は、すべての候補被写体に関してアイデンティティの信頼度を最大にするための新たなカメラ設定を計画する。

方法４００の別の代替変形例では、ユーザ（例えば、警備員）は方法４００を監視し、着目被写体が識別された時点で処理を終了する。この変形の一実現形態において、ステップ４４０は、候補被写体ごとの事後確率を計算し、すべての候補被写体を着目被写体であるとして最高の信頼度から最低の信頼度までランク付けする。決定ステップ４５０の一実現形態において、最上位にランク付けされた被写体（例えば、最高の事後確率を有する３つの被写体）がユーザに提示される。それらの被写体のうち１つが着目被写体であるとユーザが決定した場合、制御は終了ステップ４９９へ進む。いずれの被写体も着目被写体ではないとユーザが決定した場合、制御はステップ４６０へ進み、ステップ４６０は、先に挙げたＶＩＤＤ構成で説明したように新たなカメラ設定を計画する。

図５は、運動方向に基づいて候補被写体の相対的向き５４１を判定するための図４の方法４００のステップ４２５の例示的な実現形態を示す。図６Ａ及び図６Ｂに示されるように、シーンの画像６００中の候補被写体６２０を参照して一例として方法４２５を説明する。方法４２５は、２つの異なる時点で撮像された１対のフレームにおける観測に従って、候補被写体の位置の変化に対する１次有限差分近似に基づいて運動方向を判定する。この方法により判定された相対的向き５４１は、所定のカメラ設定における各属性の検出可能性を判定するために、方法４４０のステップ８２０（図８を参照）及び方法４６０のステップ９２０（図９を参照）で使用される。

図５の方法４２５は、ＶＩＤＤソフトウェア１０３３の指示に従ってプロセッサ１００５により実行される開始ステップ５０５で開始され、開始ステップ５０５において、シーンの現在のフレーム６００及び先行時点で撮像されたフレームが入力として受信される。現在のフレーム及び先行フレームの両方は、候補被写体を含む。次に、制御はステップ５０５からステップ５１０へ進む。ステップ５１０は、ＶＩＤＤソフトウェア１０３３の指示に従ってプロセッサ１００５により実行され、現在のフレーム中の、候補被写体の位置を表すポイントを決定する。このポイントは、方法４００のステップ４２０の一実現形態で検出されるような候補被写体を含むバウンディングボックスに対して判定されてもよい。例えば、ステップ５１０の一実現形態において、バウンディングボックスの最も下方の縁部の中心（すなわち「フットプリント」）が候補被写体の位置とみなされる。ステップ５１０の別の実現形態では、バウンディングボックスの重心が候補被写体の位置とみなされるが、これはノイズに対してより強固と言える。ステップ５１０の他の実現形態は、候補被写体の位置を特定するために特定の部分の位置を使用してもよい。例えば、歩行者を対象とするステップ５１０の別の代替実現形態は、「オメガシェープ」検出器を使用して検出される候補被写体の頭の位置を使用する。この位置は、異なるフレームにわたり高い精度で弁別でき且つ検出可能であるという利点を有する。更に別の代替ＶＩＤＤ構成は、候補被写体の前景マスク上の最低位置のポイント（方法４００のステップ４２０の一実現形態で検出される）を候補被写体の位置として使用する。

次に、制御はステップ５１０からステップ５２０へ進む。ステップ５２０は、ＶＩＤＤソフトウェア１０３３の指示に従ってプロセッサ１００５により実行され、先行フレームの中の、候補被写体の位置を表すポイントを決定する。ステップ５２０の実現形態は、先に説明したステップ５１０の代替実現形態（先行フレームに適用される）と同一であり、ステップ５１０及び５２０の双方に同一の実現形態が使用される。これにより、現在のフレームと先行フレームとの間のポイントの相対的位置は、候補被写体に対するポイントの位置のずれではなく、運動方向を表すことが保証される。

次に、方法４２５はステップ５２０からステップ５３０へ進む。ステップ５３０は、ＶＩＤＤソフトウェア１０３３の指示に従ってプロセッサ１００５により実行され、ステップ５１０及び５２０で決定された位置に基づいて候補被写体の運動方向を判定する。１つのＶＩＤＤ構成において、ステップ５３０は、先行フレームから現在のフレームまでの候補被写体の位置の相対的変化を表すベクトルを計算する。

図６Ａは、一例としてステップ５１０、５２０及び５３０の一実現形態を示す。まず、ステップ５１０において、現在のフレームの中の候補被写体６２０の最低位置のポイント６４０が決定される。次に、ステップ５２０において、先行フレームの中の候補被写体６１０の最低位置のポイント６３０が決定される。最後に、先行位置６３０から現在位置６４０に至るまでのベクトル６５０が運動方向に対する一次有限差分近似として計算される。このベクトルは、図６Ａに６５４により示され、Δｘとして表される画像の水平方向への位置変化と、図６Ａに６５２により示され、Δｙとして表される垂直方向への位置変化とに分解される。

次に、制御はステップ５３０からステップ５４０へ進む。ステップ５４０は、ＶＩＤＤソフトウェア１０３３の指示に従ってプロセッサ１００５により実行され、ステップ５３０で決定された運動方向に基づいて候補被写体の向きを決定する。ステップ５４０の一実現形態において、図６Ｂに示されるように、候補被写体の相対的向きは、シーンの地平面に対する方位角θにより表される。このＶＩＤＤ構成では、０°の方位角θは、図６Ｂに方向６６０により示されるように、被写体がカメラの方に向いていることを表し、１８０°の方位角は、図６Ｂに方向６６５により示されるように、被写体がカメラに背を向けていることを表す。カメラのチルト角度をψとすると、０°のチルトは、カメラが水平であることに対応し、９０°のチルトは、カメラが下向きであることに対応する。そこで、Δｘ及びΔｙにより表される運動方向から地平面における候補被写体の方位角θを次のように近似計算するために、式（７）に従って「地平面向き式」が定義されてもよい。

ステップ５４０の一実現形態において、式（７）を使用して計算された方位角は、候補被写体の相対的向きとして利用される。ステップ５４０の別の実現形態では、式（７）を使用して計算された方位角は、１組の個別の角度の中で最も近い角度に更に量子化される。これにより、処理４４０のステップ８２０（図８を参照）で判定される属性の検出可能性を少数の可能な観察条件により特徴付けることができる。量子化は図６Ｂを参照して例示される。図６Ｂは、４５°ごとの規則的な間隔で規定された８つの個別の向きへの量子化を示す。図６Ａに示される運動方向６５０の例で言えば、量子化の結果、図６Ａに方向６７０により示されるように被写体の向きは２２５°になる。次に、方法４２５はステップ５４０から終了ステップ５９９へ進み、終了ステップ５９９は候補被写体の決定された相対的向き５４１を出力する。

図５の方法４２５は、図４の方法４００のステップ４２５の一実現形態を示し、この場合、候補被写体の向きは、運動方向から判定される。この方法の変形例も同等に実施されてよい。ＶＩＤＤ構成の１つの代替例において、運動方向は、候補被写体の位置の変化に対する第２の、すなわち更に高次の有限差分近似に基づいて、候補被写体を含む現在のフレーム及び２つ以上の先行フレームから推定される。別の代替ＶＩＤＤ構成では、運動方向は、候補被写体の先行するすべての観測に基づいて、カルマンフィルタ又は粒子フィルタなどの再帰的ベイズフィルタにより推定される。運動方向に基づかない方法４００のステップ４２５の他の実現形態も可能である。例えば、１つの代替ＶＩＤＤ構成は、個別の向きクラスを分類するために機械学習方式を使用し、別の代替ＶＩＤＤ構成は、モデルベースポーズ推定を使用する。これらの代替ＶＩＤＤ構成の双方については先に説明した。

図７Ａは、候補被写体の属性のノイズの多い観測を検出する方法４３０（図４を参照）の一例を示す。このステップで検出されたノイズの多い観測は、方法４００のステップ４４０で候補被写体が着目被写体であることの信頼度を判定するために使用される。図３の実施例により示されるベイズのモデルの場合、このステップで検出されるノイズの多い観測は、ノード３６５の変数ｄ_１及びノード３７５の変数ｄ_２にそれぞれ対応する。これらの検出は、ノード３６０及び３７０における属性ａ_１及びａ_２のノイズの多い観測である。図７Ｂの候補被写体７６０に関連して、方法４３０の実施例を説明する。方法４３０は開始ステップ７０５で開始される。開始ステップ７０５は、ＶＩＤＤソフトウェア１０３３の指示に従ってプロセッサ１００５により実行され、このステップにおいて、方法４００のステップ４２０で検出された候補被写体の画像が入力として受信される。次に、方法４３０は開始ステップ７０５からステップ７１０へ進む。ステップ７１０は、ＶＩＤＤソフトウェア１０３３の指示に従ってプロセッサ１００５により実行され、すべての属性の集合から未処理属性を選択する。

次に、制御はステップ７１０からステップ７２０へ進む。ステップ７２０は、ＶＩＤＤソフトウェア１０３３の指示に従ってプロセッサ１００５により実行され、選択された属性を分類するために、処理される着目領域を判定する。例えば、１つのＶＩＤＤ構成において、図７Ｂの着目領域７８０及び７８５は、属性「髭の形」及び「ズボンの長さ」を分類するためにそれぞれ使用される。着目領域の判定は入力データを整列（align）させるので、これは、属性分類子の正確度を向上させる上で重要なステップである。１つのＶＩＤＤ構成では、着目領域は、方法４００の検出ステップ４２０で判定された候補被写体のバウンディングボックス７７０との間の一定の関係により判定される。別のＶＩＤＤ構成において、属性の着目領域は、候補被写体の特定の部分を検出することにより判定される。一実施例において、歩行者に対して着目領域を判定するために、「オメガシェープ」頭検出器が使用される。

次に、方法４３０はステップ７２０からステップ７３０へ進む。ステップ７３０は、ＶＩＤＤソフトウェア１０３３の指示に従ってプロセッサ１００５により実行され、選択された属性の着目領域内の画素値から特徴ベクトルを構成する。このステップは、高次元画像データを、更に効率よく分類可能な低次元特徴ベクトルに縮小し、照明、視点及び他のノイズ源の変化に対する分類子の強固さを改善する。例えば、ＲＧＢ画像からの２０×２０画素領域の１，２００個の色値をわずか２７個の値による３×３×３ＲＧＢヒストグラムに次元縮小することができる。ＲＧＢヒストグラムは、画素の空間的レイアウトを切り捨てるので、元の画素領域より視点に対する不変性が増す。１つのＶＩＤＤ構成において、特徴は、画像コンテンツの色、形状及びテクスチャに関する低レベル画像記述子である。低レベル色別記述子の例は、着目領域について計算されたグレイスケール色ヒストグラム、ＲＧＢ色ヒストグラム、ＨＳＶ色ヒストグラム及び色コレログラムである。低レベル形状別記述子の例は、有向勾配のヒストグラム（ＨＯＧ）、スケール不変特徴変換（ＳＩＦＴ）及びシェープレットである。低レベルテクスチャ別記述子の例は、ローカルバイナリパターン（ＬＢＰ）及びガボールフィルタヒストグラムである。別のＶＩＤＤ構成では、特徴は、属性クラスの１組のラベル付きトレーニング画像から学習される。一実施例において、属性クラス間の分離を最大限にする部分空間投影を学習するために、フィッシャー判別解析が適用される。

次に、制御はステップ７３０からステップ７４０へ進む。ステップ７４０は、ＶＩＤＤソフトウェア１０３３の指示に従ってプロセッサ１００５により実行され、ステップ７３０で抽出された特徴を使用して、候補被写体の選択された属性にクラスラベルを割り当てる。一例を挙げると、属性「ズボンの長さ」の場合、ステップ７４０は、領域７８５で抽出された特徴に基づいて、候補被写体が「長ズボン」又は「半ズボン」のいずれに分類されるべきかを決定する。属性分類子は、クラスラベルごとの１組の例画像に基づいて、教師あり機械学習法を使用してトレーニングされる。１つのＶＩＤＤ構成において、属性分類子は、方法４００を実行する前に、オフライントレーニング段階の間にトレーニングされる。代替ＶＩＤＤ構成では、属性分類子は、例えば着目被写体が正しく識別されていたか否かに関するユーザからのフィードバックに基づいて、方法４００の実行中にオンラインで更新される。属性を検出するために、多くの分類技術のうち１つが使用されてもよい。１つのＶＩＤＤ構成において、属性分類子は、異なる属性クラスラベルを判別するためにサポートベクターマシン（ＳＶＭ）を使用する。別のＶＩＤＤ構成では、属性分類子は属性クラスラベルを判別するために決定木を使用する。更に別のＶＩＤＤ構成において、属性分類子は、属性クラスラベルを判別するために人工ニューラルネットワーク（ＡＮＮ）を使用する。更に別のＶＩＤＤ構成では、属性分類子は、ｋ最近傍法（ｋ−ＮＮ）照合を使用して実現される。

候補被写体の選択された属性にクラスラベルを割り当てた後、方法４３０はステップ７４０から決定ステップ７５０へ進む。決定ステップ７５０は、ＶＩＤＤソフトウェア１０３３の指示に従ってプロセッサ１００５により実行され、未処理の属性が残っているか否かを判定する。未処理属性が残っている場合、制御はＹＥＳの矢印に従い、決定ステップ７５０から属性選択ステップ７１０に戻る。すべての属性が処理済みである場合、制御はＮＯの矢印に従い、決定ステップ７５０から終了ステップ７９９へ進む。方法４３０の実施例が終了ステップ７９９に到達すると、開始ステップ７０５で受信された候補被写体の画像に基づいて、すべての属性の集合の中のあらゆる属性がクラスラベルを割り当てられたことになる。それらの属性は、式（１）により定義される事後確率式の右側のノイズの多い観測ｄ_ｉ４３１により表され、式（１）の左側で検出の集合ｄ（ｄ＝｛ｄ_ｉ｝）によりまとめて同等に表される。

図８は、方法４００の一実現形態で使用されるような、候補被写体が着目被写体であることの信頼度を判定する方法４４０（図４を参照）の一実施例を示す。方法４４０は開始ステップ８０５で開始され、開始ステップ８０５において、方法４００のステップ４２５で判定された候補被写体の相対的向き５４１、方法４００のステップ４３０で検出された属性クラスラベルの集合４３１及び方法４００のステップ４１０で判定された着目被写体の各属性の独自性４１１が入力として受信される。

次に、制御はステップ８０５からステップ８１０へ進む。ステップ８１０は、ＶＩＤＤソフトウェア１０３３の指示に従ってプロセッサ１００５により実行され、候補被写体が着目被写体である事前確率８１１を判定する。このステップで判定される事前確率は、式（１）を使用して事後確率を計算する際に項ｐ（ｘ）として使用される。１つのＶＩＤＤ構成において、候補被写体が先行フレームで観測されていた場合、事前確率は、前記先行フレームに基づいて方法４００のステップ４４０で判定された事後確率の値をとる。候補被写体が以前に観測されていなかった場合、事前確率は所定の値に設定される。１つのＶＩＤＤ構成において、候補被写体のアイデンティティの最大不確実性を示すために、０．５の所定の値が使用される。別のＶＩＤＤ構成では、所定の値は手動操作による候補被写体の検査に基づいてオペレータにより設定される。更に別のＶＩＤＤ構成では、所定の値は、着目被写体の位置が事前にわかっていると仮定して、着目被写体が画像中で観測される尤度に基づく。

次に、方法４４０はステップ８１０からステップ８１５へ進む。ステップ８１５は、ＶＩＤＤソフトウェア１０３３の指示に従ってプロセッサ１００５により実行され、候補被写体の画像が撮像された観察条件８１６を判定する。観察条件は、式（１）により定義される事後確率の式の中でνにより表される。観察条件は、図４の方法４００のステップ４２５で判定された候補被写体の相対的向きを含む。１つのＶＩＤＤ構成において、観察条件は、照明条件（例えば、屋内証明又は屋外照明）を更に含む。別のＶＩＤＤ構成では、観察条件は、方法４００のステップ４２０で検出された候補被写体の大きさにより判定される候補被写体の画像の空間分解能に関する情報を更に含む。更に別のＶＩＤＤ構成では、観察条件は、焦点距離などのカメラの内部パラメータに関する情報を更に含む。

次に、方法４４０はステップ８１５からステップ８２０へ進む。ステップ８２０は、ＶＩＤＤソフトウェア１０３３の指示に従ってプロセッサ１００５により実行され、方法４００のステップ４２５で判定された候補被写体の相対的向き（例えば、式（７）の方位角θ５４１）を含む観察条件に基づいて、候補被写体の画像１２０の中の各属性の検出可能性８２１を判定する。このステップで判定される検出可能性８２１は、式（１）を使用して事後確率を計算する際に項ｐ（ｄ_ｉ｜ａ_ｉ，ν）として使用される。１つのＶＩＤＤ構成において、検出可能性は、候補被写体の属性を検出する方法４３０の実施例のステップ７４０で使用された分類子の性能に基づく。属性分類子の性能は、特定の観察条件νの下で撮像された前記属性を伴う異なる被写体のラベル付き試験画像の集合に対して分類子を試験することにより判定される。従って、特定の観察条件における属性の検出可能性は、前記観察条件の下で撮像された試験集合に対するその属性の属性分類子の性能に基づいて判定可能である。そこで、検出可能性は、試験結果から次のように判定される。ｐ（ｄ＝１｜ａ＝１，ν）は、属性検出器の真陽性率の値をとり、ｐ（ｄ＝０｜ａ＝１，ν）は、属性検出器の偽陰性率の値をとり、ｐ（ｄ＝１｜ａ＝０，ν）は、属性検出器の偽陽性率の値をとり、最後に、ｐ（ｄ＝０｜ａ＝０，ν）は、属性検出器の真陰性率の値をとる。各属性の検出可能性を完全に特徴づけるために、すべての着目観察条件νの下で撮像された試験画像の集合を使用して、以上説明した試験が繰り返される。１つのＶＩＤＤ構成において、各属性の検出可能性は、方法４００を実行する前に、オフライントレーニング段階の間に事前に計算される。別のＶＩＤＤ構成では、各属性の検出可能性は方法４００の実行中にオンラインで更新される。一実施例において、検出可能性は、着目被写体が正しく識別されていたか否かに関するユーザからのフィードバックに基づいてオンラインで更新される。

次に、方法４４０はステップ８２０からステップ８３０へ進む。ステップ８３０は、ＶＩＤＤソフトウェア１０３３の指示に従ってプロセッサ１００５により実行され、候補被写体が着目被写体である事後確率４４１を計算する。１つのＶＩＤＤ構成において、事後確率４４１（すなわちｐ（ｘ｜ｄ，ν））は、方法４４０のステップ８１０で判定された事前確率ｐ（ｘ）（すなわち８１１）、方法４００のステップ４１０で判定された各属性の独自性４１１ｐ（ａ_ｉ｜ｘ）、方法４００のステップ４３０で検出された属性ラベルｄ（すなわち４３１）及び方法４４０のステップ８２０で判定された各属性の検出可能性８２１ｐ（ｄ_ｉ｜ａ_ｉ，ν）に基づいて式（１）を使用して計算される。

場合によっては、ＰＴＺカメラは、候補被写体の小さな領域にズームインするが、その場合、被写体のすべての属性を観測できるわけではない。例えば、ＰＴＺカメラが頭にズームインした場合、ズボンの長さは観測不可能である。ステップ８３０の一実現形態は、カメラの設定及び被写体の相対的向きに基づいて、どの属性が観測されないかを判定し、観測された属性のみに関して、式（１）の分子及び分母の積の項を計算することにより事後確率を判定する。しかし、その結果、使用される属性の数が少ない場合に属性の独自性が低下する恐れもあるので、事後確率の推定は楽観的となるかもしれない。先の例に従って、着目被写体と同一の髪の色（観測される属性）を有するが、ズボンの長さ（観測されない属性）は異なる候補を考える。その場合、髪の色のみを使用して計算される事後確率は楽観的なほど高くなるだろう。この問題を克服するために、ステップ８３０の代替実現形態は、現在のフレームで見えている属性に関しては現在のフレームの検出に対して分子及び分母の積の項を計算し、現在のフレームで観測不可能である属性に関しては先行フレームからの最前の検出を代用することにより、式（１）の事後確率を計算する。

事後確率を計算した後、方法４４０はステップ８３０から終了ステップ８９９へ進む。終了ステップ８９９は、ＶＩＤＤソフトウェア１０３３の指示に従ってプロセッサ１００５により実行され、候補被写体が着目被写体であるか否かに関する現在の知識を表す計算済み事後確率４４１を出力する。

図８の方法４４０は、図４の方法４００のステップ４４０の一実現形態を示す。この方法の変形例も同等に実施されてよい。先に説明したＶＩＤＤ構成の想定は、各候補被写体を独立して再識別できるというものである。実際には、多くともただ１つの候補被写体をタグ付けターゲット（すなわち着目被写体）にすることしかできないので、同一のビューの中に現れる多数の候補被写体が独立しているとは言えないかもしれない。方法４４０の代替実現形態では、バイナリアイデンティティ変数ｘ∈｛０，１｝をマルチクラス変数ｙ∈｛０，１，２，．．．｝に置き換えることで、この制限に対処する。尚、ｙ＝０は、いずれの候補被写体も着目被写体ではないことを示し、ｙ＝ｊは、候補ｊが着目被写体であることを示す。方法４４０のステップ８１０、８１５及び８２０は、現在の画像の中のすべての候補被写体に対して事前確率、観察条件及び属性の検出可能性を同時に判定する。そこで、ステップ８３０は事後確率ｐ（ｙ｜ｄ_１，ν_１，ｄ_２，ν_２，．．．）を計算し、ｄ_ｊ及びν_ｊは、それぞれ、候補ｊの検出された属性及び観察条件である。

図９は、図４の方法４００で使用されるような、新たなカメラ設定を判定する方法４６０の一実施例を示す。方法４６０（図９を参照）の目的は、着目被写体の少なくとも１つの属性の検出可能性を向上させることにより候補被写体のアイデンティティの信頼度を改善するために、該少なくとも１つの属性の独自性にある程度基づいて候補被写体を観察するための最適カメラ設定を決定することである。従って、候補被写体を観察するためのカメラ設定の判定は、少なくとも１つの属性の検出可能性を向上させるように、少なくとも１つの属性の判定された独自性に基づくことができる。図１Ｂに示される例示的なＶＩＤＤ構成の場合、カメラ設定は、ＰＴＺカメラ１４０のパン設定、チルト設定及びズーム設定に対応する。別のＶＩＤＤ構成では、カメラ設定は高解像度ビデオストリームの中の１つの着目領域に対応する。図９に示される方法４６０の実現形態は、カメラ設定の空間にわたる数値探索であり、最適カメラ設定が識別されるまで、仮カメラ設定が繰り返し選択され、試験される。

方法４６０（図９を参照）は開始ステップ９０５で開始される。開始ステップ９０５は、ＶＩＤＤソフトウェア１０３３の指示に従ってプロセッサ１００５により実行され、方法４００のステップ４１０で判定された着目被写体の属性の独自性４１１ｐ（ａ_ｉ｜ｘ）、方法４００のステップ４２５で判定された候補被写体の相対的向き５４１（すなわち方位角θ）及び方法４００のステップ４４０で判定された候補被写体のアイデンティティの事後確率４４１ｐ（ｘ｜ｄ，ν）が入力として受信される。

次に、制御は開始ステップ９０５からステップ９１０へ進む。ステップ９１０は、ＶＩＤＤソフトウェア１０３３の指示に従ってプロセッサ１００５によって実行され、仮カメラ設定が選択される。φ９１１は仮カメラ設定を表すものとする。ステップ９１０の一実現形態において、仮カメラ設定は、事前定義済み規則の集合に基づいて選択される。このＶＩＤＤ構成の１つの変形例では、規則は、頭、上半身及び脚などの候補被写体の１組の着目領域を定義する。仮カメラ設定は、複数の着目領域のうち１つを高解像度で観察するために選択される。ステップ９１０の少なくとも１つの実現形態において、候補被写体の少なくとも１つの属性を確実に観測できるように、選択された仮カメラ設定を妥当とし、また属性を観測できなければ、その仮カメラ設定は放棄され且つ異なる設定が選択される。

次に、方法４６０（図９を参照）はステップ９１０からステップ９１５へ進む。ステップ９１５は、ＶＩＤＤソフトウェア１０３３の指示に従ってプロセッサ１００５により実行され、仮カメラ設定を使用して撮像された場合に候補被写体を観測できると考えられる観察条件９１６を予測する。観察条件９１６は、式（３）の相互情報量目的関数の中のνにより表され、候補被写体の予測相対的向きを含む。ステップ９１５の一実現形態において、候補被写体の現在の相対的向き５４１（方法４００のステップ４２５で、すなわち図５のステップ５４０で判定される）が予測相対的向きとして使用される。しかし、実際に使用されている多くのカメラは、短い時間（「作動時間」）のうちに新たなカメラ設定を適用し且つ候補被写体の新たなフレームを取得しなければならない。例えば、ＰＴＺカメラは、方向を変え、新たなフレームを撮像するのに数秒を要するだろう。この時間の中で、候補被写体もその相対的向きを変えるかもしれない。そのような変化を考慮に入れるために、ステップ９１５の一実現形態は、被写体追跡及び推定作動時間に基づいて、次のフレームを撮像する時点における、後の時点における候補被写体の向きを予測する。予測相対的向きは、予測観察条件において現在の向きの代わりに使用される。ステップ９１５の他の実現形態は、現在のカメラ設定ではなく、仮カメラ設定に基づく観察条件を使用する点を除き、方法４４０のステップ８１５の実現形態と共通している。

次に、制御はステップ９１５からステップ９２０へ進む。ステップ９２０は、ＶＩＤＤソフトウェア１０３３の指示に従ってプロセッサ１００５により実行され、ステップ９１５で判定された予測観察条件に基づいて、仮カメラ設定における候補被写体の各属性の検出可能性を予測する。従って、複数の属性の各々の検出可能性の判定は、シーン中の候補被写体の向きに基づくことができる。ステップ９２０の実現形態は、方法４４０のステップ８２０の実現形態と共通しており、現在の画像の観察条件の代わりに、仮カメラ設定の予測観察条件９２１が使用される。ステップ９２０の少なくとも１つの実現形態において、出力９２１は、予測観察条件νの下の各属性検出器の真陽性率ｐ（ｄ_ｉ＝１｜ａ_ｉ＝１，ν）、偽陽性率ｐ（ｄ_ｉ＝１｜ａ_ｉ＝０，ν）、真陰性率ｐ（ｄ_ｉ＝０｜ａ_ｉ＝０，ν）及び偽陰性率ｐ（ｄ_ｉ＝０｜ａ_ｉ＝１，ν）を指定する確率の集合である。

次に、方法４６０（図９を参照）はステップ９２０からステップ９３０へ進む。ステップ９３０は、ＶＩＤＤソフトウェア１０３３の指示に従ってプロセッサ１００５により実行され、候補被写体が仮カメラ設定を使用して観測されたとした場合の候補被写体のアイデンティティに関する情報量の増加を判定する。１つのＶＩＤＤ構成において、情報量の増加は、式（３）の相互情報量目的関数に従って測定される。従って、候補被写体を観察するためのカメラ設定で観測された属性と、候補被写体のアイデンティティとの間の相互情報量を最大にすることにより、前記カメラ設定を判定できる。この式の項（式（４）及び（５）も参照）は、ステップ９２０で判定された各属性の検出可能性ｐ（ｄ_ｉ｜ａ_ｉ，ν）、方法４００のステップ４１０で判定された着目被写体の属性の独自性ｐ（ａ_ｉ｜ｘ）及び事前確率項ｐ（ｘ）により表される候補被写体が着目被写体であることの信頼度である。事前確率項は、方法４００のステップ４４０で判定された候補被写体のアイデンティティの事後確率ｐ（ｘ｜ｄ，ν）の値をとる。従って、候補被写体が着目被写体であることの信頼度に基づいて、候補被写体を観察するためのカメラ設定を判定できる。ステップ９１０で選択された仮カメラ設定及びそれに対応してｋ番目の仮カメラ設定に対してステップ９３０で判定された情報量の増加は、タプル（φ，Ｉ（ｘ；ｄ｜ν））_ｋを構成し、このタプルはコンピュータメモリに記憶される。

次に、方法４６０（図９を参照）はステップ９３０から決定ステップ９４０へ進む。決定ステップ９４０は、ＶＩＤＤソフトウェア１０３３の指示に従ってプロセッサ１００５により実行され、追加の仮カメラ設定が処理されるべきか否かを判定する。候補被写体の着目領域に基づいて仮カメラ設定が生成される１つのＶＩＤＤ構成において、前記着目領域のすべてに関して情報量の増加が判定されるまで、追加の仮カメラ設定は、ステップ９４０により順次処理される。追加の仮カメラ設定が処理されるべきである場合、制御はＹＥＳの矢印に従い、ステップ９４０からステップ９１０に戻る。追加の仮カメラ設定が残っていない場合、制御はＮＯの矢印に従い、ステップ９４０からステップ９５０へ進む。ステップ９５０は、ＶＩＤＤソフトウェア１０３３の指示に従ってプロセッサ１００５により実行され、新たなカメラ設定を選択する。ステップ９５０の一実現形態において、ステップ９１０で選択された仮カメラ設定を記録する記憶されたタプル９３１（φ，Ｉ（ｘ；ｄ｜ν））_ｋ（ｋ＝１．．．Ｋ、Ｋは仮カメラ設定の数である）と、方法４６０（図９を参照）の繰り返しごとにステップ９３０で判定される対応する相互情報量とが比較される。記憶されているタプル（φ，Ｉ（ｘ；ｄ｜ν））_ｋの中から最大の相互情報量を有するタプルに対応するタプル（φ^＊，Ｉ^＊（ｘ；ｄ｜ν））が選択され、選択されたタプルからのカメラ設定φ^＊が図９のステップ４５０で新たなカメラ設定４６１として出力される。

図９の方法４６０は、図４に示される方法４００のステップ４６０の一実現形態を示す。この方法の変形例も同等に実施されてよい。先に説明したＶＩＤＤ構成は、候補被写体の着目領域に基づく仮カメラ設定の規則ベース生成に対応する。代替ＶＩＤＤ構成では、カメラ設定の空間にわたる反復降下探索に対応して、直前の反復における仮カメラ設定（又は１回目の反復では現在のカメラ設定）に基づいてステップ９１０で新たな仮カメラ設定が判定される。次に、ステップ９４０は、反復降下が収束したか否かを試験し、ステップ９５０は、収束時の最終カメラ設定を出力する。このＶＩＤＤ構成の一実施例において、ステップ９１０は、式（３）の相互情報量目的関数の勾配に基づいてカメラ設定の増分変化を計算し、ステップ９４０は、相互情報量の変化が連続する反復回の間の閾値を下回ったか否かを試験する。

方法４６０（図９を参照）の他の変形例は、候補被写体が着目被写体であるか否かを判定するために必要とされる観測の数を更に減少させることを目的とする。式（３）の相互情報量目的関数における１つの暗黙の仮定は、異なる時点における同一の属性の観測は独立しているということである。しかし、現実の属性検出器は、近傍のフレームに対して相関検出を発生しがちである。すなわち、短時間で同一の属性を繰り返し観測しても、被写体のアイデンティティに関する新たな情報はごくわずかしか生成されない。同一の属性の反復観測を回避するために、方法４６０（図９を参照）の一実現形態は、閾値時間、例えば５秒の中で属性を再観測させるようなカメラ設定を放棄するために、選択ステップ９１０でフィルタを課する。従って、候補被写体を観察するためのカメラ設定の判定は、閾値時間の中で先に観測された属性を観測させようとするカメラ設定をいずれも除外することができる。

式（３）における別の暗黙の仮定は、候補被写体が着目被写体であることを確認する情報は、候補被写体が着目被写体ではないことを確認する情報と同等に重要であるということである。しかし、実際のシステムは、特に多くの候補被写体を含むシーンの場合、候補被写体が着目被写体であることを確認する情報を優先的にシークすることにより更に効率よく動作できるだろう。例えば、半ズボンと眼鏡を身に着けた着目人物と、２人の候補人物を含むシーンを考える。シーンの最初の画像で、第１の人物は長ズボンを身に着けていることが観測され、第２の人物は半ズボンを身に着けていることが観測されている。第１の人物の眼鏡を観測することでも情報利得は同様になるだろうが、これが着目人物の発見に直接つながるので、システムは、第２の人物の眼鏡を観測するために優先的にズームインすべきである。ステップ９３０の１つの代替実現形態では、式（３）の相互情報量目的関数の代わりに、次の式（８）に従って定義される「重み付き相互情報量目的関数」が使用される。

式（３）は不確実性の重み付き減少を判定し、着目被写体である尤度が高い候補被写体に、着目被写体である尤度が低い被写体より高い値が優先的に割り当てられる。従って、候補被写体が着目被写体であることの信頼度に基づいて、相互情報量に重み付けすることができる。式（８）の項Ｉ（ｘ；ｄ｜ν）は、式（３）を使用して計算された相互情報量であり、Ｉ_ｗ（ｘ；ｄ｜ν）は重み付き相互情報量である。項ｐ（ｘ＝１）は、候補被写体が着目被写体である確率であり、この項には、方法４００のステップ４４０で判定された事後確率ｐ（ｘ｜ｄ，ν）４４１の値が割り当てられる。項Ｐ_ｈ及びＰ_ｌは、候補被写体のアイデンティティが低い不確実性を有することを試験するための相互事前定義済み確率閾値（例えば、それぞれ０．８と０．１）である。最後に、ｗ_ｈ及びｗ_ｌは、それぞれ、着目被写体である尤度が高い候補及び着目被写体である尤度が低い候補に対応する相互事前定義済み重み付け係数（例えば、それぞれ２．０と０．０）である。式（８）を使用して計算された重み付き相互情報量及びｋ番目の仮カメラ設定のカメラ設定は、タプル（φ，Ｉ_ｗ（ｘ；ｄ｜ν））_ｋを構成し、このタプルはコンピュータメモリに記憶される。ステップ９５０の１つの代替実現形態において、記憶されている複数のタプル（φ，Ｉ_ｗ（ｘ；ｄ｜ν））_ｋの中から最大の重み付き相互情報量を有するタプルに対応するタプル（φ^＊，Ｉ_ｗ ^＊（ｘ；ｄ｜ν））が選択され、選択されたタプルからのカメラ設定φ^＊が図９のステップ４５０で新たなカメラ設定４６１として出力される。式（３）の相互情報量の代わりに式（８）で定義される重み付き相互情報量を使用することにより、期待できる候補を更に多く観測できる。この結果、類似する候補被写体に他の被写体より優先して多くの観測が割り当てられることになるので、類似する候補被写体の独自性が改善される。

産業上の適用可能性

説明した構成は、コンピュータ及びデータ処理の分野に適用可能であり、特に監視及びセキュリティの分野に適用される。

以上の説明は、本発明のいくつかの実施形態を説明したにすぎず、それらの実施形態は例示的であり、限定的なものではなく、本発明の範囲及び精神から逸脱することなく、実施形態に対して変形及び／又は変更を実施することが可能である。

本明細書において、言葉「備える」は、「主に含むが、必ずしもそれのみを含むとは限らない」、「有し」又は「含む」という意味であり、「それのみから構成される」ことを意味するものではない。「備える」などの言葉「備える」の変形は、対応して変化された意味を有する。

Claims

シーンの画像の中の被写体をカメラによって識別する方法であって、
カメラの視点とは関係なく、着目被写体の複数の属性の各々の独自性を判定するステップと、
前記シーンの画像中の候補被写体の相対的向きに基づいて該候補被写体の複数の属性の各々の検出可能性を判定するステップと、
少なくとも１つの属性の検出可能性を向上させるように、少なくとも１つの属性の前記判定された独自性に基づいて前記候補被写体を観察するためのカメラ設定を決定するステップと、
前記候補被写体が前記着目被写体であることの信頼度を判定するために、前記決定されたカメラ設定で前記候補被写体の画像を撮像するステップと
を備えることを特徴とする方法。
前記候補被写体を観察するための前記カメラ設定は、前記候補被写体が前記着目被写体であることの信頼度に依存することを特徴とする請求項１記載の方法。
前記複数の属性はソフトバイオメトリクスであることを特徴とする請求項１記載の方法。
前記ソフトバイオメトリクスは、前記着目被写体の文字記述又は口頭説明であることを特徴とする請求項３記載の方法。
属性の独自性を判定する前記ステップは、前記着目被写体の属性ラベルの確率と、前記候補被写体の母集団における前記属性ラベルの頻度とを含むタプルを構成するステップを含むことを特徴とする請求項１記載の方法。
属性の検出可能性を判定する前記ステップは、
前記候補被写体が前記着目被写体である事前確率を判定するステップと、
前記候補被写体の画像が撮像された観察条件を判定するステップと、
前記観察条件の下で撮像された前記属性を有する異なる被写体の１組の試験画像に対して属性分類子を試験するステップと
を含むことを特徴とする請求項１記載の方法。
前記候補被写体を観察するための前記カメラ設定を決定する前記ステップは、
仮カメラ設定を選択するステップと、
前記仮カメラ設定を使用して前記候補被写体の各属性の検出可能性を予測するステップと、
前記仮カメラ設定を使用して観測された前記候補被写体のアイデンティティに関する情報量の増加を判定するステップと、
前記情報量の増加を最大にすることに応じて、前記候補被写体を観察するための前記カメラ設定を決定するステップと
を含むことを特徴とする請求項１記載の方法。
前記情報量の増加は、前記カメラ設定において観測された属性と前記候補被写体の前記アイデンティティとの間の相互情報量に依存しており、前記相互情報量は、前記候補被写体が前記着目被写体であることの信頼度に基づいて重み付けされることを特徴とする請求項７記載の方法。
前記候補被写体を観察するためのカメラ設定を決定する前記ステップは、閾値時間中に先に観測された属性を観測させるカメラ設定をすべて除外することを特徴とする請求項１記載の方法。
装置であって、
着目被写体の画像及びシーンの中の候補被写体の画像（１２０）を撮像するカメラと、
プロセッサと、
前記シーンの画像中の被写体を前記カメラによって識別する方法を実行することを前記プロセッサに指示するコンピュータ実行可能ソフトウェアプログラムを記憶するメモリと
を備え、前記方法は、
カメラの視点とは関係なく、前記着目被写体の複数の属性の各々の独自性を判定するステップと、
前記候補被写体の相対的向きに基づいて、前記シーンの画像中の候補被写体の複数の属性の各々の検出可能性を判定するステップと、
少なくとも１つの属性の検出可能性を向上させるように、少なくとも１つの属性の前記判定された独自性に基づいて前記候補被写体を観察するためのカメラ設定を決定するステップと、
前記候補被写体が前記着目被写体であることの信頼度を判定するために、前記決定されたカメラ設定で前記候補被写体の画像を撮像するステップと
を備えることを特徴とする装置。
シーンの画像の中の被写体をカメラによって識別する装置であって、
カメラの視点とは関係なく、着目被写体の複数の属性の各々の独自性を判定する独自性判定モジュールと、
前記シーンの画像中の候補被写体の相対的向きに基づいて、該候補被写体の複数の属性の各々の検出可能性を判定する検出可能性判定モジュールと、
少なくとも１つの属性の検出可能性を向上させるように、少なくとも１つの属性の前記判定された独自性に基づいて前記候補被写体を観察するためのカメラ設定を決定するカメラ設定決定モジュールと、
前記候補被写体が前記着目被写体であることの信頼度を判定するために、前記決定されたカメラ設定で前記候補被写体の画像を撮像する撮像モジュールと
を備えることを特徴とする装置。
シーンの画像の中の被写体をカメラによって識別する方法を実行することをプロセッサに指示するためのコンピュータ実行可能ソフトウェアプログラムを格納したコンピュータ可読非一時的メモリであって、方法は、
カメラの視点とは関係なく、着目被写体の複数の属性の各々の独自性を判定するステップと、
前記シーンの画像中の候補被写体の相対的向きに基づいて、該候補被写体の複数の属性の各々の検出可能性を判定するステップと、
少なくとも１つの属性の検出可能性を向上させるように、少なくとも１つの属性の前記判定された独自性に基づいて前記候補被写体を観察するためのカメラ設定を決定するステップと、
前記候補被写体が前記着目被写体であることの信頼度を判定するために、前記決定されたカメラ設定で前記候補被写体の画像を撮像するステップと
を備えることを特徴とするコンピュータ可読非一時的メモリ。