JP2016110635A

JP2016110635A - 画像署名をフィッシャーベクトルとマッチングするための適応型語彙

Info

Publication number: JP2016110635A
Application number: JP2015221043A
Authority: JP
Inventors: ウスマン・タリク; Tariq Usman; ホセ・アントニオ・ロドリゲス・セラーノ; Antonio Rodriguez Serrano Jose; フロラン・シー・ペロナン; C Perronnin Florent
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 2014-12-02
Filing date: 2015-11-11
Publication date: 2016-06-20
Anticipated expiration: 2035-11-11
Also published as: US20160155020A1; US9607245B2; EP3035239B1; EP3035239A1; JP6687364B2

Abstract

【課題】画像マッチングの撮像条件における差異の影響を削減するシステムおよび方法を提供する。【解決手段】局所的な記述子の普遍的な生成モデルを第１のカメラ１６へ適用して、第１のカメラ依存の生成モデルを取得する。さらに、同じ普遍的な生成モデルが第２のカメラ１８へ適用され、第２のカメラ依存の生成モデルを取得する。第１のカメラにより撮像された第１の画像から、第１の画像レベル記述子が、第１のカメラ依存の生成モデルを使用して抽出される。第２のカメラにより撮像された第２の画像から、第２の画像レベル記述子が、第２のカメラ依存の生成モデルを使用して抽出される。類似性が、第１の画像レベル記述子と第２の画像レベル記述子との間で計算される。情報が、計算された類似性に基づいて出力される。適応により、画像レベル記述子間の差異が許容され、画像条件ではなく、画像コンテンツにおける偏差の方にずらされる。【選択図】図３

Description

例示的な実施形態は画像処理に関し、画像における物体検出に関連して特定の用途を見出す。

異なる位置の異なるカメラにより取得される画像における物体をマッチングすることが望ましい事例が多くある。例えば、静止カメラまたはビデオカメラは、有料道路および橋の自動または半自動の通行料金査定、駐車施設の自動監視、速度制限または他の交通規制のカメラベースの実施、カープール車線の監視、車道使用量調査など、において使用する画像を取得するために配置されてよい。用途に応じて、取得される車両画像は、車両全体の画像であってよく、または、後ろのナンバープレートなど、車両の一部の画像であってよい。

異なる画像における物体をマッチング（再同定と称される）する際の１つの問題は、撮像条件が異なる場合があることである。撮像条件の差異は、異なる角度で置かれたカメラ、背景の差異、例えば、撮影時刻または異なる天候条件などに起因する、照明条件、カメラの設定、カメラの解像度または他のカメラ特性、被写体ぶれの量、および後処理など、様々な理由に起因する可能性がある。一般的に、撮像条件の差異が大きい場合、物体認識または画像マッチングなど、コンピュータの映像タスクに影響を及ぼす可能性がある。１つの理由は、たとえ同じ特徴が両方の事例において抽出される場合であっても、撮像条件が特徴分布に大きな影響を与え得ることである。これは、ある条件のために訓練された分類器の前提が、他の条件にも常に当てはまるとは限らないことを意味する。

画像マッチングでは、撮像された画像の特徴ベース表現が生成されることが多い。例えば、画像または画像の一部を表現する１つの方法は、フィッシャーベクトル（ＦＶ）を伴う。この方法において、画像パッチの記述子の発行元である、生成モデル（ガウス混合モデル（ＧＭＭ）など）が存在すると想定され、フィッシャーベクトルコンポーネントは、モデルの１つ以上のパラメータに対する記述子の対数尤度の勾配である。したがって、訓練に使用される各パッチは重みのベクトルにより特徴づけられることができ、一連のガウス関数の各々に対する１つ（または、複数）の重みは、混合モデルを形成する。新しい画像を考えると、表現は、訓練されたＧＭＭに対するパッチの特性に基づいて生成され得る（多くの場合、画像署名と称される）。

典型的な運搬用途において、カメラは、例えば、様々な料金所など、様々な戦略上の位置に置かれ、各カメラは独立的に訓練された後、その場所にある（または、その場所を通過する）車両の表現を生成するために使用される。２つの表現が一致する場合、車両は同じであると推定され得る。しかしながら、異なるカメラで撮像された画像間の小さな差異さえ、性能に大きく影響し得る。

ドメイン適応技術は、あるドメインからのデータを別のドメインでの使用に適応するために、開発されてきた。Ｊｉａｎｇ，Ｊ．による、「Ａｌｉｔｅｒａｔｕｒｅｓｕｒｖｅｙｏｎｄｏｍａｉｎａｄａｐｔａｔｉｏｎｏｆｓｔａｔｉｓｔｉｃａｌｃｌａｓｓｉｆｉｅｒｓ（統計分類器のドメイン適応に関する文献調査）」（Ｔｅｃｈｎｉｃａｌｒｅｐｏｒｔｐｐ．１−１２（２００８））、および、Ｂｅｉｊｂｏｍ，Ｏ．による、「ＤｏｍａｉｎＡｄａｐｔａｔｉｏｎｓｆｏｒｃｏｍｐｕｔｅｒｖｉｓｉｏｎａｐｐｌｉｃａｔｉｏｎｓ（コンピュータ視覚アプリケーションのためのドメイン適応）」（Ｔｅｃｈｎｉｃａｌｒｅｐｏｒｔ，ａｒＸｉｖ：１２１１．４８６０ｖ１［ｃｓ．ＣＶ］２０ｐｐ．１−９（Ｎｏｖ．２０１２））は、学習理論および自然言語処理アプリケーションおよびコンピュータ視覚アプリケーションに注目する調査を、提供する。一部の手法は、ドメインを近づけるために、特徴空間を変換することに注目している。一部の事例において、一般的にＰＣＡ投影に基づく、監視されない変換が使用される。以下を参照されたい：Ｇｏｐａｌａｎ，Ｒ．らによる、「Ｄｏｍａｉｎａｄａｐｔａｔｉｏｎｆｏｒｏｂｊｅｃｔｒｅｃｏｇｎｉｔｉｏｎ：Ａｎｕｎｓｕｐｅｒｖｉｓｅｄａｐｐｒｏａｃｈ（物体認識のためのドメイン適応：監視されない手法）」（ＩＣＣＶ，ｐｐ．９９９−１００６（２０１１））；Ｇｏｎｇ，Ｂ．らによる、「Ｇｅｏｄｅｓｉｃｆｌｏｗｋｅｒｎｅｌｆｏｒｕｎｓｕｐｅｒｖｉｓｅｄｄｏｍａｉｎａｄａｐｔａｔｉｏｎ（監視されないドメイン適応のための測地流カーネル）」（ＣＶＰＲ，ｐｐ．２０６６−２０７３（２０１２））；および、Ｆｅｒｎａｎｄｏ，Ｂ．らによる、「Ｕｎｓｕｐｅｒｖｉｓｅｄｖｉｓｕａｌｄｏｍａｉｎａｄａｐｔａｔｉｏｎｕｓｉｎｇｓｕｂｓｐａｃｅａｌｉｇｎｍｅｎｔ（サブ空間配列を使用する監視されない視覚ドメイン適応）」（ＩＣＣＶ，ｐｐ．２９６０−２９６７（２０１３））。他の技術において、（一般的に、ソースおよび対象ドメインの両方において）クラスラベルを利用する測定基準学習が、特徴空間の変換を学習するために使用され、それにより、この新しい空間において、同じクラスのインスタンスは、インスタンスが属するドメインとは独立して、他のクラスからのインスタンスより互いに近くなる。以下を参照されたい：Ｚｈａ，Ｚ．−Ｊ．らによる、「Ｒｏｂｕｓｔｄｉｓｔａｎｃｅｍｅｔｒｉｃｌｅａｒｎｉｎｇｗｉｔｈａｕｘｉｌｉａｒｙｋｎｏｗｌｅｄｇｅ（予備知識を用いるロバスト距離測定基準学習）」（ＩＪＣＡＩ，ｐｐ．１３２７−１３３２（２００９））；Ｓａｅｎｋｏ，Ｋらによる、「Ａｄａｐｔｉｎｇｖｉｓｕａｌｃａｔｅｇｏｒｙｍｏｄｅｌｓｔｏｎｅｗｄｏｍａｉｎｓ（視覚カテゴリモデルの新しいドメインへの適応）」（ＥＣＣＶ，Ｖｏｌ．６３１４ｏｆＬｅｃｔｕｒｅＮｏｔｅｓｉｎＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ，ｐｐ．２１３−２２６（２０１０））；Ｋｕｌｉｓ，Ｂ．らによる、「Ｗｈａｔｙｏｕｓａｗｉｓｎｏｔｗｈａｔｙｏｕｇｅｔ：Ｄｏｍａｉｎａｄａｐｔａｔｉｏｎｕｓｉｎｇａｓｙｍｍｅｔｒｉｃｋｅｒｎｅｌｔｒａｎｓｆｏｒｍｓ（見たことと得ることは違う：非対称カーネル変換を使用するドメイン適応）」（ＣＶＰＲ，ｐｐ．１７８５−１７９２（２０１１））；および、Ｈｏｆｆｍａｎ，Ｊ．らによる、「Ｄｉｓｃｏｖｅｒｉｎｇｌａｔｅｎｔｄｏｍａｉｎｓｆｏｒｍｕｌｔｉｓｏｕｒｃｅｄｏｍａｉｎａｄａｐｔａｔｉｏｎ（マルチソースドメイン適応のための潜在的なドメインの発見）」（ＥＣＣＶ，Ｖｏｌ．ＰａｒｔＩＩ，ｐｐ．７０２−７１５（２０１２））。

これらの技術の多くは分類の問題を対象としており、したがって、クラスの概念がない再同定など、マッチングの問題に適用するには困難であり得る。他の技術は、多くの用途で実用的ではない、膨大な量の訓練データを必要とする。

例示的な実施形態は、画像マッチングの撮像条件における差異の影響を削減する、フィッシャーベクトルなどの画像表現を生成する、システムおよび方法を提供する。

例示的な実施形態の１つの態様によると、方法は、局所的な記述子の普遍的な生成モデルを提供すること、普遍的な生成モデルを第１のカメラに適用して、第１のカメラ依存の生成モデルを取得すること、を含む。さらに、普遍的な生成モデルは、第２のカメラに適用されて、第２のカメラ依存の生成モデルを取得する（または、普遍的な生成モデルは、第２のカメラ依存の生成モデルとして使用され得る）。第１のカメラにより撮像された第１の画像から、第１の画像レベル記述子が、第１のカメラ依存の生成モデルを使用して抽出される。第２のカメラにより撮像された第２の画像から、第２の画像レベル記述子が、第２のカメラ依存の生成モデルを使用して抽出される。類似性が、第１の画像レベル記述子と第２の画像レベル記述子との間で計算される。情報は、計算された類似性に基づいて出力される。

普遍的な生成モデルを第１および第２のカメラに適用すること、第１および第２の画像レベル記述子を抽出すること、および、類似性を計算すること、のうちの少なくとも１つは、コンピュータプロセッサで行われてよい。

例示的な実施形態の別の態様によると、システムは、局所的な記述子の普遍的な生成モデルを保存するメモリを含む。適応コンポーネントは、普遍的な生成モデルを第１のカメラに適用して第１のカメラ依存の生成モデルを取得し、普遍的な生成モデルを第２のカメラに適用して第２のカメラ依存の生成モデルを取得する。プロセッサは、適応コンポーネントを実装する。

例示的な実施形態の別の態様によると、物体の再同定のためのシステムを生成する方法は、訓練セットの画像から抽出される局所的な記述子を使用して生成される、普遍的な生成モデルを提供することを含む。普遍的な生成モデルは第１のカメラに適用され、第１のカメラ依存の生成モデルを、第１のカメラにより撮像された画像から抽出される局所的な記述子を使用して取得する。普遍的な生成モデルは第２のカメラに適用され、第２のカメラ依存の生成モデルを、第１のカメラにより撮像される画像から抽出される局所的な記述子を使用して取得する。コンポーネントは、第１のカメラ依存の生成モデルを使用する第１の画像の画像レベル表現、および、第１のカメラ依存の生成モデルを使用する第１の画像の画像レベル表現、のうちの少なくとも１つを計算するために提供される。コンポーネントは、第１の画像レベル記述子と第２の画像レベル記述子との間の類似性を計算するために提供される。

適応は、コンピュータプロセッサで行われてよい。

図１は、例示的な実施形態の１つの態様による、物体の再同定のためのシステムの機能ブロック図である。図２Ａは、例示的な実施形態の別の態様による、物体の再同定のための方法を図示するフローチャートである。図２Ｂは、例示的な実施形態の別の態様による、物体の再同定のための方法を図示するフローチャートである。図３は、適用型ＧＭＭの生成をグラフ化して図示する。図４は、適応前の各車線からの特徴ｘ_ｉ全体で均等化されたプロットｐ（ｋ｜ｘ_ｉ）である。図５は、適応後の各車線からの特徴ｘ_ｉ全体で均等化されたプロットｐ（ｋ｜ｘ_ｉ）である。

例示的な実施形態は物体マッチングに関し、物体の再同定を特に参照して記載される。例示的な実施形態の態様において、物体の再同定のためのシステムおよび方法が記載される。システムおよび方法は、例えば、２つの画像が、同じ車、同じ自転車、同じ飛行機などの画像であるか（例えば、同じ車両が施設の入口および出口で観察されるか）など、２つの画像が同じ物体インスタンスを包含するか判定するために、使用され得る。２つの画像をマッチングするために、表現が、画像の画素を代表する局所的な記述子に基づいて、抽出される。例として、各表現は、画像全体の代表または物体（例えば、ナンバープレート）を含むと予想される画像の対象領域（ＲＯＩ）の代表である、１つ以上のフィッシャーベクトルを含んでよい。その後、２つのフィッシャーベクトル間の類似性測定基準が計算される。フィッシャーベクトルは、生成モデルに対する偏差を符号化する。その後、類似性測定基準の閾値が、２つの画像が同じ物体インスタンスのものであるか決定するために使用されてよい。

例示的な実施形態の他の態様において、物体の再同定システムを生成するシステムおよび方法が、記載される。

上述したように、撮像条件が物体の２つの画像の撮像で異なる場合、同じ物体インスタンスを包含するにも関わらず、抽出されたフィッシャーベクトルは類似しない可能性がある。例示的な実施形態において、普遍的な生成モデルは先天的に学習される。撮像条件のずれは、対応するモデルのずれの形式で反映される。このずれを無効にするために、生成モデルのパラメータが、（例えば、２つのカメラからの）２つの撮像条件の各々で撮像された画像を使用する、監視されない手法に適用される。結果として、各々が「適応型視覚語彙」を伴う、２つのカメラ特有の生成モデルが取得される。その後、フィッシャーベクトルの形式で符号化された、これらのモデルからの偏差は、撮像条件ではなく、画像コンテンツにおける偏差の方にずらされる。

図１を参照すると、物体の再同定のためのシステム１０が示されている。システム１０は、テスト画像１２，１４をカメラ１６，１８から受信し、画像１２，１４を処理して、これらの画像が同じ物体を含むか判定する。

本明細書に使用される「物体」という用語は、車両、ナンバープレート、他の製造品、建物などの無生物物体（または、無生物物体の群）、または、人物または人物の群、または、動物または動物の群などの生物物体（または、生物物体の群）を指す。特に、「物体」という用語は、システムにより使用されるカメラ１６，１８により撮像され得る物理的な物体を指す。

例示的な実施形態において、物体は、モータ付き車両などの車両、または、車両の登録番号を含む、車両の識別子を含む車両のナンバープレートである。しかしながら、人物と指紋および／または眼球スキャン、配送荷物と追跡または宛先情報など、他の移動物体と識別子も考慮されることに、留意されたい。車両の同定は、例えば、駐車場の入口および出口、または、道路の異なる地点など、複数の位置および／または異なる時間で行われることが望ましい場合がある。簡易化するために、互いに距離Ｚだけ離れた２つの位置ＸおよびＹが考慮されるが、ＸおよびＹは、同じ位置か、または、近い位置であってよいことに、留意されたい。

１つの例示的な実施形態において、目的は、ＸおよびＹでの車両の同一性間の一致を見出し、２つの同一性間の一致が確立された場合、ＸおよびＹで撮像された情報に依存する一定の条件が適合するか判定することである。条件が適合する場合、ナンバープレート認識など、特定の動作が引き起こされる。

本明細書において使用される「カメラ」という用語は、対象物体の画像を取得することが可能な撮像デバイスを指す。一部の限定されない例として、ガメラは、以下であってよい：人間の視覚により観察されるものと類似のカラーまたはモノクロ画像を取得することが可能な、写真フィルムまたはデジタル撮像アレイ（例えば、選択的にカラーフィルタを伴うＣＣＤアレイ）を含む、従来のカメラ；または、Ｘ線ソースと連動して動作し、Ｘ線投影画像を生成する、Ｘ線高感度撮像アレイを含む、Ｘ線スキャナ；または、コンピュータ断層撮影スキャナ；または、夜間または低光量画像を取得するために使用される種類の赤外線カメラ；または、文書ページ画像を生成するよう動作する、文書スキャナなど。カメラは、例えば、物体上または物体中に存在し得る蛍光染料により放射される波長（複数可）に敏感であるよう、波長選択フィルタを含む、特定の物体ラベリングタスクに特化されることが考慮される。一般的に、カメラは、静止カメラ（すなわち、単一の静止画像を取得する）、または、ビデオカメラ（すなわち、通常は「フレーム」と称される時系列の画像を取得し、本明細書において、画像前処理は、対象の物体を最適に撮像するビデオバーストのフレームを選択することを必要としてよい）であってよい。コンピュータ断層撮影スキャナなど、一部の種類のカメラにおいて、カメラにより物体から取得されたデータは、画像を生成するために画像復元処理が行われてよい。

図１に図示されるシステム１０は、図２を参照して記載される方法を行うための命令２２を保存するメモリ２０、および、命令を実行するためのメモリと通信するプロセッサデバイス２４を含む。１つ以上のネットワークインタフェース２６，２８が、画像１２，１４（または、画像から抽出された特徴）をカメラ１６，１８から受信し、それらに基づく情報３０を出力するために、提供される。システムのハードウェアコンポーネント２０，２４，２６，２８は、データ／制御バス３２を介して通信する。一般的な訓練画像のセット３４は、例えば、システムメモリ２０における、または、システムと通信可能に接続される関連メモリにおける、データベース３８に保存されてよい。訓練画像３４は、カメラ１６，１８のいずれか１つに特有のものではないが、カメラにより撮像される代表的な種類の画像であってよい。

簡潔には、命令２２は、特徴抽出コンポーネント４０、訓練コンポーネント４２、適応コンポーネント４４、署名生成コンポーネント４６、マッチングコンポーネント４８、選択的に、プロセス実装コンポーネント５０、および情報出力コンポーネント５２を含む。

特徴抽出コンポーネント４０は、画像１２，１４および訓練画像３４など、画像から局所的な特徴を抽出して、局所的な記述子５４，５６を生成する。留意されるように、訓練画像３４、および、カメラにより取得された画像１２，１４は、クロッピングされてよく、あるいは、そうでない場合は、局所的な記述子を抽出する前に、前処理されてよい。

訓練コンポーネント４２は、局所的な記述子の普遍的な生成モデル６０を、一般的な訓練画像のセット３４から生成された局所的な記述子を訓練データとして使用して、訓練する。訓練画像３４は、１つの実施形態において、カメラ１６，１８を含んでよい、カメラのセットから取得された可能性がある。したがって、訓練データ３４は、視覚コンテンツにおいて、カメラ１６，１８により取得される画像と類似してよい。生成モデル６０は、普遍的な背景モデル（ＵＢＭ）と称される。ＵＢＭ６０は、ガウス関数のセットのパラメータを含む、ガウス混合モデル（ＧＭＭ）であってよい。

適応コンポーネント４４は、生成モデル６０を各カメラ１６，１８に適用して、例示的な実施形態がＧＭＭである、各々のカメラ特有モデル６２，６４を取得する。ＵＢＭ６０を適用するために、カメラ１６，１８の各々（または、撮像位置に特有のカメラ）により撮像された、ラベル化されない訓練サンプル６６，６８の各々のセットから抽出される局所的な記述子が、生成モデル６０を適用するために使用され、各々の位置での異なる撮像条件を適合させる。留意されるように、２つのカメラ１６，１８が図示される一方で、任意の数のカメラが、各々のカメラ依存モデル６２，６４で提供されてよい。

第１のテスト画像１２から抽出される局所的な記述子５４および第１のカメラ１６の生成モデル６２を考慮すると、署名生成コンポーネント４６は、ＳＩ_Ｘで示される、第１の画像レベル記述子（画像署名）７０を抽出する。第２のテスト画像１４から抽出される局所的な記述子５６および第２のカメラ１８の生成モデル６４を考慮すると、（個別の署名生成コンポーネントであり得る）署名生成コンポーネント４６は、ＳＩ_Ｙで示される、第２の画像レベル記述子７２を抽出する。画像レベル記述子７０，７２は、各々が柔軟なバグオブビジュアルワードまたはフィッシャーベクトルであってよい。

マッチングコンポーネント４８は、例えば、ＳＩ_ＸとＳＩ_Ｙとの間のコサイン距離など、類似性を計算することにより、異なる画像から計算される画像署名７０，７２間の整合性を計算する。整合性が閾値に少なくとも適合する場合、２つの画像（または、画像内に撮像された物体）は、一致すると推測されてよく、すなわち、同じ物体であると推測されてよい。

プロセス実装コンポーネント５０は、マッチングコンポーネントの出力に基づいて、プロセスを実施してよい。例えば、車両の画像の事例において、車両が一致すると、ナンバープレート情報が画像の一方または両方から抽出されてよい。これは、閾値を超える車両の速度が計算された場合など、さらなる条件が適合することを条件としてよい。これは、各々の画像１２，１４の撮像と関連付けられる、タイムスタンプなどの情報Ｍ_Ｘ，Ｍ_Ｙ７４，７６に基づいて、計算されてよい。

情報出力コンポーネント５２は、情報３０を、例えば、遠隔コンピュータ、プリンタ、表示デバイス（例えば、コンピュータスクリーン）、または、遠隔メモリ保存デバイス、または、それらの組み合わせなど、出力デバイス８０へ、マッチングコンポーネントまたは他の情報による推論に基づいて、プロセス実装コンポーネント５０により計算される情報に基づいて、出力する。

システム１０は、入力／出力インタフェース２８を介して、ＬＣＤスクリーンまたはコンピュータモニタなど、情報をユーザへ表示するための表示デバイス、および、テキストを入力し、プロセッサ２４へのユーザ入力情報および命令の選択を通信するための、キーボードまたはタッチまたは書き込み可能スクリーンなど、ユーザ入力デバイス、および／または、マウス、トラックボールなど、カーソル制御デバイス、のうちの１つ以上と通信してよい。表示デバイスおよびユーザ入力デバイスは、クライアント計算デバイス８０の一部として図示されるが、他の実施形態において、システムを管理するコンピュータ８２と直接的に結合されてよい。

システム１０は、デスクトップなどのＰＣ、ラップトップ、パームトップコンピュータ、携帯情報端末（ＰＤＡ）、サーバコンピュータ、セルラー電話、タブレットコンピュータ、ポケットベル、それらの組み合わせ、または、例示的な方法を行うための命令を実行することが可能な他の計算デバイスなど、１つ以上の計算デバイス８２に常駐してよい。留意されるように、システム１０の部品は、２つ以上の計算デバイスに分散されてよい。例えば、画像１２，１４の局所的な記述子は、各々のカメラ１６，１８のコンポーネント８４，８６を処理することにより計算され、計算デバイス８２にアクセス可能なデータベース３８に保存されてよい。

メモリ２０は、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、磁気ディスクまたはテープ、光ディスク、フラッシュメモリ、またはホログラムメモリなど、任意の種類の持続性コンピュータ可読媒体を表してよい。１つの実施形態において、メモリ２０は、ランダムアクセスメモリと読み出し専用メモリとの組み合わせを備える。一部の実施形態において、プロセッサ２４およびメモリ２０は、単一チップに統合されてよい。

ネットワークインタフェース２６，２８は、コンピュータ８２が、他のデバイスと、ローカルエリアネットワーク（ＬＡＮ）または広域ネットワーク（ＷＡＮ）などのコンピュータ網、または、インターネットなど、有線または無線リンクを介して通信することを許容し、変調器／復調器（ＭＯＤＥＭ）、ルータ、ケーブル、および／またはイーサネット（登録商標）ポートを備えてよい。

デジタルプロセッサ２４は、例えば、シングルコアプロセッサ、デュアルコアプロセッサ（または、より一般的には、多重コアプロセッサ）、デジタルプロセッサおよび協調数値演算コプロセッサ、デジタルコントローラなどにより、様々に具現化され得る。デジタルプロセッサ２４は、コンピュータ８２の動作を制御することに加えて、図２で概要を述べた方法を行うためのメモリ２０に保存された命令を実行する。

一部の実施形態において、システム１０は、単に、例えば、適応コンポーネント４４を包含する、再同定システムの部品を生成するためのシステムとして使用され得る一方で、他のコンポーネントは省略されてよい。他の実施形態において、システム１０は、既に適用されたカメラ依存の生成モデル６２，６４を利用するために使用され得る一方で、訓練および適応コンポーネント４２，４４などの他のコンポーネントは省略されてよい。

本明細書において使用される「ソフトウェア」という用語は、コンピュータまたは他のデジタルシステムにより実行可能な命令の任意の集合またはセットを網羅し、それにより、コンピュータまたは他のデジタルシステムを、ソフトウェアの意図するタスクを行うよう構成することを意図する。本明細書において使用される「ソフトウェア」という用語は、ＲＡＭ、ハードディスク、光ディスクなどの保存媒体に保存される、そのような命令を網羅することを意図しており、さらに、ＲＯＭなどに保存されるソフトウェアである、いわゆるファームウェアを網羅することを意図する。そのようなソフトウェアは、様々な手法で体系化されてよく、ライブラリ、遠隔サーバなどに保存されたインターネットベースのプログラム、ソースコード、解釈コード、オブジェクトコード、直接的に実行可能なコードなどとして体系化される、ソフトウェアコンポーネントを含んでよい。ソフトウェアはシステムレベルのコードを起動してよく、または、サーバまたは他の位置に常駐する他のソフトウェアを呼び出して特定の機能を行うことが、予期される。

図２は、図１のシステムで行われてよい、物体再同定のための方法を図示する。最初に図２Ａを参照すると、方法はＳ１００で開始される。

Ｓ１０２で、局所的な記述子の普遍的な生成モデルＵＢＭ６０が提供される。これは、ＵＢＭ６０を訓練コンポーネント４２で訓練することを含んでよい。ＵＢＭ６０は、Ｋ個のガウス関数のセット（ガウス分布または混合とも称される）のパラメータを含む。一部の実施形態において、普遍的な生成モデルＵＢＭ６０は、事前に訓練されてよく、単にシステム１０にアクセス可能なメモリ２０に保存されてよい。

Ｓ１０４で、普遍的な生成モデル６０は第１のカメラ１６に適用され、第１のカメラ依存の生成モデル６２を取得する。これは、第１のカメラ１６により撮像された訓練画像６６の第１のセットから抽出される記述子を使用して（すなわち、第１のカメラにより撮像された、第２のカメラによる撮像ではない、画像からの記述子のみを使用して）行われる。第１のカメラ依存の生成モデル６２は、ＵＢＭ６０のパラメータを適用することにより、訓練画像６６の第１のセットから抽出された記述子を使用して生成される、Ｋ個のガウス分布のセットのためのパラメータを含む。

Ｓ１０６で、普遍的な生成モデル６０は第２のカメラ１８に適用され、第２のカメラ依存の生成モデル６４を取得する。これは、第２のカメラ１８により撮像された訓練画像６８の第２のセットから抽出される記述子を使用して（すなわち、第２のカメラにより撮像された、第１のカメラによる撮像ではない、画像からの記述子のみを使用して）行われる。第２のカメラ依存の生成モデル６４は、ＵＢＭ６０のパラメータを適用することにより、訓練画像６８の第２のセットから抽出された記述子を使用して生成される、Ｋ個のガウス分布のセットのためのパラメータを含む。したがって、ＧＭＭ６２および６４は、同じ数のガウス関数のためのパラメータをＵＢＭ６０として含む。別の実施形態において、普遍的な生成モデルは、第２のカメラ依存の生成モデルとして使用される（したがって、当該のカメラにより撮像された画像から、単独に、または、主に、取得される記述子で生成されてよい）。

Ｓ１０８で、局所的な記述子５４は、第１のカメラ１６により撮像される第１のテスト画像１２から抽出される。

Ｓ１１０で、局所的な記述子５６は、第２のカメラ１８により撮像される第２のテスト画像１４から抽出される。

Ｓ１１２で、第１の画像レベル記述子７０は、第１の画像の局所的な記述子５４および第１のカメラ１６の適応型生成モデルｕ^ｃ _Θｘ６２に基づいて生成される。

Ｓ１１４で、第２の画像レベル記述子７２は、第２の画像の局所的な記述子５６および第２のカメラ１８の適応型生成モデルｕ^ｃ _Θｙ６４に基づいて生成される。

Ｓ１１６で、第１および第２の画像レベル記述子７０，７２が比較される。図２Ｂへと続き、Ｓ１１８で、署名間の類似性が、閾値と合致する場合（および／または、比較されている画像のセットの最も高い類似性である場合）、Ｓ１２０で、一致が確認される。

Ｓ１２２で、プロセスは、一致の判定に基づいて実施されてよい。

Ｓ１２４で、一致があるか否か、または、一致が見られる場合、他の情報が計算されてよいか否か（または、別の実施形態において、一致が見られない場合、情報が計算されてよいか否か）など、情報３０が出力される。

本方法は、Ｓ１２６で終了し、または、カメラのうちの１つにより撮像される新しいテスト画像（単数または複数）を処理するために、Ｓ１０８および／またはＳ１１０へ戻ってよい。

留意されるように、適応ステップが行われると、本方法はＳ１０８で開始され得る。代替的に、本方法は、Ｓ１０６から、本方法の後続のステップを行うためのコンポーネントの提供へ進み得る。

本方法は、図３においてグラフを使用して図示される。特に、各カメラ依存の混合モデルは、ＵＢＭの元のガウス分布（楕円により示される）の少なくとも一部を、わずかに移動することにより（平均適応により）、および／または、縮尺することにより（分散適応により）形成され、カメラ特有の記述子（星印により示される）を反映することが、確認され得る。カメラ依存の混合モデルの適応型ガウス分布は、同じ一般的な視覚クラスを、ＵＢＭにおけるものとして表し（元のガウス分布と重なって図示される）、したがって、画像レベル表現において比較可能である。

図２および図３において図示される方法は、コンピュータ上で実行されてよい、コンピュータプログラム製品に実装されてよい。コンピュータプログラム製品は、ディスク、ハードドライブなど、制御プログラムが記録（保存）される持続性コンピュータ可読記録媒体を備えてよい。持続性コンピュータ可読媒体の共通の形態は、例えば、フロッピー（登録商標）ディスク、フレキシブルディスク、ハードディスク、磁気テープ、または、任意の他の磁気保存媒体、ＣＤ−ＲＯＭ、ＤＶＤ、または、任意の他の光媒体、ＲＡＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＦＬＡＳＨ−ＥＰＲＯＭ、または、他のメモリチップまたはカートリッジ、または、コンピュータが読み込みおよび使用し得る任意の他の持続性媒体、を含む。コンピュータプログラム製品は、コンピュータ８２と統合されてよく（例えば、ＲＡＭの内部ハードドライブ）、または、別個であってよく（例えば、コンピュータ８２と動作可能に接続される外部ハードドライブ）、または、別個であり、ローカルエリアネットワーク（ＬＡＮ）またはインターネットなど、デジタルデータ網を介して（例えば、低価格独立ディスク冗長アレイ（ＲＡＩＤ）、または、コンピュータ８２によりデジタル網を介して間接的にアクセスされる、他のネットワークサーバストレージとして）、アクセスされてよい。

代替的に、本方法は、制御プログラムが、電波および赤外線データ通信中に生成されるような、音波または光波などの伝送媒体を使用して、データ信号として具現化される、伝送可能な搬送波など、一時的な媒体において実装されてよい。

例示的な方法は、１つ以上の汎用コンピュータ、特定用途コンピュータ（複数可）、プログラム化されたマイクロプロセッサまたはマイクロコントローラおよび周辺用集積回路素子、ＡＳＩＣまたは他の集積回路、デジタル信号プロセッサ、個別素子回路などの配線接続された電子機器または論理回路、ＰＬＤ、ＰＤＡ、ＦＰＧＡ、グラフィカルカードＣＰＵ（ＧＰＵ）、またはＰＡＬなどのプログラム可能論理デバイスなど、に実装されてよい。一般的に、有限状態機器を実装できる任意のデバイス、すなわち、図２に示されるフローチャートを実装できる任意のデバイスは、物体再同定のための方法を実施するために使用され得る。留意されるように、本方法のステップが全てコンピュータ実装であってよい一方で、一部の実施形態において、１つ以上のステップが、少なくとも部分的に手動で行われてよい。

システムおよび方法の追加的な詳細が、ここで説明される。

画像の撮像
撮像された画像１２，１４（Ｉ_ＸおよびＩ_Ｙ）および訓練画像３４，６６，６８は、システム１０により、ＪＰＥＧ、ＧＩＦ、ＪＢＩＧ、ＢＭＰ、ＴＩＦＦなど、任意の好都合なファイル形式で、または、画像に使用される他の共通ファイル形式であって、処理の前に選択的に別の適切な形式へ変換されてよい形式で、受信されてよい。入力画像は、処理中、データメモリに保存されてよい。画像は、写真など個別の画像であってよく、または、ビデオ画像などの連続する画像から抽出される画像であってよい。一般的に、各入力デジタル画像は、画像を形成する画素配列のための画像データを含む。画像データは、グレースケール値などの着色剤値を、Ｌ＊ａ＊ｂ＊またはＲＧＢなどの色分離のセットごとに含んでよく、または、異なる色が表され得る別の他の色空間において表現されてよい。一般的に、「グレースケール」は、任意の単一色チャネルであるが、表現される（Ｌ＊ａ＊ｂ＊、ＲＧＢ、ＹＣｂＣｒなど）、光学的な濃度値を指す。本方法は、白黒（モノクロ）画像および多色画像に適している。「色」という単語は、色彩、彩度、および明度などの絶対的色値、および、色彩、彩度、および明度の違いなどの相対的色値を含むが、それらに限定されない、特定される場合がある色の任意の態様を指すために、使用される。一部の実施形態において、色は、近赤外線（ＮＩＲ）領域など、約８００ｎｍ〜２５００ｎｍである、電磁スペクトルの非可視領域を指し得る。

所与の位置Ｘ，Ｙでの画像の撮像は、任意の適切な手法で始動されてよい。１つの実施形態において、ループセンサは、例えば、地中など、局所的に配置されてよく、車両の存在を検出し、撮影（フラッシュの可能性もある）を始動させる。１つの実施形態において、カメラ１６，１８は、画像の配列を備えるビデオを撮影し、移動検出アルゴリズムまたは物体検出アルゴリズム（または、両方の組み合わせ）が適用され、画像配列の車両の存在を検出し、それに応じて配列から１つの画像を選択する。車両検出技術は既知であり、例えば、米国特許第４，４３３，３２５号、第５，０８３，２００号、第５，５９２，５６７号、第５，８０９，１６１号、第５，９９５，９００号、第６，９９６，２５５号、および、米国公開番号第２０１４０２７０３８１号および第２０１４００６３２６３号に開示されている。画像は、フルカラー、モノクロ、ＮＩＲ（近赤外線）、または、それらの組み合わせにおいて、撮像され得る。

一部の実施形態において、同じ画像撮像デバイスが、両方の画像Ｉ_ＸおよびＩ_Ｙを、例えば、駐車場において、例えば、カメラを回転／移動することにより撮像するために、使用され得る。

関連メタデータ７４，７６は、所定の条件が適合されたか判定できるよう、十分な情報を含んでよい。１つ以上のタイムスタンプ、車両の現行速度、ＧＰＳ位置、支払い情報、天候情報など、１つ以上の異なる種類の情報が取得されてよい。

局所的な記述子の抽出（Ｓ１０８，Ｓ１１０）
局所的な記述子は、訓練およびテスト画像３４，６６，６８，１２，１４から、同じ手法で抽出される。例えば、選択的にクロッピングされた画像のパッチのセットが、例えば、密に、１つまたは多重尺度で格子状に抽出される。パッチは、画像分割により、特定の対象点検出器を適用することにより、正規の格子を考慮することにより、または、単に画像パッチの無作為なサンプリングにより、取得され得る。例示的な実施形態において、パッチは、正規の格子上に、選択的に多重尺度で、クロッピングされた画像全体で、または、画像の少なくとも一部または大部分で、抽出される。例えば、少なくとも１０個、または少なくとも２０個、または少なくとも５０個のパッチが、各クロッピングされた画像から抽出される。各パッチは、少なくとも４０個、または少なくとも１００個の画素を備えてよく、最大で１，０００，０００個以上の画素を備えてよい。

各パッチに対して、形状、色、および／または勾配（ＳＩＦＴ）特徴など、低レベルの特徴が抽出される（Ｄ．Ｌｏｗｅによる、「Ｄｉｓｔｉｎｃｔｉｖｅｉｍａｇｅｆｅａｔｕｒｅｓｆｒｏｍｓｃａｌｅ−ｉｎｖａｒｉａｎｔｋｅｙｐｏｉｎｔｓ（尺度不変性キーポイントからの特有の画像特徴）」（ＩＪＣＶ，２００４）を参照されたい）。パッチに対して抽出された低レベルの特徴の表現である、ベクトルまたはヒストグラムなど、パッチ記述子が生成される。全てのパッチの記述子に基づいて、画像の画像署名全体が生成される。特に、統計値がこれらのパッチ記述子で計算され、その後、統計値は統合される。

例として、局所的な記述子は、ＳＩＦＴ記述子として、パッチごとに勾配特徴を含む。ＳＩＦＴ特徴を適用する１つの実例的な例において、局所的な記述子は、５つの尺度で正規の格子（１６画素ごと）の３２×３２画素パッチから、抽出される。これらの記述子の次元は、例えば、主成分分析（ＰＣＡ）を介して、１２８次元から３２次元に削減され得る。抽出され得る他の適切な局所的な記述子は、パッチが４×４のサブ領域に、さらに分割される、単一の９６次元色特徴を含み、各サブ領域において、平均および標準偏差が、３つのチャネル（Ｒ、Ｇ、およびＢ）に対して計算される。これらは単に実例的な例にすぎず、追加的および／または他の特徴が使用され得る。

画像署名の抽出（Ｓ１１２，Ｓ１１４）
各画像レベルの記述子または「画像署名」７０，７２などは、Ｄ次元空間の（選択的にクロッピングされた）画像の固定長ベクトル表現である。１つの実施形態において、画像レベル記述子は、フィッシャーベクトル（ＦＶ）に基づく。例えば、以下を参照されたい：ＰｅｒｒｏｎｎｉｎおよびＤａｎｃｅによる、「Ｆｉｓｈｅｒｋｅｒｎｅｌｓｏｎｖｉｓｕａｌｖｏｃａｂｕｌａｒｉｅｓｆｏｒｉｍａｇｅｃａｔｅｇｏｒｉｚａｔｉｏｎ（画像カテゴリ化のための視覚語彙のフィッシャーカーネル）」（ＣＶＰＲ，２００７）；Ｐｅｒｒｏｎｎｉｎらによる、「ＩｍｐｒｏｖｉｎｇｔｈｅＦｉｓｈｅｒｋｅｒｎｅｌｆｏｒｌａｒｇｅ−ｓｃａｌｅｉｍａｇｅｃｌａｓｓｉｆｉｃａｔｉｏｎ（大規模な画像分類のためのフィッシャーカーネルの向上）」（ＥＣＣＶ，１４３−１５６（２０１０））；Ｓａｎｃｈｅｚらによる、「Ｈｉｇｈ−ｄｉｍｅｎｓｉｏｎａｌｓｉｇｎａｔｕｒｅｃｏｍｐｒｅｓｓｉｏｎｆｏｒｌａｒｇｅ−ｓｃａｌｅｉｍａｇｅｃｌａｓｓｉｆｉｃａｔｉｏｎ（大規模な画像分類のための高次元署名圧縮）」（ＣＶＰＲ２０１１）；２０１２年３月２９日に発行された、ＪｏｒｇｅＳａｎｃｈｅｚらによる、米国公開番号第２０１２００７６４０１号「ＩＭＡＧＥＣＬＡＳＳＩＦＩＣＡＴＩＯＮＥＭＰＬＯＹＩＮＧＩＭＡＧＥＶＥＣＴＯＲＳＣＯＭＰＲＥＳＳＥＤＵＳＩＮＧＶＥＣＴＯＲＱＵＡＮＴＩＺＡＴＩＯＮ（ベクトル量子化を使用して圧縮される画像ベクトルを利用する画像分類）」；および、２０１２年２月２３日に発行された、ＦｌｏｒｅｎｔＰｅｒｒｏｎｎｉｎらによる、米国公開番号第２０１２００４５１３４号「ＬＡＲＧＥＳＣＡＬＥＩＭＡＧＥＣＬＡＳＳＩＦＩＣＡＴＩＯＮ（大規模な画像分類）」。フィッシャーベクトルは、画像分類、画像検索、物体検出、および、人物再同定を含む、様々な用途において良好な結果を見せた。したがって、フィッシャーベクトルを向上させ得る任意の改善は、多くの用途に大きな影響を与えるであろう。以下にフィッシャーベクトル抽出が記載され、続いて適応技術が記載される。

フィッシャーベクトルは、ナンバープレート処理において確認された、光度および幾何学変動性の範囲でロバスト性を示す。簡単に言えば、フィッシャーベクトルは、局所的なパッチ記述子を固定長表現に統合することにより機能する。上述したように、ＳＩＦＴおよび／または他の局所的な記述子は、正規の格子の多重尺度で抽出されたパッチから抽出され、それらの次元は、選択的に、主成分分析（ＰＣＡ）を使用して削減される。以下に記載されるように、全ての局所的な記述子が発行されると推測される、予測されるカメラ特有のガウス混合モデル（ＧＭＭ）を考慮すると、パッチのセットは、重みのベクトルにより特徴づけられ、パラメータごとに、混合モデルを形成する（例えば、少なくとも５個または１０個の）ガウス関数のセットの各々に対して１つの重みである。

目下の事例において、Ｘ＝｛ｘ_１，ｘ_２，…，ｘ_Ｎ｝は、画像パッチから抽出されたＮ個の多次元特徴ベクトル（局所的な記述子）のセットであると仮定する。ｕ_Θを、そのような特徴ベクトルをもたらす生成モデルの確率濃度関数とし、ここで、Θは確率濃度関数のパラメータを表す。その後、フィッシャーベクトルが以下の式により与えられる：

ここで、Ｌ_Θは、ｕ_Θのフィッシャー情報行列の逆数の平方根である。

は、ｕ_Θに対するデータサンプル（パッチ記述子）ｘ_ｉの対数尤度である。したがって、その勾配（▽_Θ）を計算することで、生成モデルｕ_Θのパラメータが、Ｘのデータサンプルに適合するために修正されるべき度合いの測定値が与えられる。Ｓａｎｃｈｅｚ２０１３を参照されたい。勾配は、平均、分散、および／または重みなど、ＧＭＭの１つ以上のパラメータに対して計算され得る。

普遍的な生成モデル（Ｓ１０２）
例示的な方法において、普遍的な生成モデルｕ_Θ６０は、パラメータΘ＝｛π_ｋ，μ_ｋ，Σ_ｋ，ｋ＝１，…，Ｋ｝を伴う、Ｋコンポーネントガウス混合モデル（ＧＭＭ）である。ここで、π_ｋ、μ_ｋおよびΣ_ｋは、それぞれ重み、平均ベクトルであり、ｋ番目のガウス分布の共分散行列である。利便性のため、以下とする：

したがって、任意の特徴ベクトルｘ_ｉに対して、以下が成り立つ：

ここで、以下が成り立つ：

ｐは、特徴ベクトルｘ_ｉの次元である。ＧＭＭ６０は、訓練画像３４から抽出された局所的な記述子を使用して先天的に学習され、普遍的な背景モデル（ＵＢＭ（音声処理の慣例に従う：例えば、ＤｏｕｇｌａｓＡ．Ｒｅｙｎｏｌｄｓらによる、「ＳｐｅａｋｅｒｖｅｒｉｆｉｃａｔｉｏｎｕｓｉｎｇａｄａｐｔｅｄＧａｕｓｓｉａｎｍｉｘｔｕｒｅｍｏｄｅｌｓ（適応型ガウス混合モデルを使用する発話者検証）」（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，１０（１３）：１９−４１（２０００））を参照されたい）と称される場合がある。

Ｓａｎｃｈｅｚ２０１３におけるような、一部の前提の下でＬ_Θを計算し、対角線の共分散行列Σ_ｋを考慮した後、ＧＭＭの異なるパラメータの各々に対して（方程式（１）から生じる）方程式が、推定され得る。しかしながら、平均のみを使用してフィッシャーベクトルを導くと、マッチングの用途において良好な性能を与えることが分かっている。したがって、平均Σ_ｋに対する勾配に対して、以下が成り立つ：

ここで、以下が成り立つ：

ここで、σ_ｋは、ｋ番目のガウス分布に対する、対角線の共分散行列の対角線エントリであり、除算は要素関連動作を暗示する。さらに、

は、ｘ_ｉでのｋ番目のガウス分布に対するｐｄｆの値である。

は、ｐ×１ベクトルであることに、留意されたい。最終的なフィッシャーベクトルは、混合モデルにおけるＫ個のガウス関数の全てに対する勾配

の連鎖である。したがって、これはＫｐ−ｄｉｍベクトルである。その後、これはサイン平方根およびｌ_２正規化されてよい。Ｓａｎｃｈｅｚ２０１３を参照されたい。

カメラ１６，１８は、異なる撮像条件を有していると仮定する。撮像条件のバランスを取るための１つの手法は、独立して最初から各カメラに対するＧＭＭを学習することであり得る。しかしながら、これにより、異なるＧＭＭからの異なるガウス分布が一致するわけではない。したがって、カメラ全体でフィッシャーベクトルを比較することは、フィッシャーベクトルが全てのガウス分布ｓに対する勾配統計値の連鎖として構築されるため、困難になり得る。目下の方法において、ＵＢＭ６０のモデルパラメータは、異なるカメラからの画像に適用され、カメラ特有のＧＭＭ６２，６４をもたらす。その後、これらのカメラ特有のＧＭＭ６２，６４がフィッシャーベクトルを計算するために使用される際、特定の画像に特有である偏差を主に符号化し、撮像条件の差異は符号化しない。

留意されるように、さらに、バグオブワードの画像レベル記述子が、ガウス混合モデルにより生成され、したがって、さらに、本方法はこれらの画像レベル記述子に適用可能である。例えば、バグオブワードの画像レベル記述子のより完全な記述に関して、Ｃｓｕｒｋａらによる、「ＶｉｓｕａｌＣａｔｅｇｏｒｉｚａｔｉｏｎｗｉｔｈＢａｇｓｏｆＫｅｙ−ｐｏｉｎｔｓ（キーポイントのバグを伴う視覚カテゴリ化）」（ＥＣＣＶＷｏｒｋｓｈｏｐｏｎＳｔａｔｉｓｔｉｃａｌＬｅａｒｎｉｎｇｆｏｒＣｏｍｐｕｔｅｒＶｉｓｉｏｎ（２００４））、２００８年３月２０日に発行された、ＦｌｏｒｅｎｔＰｅｒｒｏｎｎｉｎによる、米国公開番号第２００８００６９４５６号「ＢＡＧＳＯＦＶＩＳＵＡＬＣＯＮＴＥＸＴ−ＤＥＰＥＮＤＥＮＴＷＯＲＤＳＦＯＲＧＥＮＥＲＩＣＶＩＳＵＡＬＣＡＴＥＧＯＲＩＺＡＴＩＯＮ（生成視覚カテゴリ化のための視覚的な文脈依存語のバグ）」、および、２０１２年２月２３日に発行された、ＦｌｏｒｅｎｔＰｅｒｒｏｎｎｉｎらによる、米国公開番号第２０１２００４５１３４号「ＬＡＲＧＥＳＣＡＬＥＩＭＡＧＥＣＬＡＳＳＩＦＩＣＡＴＩＯＮ（大規模な画像分類）」を参照されたい。

生成モデルの適用化（Ｓ１０４，Ｓ１０６）
例示的な画像レベル記述子７０，７２は、テスト画像１２，１４から同様の手法で抽出される、フィッシャーベクトルである。しかしながら、フィッシャーベクトルを生成するために使用される生成モデル６２および６４は、異なる。

さらに、適応の必要性を説明するために、方程式（５）を考慮すると、平均ベクトルに対するフィッシャーベクトルの勾配は、以下となる：

ここで、以下が成り立つ：

および

は、それぞれ、Ｘからのデータサンプルが与えられる、ｋ番目のガウスコンポーネントの平均ベクトルおよび混合重みの予測値である。したがって、方程式（７）は、フィッシャーベクトルを、予測された平均ベクトル

と各々のＵＢＭガウス平均ベクトル（μ_ｋ）との間の差異の関数として、規定する。

ガウス分布ｋのサポートΩ_ｋは、Ω_ｋ＝｛ｘ：ｋ＝ａｒｇｍａｘ_ｉｐ（ｉ｜ｘ）｝として規定される。したがって、撮像条件の変化が各ガウス分布ｋのサポート全体で区分的に一定のずれδ_ｋによりモデル化され得る場合、破損されたＵＢＭ平均μ_ｋおよび画像特有の平均

は、μ_ｋ＋δ_ｋおよび

となる（ハード割当てを前提として、ｐ（ｉ｜ｘ）が二値であると推定され、これは高次元入力ベクトルｘに妥当であることを意味する）。しかしながら、方程式（７）におけるδｋの取消の影響は、ＵＢＭ適応戦略を正当化する。

様々な適応方法が考慮される。これらの方法は、最大帰納的（ＭＡＰ）適応、例えば最尤線形回帰（ＭＬＬＲ）など、線形変換体系に関する適応技術、例えば音声認識方法から適用される、例えば固有声など、発話者クラスタリング体系に関する技術を含む（ＤｏｕｇｌａｓＡ．Ｒｅｙｎｏｌｄｓらによる、「ＳｐｅａｋｅｒｖｅｒｉｆｉｃａｔｉｏｎｕｓｉｎｇａｄａｐｔｅｄＧａｕｓｓｉａｎｍｉｘｔｕｒｅｍｏｄｅｌｓ（適応型ガウス混合モデルを使用する発話者検証）」（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，１０（１３）：１９−４１（２０００））（以降、Ｒｅｙｎｏｌｄｓら）を参照されたい）。選択は、利用可能な適応データの量および意図される用途に依存してよい。１つの例示的なＭＡＰ適応が、使用されてよい。

ＭＡＰ適応
例示的な適応プロセスは、完全に監視されない：カメラ１６または１８と関連付けられる画像のセットを考慮すると、これらの画像（例えば、ラベル）の内容に関する情報は、ＵＢＭ６０を適用してカメラ特有のモデル６２，６４を生成するのに必要でない。

ＭＡＰ適応において、カメラ特有のモデル

は、ＵＢＭｕ_Θにおける好適に訓練されたパラメータを更新することにより、各々のカメラｃで撮影された画像６６または６８から抽出される局所的な記述子を使用して、もたらされる。適応は、２つのステップの期待最大化（ＥＭ）反復プロセスにおいて行われ得る（例えば、ＥＭの考察に関して、ＪｅｆｆＡ．Ｂｉｌｍｅｓらによる、「ＡｇｅｎｔｌｅｔｕｔｏｒｉａｌｏｆｔｈｅＥＭａｌｇｏｒｉｔｈｍａｎｄｉｔｓａｐｐｌｉｃａｔｉｏｎｔｏｐａｒａｍｅｔｅｒｅｓｔｉｍａｔｉｏｎｆｏｒＧａｕｓｓｉａｎｍｉｘｔｕｒｅａｎｄＨｉｄｄｅｎＭａｒｋｏｖｍｏｄｅｌｓ（ガウス混合および隠れマルコフモデルのためのパラメータ予測に対するＥＭアルゴリズムおよびその応用の指導書）」（Ｉｎｔｅｒｎ’ｌＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅＩｎｓｔｉｔｕｔｅ，４（５１０），ｐ．１２６（１９９８）を参照されたい）。第１のステップにおいて、カメラｃからの特徴の十分な統計値の予測は、ＵＢＭにおける各ガウス分布に対して計算される（確率的カウント、第１および第２の瞬間）。その後、これらは、ＵＢＭガウス分布からの古い十分な統計値と組み合わされる。この組み合わせは、データ依存の混合係数を介して行われる。この係数は、より大きな重みを、適応データからの高度な確率的カウントを有するガウス分布に対する新しい十分な統計値に加える。

以下において、「最適化」「最小化」という用語および類似の表現は、当業者がこれらの用語を理解するのと同様に、幅広く解釈される。例えば、これらの用語は、絶対的な大域的最適値、絶対的な大域的最小値などへ、限定されるものとして解釈されない。例えば、関数の最小化は、絶対的な最小値に到達する前に、停止基準で終了する反復最小化アルゴリズムを適用してよい。さらに、最適値または最小値は、局所的な最適値または局所的な最小値であることが予期される。

は、カメラｃからの訓練画像６６または６８の重複または非重複パッチから抽出される、Ｎ_ｃ個の特徴ベクトル（局所的な記述子）のセットであると仮定する。各ガウス分布ｋおよび特徴ベクトルｘ_ｉに対して、確率ｐ（ｋ｜ｘ_ｉ）は、最初の予測ステップにおいて方程式（６）から計算される。その後、ｐ（ｋ｜ｘ_ｉ）およびｘ_ｉは、方程式８〜１０にしたがって、各ガウス分布ｋおよび第１および第２の瞬間の確率的カウントを計算するために使用される（Ｒｅｙｎｏｌｄｓらを参照されたい）：

ｎ_ｋは、どれくらい多くの点ｘ_ｉがガウス分布に割り当てられるかを表す、ガウス分布ｋに関する予測による。ｍ_ｋは、ガウス分布ｋに割り当てられる全ての点の平均を表す、１次オーダーの統計的な予測である。ｓ_ｋは、ガウス分布ｋにおける全ての点の統計的な分散を表す、２次オーダーの統計的な予測である。２番目に、最大化ステップにおいて、その後、これらの統計値は、各ガウス分布ｋに対するＵＢＭパラメータを以下の方程式を使用して更新するために、使用される：
混合重みに対して：

平均ベクトルに対して：

共分散行列に対して：

その後、上記の２つのステップのプロセスが、更新されたＵＢＭパラメータを伴って数回にわたり、例えば、Ｉ回の反復を伴って、または、収束するまで、または、一部の他の停止基準が満たされるまで、繰り返される。方程式１１のαがガウス分布全体で再計算され、

が確実に成り立つようにする。各パラメータρ∈｛π，μ，σ｝に対する適応パラメータ

は、以下の式により与えられる：

ここで、ｒは、新しい統計値と古い統計値との間の適応のレベルを制御する、設計パラメータであり、相互検証により確立され得る。ｒが固定されると、新しい統計値は、適応データに対して高い確率的カウントｎ_Ｋを有する、これらのガウス分布において、より強調される。実際には、同じ適応パラメータは、全てのガウス分布の全てのパラメータに対して使用され得る。すなわち、

である。留意されるように、１つまたは２つの例示的なパラメータπ，μ，σなど、３つに満たないパラメータが考慮されてよく、各フィッシャーベクトルに対する重み（次元値）を生成するために、更新および／または使用される。

クロッピングされた画像に関する空間情報を含めるために、画像は、少なくとも３つの領域など、領域に、領域レベルで統合されるパッチごとの統計値に、および、その後、画像表現を形成するために連結される領域レベル表現に、区分化され得る。例えば、Ｓ．Ｌａｚｅｂｎｉｋらによる、「Ｂｅｙｏｎｄｂａｇｓｏｆｆｅａｔｕｒｅｓ：Ｓｐａｔｉａｌｐｙｒａｍｉｄｍａｔｃｈｉｎｇｆｏｒｒｅｃｏｇｎｉｚｉｎｇｎａｔｕｒａｌｓｃｅｎｅｃａｔｅｇｏｒｉｅｓ（多くの特徴を超えて：自然シーンカテゴリを認識するための空間ピラミッドマッチング）」（ＣＶＰＲ ’０６Ｐｒｏｃ．２００６ＩＥＥＥＣｏｍｐｕｔｅｒＳｏｃｉｅｔｙＣｏｎｆ．ｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ − Ｖｏｌｕｍｅ２，Ｐａｇｅｓ２１６９−２１７８）を参照されたい。

例示的な画像署名は、固定された次元Ｄのものである。すなわち、各画像表現は、考慮されるガウス分布の数およびパラメータの数の関数である、同じ数の要素を有する。例えば、３２個のガウス分布の視覚語彙は、ＧＭＭ６０，６２，６４において使用され、パラメータのうちの２つが考慮される。結果的に、３２×２＝６４次元のＦＶ表現が生じる。

ＦＶ表現の使用は、ナンバープレートのナンバーを目立たなくする際のナンバープレートマッチングにおいて、他の利点を有する。元の画像が再構築され得ないので、ナンバープレートのナンバーは認識されず、したがって、画像署名から元の画像（または、ナンバープレートのナンバー）を復元する実現可能な手法がないため、元の画像のハッシュキーと見なされ得る。これは、個々のパッチの正体が、統合プロセスにおいて失われるからである。結果として、ナンバープレートのナンバーのプライバシー（または、画像の他のプライベート情報）を、情報を使用する必要性が確立されるまで、（例えば、画像に撮像された車両の速度が閾値速度を超えていることを確立することにより）保持する。

画像署名の比較（Ｓ１１６，Ｓ１１８）
一部の実施形態において、位置Ｘの画像署名はデータベース３８に保存され、その後、これらの保存された署名の中での最も近い一致の検索が、位置Ｙで以降に取得される各画像署名に対して網羅的な手法で行われる。データベース３８が多数の画像を含有する場合、網羅的な検索は時間がかかる場合がある。この事例において、近接した検索技術が適用されてよい。高次元ベクトルの近接した検索のための技術は、例えば、Ｊｅｇｏｕらによる、「Ａｇｇｒｅｇａｔｉｎｇｌｏｃａｌｉｍａｇｅｄｅｓｃｒｉｐｔｏｒｓｉｎｔｏｃｏｍｐａｃｔｃｏｄｅｓ（局所的な画像記述子のコンパクト符号への統合）」（ＩＥＥＥＴＰＡＭＩ，３４（９）１７０４−１７１６（２００２））に開示される。最も近い一致の正体が割り当てられ、少なくとも所定の閾値に適合する類似性が提供される。

フィッシャーベクトルはフィッシャーカーネルの明確な埋め込みであるので、２つのこのような画像記述子ＳＩ_ＸおよびＳＩ_Ｙ間の対応するコサイン類似測定値は、ドット積ＳＩ_Ｘ ^ＴＳＩ_Ｙである。

１つの実施形態において、画像署名（例えば、ＦＶ）は、取得される投影を適用することにより、例えば、画像署名を、類似性が（識別子を形成する文字の配列に関する）実際の類似性の良好な指標である、ベクトル空間内に埋め込むための測定基準を学習することにより、さらに特徴的になされ得る。例として、低いランクのマハラノビス測定基準が利用されてよい。例えば、Ｒｏｄｒｉｇｕｅｚ−Ｓｅｒｒａｎｏらによる、「Ｄａｔａ−ＤｒｉｖｅｎＶｅｈｉｃｌｅＩｄｅｎｔｉｆｉｃａｔｉｏｎｂｙＩｍａｇｅＭａｔｃｈｉｎｇ（画像マッチングによるデータ駆動型の車両同定）」（１２^ｔｈＥｕｒｏｐｅａｎＣｏｎｆ．ｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ（ＥＣＣＶ）Ｗｏｒｋｓｈｏｐｓ，Ｏｃｔｏｂｅｒ７−１３，２０１２，ＬｅｃｔｕｒｅＮｏｔｅｓｉｎＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ，ｖｏｌ．７５８４，ｐｐ．５３６−５４５）を参照されたい。さらに、例示的な埋め込み技術の説明に関して、米国発行番号第２０１４００５６５２０号および第２０１４０２１９５６３号、および、米国出願番号第１３／９０３，２１８号を参照されたい。

プロセス実施（Ｓ１２２）
Ｓ１２２で使用されてよい、ナンバープレート認識方法は、例えば、米国発行番号第２０１３０１２９１５１号、第２０１３０１２９１５２号、第２０１３０１８２９０９号、第２０１３０２５９３１４号、第２０１４００５６５２０号、第２０１４０２７０３８１号、および第２０１４０２１９５６３号、および、米国出願番号第１３／９０３，２１８号、および、Ｊ−ＡＲｏｄｒｉｇｕｅｚ−Ｓｅｒｒａｎｏらによる、「Ｄａｔａ−ＤｒｉｖｅｎＶｅｈｉｃｌｅＩｄｅｎｔｉｆｉｃａｔｉｏｎｂｙＩｍａｇｅＭａｔｃｈｉｎｇ（画像マッチングによるデータ駆動型の車両同定）」（１２^ｔｈＥｕｒｏｐｅａｎＣｏｎｆ．ｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ（ＥＣＣＶ）Ｗｏｒｋｓｈｏｐｓ，Ｏｃｔｏｂｅｒ７−１３，２０１２，ＬｅｃｔｕｒｅＮｏｔｅｓｉｎＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ，ｖｏｌ．７５８４，ｐｐ．５３６−５４５）に開示される。１つの実施形態において、ＸｅｒｏｘＬｉｃｅｎｓｅＰｌａｔｅＲｅｃｏｇｎｉｔｉｏｎ（ＸＬＰＲ）ソフトウェアが利用される。留意されるように、ナンバープレートのナンバーおよびナンバープレートの画像は、単なる例にすぎず、例示的な実施形態を図示するために使用される。他の実施形態において、多数のＡＳＣＩＩ、ＵＮＩＣＯＤＥ、および／またはＵＴＦ−８文字が、アルファベットとして使用されてよい。

情報処理コンポーネント５０により起動される動作は、アプリケーションの種類に依存してよい。ナンバープレートの事例において、引き起こされる動作は、同定される各々のナンバープレートのナンバーと関連付けられてよい（例えば、違反者の告訴、駐車場オペレータの警告、駐車場の罰金の送信など）。駐車場の事例において、第１および第２の画像が一致する場合（および、選択的に、２つの画像の撮像間に有料な継続時間が超過していない場合）、駐車場の柵が自動的に開く。

本明細書に開示される実例的な実施形態は、カメラベースの車両ラベリングタスクに向けられる一方で、類似の難点が、複数の静止またはビデオカメラがラベル化される物体の画像を取得するために使用される（または、同じカメラが異なる時間間隔全体および／または異なる位置で画像を取得するために使用される）、他のカメラベースの物体ラベリングタスクに生じることに、留意されたい。例えば、小売りまたは広告の設定において、カメラベースの顧客ラベリングを、性別、年齢などで、対象となる広告を提供するために、適用するのに有用であってよい。この事例において、ラベル化される物体は、人物（または、顔などの一部分）である。イベント出席者監視システムにおいて、画像は、画像に示される人数でラベル化されてよい。さらに、物体は、動物または実例的な車両などの非生物物体であってよい。対象の非生物物体のカメラベースのラベリングに関する、さらなる例として、小売りの製造ラインにおいて、製造商品は、不具合を監視できる撮像技術に基づいて特定の不具合の有無でラベル化されてよい。セキュリティスキャナの事例において、カメラは、Ｘ線撮像機器または他の専用撮像デバイスであってよく、物体ラベリングは、銃器、ナイフ、液体など、懸念される非生物物体の同定を試みる。これらは、単に実例的な例である。さらに、適用型混合モデルは、分類での使用法を見つけ得る（異なるカメラからの画像が、訓練画像３４から抽出された画像レベル記述子および各々のラベルで訓練されている場合がある、同じ分類器で分類され得る）。

例示的な実施形態の範囲を限定する意図はなく、以下の例は、ナンバープレートマッチングへの方法の適用可能性を図示する。

例
本方法が、車両ナンバープレートマッチング／再同定の問題に利用された。カメラは、駐車場の様々な入口−出口車線に配置される。目的は、駐車場にある車両のナンバープレートが、この車両が区画に入った時に撮像されたナンバープレートの画像と一致することである。しかしながら、両方の事例における撮像条件は、大幅に異なる場合がある。異なる撮像条件は、異なる配置、異なるカメラ品質、異なる照明条件などを含んでよい。このシナリオは、ＵＢＭの適応に関する良好な候補であり、マッチングに役立つよう、フィッシャーベクトル計算の前にカメラ特有（車線特有）のＧＭＭを学習する。

データセット
異なる街における２つの実際の駐車施設から生じる２つの施設内データセットは、ＡおよびＢで示される。両方のデータセットは、ナンバープレート領域を抽出して、５０個の画素の高さを正規化することにより、前処理される。データセットＡは、１１個の車線／カメラからの１３，００６個の画像（６５０３個の入口−出口の組）を有する。種々の入口−出口統計値の分散により、１１個のうちの５個は入口車線であり、残りは出口車線である。データセットＢでは、２つの車線からの９，６２９個の画像が使用された。

実験的セットアップ
特徴および局所的な記述子は、画像からの重複するパッチから抽出された。各データセットは、３つの部分に分割される。第１の部分は、局所的な記述子およびＵＢＭ予測の次元的削減のためのＰＣＡモデルを学習するために使用され、第２の部分は、ＵＢＭ適応のために使用され、第３の部分はテストのために使用される。テスト中、既存のナンバープレートは、入ってくるナンバープレートとマッチングされ、結果は正しくマッチングされた組の割合として報告される。

１つのテストにおいて、データセットＡの第１の部分のＵＢＭを全ての車線／カメラからの画像で学習した後、ＵＢＭは、データセットＡの異なる車線／カメラの各々に適用されて、第２の部分における各々の車線からの画像を使用してカメラ特有のＧＭＭを生成する。その後、第３の部分の画像および適応型ＧＭＭは、マッチングとして使用されるフィッシャーベクトルを計算するために使用される。

別のテストにおいて、データセットＢからの画像の第１の部分は、ＵＢＭを学習するために使用される。その後、このＵＢＭは、続いてデータセットＡの第３の部分をテストする、データセットＡの第２の部分を使用して適応される。これは、ＵＢＭが、同じデータセット／駐車場からではない画像で学習される場合、シナリオを再現する。

適応型ＧＭＭと一致する画像の結果は、２つの基準値と比較される。

１．適応なしのシステム（「非適応」）。

２．平均および標準偏差調整後のシステム（「平均−標準偏差調整」）：各カメラで、訓練サンプル（第２の部分）の平均および標準偏差が計算され、それにしたがって、テストベクトルが標準化された。平均調整は、ＶＬＡＤ画像記述子のために提案された、ドメイン適応手法である。ＶＬＡＤ画像記述子の説明に関して、ＲｅｌｊａＡｒａｎｄｊｅｌｏｖｉｃらによる、「ＡｌｌａｂｏｕｔＶＬＡＤ（ＶＬＡＤの全て）」（Ｐｒｏｃ．２０１３ＩＥＥＥＣｏｎｆ．ｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（ＣＶＰＲ’１３），ｐｐ．１５７８−１５８５（２０１３））を参照されたい。ＶＬＡＤ画像記述子は、フィッシャーベクトルと近接に関連するが、フィッシャーベクトルの確率的解釈を有さない。平均および標準偏差調整は、平均調整手法の自然な流れである。これは、高次元ベクトルに対処する際に、より実用的である、ＢａｓｕｒａＦｅｒｎａｎｄｏらによる、「Ｕｎｓｕｐｅｒｖｉｓｅｄｖｉｓｕａｌｄｏｍａｉｎａｄａｐｔａｔｉｏｎｕｓｉｎｇｓｕｂｓｐａｃｅａｌｉｇｎｍｅｎｔ（サブ空間配列を使用する監視されない視覚ドメイン適応）」（ＩＣＣＶ，ｐｐ．２９６０−２９６７（２０１３））のサブ空間配列手法の対角近似として理解され得ることに、留意されたい。

ＵＢＭ適応には様々な選択肢がある。例えば、全てのＵＢＭパラメータが適用されるか、または、適用されるパラメータが選択される。これらの例において、平均および分散の両方が適用される。重み適応は、追加的な影響をほとんど有さないことが分かった。

結果
表１〜表４は、ＧＭＭにおける異なる数のガウス分布（Ｎｍｉｘ）を使用して、ＭＡＰ適応あり（ＭＡＰＡｄａｐｔ．）、ＭＡＰ適応なし（ＮｏＡｄａｐｔ．）、および、平均および標準偏差調整あり（Ｍｅａｎ−Ｓｔｄ．Ａｄｊ．）の結果を示す。表１および表２は、平均ベクトルが適用される場合にのみ結果をもたらし、一方で表３および表４は、平均ベクトルおよび共分散行列の両方が適用される場合の結果をもたらす。「Ｉｎｃ．」は、適応なし全体でのＭＡＰ適応ありの性能向上を示す。

表１：データセットＡで学習後、平均ベクトル適応を行い、データセットＡでテストしたＵＢＭの結果

表２：データセットＢで学習後、平均ベクトル適応を行い、データセットＡでテストしたＵＢＭの結果

表３：データセットＡで学習後、平均ベクトルおよび共分散行列適応を行い、データセットＡでテストしたＵＢＭの結果

表４：データセットＢで学習後、平均ベクトルおよび共分散行列適応を行い、データセットＡでテストしたＵＢＭの結果

ＭＡＰ適応が全ての事例において性能向上をもたらしていることが、表１〜表４から確認でき、一方で平均および標準偏差調整は、適応なしの基準値全体で性能が低下することを示している。ＭＡＰ適応による性能向上は、適応なし全体で、これらの実験において２．１６％と同等であり得る。

適応の評価
適応を評価するために、ＵＢＭ／ＧＭＭにおける異なるガウス分布に対する特徴の割り当ての内部機構が、評価される。例として、データセットＢで３２個のガウス分布により学習されたＵＢＭが使用された。その後、データセットＡからの適応データが取得された。データセットＡからのデータは、１１個の車線からの画像を包含する。その後、各車線からの画像は、車線／カメラ依存のＧＭＭを学習するために使用される。その後、ｐ（ｋ｜ｘ_ｉ）が、ＵＢＭおよび各車線／カメラ依存のＧＭＭのガウス分布ｋに対する特徴ｘ_ｉから、方程式（６）を介して計算される。

適応データセットにおける特定の車線からの特徴ｘ_ｉ全体で平均化された、ｐ（ｋ｜ｘ_ｉ）とｋとの対比のプロットが、ＵＢＭ（図４）および車線／カメラ依存のＧＭＭ（図５）に対して取得された。図４から、同じＵＢＭが使用される場合、異なる車線からの画像全体へ相当に広まることが確認され得る。一部の車線で、一部のガウス分布は高いｐ（ｋ｜ｘ_ｉ）を有し、一方で一部の他の車線で、著しく低くなる場合がある。これは、ＵＢＭは特徴を表し得るが、表現は異なる車線／カメラに対して異なってよい。このずれを無効にするために、適応および図５において使用される車線／カメラ特有のＧＭＭは、大幅に削減される広がりをもたらす。これは、これらの車線／カメラ特有のＧＭＭがフィッシャーベクトル計算に使用される際、フィッシャーベクトルが、問題になっている特定の物体に起因し、撮像条件に起因しない、偏差を符号化し得ることを示す。

Claims

局所的な記述子の普遍的な生成モデルを提供すること、
前記普遍的な生成モデルを第１のカメラに適用して、第１のカメラ依存の生成モデルを取得すること、
前記普遍的な生成モデルを第２のカメラに適用して、第２のカメラ依存の生成モデルを生成すること、または、前記普遍的な生成モデルを前記第２のカメラ依存の生成モデルとして使用すること、
前記第１のカメラにより撮像される第１の画像から、第１の画像レベル記述子を前記第１のカメラ依存の生成モデルを使用して抽出すること、
前記第２のカメラにより撮像される第２の画像から、第２の画像レベル記述子を前記第２のカメラ依存の生成モデルを使用して抽出すること、
前記第１の画像レベル記述子と前記第２の画像レベル記述子との間の類似性を計算すること、および、
前記計算される類似性に基づく情報を出力することであって、前記普遍的な生成モデルを前記第１および第２のカメラに適用すること、前記第１および第２の画像レベル記述子を抽出すること、および、前記類似性を前記計算すること、のうちの少なくとも１つは、コンピュータプロセッサで行われる、出力すること、
を備える、方法。
前記普遍的な生成モデルはガウス混合モデルである、請求項１に記載の方法。
前記第１および第２のカメラ依存の生成モデルはガウス混合モデルであり、各々が同じ数のガウス関数を前記普遍的な生成モデルとして備える、請求項２に記載の方法。
前記普遍的な生成モデルを前記第１および第２のカメラへ前記適用することは、監視されない適応方法で行われる、請求項１に記載の方法。
前記普遍的な生成モデルを前記第１および第２のカメラへ前記適用することは、前記普遍的な生成モデルのパラメータの最大事後確率（ＭＡＰ）適応を備える、請求項４に記載の方法。
前記普遍的な生成モデルを前記第１および第２のカメラへ前記適用することは、前記第１および第２のカメラにより撮像された画像から局所的な記述子を、前記普遍的な生成モデルを前記第１のカメラへ適用するために使用される、前記第１のカメラにより撮像された画像から前記局所的な記述子を、前記普遍的な生成モデルを前記第２のカメラへ適用するために使用される、前記第２のカメラにより撮像された前記画像から前記局所的な記述子を、抽出すること、を備える、請求項１に記載の方法。
局所的な記述子の普遍的な生成モデルを保存するメモリ、および、
前記普遍的な生成モデルを第１のカメラへ適用して第１のカメラ依存の生成モデルを取得し、前記普遍的な生成モデルを第２のカメラへ適用して第２のカメラ依存の生成モデルを取得する、適応コンポーネント、および、
前記適応コンポーネントを実装するプロセッサ、
を備える、システム。
第１の画像レベル記述子と第２の画像レベル記述子との間の類似性を計算するマッチングコンポーネントであって、前記第１の画像レベル記述子は、前記第１のカメラにより撮像された第１の画像から、前記第１のカメラ依存の生成モデルを使用して抽出され、前記第２の画像レベル記述子は、前記第２のカメラにより撮像された第２の画像から、前記第２のカメラ依存の生成モデルを使用して抽出される、マッチングコンポーネント、
をさらに備える、請求項７に記載のシステム。
第１の画像レベル記述子および第２の画像レベル記述子のうちの少なくとも１つを抽出する署名生成コンポーネントであって、前記第１の画像レベル記述子は、前記第１のカメラにより撮像された第１の画像から、前記第１のカメラ依存の生成モデルを使用して抽出され、前記第２の画像レベル記述子は、前記第２のカメラにより撮像された第２の画像から、前記第２のカメラ依存の生成モデルを使用して抽出される、署名生成コンポーネント、
をさらに備える、請求項７に記載のシステム。
訓練セットの画像から抽出される局所的な記述子を使用して生成される、普遍的な生成モデルを提供すること、
コンピュータプロセッサで、前記普遍的な生成モデルを第１のカメラへ適用して、前記第１のカメラにより撮像される画像から抽出される局所的な記述子を使用して、第１のカメラ依存の生成モデルを取得すること、
コンピュータプロセッサで、前記普遍的な生成モデルを第２のカメラへ適用して、前記第１のカメラにより撮像される画像から抽出される局所的な記述子を使用して、第２のカメラ依存の生成モデルを取得すること、
提供することであって、
前記第１のカメラ依存の生成モデルを使用する、第１の画像の画像レベル表現と、
前記第１のカメラ依存の生成モデルを使用する、第１の画像の画像レベル表現と、
のうちの少なくとも１つを計算するためのコンポーネントを提供すること、および、
前記第１の画像レベル記述子と前記第２の画像レベル記述子との間の類似性を計算するためのコンポーネントを提供すること、
を備える、物体再同定のためのシステムを生成する方法。