JP2018506788A

JP2018506788A - 物体の再同定の方法

Info

Publication number: JP2018506788A
Application number: JP2017538739A
Authority: JP
Inventors: ジョーンズ、マイケル; マークス、ティム; アーメッド、エジャズ
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2015-04-03
Filing date: 2016-03-24
Publication date: 2018-03-08
Also published as: EP3254238A1; EP3254238B1; CN107408211B; CN107408211A; US9436895B1; WO2016159199A1

Abstract

方法が、畳み込みニューラルネットワーク（ＣＮＮ）を適用することによって、画像のペア内の物体を再同定する。ネットワーク内の各層は、前層の出力に作用する。層には、特徴量マップを求める第１の畳み込み層および第１の最大プーリング層と、近傍差分マップを生成する交差入力近傍差分層と、パッチサマリー特徴量マップを生成するパッチサマリー層と、パッチサマリー特徴量マップにおけるより高次の関係を表す特徴量ベクトルを生成する第１の完全接続層と、肯定的ペアクラスおよび否定的ペアクラスを表す２つのスコアを生成する第２の完全接続層と、肯定的ペア確率および否定的ペア確率を生成するソフトマックス層とが含まれる。次に、肯定的ペア確率が出力され、２つの画像が同じ物体を表しているか否かが信号伝達される。

Description

本発明は、包括的には、コンピュータービジョンおよびカメラ監視に関し、より詳細には、画像内の人物等の物体の類似性を求めることに関する。

カメラ監視等の多くのコンピュータービジョンアプリケーションでは、異なる画像に表された人物または他の物体が同じであるか否かを判断することが必要となる。物体が人物であるとき、これは、この技術分野では人物再同定として知られている。人物再同定の場合、画像は、人物の身体の全てまたは一部分を含む静止画像のクロップ領域またはビデオ内のフレームのクロップ領域とすることができる。人物がビデオ内で追跡される監視および他のアプリケーションでは、異なる追跡対象が同じ人物のものであるか否かを判断する問題が必然的に生じる。この問題は、追跡対象のうちの１つからのクロップ画像領域を異なる追跡対象からのクロップ画像領域と比較し、それらの領域が同じ人物を表しているか否かを判断することによって解決することができる。画像または追跡対象は、異なる時点における同じカメラからのものである場合もあるし、同じ時点または異なる時点のいずれかにおける異なるカメラからのものである場合もある。

通常、人物再同定の方法は、画像から特徴量を抽出する方法と、異なる画像から抽出された特徴量を比較するメトリックとの２つの構成要素を含む。人物再同定研究における焦点は、特徴量の改良若しくは比較メトリックの改良またはそれらの双方に置かれてきた。特徴量の改良の背後にある基本的なアイデアは、照明、姿勢、および視点の変化に対して少なくとも部分的に不変である特徴量を求めることである。これまでの方法において用いられている一般的な特徴量は、色ヒストグラム、局所バイナリーパターン、ガボール（Gabor）特徴量、顕著な色名、および局所画像パッチ上の変化量を含む。

比較メトリックを改良するために、メトリック学習手法は、当初の特徴量空間から、同じ人物の２つの異なる画像から抽出された特徴量ベクトルが、２人の異なる人物のものである２つの画像から抽出された特徴量ベクトルよりも「近い」（類似している）新たな空間へのマッピングを求める。再同定に適用されてきたメトリック学習手法には、マハラノビス（Mahalanobis）メトリック学習、局所的適応決定関数、顕著性重み付き距離、局所フィッシャー（Fisher）判別式解析、マージナルフィッシャー解析、および属性整合マッチングが含まれる。

いくつかの方法は、深層学習手法を人物再同定に用いる。１つのそのような深層学習手法は、「シャム（Siamese）」畳み込みニューラルネットワーク（ＣＮＮ）をメトリック学習に用いる。シャムＣＮＮは、トレーニングセットからの画像のペアを各ペアのトレーニングラベルとともに繰り返し提示することによって、非線形類似メトリックを学習する。この各ペアのトレーニングラベルは、そのペア内の２つの画像が同じ人物の画像であるのかまたは２人の異なる人物の画像であるのかを示す。

１つの従来の方法では、シャムアーキテクチャは、２つの画像の３つの重なり合う部分に対して作用する３つの独立した畳み込みネットワークを備える。各部分固有のネットワークは、最大プーリングを有する２つの畳み込み層と、その後に続く完全接続層とを備える。完全接続層は、各画像の出力ベクトルを生成し、これらの２つの出力ベクトルは、余弦関数を用いて比較される。上記３つの部分のそれぞれの余弦出力は、その後、組み合わされて、類似スコアが取得される。

別の深層学習方法は、差分ネットワークを用いる。差分アーキテクチャは、最大プーリングを有する単一の畳み込み層から開始し、その後に、様々な水平オフセットにおいて２つの入力からの畳み込み特徴量応答を乗算するパッチマッチング層が続く。一方の画像内の各パッチに対する応答には、他方の画像内の同じ水平ストリップからサンプリングされた他のあらゆるパッチに対する応答が個別に乗算される。この後には、水平ストリップ内のパッチの各ペアからの最大パッチ整合応答を出力するマックスアウトグルーピング層が続き、その後に最大プーリングを有する別の畳み込み層が続き、その後に５００個のユニットを有する完全接続層が続き、最後に、「同じ」または「異なる」を表す２つのユニットを有する完全接続層が続く。これらの最終的な２つの出力を確率に変換するのにソフトマックス関数が用いられる。

人物再同定のトレーニングデータおよびテストデータは、通常、画像のペアに配列されている。肯定的ペアは、同じ人物の２つの異なる画像からなる一方、否定的ペアは、異なる人物の２つの画像からなる。物体の再同定の場合、肯定的ペアという用語は、同じ物体の２つの異なる画像、または代替的に同じ物体クラスからの異なる物体の２つの画像を指すのに用いられる。同様に、否定的ペアという用語は、異なる物体を描写する２つの画像、または代替的に２つの異なる物体クラスからの物体を描写する２つの画像を指すのに用いられる。例えば、自動車の再同定の場合、肯定的ペアは、同じ型、同じモデル、および同じ年の自動車の２つの異なる画像として定義することができる。

本方法は、画像のペア内の物体再同定または人物再同定のための特徴量および対応する類似性メトリックを同時に学習する。本方法は、人物再同定の問題に対処するように特別に設計された層を有する深層畳み込みニューラルネットワーク（ＣＮＮ）を用いる。「深層」は、機械学習技法の分野における説明的な専門用語であり、相対語ではないことが理解されている。好ましい実施の形態では、本発明は１１層を用いる。これは、例えば、５層〜９層を用いて人物再同定の問題にこれまで適用されてきた従来のＣＮＮよりも深層である。

画像ペアが与えられると、上記ネットワークは、これらの２つの入力画像が肯定的ペアであるのかまたは否定的ペアであるのかを示す類似値を出力する。このネットワークの新規な要素には、２つの画像から個別に抽出された中間レベルの特徴量の中で２つの画像の間の局所的関係を特徴付ける交差入力近傍差分を求める層が含まれる。この層の出力の高レベルのサマリーが、パッチサマリー特徴量を生成する別の新規な層によって求められる。これらのパッチサマリー特徴量は、その後、後続の層において空間的に積分される。

本方法は、より大きなデータセットに対して、現行技術水準よりも性能が大幅に優れている。例えば、ＣＵＨＫ０３人物再同定データセットに対して、これまでの現行技術水準は、２０．６５％のランク１同定レートを達成する深層学習手法であった。これに対して、本方法は、５４．７４％のランク１認識レートを達成し、これは、これまでの現行技術水準の２．５倍を上回る優れた性能である。本方法は、過剰適合に対して耐性も有する。無関係の小さなターゲットデータセットに対して微調整を行う前に、より大きなデータセットに対して学習することによって、上記ネットワークは、視点不変歩行者認識（ＶＩＰｅＲ：Viewpoint Invariant Pedestrian Recognition）用のデータセット等の小さなデータセットに対しても現行技術水準に匹敵する結果を達成することもできる。

上記深層ニューラルネットワークアーキテクチャは、再同定の問題用に特に設計された固有の層を有する。ブロック、フィルター、ストライド等のネットワーク要素の具体的な数値サイズ、および特徴量マップの数は、本発明の特定の実施の形態を介して本発明を示す例として意図されており、本発明の実施の形態は、提示された例示のサイズを有する要素を用いることに限定されるものではないことが理解されている。

上記ニューラルネットワークへの入力は、２つのカラー画像である。このネットワークアーキテクチャは、結合畳み込みの層と、その後に続く最大プーリングの層と、その後に続く結合畳み込みのもう１つの層と、その後に続く最大プーリングのもう１つの層との４つの層から開始する。これらの層によって、ネットワークは、２つの画像を比較するのに用いることができる特徴量のセットを学習することが可能になる。これらの２つの畳み込み層におけるネットワーク重みは、双方の画像について同じになる（結合される）ように制約され、これは、同じフィルターのセットが双方の画像に適用されることを意味する。

次の層は、再同定の問題用に特に設計された２つの新規なネットワーク層のセットである。第１の新規な層は、各特徴量ロケーションの近傍の周辺における２つの画像間の特徴量の差分を累算し、近傍差分マップのセットを生成する。これらの近傍差分マップは、特徴量差分のブロックから構成されている。各ブロックのサイズ（例えば、５×５）は、差分が計算される近傍のサイズである。

次に、新規なパッチサマリー層が、各５×５ブロック内の差分の全体論的な表現を生成することによって近傍差分マップを集計する。これは、結果が各ブロックのサマリー値のベクトルとなるように、近傍差分マップを、サイズ５×５および５のストライドのフィルターを用いて畳み込むことによって行われる。サマリー値は、ブロック内の５×５近傍差分値の線形結合から求められる。

これらの２つの特別に設計されたネットワーク層の後、次の畳み込み層は、結果のパッチサマリー特徴量マップを３×３線形フィルターを用いて畳み込み、その後に、最大プーリングの層が続く。これらの２つの層によって、ネットワークは、２つの入力画像が同じ人物を表しているか否かを示すことを助ける近傍差分マップのより高レベルのパターンを学習することが可能になる。

次に、本ニューラルネットワークアーキテクチャは、ネットワークがより高次の関係を学習することを可能にする多くのユニットを有する完全接続層を用いる。結果として得られた特徴量ベクトルは、正規化線形関数（ＲｅＬｕ）に通され、次に、肯定的ペアスコアおよび否定的ペアスコアを表す２つの出力を有する別の完全接続層に通される。最後に、これらの２つのスコアは、肯定的ペア（同じ人物）クラスおよび否定的ペア（異なる人物）クラスの確率を与えるソフトマックス層に通される。

当該技術分野において知られているような正規化線形関数が、各実数入力を関数ｆ（ｘ）＝ｍａｘ（０，ｘ−ｋ）に通す。ここで、ｋは、学習することができる定数パラメーターである。

本発明の好ましい実施形態による再同定の方法および畳み込みニューラルネットワーク（ＣＮＮ）のブロック図である。ネットワークの各層における特徴量をより詳細に示す本発明の好ましい実施形態によるＣＮＮアーキテクチャの模式図である。

図１および図２に示すように、本発明の実施形態は、１人または２人の人物２の取得された画像１のペアにおける人物再同定の方法を提供する。この画像のペアは、カメラ３によって取得することができる。これらのカメラは、スチルカメラまたはビデオカメラとすることができる。これらのカメラは、同じカメラとすることもできるし（この場合、画像は、異なる時刻において取得される）、異なるカメラとすることもできる。本方法は、人物再同定の問題に対処するように特別に設計された層を有する深層畳み込みニューラルネットワーク（ＣＮＮ）を用いる。本方法は他の物体に適用することができることが理解されるべきである。

図１は、当該技術分野において知られているように、取得された画像のペアを記憶するメモリと、入力／出力インターフェースとにバスによって接続されたプロセッサ４において実行することができる方法の概観を示している。基本的に、本方法は、画像のペア内の人物の表現を、それらの２つの画像が同じ人物のものであるか否かを示す信号９に変換する。

図２は、本発明の実施形態による人物再同定のための新規な層の間の接続をより詳細に示すＣＮＮアーキテクチャの模式図である。ネットワーク内の各畳み込みの入力領域の正確なサイズは、特定のアプリケーションに必要とされる所望の速度および精度に応じて変動する可能性がある。

２つの画像１が同じ人物のものであるか否かを判断するために、２つの画像間の関係が求められる。深層学習では、畳み込み特徴量が、様々な分類作業に有用な表現を提供する。

図１に示すように、本発明による方法の場合、畳み込みニューラルネットワークが画像１のペアに適用されて、信号９が生成される。

畳み込みニューラルネットワークは、順に、以下の層を備える。
第１の畳み込み層１０１；
第１の最大プーリング層１０２；
第２の畳み込み層１０３；
第２の最大プーリング層１０４；
交差入力近傍差分層１０５；
パッチサマリー層１０６；
第３の畳み込み層１０７；
第３の最大プーリング層１０８；
多くのユニットを有する第１の完全接続層１０９；
２つのユニットを有する第２の完全接続層１１０；および
ソフトマックス層１１１。

層１０１〜１０４は、各入力画像１に１つずつの、２つの個別の部分に分割される。層１０１は、各入力画像１に個別に作用し、次いで、各層１０２〜１０４が前層の出力に適用される。層１０５は、層１０４によって出力された２つの特徴量マップ（各入力画像に１つが対応する）を入力として取り込み、次の層１０５に入力を提供する。各層１０６〜１１１は、前層の出力に適用される。

「破線」のボックスによって略記された層である層１０３および１０４並びに１０７および１０８は、より正確な結果を達成するための任意選択的なものである。換言すれば、層１０３および１０４並びに１０７および１０８は、これらの層に先行する層によって出力された特徴量を精緻化し、より複雑なパターンを表すことができるより高レベルの特徴量を生成する。「太線」の層１０５および１０６内に略記された層は新規の層である。

本発明者らのネットワークの層１０１および１０３は、畳み込み層であり、これらの層は、２つの画像のそれぞれについてより高次の特徴量を個別に求めるのに用いられる。畳み込み層は、同じ畳み込み（多くの矩形入力領域と同じ矩形重み行列との要素ごとの乗算）をその入力の各矩形領域に適用する。その出力は、各矩形領域の入力の重み付き線形結合である。

層１０２および１０４は、最大プーリングを実行し、これによって、特徴量のサイズが削減される。最大プーリング層は、前層の出力から小さな矩形領域を取り込み、領域ごとに、単一の値、すなわち、その領域の最大値を出力する。この結果、前層の出力はサブサンプリングされたことになり、より少数の出力が得られる。

２つの画像からの特徴量を後層において比較可能にするために、重みが２つの画像間で共有される結合畳み込みが実行され、同じフィルターをこれらの２つの画像のそれぞれに適用して各画像の特徴量を求めることが確保される。

図２は、本発明の実施形態によって用いられるデータ構造体のうちのいくつかを模式的に示している。図を簡略にするために、畳み込み層および後続の最大プーリング層の各ペアは、単一の層として示されている。ネットワークによって処理される画像ペアは、否定的ペア（異なる人物の画像）および肯定的ペア（同じ人物の画像）を含むことができる。ネットワークは、一時に１つの画像のペアを処理する。第１の畳み込み層１０１は、赤、緑、青（ＲＧＢ）の画像１、例えば、６０×１６０のＲＧＢ画像（６０×１６０×３データ構造体）のペアからのピクセルを、例えばサイズ５×５×３の例えば２０個の学習済みフィルターに通す。このため、第１の畳み込み層の出力は、例えばサイズ５６×１５６の２０個の畳み込み画像（convolved image）のセットとなる。これらは、第１の最大プーリング層１０２に通される。第１の最大プーリング層１０２は、第１の畳み込み層１０１から出力された２０個の畳み込み画像の重なり合わない各２×２ブロックの最大のものを取り込むことによって特徴量の幅および高さを半減させる。これによって、各入力画像について、それぞれが例えばサイズ２８×７８の２０個の特徴量マップ２１０のセットが得られる。

これらの特徴量マップ２１０は、第２の畳み込み層１０３に通される。この第２の畳み込み層１０３では、例えばサイズ５×５×２０の例えば２５個の学習済みフィルターを用いて、各入力画像について、例えばサイズ２４×７４の２５個の特徴量マップのセットが得られる。この後には第２の最大プーリング層１０４が続き、再度、特徴量マップの幅および高さを２分の１に減少させる。これらの最初の４つの特徴量計算層（結合畳み込みおよび最大プーリング層からなる２つの連続するグループ）が終了すると、各入力画像は、例えばサイズ１２×３７の２５個の特徴量マップ２２０によって表される。

交差入力近傍差分
上記で説明したように、初期特徴量計算層は、入力画像のペアにおける各入力画像１について２５個の特徴量マップのセットを提供する。これらの特徴量マップのセットから、２つの画像の間の関係を学習することができる。ｆ_ｉおよびｇ_ｉを、それぞれ第１の画像および第２の画像からのｉ番目の特徴量マップ（１≦ｉ≦２５）を表すものとする。

交差入力近傍差分層１０５は、２つの画像にわたる各特徴量ロケーションの近傍の周辺における特徴量の値の差分を累算し、２５個の近傍差分マップＫ_ｉのセットを生成する。これらの近傍差分マップを作成するために、１つの特徴量マップ（例えば、ｆ_ｉ）の各ロケーションにおける値と、対応する特徴量マップ（ｇ_ｉ）の周囲の近傍における各ピクセルとの間の差分が計算される。特徴量マップは、

であるので、対応する近傍差分マップは、寸法

を有する。ここで、５×５は、正方形近傍のサイズである。各Ｋ_ｉは、５×５ブロックからなる１２×３７の格子であり、この格子では、（ｘ，ｙ）２３１によってインデックス付けされたブロックは、

で示される。ここで、ｘ、ｙは、整数（１≦ｘ≦１２および１≦ｙ≦３７）である。より正確に言えば、

である。ここで、ｆ_ｉ（ｘ，ｙ）は、特徴量マップｆ_ｉのロケーション（ｘ，ｙ）２２１における要素であり、

は、あらゆる要素が１である５×５行列であり、

は、（ｘ，ｙ）を中心とするｇ_ｉの５×５近傍である。

５×５行列Ｋ_ｉ（ｘ，ｙ）２３１は、２つの５×５行列の差分である。これらの２つの５×５行列の第１のものは、あらゆる要素がスカラーｆ_ｉ（ｘ，ｙ）のコピーであり、第２のものは、（ｘ，ｙ）を中心とするｇ_ｉの５×５近傍である。近傍において差分を取ることの背後にある動機は、２つの入力画像１の対応する特徴量の位置差分を取り扱う能力を向上させることである。

式（１）における演算は非対称であるので、ｆ_ｉおよびｇ_ｉの役割が逆になっている点を除いて式（１）におけるＫ_ｉと同じものと定義された以下の式の近傍差分マップＫ_ｉ’も考慮される。

ここで、ｇ_ｉ（ｘ，ｙ）は、特徴量マップｇ_ｉのロケーション（ｘ，ｙ）２２１における要素であり、

は、あらゆる要素が１である５×５行列であり、

は、（ｘ，ｙ）を中心とするｆ_ｉの５×５近傍である。

これによって、５０個の近傍差分マップ２３０、

および

が得られる。これらのマップのそれぞれは、サイズ１２×３７×５×５を有する。これらの近傍差分マップは、正規化線形関数（ＲｅＬｕ）に通され、その後、パッチサマリー層１０６に入力として渡される。

パッチサマリー特徴量
交差入力近傍差分層では、２つの入力画像からの特徴量間の粗い関係が近傍差分マップの形で求められた。パッチサマリー層１０６は、これらの近傍差分マップのサマリーを、各５×５ブロックにおける差分の全体論的な表現として生成する。この層は、

からのマッピングを実行する。

これは、Ｋを、５のストライドを有するサイズ５×５×２５の２５個のフィルターを用いて畳み込むことによって行われる。このストライドを正方形ブロックの幅に正確に一致させることによって、Ｌのロケーション（ｘ，ｙ）２４２における２５次元サマリーベクトルが、２５個のブロックＫ_ｉ（ｘ，ｙ）、すなわち、各近傍差分マップＫ_ｉ（ここで、１≦ｉ≦２５）の５×５格子正方形（ｘ，ｙ）２３１のみから求められることが確保される。これらは、特徴量マップｆ_ｉおよびｇ_ｉにおけるロケーション（ｘ，ｙ）２２１の局所近傍のみから求められるので、Ｌのロケーション（ｘ，ｙ）２４２における２５次元パッチサマリー特徴量ベクトルは、ロケーション（ｘ，ｙ）の近傍における交差入力差分の高レベルのサマリーを提供する。このため、パッチサマリー特徴量マップＬ全体が、画像全体にわたる局所交差入力近傍差分の高レベルのサマリーを提供する。

ＬがＫから求められたのと同じ方法で、パッチサマリー特徴量マップＬ’もＫ’から求められる。マッピングＫ’→Ｌ’用のフィルターは、マッピングＫ→Ｌ用のフィルターと異なる場合があることに留意されたい。（マッピングＫ’→Ｌ’用のフィルターは、ネットワークの最初の２つの畳み込み層におけるフィルターと異なり、結合されていない。）パッチサマリー特徴量マップＬおよびＬ’２４０の双方は、後にＲｅＬｕに通される。

パッチにわたる特徴量
交差入力近傍差分マップを求め、次いで、これらの交差入力近傍差分マップの高レベルの局所表現を取得することによって、前層から、局所近傍内の差分の高レベルの表現が取得される。

第３の畳み込み層１０７では、近傍差分間の空間関係が求められる。これは、例えば、Ｌを、１のストライドを有するサイズ３×３×２５の例えば２５個のフィルターを用いて畳み込むことによって行われる。結果として得られた出力は、２５個の特徴量マップのセットである。これらの特徴量マップのそれぞれは、例えば、サイズ１０×３５のものである。これらの特徴量マップは、第３の最大プーリング層１０８に通され、高さおよび幅が２分の１に削減される。これによって、サイズ５×１８の２５個の高レベルの特徴量マップが得られる。これらの特徴量マップは、

で表される。同様に、Ｌ’から２５個の高レベルの特徴量マップＭ’が取得され、その結果、高レベルの特徴量マップ２５０は合計で５０個になる。マッピングＬ→Ｍ用の畳み込みフィルターは、マッピングＬ’→Ｍ’用の畳み込みフィルターに結合されていない。

より高次の関係
次に、完全接続層１０９が特徴量マップＭおよびＭ’に適用される。これは、互いに離れているパッチからの情報を組み合わせるとともに、Ｍからの情報をＭ’からの情報と組み合わせることによって、より高次の関係を特徴付ける。結果として得られた、例えば長さ５００の高レベルの特徴量ベクトル２６０は、ＲｅＬｕに通される。

もう１つの完全接続層１１０は、結果として得られた５００要素の特徴量ベクトルを、同じ人物（肯定的ペア）および異なる人物（否定的ペア）のスコアを表す２つの出力にマッピングする。これらの２つの出力は、ソフトマックス層１１１に通され、これによって、２つの画像が同じ人物（肯定的ペア）である確率と、２つの画像が異なる人物（否定的ペア）である確率とが、最終信号９として得られる。これらの確率は合計すると１になる。ソフトマックス関数、すなわち、正規化指数関数は、任意の実数値のＮ次元ベクトルを、値の合計が１になるような範囲（０，１）内の実数値のＮ次元ベクトルに縮小するロジスティック関数を一般化したものである。

代替の実施形態では、最後の完全接続層１１０およびソフトマックス層１１１は、ネットワークから除去される。その代わり、高レベルの特徴量ベクトル２６０が、ネットワークの出力として用いられ、その後、分類器、例えば、線形サポートベクターマシン（ＳＶＭ）バイナリー分類器に入力される。この分類器の出力は、その後、入力された画像のペアが肯定的ペアであるのかまたは否定的ペアであるのかを判断する最終信号９として用いられる。１つの実施形態では、分類器への入力は、ＲｅＬｕが適用された後の高レベルの特徴量ベクトル２６０であり、別の実施形態では、分類器への入力は、ＲｅＬｕが適用される前の高レベルの特徴量ベクトルである。

Claims

画像のペアを取得するステップであって、各画像は、物体を表す、取得するステップと、
前記画像のペアに畳み込みニューラルネットワーク（ＣＮＮ）を適用するステップであって、該ＣＮＮは、
第１の畳み込み層と、
前記第１の畳み込み層の後に続く第１の最大プーリング層であって、前記第１の畳み込み層および該第１の最大プーリング層は、各画像に個別に適用されて、各画像の特徴量マップを求める、第１の最大プーリング層と、
前記特徴量マップに適用されて近傍差分マップを生成する交差入力近傍差分層と、
前記近傍差分マップに適用されてパッチサマリー特徴量マップを生成するパッチサマリー層と、
前記パッチサマリー特徴量マップに適用されて、前記パッチサマリー特徴量マップにおけるより高次の関係を表す特徴量ベクトルを生成する第１の完全接続層と、
前記より高次の関係を表す特徴量ベクトルに適用されて、肯定的ペアクラスおよび否定的ペアクラスを表す２つのスコアを生成する第２の完全接続層と、
前記２つのスコアに適用されて、肯定的ペア確率および否定的ペア確率を生成するソフトマックス層と
を備える、適用するステップと、
前記画像のペアが同じ物体を表しているか否かを信号伝達するために、前記肯定的ペア確率を出力するステップと
を含み、各ステップは、プロセッサにおいて実行される、物体の再同定の方法。
前記物体は、人物であり、前記方法は、人物再同定のためのものである、請求項１に記載の方法。
前記ＣＮＮは、前記第２の完全接続層も前記ソフトマックス層も備えず、前記方法は、より高次の関係を表す前記特徴量ベクトルを分類器への入力として用いるステップをさらに含み、前記出力するステップは、前記分類器の結果を出力することを含む、請求項１に記載の方法。
前記分類器は、線形サポートベクターマシン（ＳＶＭ）分類器である、請求項３に記載の方法。
肯定的ペアは、同じ物体の２つの画像として定義され、否定的ペアは、異なる物体の２つの画像として定義される、請求項１に記載の方法。
肯定的ペアは、同じ物体クラスからの２つの画像を指し、否定的ペアは、異なる物体クラスからの２つの画像を指し、前記出力するステップは、前記２つの画像が同じ物体を表しているか否かを信号伝達する代わりに、前記２つの画像が前記同じ物体クラスを表しているか否かを信号伝達する、請求項１に記載の方法。
前記画像のペアをカメラによって取得するステップ
をさらに含む、請求項１に記載の方法。
前記ＣＮＮは、
第２の畳み込み層と、
前記第２の畳み込み層の後に続く第２の最大プーリング層と
をさらに備え、
前記第２の畳み込み層は、前記第１の最大プーリング層によって求められた前記特徴量マップを入力として取り込み、前記第２の最大プーリング層は、精緻化された特徴量マップを出力し、前記交差入力近傍差分層は、前記精緻化された特徴量マップに適用されて、近傍差分マップを生成する、請求項１に記載の方法。
前記ＣＮＮは、
第３の畳み込み層と、
前記第３の畳み込み層の後に続く第３の最大プーリング層と
をさらに備え、
前記第３の畳み込み層は、前記パッチサマリー特徴量マップに適用され、前記第３の最大プーリング層は、高レベルの特徴量マップを出力し、前記第１の完全接続層は、前記高レベルの特徴量マップに適用されて、前記より高次の関係を表す特徴量ベクトルを生成する、請求項１に記載の方法。
前記第１の畳み込み層は、前記画像のペアの間で共有される重みによって結合されて、同一のフィルターが各画像に適用されることを確保する、請求項１に記載の方法。
前記第１の畳み込み層および前記第２の畳み込み層は、前記画像のペアの間で共有される重みによって結合されて、同一のフィルターが各画像に適用されることを確保する、請求項８に記載の方法。
前記ＣＮＮは、例示の肯定的ペアおよび否定的ペアを用いてトレーニングされる、請求項１に記載の方法。
前記交差入力近傍差分層は、前記画像のペアにわたる各特徴量ロケーションの近傍の周辺における特徴量の値の差分を累算する、請求項１に記載の方法。
前記近傍差分マップは、次の層への入力として用いられる前に正規化線形関数（ＲｅＬｕ）に通される、請求項１に記載の方法。
前記パッチサマリー特徴量マップは、次の層への入力として用いられる前に正規化線形関数（ＲｅＬｕ）に通される、請求項１に記載の方法。
前記より高次の関係を表す特徴量ベクトルは、次の層への入力として用いられる前に正規化線形関数（ＲｅＬｕ）に通される、請求項１に記載の方法。
前記より高次の関係を表す特徴量ベクトルは、分類器への入力として用いられる前に正規化線形関数（ＲｅＬｕ）に通される、請求項３に記載の方法。