JP2018506788A - 物体の再同定の方法 - Google Patents

物体の再同定の方法 Download PDF

Info

Publication number
JP2018506788A
JP2018506788A JP2017538739A JP2017538739A JP2018506788A JP 2018506788 A JP2018506788 A JP 2018506788A JP 2017538739 A JP2017538739 A JP 2017538739A JP 2017538739 A JP2017538739 A JP 2017538739A JP 2018506788 A JP2018506788 A JP 2018506788A
Authority
JP
Japan
Prior art keywords
layer
pair
images
feature map
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017538739A
Other languages
English (en)
Inventor
ジョーンズ、マイケル
マークス、ティム
アーメッド、エジャズ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JP2018506788A publication Critical patent/JP2018506788A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/192Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
    • G06V30/194References adjustable by an adaptive method, e.g. learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

方法が、畳み込みニューラルネットワーク(CNN)を適用することによって、画像のペア内の物体を再同定する。ネットワーク内の各層は、前層の出力に作用する。層には、特徴量マップを求める第1の畳み込み層および第1の最大プーリング層と、近傍差分マップを生成する交差入力近傍差分層と、パッチサマリー特徴量マップを生成するパッチサマリー層と、パッチサマリー特徴量マップにおけるより高次の関係を表す特徴量ベクトルを生成する第1の完全接続層と、肯定的ペアクラスおよび否定的ペアクラスを表す2つのスコアを生成する第2の完全接続層と、肯定的ペア確率および否定的ペア確率を生成するソフトマックス層とが含まれる。次に、肯定的ペア確率が出力され、2つの画像が同じ物体を表しているか否かが信号伝達される。

Description

本発明は、包括的には、コンピュータービジョンおよびカメラ監視に関し、より詳細には、画像内の人物等の物体の類似性を求めることに関する。
カメラ監視等の多くのコンピュータービジョンアプリケーションでは、異なる画像に表された人物または他の物体が同じであるか否かを判断することが必要となる。物体が人物であるとき、これは、この技術分野では人物再同定として知られている。人物再同定の場合、画像は、人物の身体の全てまたは一部分を含む静止画像のクロップ領域またはビデオ内のフレームのクロップ領域とすることができる。人物がビデオ内で追跡される監視および他のアプリケーションでは、異なる追跡対象が同じ人物のものであるか否かを判断する問題が必然的に生じる。この問題は、追跡対象のうちの1つからのクロップ画像領域を異なる追跡対象からのクロップ画像領域と比較し、それらの領域が同じ人物を表しているか否かを判断することによって解決することができる。画像または追跡対象は、異なる時点における同じカメラからのものである場合もあるし、同じ時点または異なる時点のいずれかにおける異なるカメラからのものである場合もある。
通常、人物再同定の方法は、画像から特徴量を抽出する方法と、異なる画像から抽出された特徴量を比較するメトリックとの2つの構成要素を含む。人物再同定研究における焦点は、特徴量の改良若しくは比較メトリックの改良またはそれらの双方に置かれてきた。特徴量の改良の背後にある基本的なアイデアは、照明、姿勢、および視点の変化に対して少なくとも部分的に不変である特徴量を求めることである。これまでの方法において用いられている一般的な特徴量は、色ヒストグラム、局所バイナリーパターン、ガボール(Gabor)特徴量、顕著な色名、および局所画像パッチ上の変化量を含む。
比較メトリックを改良するために、メトリック学習手法は、当初の特徴量空間から、同じ人物の2つの異なる画像から抽出された特徴量ベクトルが、2人の異なる人物のものである2つの画像から抽出された特徴量ベクトルよりも「近い」(類似している)新たな空間へのマッピングを求める。再同定に適用されてきたメトリック学習手法には、マハラノビス(Mahalanobis)メトリック学習、局所的適応決定関数、顕著性重み付き距離、局所フィッシャー(Fisher)判別式解析、マージナルフィッシャー解析、および属性整合マッチングが含まれる。
いくつかの方法は、深層学習手法を人物再同定に用いる。1つのそのような深層学習手法は、「シャム(Siamese)」畳み込みニューラルネットワーク(CNN)をメトリック学習に用いる。シャムCNNは、トレーニングセットからの画像のペアを各ペアのトレーニングラベルとともに繰り返し提示することによって、非線形類似メトリックを学習する。この各ペアのトレーニングラベルは、そのペア内の2つの画像が同じ人物の画像であるのかまたは2人の異なる人物の画像であるのかを示す。
1つの従来の方法では、シャムアーキテクチャは、2つの画像の3つの重なり合う部分に対して作用する3つの独立した畳み込みネットワークを備える。各部分固有のネットワークは、最大プーリングを有する2つの畳み込み層と、その後に続く完全接続層とを備える。完全接続層は、各画像の出力ベクトルを生成し、これらの2つの出力ベクトルは、余弦関数を用いて比較される。上記3つの部分のそれぞれの余弦出力は、その後、組み合わされて、類似スコアが取得される。
別の深層学習方法は、差分ネットワークを用いる。差分アーキテクチャは、最大プーリングを有する単一の畳み込み層から開始し、その後に、様々な水平オフセットにおいて2つの入力からの畳み込み特徴量応答を乗算するパッチマッチング層が続く。一方の画像内の各パッチに対する応答には、他方の画像内の同じ水平ストリップからサンプリングされた他のあらゆるパッチに対する応答が個別に乗算される。この後には、水平ストリップ内のパッチの各ペアからの最大パッチ整合応答を出力するマックスアウトグルーピング層が続き、その後に最大プーリングを有する別の畳み込み層が続き、その後に500個のユニットを有する完全接続層が続き、最後に、「同じ」または「異なる」を表す2つのユニットを有する完全接続層が続く。これらの最終的な2つの出力を確率に変換するのにソフトマックス関数が用いられる。
人物再同定のトレーニングデータおよびテストデータは、通常、画像のペアに配列されている。肯定的ペアは、同じ人物の2つの異なる画像からなる一方、否定的ペアは、異なる人物の2つの画像からなる。物体の再同定の場合、肯定的ペアという用語は、同じ物体の2つの異なる画像、または代替的に同じ物体クラスからの異なる物体の2つの画像を指すのに用いられる。同様に、否定的ペアという用語は、異なる物体を描写する2つの画像、または代替的に2つの異なる物体クラスからの物体を描写する2つの画像を指すのに用いられる。例えば、自動車の再同定の場合、肯定的ペアは、同じ型、同じモデル、および同じ年の自動車の2つの異なる画像として定義することができる。
本方法は、画像のペア内の物体再同定または人物再同定のための特徴量および対応する類似性メトリックを同時に学習する。本方法は、人物再同定の問題に対処するように特別に設計された層を有する深層畳み込みニューラルネットワーク(CNN)を用いる。「深層」は、機械学習技法の分野における説明的な専門用語であり、相対語ではないことが理解されている。好ましい実施の形態では、本発明は11層を用いる。これは、例えば、5層〜9層を用いて人物再同定の問題にこれまで適用されてきた従来のCNNよりも深層である。
画像ペアが与えられると、上記ネットワークは、これらの2つの入力画像が肯定的ペアであるのかまたは否定的ペアであるのかを示す類似値を出力する。このネットワークの新規な要素には、2つの画像から個別に抽出された中間レベルの特徴量の中で2つの画像の間の局所的関係を特徴付ける交差入力近傍差分を求める層が含まれる。この層の出力の高レベルのサマリーが、パッチサマリー特徴量を生成する別の新規な層によって求められる。これらのパッチサマリー特徴量は、その後、後続の層において空間的に積分される。
本方法は、より大きなデータセットに対して、現行技術水準よりも性能が大幅に優れている。例えば、CUHK03人物再同定データセットに対して、これまでの現行技術水準は、20.65%のランク1同定レートを達成する深層学習手法であった。これに対して、本方法は、54.74%のランク1認識レートを達成し、これは、これまでの現行技術水準の2.5倍を上回る優れた性能である。本方法は、過剰適合に対して耐性も有する。無関係の小さなターゲットデータセットに対して微調整を行う前に、より大きなデータセットに対して学習することによって、上記ネットワークは、視点不変歩行者認識(VIPeR:Viewpoint Invariant Pedestrian Recognition)用のデータセット等の小さなデータセットに対しても現行技術水準に匹敵する結果を達成することもできる。
上記深層ニューラルネットワークアーキテクチャは、再同定の問題用に特に設計された固有の層を有する。ブロック、フィルター、ストライド等のネットワーク要素の具体的な数値サイズ、および特徴量マップの数は、本発明の特定の実施の形態を介して本発明を示す例として意図されており、本発明の実施の形態は、提示された例示のサイズを有する要素を用いることに限定されるものではないことが理解されている。
上記ニューラルネットワークへの入力は、2つのカラー画像である。このネットワークアーキテクチャは、結合畳み込みの層と、その後に続く最大プーリングの層と、その後に続く結合畳み込みのもう1つの層と、その後に続く最大プーリングのもう1つの層との4つの層から開始する。これらの層によって、ネットワークは、2つの画像を比較するのに用いることができる特徴量のセットを学習することが可能になる。これらの2つの畳み込み層におけるネットワーク重みは、双方の画像について同じになる(結合される)ように制約され、これは、同じフィルターのセットが双方の画像に適用されることを意味する。
次の層は、再同定の問題用に特に設計された2つの新規なネットワーク層のセットである。第1の新規な層は、各特徴量ロケーションの近傍の周辺における2つの画像間の特徴量の差分を累算し、近傍差分マップのセットを生成する。これらの近傍差分マップは、特徴量差分のブロックから構成されている。各ブロックのサイズ(例えば、5×5)は、差分が計算される近傍のサイズである。
次に、新規なパッチサマリー層が、各5×5ブロック内の差分の全体論的な表現を生成することによって近傍差分マップを集計する。これは、結果が各ブロックのサマリー値のベクトルとなるように、近傍差分マップを、サイズ5×5および5のストライドのフィルターを用いて畳み込むことによって行われる。サマリー値は、ブロック内の5×5近傍差分値の線形結合から求められる。
これらの2つの特別に設計されたネットワーク層の後、次の畳み込み層は、結果のパッチサマリー特徴量マップを3×3線形フィルターを用いて畳み込み、その後に、最大プーリングの層が続く。これらの2つの層によって、ネットワークは、2つの入力画像が同じ人物を表しているか否かを示すことを助ける近傍差分マップのより高レベルのパターンを学習することが可能になる。
次に、本ニューラルネットワークアーキテクチャは、ネットワークがより高次の関係を学習することを可能にする多くのユニットを有する完全接続層を用いる。結果として得られた特徴量ベクトルは、正規化線形関数(ReLu)に通され、次に、肯定的ペアスコアおよび否定的ペアスコアを表す2つの出力を有する別の完全接続層に通される。最後に、これらの2つのスコアは、肯定的ペア(同じ人物)クラスおよび否定的ペア(異なる人物)クラスの確率を与えるソフトマックス層に通される。
当該技術分野において知られているような正規化線形関数が、各実数入力を関数f(x)=max(0,x−k)に通す。ここで、kは、学習することができる定数パラメーターである。
本発明の好ましい実施形態による再同定の方法および畳み込みニューラルネットワーク(CNN)のブロック図である。 ネットワークの各層における特徴量をより詳細に示す本発明の好ましい実施形態によるCNNアーキテクチャの模式図である。
図1および図2に示すように、本発明の実施形態は、1人または2人の人物2の取得された画像1のペアにおける人物再同定の方法を提供する。この画像のペアは、カメラ3によって取得することができる。これらのカメラは、スチルカメラまたはビデオカメラとすることができる。これらのカメラは、同じカメラとすることもできるし(この場合、画像は、異なる時刻において取得される)、異なるカメラとすることもできる。本方法は、人物再同定の問題に対処するように特別に設計された層を有する深層畳み込みニューラルネットワーク(CNN)を用いる。本方法は他の物体に適用することができることが理解されるべきである。
図1は、当該技術分野において知られているように、取得された画像のペアを記憶するメモリと、入力/出力インターフェースとにバスによって接続されたプロセッサ4において実行することができる方法の概観を示している。基本的に、本方法は、画像のペア内の人物の表現を、それらの2つの画像が同じ人物のものであるか否かを示す信号9に変換する。
図2は、本発明の実施形態による人物再同定のための新規な層の間の接続をより詳細に示すCNNアーキテクチャの模式図である。ネットワーク内の各畳み込みの入力領域の正確なサイズは、特定のアプリケーションに必要とされる所望の速度および精度に応じて変動する可能性がある。
2つの画像1が同じ人物のものであるか否かを判断するために、2つの画像間の関係が求められる。深層学習では、畳み込み特徴量が、様々な分類作業に有用な表現を提供する。
図1に示すように、本発明による方法の場合、畳み込みニューラルネットワークが画像1のペアに適用されて、信号9が生成される。
畳み込みニューラルネットワークは、順に、以下の層を備える。
第1の畳み込み層101;
第1の最大プーリング層102;
第2の畳み込み層103;
第2の最大プーリング層104;
交差入力近傍差分層105;
パッチサマリー層106;
第3の畳み込み層107;
第3の最大プーリング層108;
多くのユニットを有する第1の完全接続層109;
2つのユニットを有する第2の完全接続層110;および
ソフトマックス層111。
層101〜104は、各入力画像1に1つずつの、2つの個別の部分に分割される。層101は、各入力画像1に個別に作用し、次いで、各層102〜104が前層の出力に適用される。層105は、層104によって出力された2つの特徴量マップ(各入力画像に1つが対応する)を入力として取り込み、次の層105に入力を提供する。各層106〜111は、前層の出力に適用される。
「破線」のボックスによって略記された層である層103および104並びに107および108は、より正確な結果を達成するための任意選択的なものである。換言すれば、層103および104並びに107および108は、これらの層に先行する層によって出力された特徴量を精緻化し、より複雑なパターンを表すことができるより高レベルの特徴量を生成する。「太線」の層105および106内に略記された層は新規の層である。
本発明者らのネットワークの層101および103は、畳み込み層であり、これらの層は、2つの画像のそれぞれについてより高次の特徴量を個別に求めるのに用いられる。畳み込み層は、同じ畳み込み(多くの矩形入力領域と同じ矩形重み行列との要素ごとの乗算)をその入力の各矩形領域に適用する。その出力は、各矩形領域の入力の重み付き線形結合である。
層102および104は、最大プーリングを実行し、これによって、特徴量のサイズが削減される。最大プーリング層は、前層の出力から小さな矩形領域を取り込み、領域ごとに、単一の値、すなわち、その領域の最大値を出力する。この結果、前層の出力はサブサンプリングされたことになり、より少数の出力が得られる。
2つの画像からの特徴量を後層において比較可能にするために、重みが2つの画像間で共有される結合畳み込みが実行され、同じフィルターをこれらの2つの画像のそれぞれに適用して各画像の特徴量を求めることが確保される。
図2は、本発明の実施形態によって用いられるデータ構造体のうちのいくつかを模式的に示している。図を簡略にするために、畳み込み層および後続の最大プーリング層の各ペアは、単一の層として示されている。ネットワークによって処理される画像ペアは、否定的ペア(異なる人物の画像)および肯定的ペア(同じ人物の画像)を含むことができる。ネットワークは、一時に1つの画像のペアを処理する。第1の畳み込み層101は、赤、緑、青(RGB)の画像1、例えば、60×160のRGB画像(60×160×3データ構造体)のペアからのピクセルを、例えばサイズ5×5×3の例えば20個の学習済みフィルターに通す。このため、第1の畳み込み層の出力は、例えばサイズ56×156の20個の畳み込み画像(convolved image)のセットとなる。これらは、第1の最大プーリング層102に通される。第1の最大プーリング層102は、第1の畳み込み層101から出力された20個の畳み込み画像の重なり合わない各2×2ブロックの最大のものを取り込むことによって特徴量の幅および高さを半減させる。これによって、各入力画像について、それぞれが例えばサイズ28×78の20個の特徴量マップ210のセットが得られる。
これらの特徴量マップ210は、第2の畳み込み層103に通される。この第2の畳み込み層103では、例えばサイズ5×5×20の例えば25個の学習済みフィルターを用いて、各入力画像について、例えばサイズ24×74の25個の特徴量マップのセットが得られる。この後には第2の最大プーリング層104が続き、再度、特徴量マップの幅および高さを2分の1に減少させる。これらの最初の4つの特徴量計算層(結合畳み込みおよび最大プーリング層からなる2つの連続するグループ)が終了すると、各入力画像は、例えばサイズ12×37の25個の特徴量マップ220によって表される。
交差入力近傍差分
上記で説明したように、初期特徴量計算層は、入力画像のペアにおける各入力画像1について25個の特徴量マップのセットを提供する。これらの特徴量マップのセットから、2つの画像の間の関係を学習することができる。fおよびgを、それぞれ第1の画像および第2の画像からのi番目の特徴量マップ(1≦i≦25)を表すものとする。
交差入力近傍差分層105は、2つの画像にわたる各特徴量ロケーションの近傍の周辺における特徴量の値の差分を累算し、25個の近傍差分マップKのセットを生成する。これらの近傍差分マップを作成するために、1つの特徴量マップ(例えば、f)の各ロケーションにおける値と、対応する特徴量マップ(g)の周囲の近傍における各ピクセルとの間の差分が計算される。特徴量マップは、
Figure 2018506788
であるので、対応する近傍差分マップは、寸法
Figure 2018506788
を有する。ここで、5×5は、正方形近傍のサイズである。各Kは、5×5ブロックからなる12×37の格子であり、この格子では、(x,y)231によってインデックス付けされたブロックは、
Figure 2018506788
で示される。ここで、x、yは、整数(1≦x≦12および1≦y≦37)である。より正確に言えば、
Figure 2018506788
である。ここで、f(x,y)は、特徴量マップfのロケーション(x,y)221における要素であり、
Figure 2018506788
は、あらゆる要素が1である5×5行列であり、
Figure 2018506788
は、(x,y)を中心とするgの5×5近傍である。
5×5行列K(x,y)231は、2つの5×5行列の差分である。これらの2つの5×5行列の第1のものは、あらゆる要素がスカラーf(x,y)のコピーであり、第2のものは、(x,y)を中心とするgの5×5近傍である。近傍において差分を取ることの背後にある動機は、2つの入力画像1の対応する特徴量の位置差分を取り扱う能力を向上させることである。
式(1)における演算は非対称であるので、fおよびgの役割が逆になっている点を除いて式(1)におけるKと同じものと定義された以下の式の近傍差分マップK’も考慮される。
Figure 2018506788
ここで、g(x,y)は、特徴量マップgのロケーション(x,y)221における要素であり、
Figure 2018506788
は、あらゆる要素が1である5×5行列であり、
Figure 2018506788
は、(x,y)を中心とするfの5×5近傍である。
これによって、50個の近傍差分マップ230、
Figure 2018506788
および
Figure 2018506788
が得られる。これらのマップのそれぞれは、サイズ12×37×5×5を有する。これらの近傍差分マップは、正規化線形関数(ReLu)に通され、その後、パッチサマリー層106に入力として渡される。
パッチサマリー特徴量
交差入力近傍差分層では、2つの入力画像からの特徴量間の粗い関係が近傍差分マップの形で求められた。パッチサマリー層106は、これらの近傍差分マップのサマリーを、各5×5ブロックにおける差分の全体論的な表現として生成する。この層は、
Figure 2018506788
からのマッピングを実行する。
これは、Kを、5のストライドを有するサイズ5×5×25の25個のフィルターを用いて畳み込むことによって行われる。このストライドを正方形ブロックの幅に正確に一致させることによって、Lのロケーション(x,y)242における25次元サマリーベクトルが、25個のブロックK(x,y)、すなわち、各近傍差分マップK(ここで、1≦i≦25)の5×5格子正方形(x,y)231のみから求められることが確保される。これらは、特徴量マップfおよびgにおけるロケーション(x,y)221の局所近傍のみから求められるので、Lのロケーション(x,y)242における25次元パッチサマリー特徴量ベクトルは、ロケーション(x,y)の近傍における交差入力差分の高レベルのサマリーを提供する。このため、パッチサマリー特徴量マップL全体が、画像全体にわたる局所交差入力近傍差分の高レベルのサマリーを提供する。
LがKから求められたのと同じ方法で、パッチサマリー特徴量マップL’もK’から求められる。マッピングK’→L’用のフィルターは、マッピングK→L用のフィルターと異なる場合があることに留意されたい。(マッピングK’→L’用のフィルターは、ネットワークの最初の2つの畳み込み層におけるフィルターと異なり、結合されていない。)パッチサマリー特徴量マップLおよびL’240の双方は、後にReLuに通される。
パッチにわたる特徴量
交差入力近傍差分マップを求め、次いで、これらの交差入力近傍差分マップの高レベルの局所表現を取得することによって、前層から、局所近傍内の差分の高レベルの表現が取得される。
第3の畳み込み層107では、近傍差分間の空間関係が求められる。これは、例えば、Lを、1のストライドを有するサイズ3×3×25の例えば25個のフィルターを用いて畳み込むことによって行われる。結果として得られた出力は、25個の特徴量マップのセットである。これらの特徴量マップのそれぞれは、例えば、サイズ10×35のものである。これらの特徴量マップは、第3の最大プーリング層108に通され、高さおよび幅が2分の1に削減される。これによって、サイズ5×18の25個の高レベルの特徴量マップが得られる。これらの特徴量マップは、
Figure 2018506788
で表される。同様に、L’から25個の高レベルの特徴量マップM’が取得され、その結果、高レベルの特徴量マップ250は合計で50個になる。マッピングL→M用の畳み込みフィルターは、マッピングL’→M’用の畳み込みフィルターに結合されていない。
より高次の関係
次に、完全接続層109が特徴量マップMおよびM’に適用される。これは、互いに離れているパッチからの情報を組み合わせるとともに、Mからの情報をM’からの情報と組み合わせることによって、より高次の関係を特徴付ける。結果として得られた、例えば長さ500の高レベルの特徴量ベクトル260は、ReLuに通される。
もう1つの完全接続層110は、結果として得られた500要素の特徴量ベクトルを、同じ人物(肯定的ペア)および異なる人物(否定的ペア)のスコアを表す2つの出力にマッピングする。これらの2つの出力は、ソフトマックス層111に通され、これによって、2つの画像が同じ人物(肯定的ペア)である確率と、2つの画像が異なる人物(否定的ペア)である確率とが、最終信号9として得られる。これらの確率は合計すると1になる。ソフトマックス関数、すなわち、正規化指数関数は、任意の実数値のN次元ベクトルを、値の合計が1になるような範囲(0,1)内の実数値のN次元ベクトルに縮小するロジスティック関数を一般化したものである。
代替の実施形態では、最後の完全接続層110およびソフトマックス層111は、ネットワークから除去される。その代わり、高レベルの特徴量ベクトル260が、ネットワークの出力として用いられ、その後、分類器、例えば、線形サポートベクターマシン(SVM)バイナリー分類器に入力される。この分類器の出力は、その後、入力された画像のペアが肯定的ペアであるのかまたは否定的ペアであるのかを判断する最終信号9として用いられる。1つの実施形態では、分類器への入力は、ReLuが適用された後の高レベルの特徴量ベクトル260であり、別の実施形態では、分類器への入力は、ReLuが適用される前の高レベルの特徴量ベクトルである。

Claims (17)

  1. 画像のペアを取得するステップであって、各画像は、物体を表す、取得するステップと、
    前記画像のペアに畳み込みニューラルネットワーク(CNN)を適用するステップであって、該CNNは、
    第1の畳み込み層と、
    前記第1の畳み込み層の後に続く第1の最大プーリング層であって、前記第1の畳み込み層および該第1の最大プーリング層は、各画像に個別に適用されて、各画像の特徴量マップを求める、第1の最大プーリング層と、
    前記特徴量マップに適用されて近傍差分マップを生成する交差入力近傍差分層と、
    前記近傍差分マップに適用されてパッチサマリー特徴量マップを生成するパッチサマリー層と、
    前記パッチサマリー特徴量マップに適用されて、前記パッチサマリー特徴量マップにおけるより高次の関係を表す特徴量ベクトルを生成する第1の完全接続層と、
    前記より高次の関係を表す特徴量ベクトルに適用されて、肯定的ペアクラスおよび否定的ペアクラスを表す2つのスコアを生成する第2の完全接続層と、
    前記2つのスコアに適用されて、肯定的ペア確率および否定的ペア確率を生成するソフトマックス層と
    を備える、適用するステップと、
    前記画像のペアが同じ物体を表しているか否かを信号伝達するために、前記肯定的ペア確率を出力するステップと
    を含み、各ステップは、プロセッサにおいて実行される、物体の再同定の方法。
  2. 前記物体は、人物であり、前記方法は、人物再同定のためのものである、請求項1に記載の方法。
  3. 前記CNNは、前記第2の完全接続層も前記ソフトマックス層も備えず、前記方法は、より高次の関係を表す前記特徴量ベクトルを分類器への入力として用いるステップをさらに含み、前記出力するステップは、前記分類器の結果を出力することを含む、請求項1に記載の方法。
  4. 前記分類器は、線形サポートベクターマシン(SVM)分類器である、請求項3に記載の方法。
  5. 肯定的ペアは、同じ物体の2つの画像として定義され、否定的ペアは、異なる物体の2つの画像として定義される、請求項1に記載の方法。
  6. 肯定的ペアは、同じ物体クラスからの2つの画像を指し、否定的ペアは、異なる物体クラスからの2つの画像を指し、前記出力するステップは、前記2つの画像が同じ物体を表しているか否かを信号伝達する代わりに、前記2つの画像が前記同じ物体クラスを表しているか否かを信号伝達する、請求項1に記載の方法。
  7. 前記画像のペアをカメラによって取得するステップ
    をさらに含む、請求項1に記載の方法。
  8. 前記CNNは、
    第2の畳み込み層と、
    前記第2の畳み込み層の後に続く第2の最大プーリング層と
    をさらに備え、
    前記第2の畳み込み層は、前記第1の最大プーリング層によって求められた前記特徴量マップを入力として取り込み、前記第2の最大プーリング層は、精緻化された特徴量マップを出力し、前記交差入力近傍差分層は、前記精緻化された特徴量マップに適用されて、近傍差分マップを生成する、請求項1に記載の方法。
  9. 前記CNNは、
    第3の畳み込み層と、
    前記第3の畳み込み層の後に続く第3の最大プーリング層と
    をさらに備え、
    前記第3の畳み込み層は、前記パッチサマリー特徴量マップに適用され、前記第3の最大プーリング層は、高レベルの特徴量マップを出力し、前記第1の完全接続層は、前記高レベルの特徴量マップに適用されて、前記より高次の関係を表す特徴量ベクトルを生成する、請求項1に記載の方法。
  10. 前記第1の畳み込み層は、前記画像のペアの間で共有される重みによって結合されて、同一のフィルターが各画像に適用されることを確保する、請求項1に記載の方法。
  11. 前記第1の畳み込み層および前記第2の畳み込み層は、前記画像のペアの間で共有される重みによって結合されて、同一のフィルターが各画像に適用されることを確保する、請求項8に記載の方法。
  12. 前記CNNは、例示の肯定的ペアおよび否定的ペアを用いてトレーニングされる、請求項1に記載の方法。
  13. 前記交差入力近傍差分層は、前記画像のペアにわたる各特徴量ロケーションの近傍の周辺における特徴量の値の差分を累算する、請求項1に記載の方法。
  14. 前記近傍差分マップは、次の層への入力として用いられる前に正規化線形関数(ReLu)に通される、請求項1に記載の方法。
  15. 前記パッチサマリー特徴量マップは、次の層への入力として用いられる前に正規化線形関数(ReLu)に通される、請求項1に記載の方法。
  16. 前記より高次の関係を表す特徴量ベクトルは、次の層への入力として用いられる前に正規化線形関数(ReLu)に通される、請求項1に記載の方法。
  17. 前記より高次の関係を表す特徴量ベクトルは、分類器への入力として用いられる前に正規化線形関数(ReLu)に通される、請求項3に記載の方法。
JP2017538739A 2015-04-03 2016-03-24 物体の再同定の方法 Pending JP2018506788A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/678,102 US9436895B1 (en) 2015-04-03 2015-04-03 Method for determining similarity of objects represented in images
US14/678,102 2015-04-03
PCT/JP2016/060590 WO2016159199A1 (en) 2015-04-03 2016-03-24 Method for re-identification of objects

Publications (1)

Publication Number Publication Date
JP2018506788A true JP2018506788A (ja) 2018-03-08

Family

ID=55806737

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017538739A Pending JP2018506788A (ja) 2015-04-03 2016-03-24 物体の再同定の方法

Country Status (5)

Country Link
US (1) US9436895B1 (ja)
EP (1) EP3254238B1 (ja)
JP (1) JP2018506788A (ja)
CN (1) CN107408211B (ja)
WO (1) WO2016159199A1 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019201344A (ja) * 2018-05-17 2019-11-21 株式会社アクセル 画像処理装置、画像処理方法、プログラム
KR20200014842A (ko) * 2018-07-27 2020-02-11 선전 센스타임 테크놀로지 컴퍼니 리미티드 이미지 조명 방법, 장치, 전자 기기 및 저장 매체
JP2020519989A (ja) * 2017-07-28 2020-07-02 ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド ターゲット識別方法、装置、記憶媒体および電子機器
JP2020121713A (ja) * 2019-01-30 2020-08-13 株式会社ストラドビジョンStradvision,Inc. 人の状態識別のためのイメージ分析により検出された乗客のポイントを利用して車両占有を検出する方法及び装置
JP2021117969A (ja) * 2020-01-23 2021-08-10 同▲済▼大学 ランダムバッチマスクとマルチスケール表現学習を融合した人物再同定方法
WO2022091300A1 (ja) * 2020-10-29 2022-05-05 日本電気株式会社 画像処理装置
JP7479887B2 (ja) 2020-03-19 2024-05-09 セコム株式会社 画像生成装置、画像処理システム、及び画像処理方法

Families Citing this family (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160350336A1 (en) * 2015-05-31 2016-12-01 Allyke, Inc. Automated image searching, exploration and discovery
CN107851195B (zh) * 2015-07-29 2022-02-11 诺基亚技术有限公司 利用神经网络进行目标检测
US9953217B2 (en) 2015-11-30 2018-04-24 International Business Machines Corporation System and method for pose-aware feature learning
US20170161591A1 (en) * 2015-12-04 2017-06-08 Pilot Ai Labs, Inc. System and method for deep-learning based object tracking
US10657437B2 (en) * 2016-08-18 2020-05-19 International Business Machines Corporation Training of front-end and back-end neural networks
WO2018052587A1 (en) * 2016-09-14 2018-03-22 Konica Minolta Laboratory U.S.A., Inc. Method and system for cell image segmentation using multi-stage convolutional neural networks
WO2018052586A1 (en) * 2016-09-14 2018-03-22 Konica Minolta Laboratory U.S.A., Inc. Method and system for multi-scale cell image segmentation using multiple parallel convolutional neural networks
WO2018057749A1 (en) * 2016-09-26 2018-03-29 Arizona Board Of Regents On Behalf Of Arizona State University Cascaded computing for convolutional neural networks
US10552709B2 (en) * 2016-10-05 2020-02-04 Ecole Polytechnique Federale De Lausanne (Epfl) Method, system, and device for learned invariant feature transform for computer images
JP6216024B1 (ja) * 2016-11-15 2017-10-18 株式会社Preferred Networks 学習済モデル生成方法及び信号データ判別装置
WO2018099473A1 (zh) 2016-12-02 2018-06-07 北京市商汤科技开发有限公司 场景分析方法和系统、电子设备
CN108154222B (zh) * 2016-12-02 2020-08-11 北京市商汤科技开发有限公司 深度神经网络训练方法和系统、电子设备
FR3060813B1 (fr) * 2016-12-15 2019-08-23 Thales Procede de determination de l'appartenance d'une donnee a une base de donnees et produit programme d'ordinateur et support d'informations associes
GB201703602D0 (en) * 2017-03-07 2017-04-19 Selerio Ltd Multi-Modal image search
US11354565B2 (en) * 2017-03-15 2022-06-07 Salesforce.Com, Inc. Probability-based guider
CN106971155B (zh) * 2017-03-21 2020-03-24 电子科技大学 一种基于高度信息的无人车车道场景分割方法
CN107145826B (zh) * 2017-04-01 2020-05-08 浙江大学 基于双约束度量学习和样本重排序的行人再识别方法
CN108694347B (zh) * 2017-04-06 2022-07-12 北京旷视科技有限公司 图像处理方法和装置
US10657415B2 (en) * 2017-06-02 2020-05-19 Htc Corporation Image correspondence determining method and apparatus
US10503981B2 (en) * 2017-06-27 2019-12-10 Canon Kabushiki Kaisha Method and apparatus for determining similarity of objects in images
CN107562805B (zh) * 2017-08-08 2020-04-03 浙江大华技术股份有限公司 一种以图搜图的方法及装置
US10282589B2 (en) * 2017-08-29 2019-05-07 Konica Minolta Laboratory U.S.A., Inc. Method and system for detection and classification of cells using convolutional neural networks
CN107729818B (zh) * 2017-09-21 2020-09-22 北京航空航天大学 一种基于深度学习的多特征融合车辆重识别方法
CN107832338B (zh) * 2017-10-12 2020-02-07 北京京东尚科信息技术有限公司 一种识别核心产品词的方法和系统
CN107909107B (zh) * 2017-11-14 2020-09-15 深圳码隆科技有限公司 纤维检测方法、装置及电子设备
US10417502B2 (en) * 2017-12-15 2019-09-17 Accenture Global Solutions Limited Capturing series of events in monitoring systems
CN108052987B (zh) * 2017-12-29 2020-11-13 苏州体素信息科技有限公司 图像分类输出结果的检测方法
CN108062538A (zh) * 2017-12-29 2018-05-22 成都智宝大数据科技有限公司 人脸识别方法及装置
CN108596010B (zh) * 2017-12-31 2020-09-04 厦门大学 行人重识别系统的实现方法
US10586118B2 (en) 2018-01-13 2020-03-10 Toyota Jidosha Kabushiki Kaisha Localizing traffic situation using multi-vehicle collaboration
US10916135B2 (en) 2018-01-13 2021-02-09 Toyota Jidosha Kabushiki Kaisha Similarity learning and association between observations of multiple connected vehicles
US10963706B2 (en) * 2018-01-13 2021-03-30 Toyota Jidosha Kabushiki Kaisha Distributable representation learning for associating observations from multiple vehicles
CN108549832B (zh) * 2018-01-21 2021-11-30 西安电子科技大学 基于全连接神经网络的低截获雷达信号分类方法
WO2019177907A1 (en) * 2018-03-13 2019-09-19 Hrl Laboratories, Llc Sparse associative memory for identification of objects
CN108875904A (zh) * 2018-04-04 2018-11-23 北京迈格威科技有限公司 图像处理方法、图像处理装置和计算机可读存储介质
CN108805078A (zh) * 2018-06-11 2018-11-13 山东大学 基于行人平均状态的视频行人再识别方法及系统
US11449728B2 (en) * 2018-07-01 2022-09-20 Al Falcon Ltd. Method of optimization of operating a convolutional neural network and system thereof
WO2020051816A1 (en) * 2018-09-13 2020-03-19 Intel Corporation Condense-expansion-depth-wise convolutional neural network for face recognition
US20200090046A1 (en) * 2018-09-14 2020-03-19 Huawei Technologies Co., Ltd. System and method for cascaded dynamic max pooling in neural networks
US20200090023A1 (en) * 2018-09-14 2020-03-19 Huawei Technologies Co., Ltd. System and method for cascaded max pooling in neural networks
CN109543537B (zh) * 2018-10-23 2021-03-23 北京市商汤科技开发有限公司 重识别模型增量训练方法及装置、电子设备和存储介质
US10922581B2 (en) * 2018-12-10 2021-02-16 Canon Kabushiki Kaisha Method, system and apparatus for performing re-identification in images captured by at least two camera pairs operating with different environmental factors
KR20200084395A (ko) 2018-12-20 2020-07-13 삼성전자주식회사 영상에서 오브젝트를 인식하는 전자 장치 및 그 동작 방법
TWI772627B (zh) 2019-03-19 2022-08-01 財團法人工業技術研究院 人物重識別方法、人物重識別系統及影像篩選方法
CN110084157B (zh) * 2019-04-12 2021-08-24 北京旷视科技有限公司 图像重识别的数据处理方法及装置
US11238300B2 (en) 2019-09-10 2022-02-01 Microsoft Technology Licensing, Llc Depth-based object re-identification
CN111178284A (zh) * 2019-12-31 2020-05-19 珠海大横琴科技发展有限公司 基于地图数据的时空联合模型的行人重识别方法及系统
US11240707B2 (en) 2020-05-28 2022-02-01 Toyota Motor Engineering & Manufacturing North America, Inc. Adaptive vehicle identifier generation
US11972610B2 (en) * 2020-09-11 2024-04-30 Sensormatic Electronics, LLC Multi-pass object tracking system utilizing single object tracking in a multi object tracking use case for higher accuracy
KR102273377B1 (ko) * 2020-12-14 2021-07-06 국방기술품질원 영상 합성 방법
CN113469118B (zh) * 2021-07-20 2024-05-21 京东科技控股股份有限公司 多目标行人跟踪方法及装置、电子设备、存储介质
CN115393966B (zh) * 2022-10-27 2023-01-10 中鑫融信(北京)科技有限公司 基于信用监督的纠纷调解数据处理方法及其系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005215988A (ja) * 2004-01-29 2005-08-11 Canon Inc パターン認識用学習方法、パターン認識用学習装置、画像入力装置、コンピュータプログラム、及びコンピュータ読み取り可能な記録媒体
JP2011113125A (ja) * 2009-11-24 2011-06-09 Fuji Xerox Co Ltd 情報処理装置及び情報処理プログラム
JP2013069132A (ja) * 2011-09-22 2013-04-18 Fuji Xerox Co Ltd 画像処理装置及び画像処理プログラム
JP2014203135A (ja) * 2013-04-01 2014-10-27 キヤノン株式会社 信号処理装置、信号処理方法、及び、信号処理システム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7711146B2 (en) * 2006-03-09 2010-05-04 General Electric Company Method and system for performing image re-identification
US8165397B2 (en) 2006-12-04 2012-04-24 Lockheed Martin Company Identifying descriptor for person or object in an image
EP2410467A1 (en) 2010-07-23 2012-01-25 Nederlandse Organisatie voor toegepast -natuurwetenschappelijk onderzoek TNO System and method for identifying image locations showing the same person in different images
US9396412B2 (en) * 2012-06-21 2016-07-19 Siemens Aktiengesellschaft Machine-learnt person re-identification
US9811775B2 (en) * 2012-12-24 2017-11-07 Google Inc. Parallelizing neural networks during training
CN103049747B (zh) * 2012-12-30 2016-08-24 信帧电子技术(北京)有限公司 利用肤色的人体图像再识别的方法
CN103065126B (zh) * 2012-12-30 2017-04-12 信帧电子技术(北京)有限公司 不同场景对人体图像再识别的方法
CN103839084B (zh) * 2014-03-12 2017-04-12 湖州师范学院 一种应用于行人再识别的多核支持向量机多示例学习算法
IL231862A (en) * 2014-04-01 2015-04-30 Superfish Ltd Image representation using a neural network
US9659384B2 (en) * 2014-10-03 2017-05-23 EyeEm Mobile GmbH. Systems, methods, and computer program products for searching and sorting images by aesthetic quality
EP3204871A4 (en) * 2014-10-09 2017-08-16 Microsoft Technology Licensing, LLC Generic object detection in images
US9286524B1 (en) * 2015-04-15 2016-03-15 Toyota Motor Engineering & Manufacturing North America, Inc. Multi-task deep convolutional neural networks for efficient and robust traffic lane detection

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005215988A (ja) * 2004-01-29 2005-08-11 Canon Inc パターン認識用学習方法、パターン認識用学習装置、画像入力装置、コンピュータプログラム、及びコンピュータ読み取り可能な記録媒体
JP2011113125A (ja) * 2009-11-24 2011-06-09 Fuji Xerox Co Ltd 情報処理装置及び情報処理プログラム
JP2013069132A (ja) * 2011-09-22 2013-04-18 Fuji Xerox Co Ltd 画像処理装置及び画像処理プログラム
JP2014203135A (ja) * 2013-04-01 2014-10-27 キヤノン株式会社 信号処理装置、信号処理方法、及び、信号処理システム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
WEI LI, ET AL.: "DeepReID: Deep Filter Pairing Neural Network for Person Re-Identification", COMPUTER VISION AND PATTERN RECOGNITION (CVPR), 2014 IEEE CONFERENCE, JPN6018021762, 23 June 2014 (2014-06-23), US, pages 152 - 159, XP032649185, ISSN: 0003943581, DOI: 10.1109/CVPR.2014.27 *
斎藤 拓馬,外2名: "CNNとSVMを組み合わせた歩行者検知の効率化に関する一検討", 電子情報通信学会技術研究報告 VOL.114 NO.521, vol. 第114巻, JPN6018021763, 12 March 2015 (2015-03-12), JP, pages 41 - 46, ISSN: 0003943582 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020519989A (ja) * 2017-07-28 2020-07-02 ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド ターゲット識別方法、装置、記憶媒体および電子機器
US11200682B2 (en) 2017-07-28 2021-12-14 Beijing Sensetime Technology Development Co., Ltd. Target recognition method and apparatus, storage medium, and electronic device
JP2019201344A (ja) * 2018-05-17 2019-11-21 株式会社アクセル 画像処理装置、画像処理方法、プログラム
JP6997449B2 (ja) 2018-05-17 2022-01-17 株式会社アクセル 画像処理装置、画像処理方法、プログラム
KR20200014842A (ko) * 2018-07-27 2020-02-11 선전 센스타임 테크놀로지 컴퍼니 리미티드 이미지 조명 방법, 장치, 전자 기기 및 저장 매체
KR102290985B1 (ko) * 2018-07-27 2021-08-19 선전 센스타임 테크놀로지 컴퍼니 리미티드 이미지 조명 방법, 장치, 전자 기기 및 저장 매체
US11455516B2 (en) 2018-07-27 2022-09-27 Shenzhen Sensetime Technology Co., Ltd. Image lighting methods and apparatuses, electronic devices, and storage media
JP2020121713A (ja) * 2019-01-30 2020-08-13 株式会社ストラドビジョンStradvision,Inc. 人の状態識別のためのイメージ分析により検出された乗客のポイントを利用して車両占有を検出する方法及び装置
JP2021117969A (ja) * 2020-01-23 2021-08-10 同▲済▼大学 ランダムバッチマスクとマルチスケール表現学習を融合した人物再同定方法
JP7479887B2 (ja) 2020-03-19 2024-05-09 セコム株式会社 画像生成装置、画像処理システム、及び画像処理方法
WO2022091300A1 (ja) * 2020-10-29 2022-05-05 日本電気株式会社 画像処理装置

Also Published As

Publication number Publication date
EP3254238B1 (en) 2018-12-12
CN107408211A (zh) 2017-11-28
WO2016159199A1 (en) 2016-10-06
CN107408211B (zh) 2020-08-07
EP3254238A1 (en) 2017-12-13
US9436895B1 (en) 2016-09-06

Similar Documents

Publication Publication Date Title
JP2018506788A (ja) 物体の再同定の方法
Kamal et al. Automatic traffic sign detection and recognition using SegU-Net and a modified Tversky loss function with L1-constraint
CN112446270B (zh) 行人再识别网络的训练方法、行人再识别方法和装置
CN107609541B (zh) 一种基于可变形卷积神经网络的人体姿态估计方法
Kao et al. Visual aesthetic quality assessment with a regression model
CN110909618B (zh) 一种宠物身份的识别方法及装置
CN109903331B (zh) 一种基于rgb-d相机的卷积神经网络目标检测方法
CN111767882A (zh) 一种基于改进yolo模型的多模态行人检测方法
JP2017062781A (ja) 深層cnnプーリング層を特徴として用いる、類似度に基づく重要な対象の検知
CN110832501A (zh) 用于姿态不变面部对准的系统和方法
WO2022022695A1 (zh) 图像识别方法和装置
CN111476806B (zh) 图像处理方法、装置、计算机设备和存储介质
CN108960260B (zh) 一种分类模型生成方法、医学影像图像分类方法及装置
CN110827304B (zh) 一种基于深度卷积网络与水平集方法的中医舌像定位方法和系统
Zhao et al. Deep Adaptive Log‐Demons: Diffeomorphic Image Registration with Very Large Deformations
CN114663502A (zh) 物体姿态估计、图像处理方法及相关设备
Singh et al. Application of complete local binary pattern method for facial expression recognition
CN113642393A (zh) 基于注意力机制的多特征融合视线估计方法
CN114492634B (zh) 一种细粒度装备图片分类识别方法及系统
Bhattacharyya et al. Recognizing gender from human facial regions using genetic algorithm
Cai et al. Beyond photo-domain object recognition: Benchmarks for the cross-depiction problem
CN114742112A (zh) 一种对象关联方法、装置及电子设备
CN112668421B (zh) 一种基于注意力机制的无人机高光谱农作物快速分类方法
Liu et al. A facial sparse descriptor for single image based face recognition
KhabiriKhatiri et al. Road Traffic Sign Detection and Recognition using Adaptive Color Segmentation and Deep Learning

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180604

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180619

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180726

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20181225