JP2018537766A - ユニバーサル対応ネットワーク - Google Patents
ユニバーサル対応ネットワーク Download PDFInfo
- Publication number
- JP2018537766A JP2018537766A JP2018522563A JP2018522563A JP2018537766A JP 2018537766 A JP2018537766 A JP 2018537766A JP 2018522563 A JP2018522563 A JP 2018522563A JP 2018522563 A JP2018522563 A JP 2018522563A JP 2018537766 A JP2018537766 A JP 2018537766A
- Authority
- JP
- Japan
- Prior art keywords
- points
- location
- training
- negative
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 40
- 238000012549 training Methods 0.000 claims abstract description 32
- 238000000034 method Methods 0.000 claims abstract description 22
- 238000013459 approach Methods 0.000 claims abstract description 8
- 230000004913 activation Effects 0.000 claims description 17
- 230000015654 memory Effects 0.000 claims description 15
- 238000005065 mining Methods 0.000 claims description 12
- 230000009466 transformation Effects 0.000 claims description 12
- 238000000844 transformation Methods 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 238000004891 communication Methods 0.000 claims description 2
- 239000000284 extract Substances 0.000 abstract description 4
- 230000000007 visual effect Effects 0.000 description 16
- 238000012545 processing Methods 0.000 description 15
- 238000001994 activation Methods 0.000 description 11
- 238000010606 normalization Methods 0.000 description 9
- 238000012360 testing method Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000013507 mapping Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000013434 data augmentation Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000003278 mimic effect Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 241000293849 Cordylanthus Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000003466 anti-cipated effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Multimedia (AREA)
- Biodiversity & Conservation Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
畳み込みニューラルネットワーク(CNN)を訓練するためのコンピュータ実装方法を提示する。方法は、第1の位置および第2の位置での対応するポイントの座標を抽出し、第1の位置および第2の位置でのポジティブポイントを識別し、第1の位置および第2の位置でのネガティブポイントを識別し、第1の位置および第2の位置のポジティブポイントに対応する特徴を互いに近づくように訓練し、第1の位置および第2の位置でのネガティブポイントに対応する特徴を互いに離れるように訓練することを含む。
Description
関連出願情報
この出願は、本明細書に参照によりその全体が組み込まれている、2015年11月4日に出願した、仮出願第62/250,877号の優先権を主張する。
この出願は、本明細書に参照によりその全体が組み込まれている、2015年11月4日に出願した、仮出願第62/250,877号の優先権を主張する。
本発明は、画像処理に関し、より詳しくは、幾何学的および意味的対応のためのエンドツーエンド完全畳み込み(fully convolutional)特徴学習に関するが、それらに制限されない。
関連技術の説明
視覚対応問題では、重複3D領域を含む複数の画像のセットが与えられ、すべての画像での3Dポイントの射影の位置を探し出すことを求められる。この問題は、ステレオ視差、structure from motion、パノラマスティッチング、画像表現、画像検索、ならびに、分類および検出などの、より込み入ったタスクを含む、いくつかのコンピュータビジョンアプリケーションで生じる。
視覚対応問題では、重複3D領域を含む複数の画像のセットが与えられ、すべての画像での3Dポイントの射影の位置を探し出すことを求められる。この問題は、ステレオ視差、structure from motion、パノラマスティッチング、画像表現、画像検索、ならびに、分類および検出などの、より込み入ったタスクを含む、いくつかのコンピュータビジョンアプリケーションで生じる。
視覚対応問題を解決するために、人手により設計された多くの特徴が提案されてきた。最近では、強力な畳み込みニューラルネットワーク(CNN)の出現とともに、多くの研究者が、この新しいツールによって、該問題に戻ってきた。特徴を学習するよりむしろ、CNNは、パッチ類似度のエンドツーエンド分類を行うことができる。
CNNが訓練されると、中間畳み込み層特徴が、低次元特徴として使用される。しかしながら、中間畳み込み特徴は、視覚対応タスクに対して最適化されない。特徴は、代理目的関数(パッチ類似度)に対して訓練され、中間特徴は、視覚対応を行う助けになる距離空間(metric space)を必ずしも形成しない。加えて、パッチ類似度は、本質的に非効率的であり、遅い。そのパッチ類似度は、パッチベースの方法であるので、たとえ重複領域でも、特徴を再び抽出しなければならない。また、そのパッチ類似度は、n個のパッチの各々を、異なる画像のn個の他のパッチと比較するために、O(n2)のフィードフォワードパスを必要とする。それでもなお、パッチベースの類似度は、いくつかの理由で、好ましい方法であった。第1に、すべてのベンチマークは、画像パッチ類似度を必要とするだけであるので、パッチ類似度(分類)に対してシステムを最適化することは、距離空間を学習すること(距離学習)よりもよい結果を生むことになる。第2に、ニューラルネットワークは、細かなディテールを抽象化することが得意であるので、CNNは、グローバルな類似度を測定するための適切なツールである。
畳み込みニューラルネットワークのシステムおよび視覚対応のための訓練方法を提示する。システムは、様々な対応タスクに対して使用することができる密な特徴に画像を変換する。特徴空間は、距離演算が視覚類似度を取得する距離空間を生成する。システムは、完全畳み込みであり、任意のサイズの入力に対する特徴を生成することができ、効率的な特徴抽出を可能とする。距離学習を伴うアクティブハードネガティブマイニングが、ネットワークを訓練するために使用される。
畳み込みニューラルネットワーク(CNN)を訓練するためのコンピュータ実装方法を提示する。方法は、第1の位置および第2の位置での対応するポイントの座標を抽出し、第1の位置および第2の位置でのポジティブポイントを識別し、第1の位置および第2の位置でのネガティブポイントを識別し、第1の位置および第2の位置のポジティブポイントに対応する特徴を互い近づくように訓練し、第1の位置および第2の位置でのネガティブポイントに対応する特徴を互いに離れるように訓練することを含む。
畳み込みニューラルネットワーク(CNN)を訓練するためのシステムを提示する。システムは、メモリと、該メモリと通信するプロセッサを有し、該プロセッサは、第1の位置および第2の位置での対応するポイントの座標を抽出し、第1の位置および第2の位置でのポジティブポイントを識別し、第1の位置および第2の位置でのネガティブポイントを識別し、第1の位置および第2の位置のポジティブポイントに対応する特徴を互いに近くように訓練し、第1の位置および第2の位置でのネガティブポイントに対応する特徴を互いに離れるように訓練するように構成されている。
畳み込みニューラルネットワーク(CNN)を訓練するためのコンピュータ可読プログラムを有する非一時的コンピュータ可読記憶媒体が提示され、前記コンピュータ可読プログラムは、コンピュータ上で実行されるときに、前記コンピュータに、第1の位置および第2の位置での対応するポイントの座標を抽出するステップと、第1の位置および第2の位置でのポジティブポイントを識別するステップと、第1の位置および第2の位置でのネガティブポイントを識別するステップと、第1の位置および第2の位置のポジティブポイントに対応する特徴を互いに近づくように訓練するステップと、第1の位置および第2の位置でのネガティブポイントに対応する特徴を互いに離れるように訓練するステップと、を実行させる。
これらおよび他の、特徴および利点は、付随する図面と関連して読むことになる、それらの例示的な実施態様の以下の詳細な説明から明らかになる。
本開示は、以下の図を参照して、以下の好ましい実施形態の説明で詳細を提供する。
好ましい実施形態の詳細な説明
対応推定は、3D再構成、画像検索、またはオブジェクト認識など、コンピュータビジョンでのいくつかの根本的な問題を御するワークホースである。サブピクセルの精度を要求する、structure from motionまたはパノラマスティッチングなどの適用は、記述子を使用する、疎なキーポイントマッチに依拠する。その他の場合では、ステレオ視差、オプティカルフロー、または、密な軌跡の形式での、密な対は、表面再構成、トラッキング、ビデオ分析または安定化などの適用に対して使用される。さらに他のシナリオでは、対応は、異なる画像内の同じ3Dポイントの複数の射影の間ではなく、異なる鳥のくちばし、または、車のヘッドライトなど、カテゴリ内の異なるインスタンスにわたる複数の意味的類似体の間で捜し求められる。したがって、その最も一般的な形式では、視覚対応推定の概念は、低レベルの特徴マッチングから、高レベルのオブジェクトまたはシーンの理解までの範囲に及ぶ。
対応推定は、3D再構成、画像検索、またはオブジェクト認識など、コンピュータビジョンでのいくつかの根本的な問題を御するワークホースである。サブピクセルの精度を要求する、structure from motionまたはパノラマスティッチングなどの適用は、記述子を使用する、疎なキーポイントマッチに依拠する。その他の場合では、ステレオ視差、オプティカルフロー、または、密な軌跡の形式での、密な対は、表面再構成、トラッキング、ビデオ分析または安定化などの適用に対して使用される。さらに他のシナリオでは、対応は、異なる画像内の同じ3Dポイントの複数の射影の間ではなく、異なる鳥のくちばし、または、車のヘッドライトなど、カテゴリ内の異なるインスタンスにわたる複数の意味的類似体の間で捜し求められる。したがって、その最も一般的な形式では、視覚対応推定の概念は、低レベルの特徴マッチングから、高レベルのオブジェクトまたはシーンの理解までの範囲に及ぶ。
慣例上、対応推定は、人手により設計された特徴、または、対象領域固有の事前分布に依拠する。近年では、視覚対応を推定するために畳み込みニューラルネットワーク(CNN)のパワーを活かすことの関心が増大してきている。例えば、サイアミーズ(Siamese)ネットワークが、一組の画像パッチを取り込み、それらのパッチの類似度を出力として生成することができる。また、上記のCNNからの中間畳み込み層活性化が、一般特徴として使用可能である。
しかしながら、そのような中間活性化は、視覚対応タスクに対して最適化されない。そのような特徴は、代理目的関数(パッチ類似度)に対して訓練され、視覚対応に対する距離空間を必ずしも形成せず、したがって、距離などの距離演算も、明示的な解釈を備えない。加えて、パッチ内の重複領域に関してさえも特徴を抽出しなければならないので、パッチ類似度は、本質的に非効率的である。さらに、パッチ類似度は、n個のパッチの各々を、異なる画像内のn個の他のパッチと比較するために、O(n2)のフィードフォワードパスを必要とする。
これに対して、例示的な実施形態は、ユニバーサル対応ネットワーク(UCN)、すなわち、幾何学的視覚対応および意味的視覚対応の両方を学習する、CNNベースの一般の識別フレームワークを提示する。パッチ類似度に対する多くの以前のCNNとは異なり、例示的な実施形態は、深層距離学習を使用して、一般の対応に対する類似度(幾何学的または意味的のいずれか)を保つマッピングまたは特徴を直接学習する。したがって、マッピングは、射影変換、クラス内の形状もしくはアピアランスの変動、または、考慮した類似度に無関係である任意の他の変動に対して不変である。例示的な実施形態は、計算を効率的に分担し、特徴空間内の近傍関係を効果的に符号化することにより、より高速な訓練を可能とする、新規の対応コントラスティブ損失を提案する。テスト時間に、対応は、ペアパッチ類似度を評価することよりも効率的である、特徴空間内の最近傍探索を縮小する。
UCNは完全畳み込みであり、そのことによって、密な特徴の効率的な生成が可能となる。例示的な実施形態は、より高速な訓練のための、オンザフライのアクティブハードネガティブマイニング方策を提案する。加えて、例示的な実施形態は、特定の変換群に対して不変にするように特徴を設計した、畳み込み空間変換器と呼ばれる、空間変換器の新規の適応を提案する。アフィン変換を補償する最適な特徴空間を学習することにより、畳み込み空間変換器は、記述子の疑似パッチ正規化の能力を与える。
UCNの能力は、いくつかの重要な従来の手法と比較される。経験的には、UCNから取得した対応は密であり、特定タスク専用のほとんどの従来手法よりも精密である。このことは実験的には、KITTI(Karlsruhe Institute of Technology and Toyota Technological Institute at Chicago)に関する疎なSFM(structure from motion)、ならびに、様々な他のデータセットの剛体および非剛体の両方についての、密な幾何学的対応または意味的対応に関する、現状技術の性能を示すことにより実証される。
要約すると、例示的な実施形態は、以下の主な寄与を伴う、対象領域から独立した、一般的な対応目的を最適化する、新規のエンドツーエンドシステムを提案する。
対応タスクとマッチングする特徴表現を学習するための、効率的な対応コントラスティブ損失を伴う深層計量学習。
高速なアクティブハードネガティブマイニングを併せた、密な、および効率的な特徴抽出のための完全畳み込みネットワーク。
パッチ正規化のための完全畳み込み空間変換器。
剛体、非剛体、および、クラス内の形状またはアピアランスの変動を包括的に含む、疎なSFM、密なマッチング、および意味的マッチングにわたる、現状技術の対応。
ここで、同一の数字が、同じまたは同様の要素を表す図を詳細に参照し、初めに図1を参照すると、本発明の実施形態による、一連の畳み込みと、畳み込み空間変換器と、を含んでいる完全畳み込みニューラルネットワークが示されている。
システムネットワーク100は、特徴マップ130および正規化線形ユニット(ReLU)を生み出すための一連の畳み込みと、対応コントラスティブ損失が後に続く畳み込み空間変換器と、からなる完全畳み込みネットワークである。入力として、ネットワーク100は、一組の画像110、120、および、これらの画像内の対応するポイントの座標を取り込む。(画像110、120の両方からの)複数のポジティブポイントに対応する複数の特徴が、互いに近づくように訓練され、複数のネガティブポイントに対応する複数の特徴が、互いに離れるように訓練される。ネットワーク100は、パッチを正規化することができる畳み込み空間変換器140を備えている。
視覚特徴は、多くのコンピュータビジョン用途に対する基本的なビルディングブロックを形成する。慎重に設計された特徴およびカーネル方法は、structure from motion、オブジェクト認識、および画像分類など、多くの分野に影響を及ぼしてきた。
最近では、多くのCNNベースの類似度測定が提案されている。1つの例では、サイアミーズネットワークが、パッチ類似度を測定するために使用することができる。駆動データセットが、最近の研究作業における、パッチ類似度に関するCNNを訓練するために使用され、一方で、他の研究作業はさらには、ステレオマッチングのためにパッチ類似度を測定するサイアミーズネットワークを使用する。ImageNetに関してあらかじめ訓練されたCNNが、視覚対応および意味的対応を分析できる。粒度の細かいデータセットでの関係性を活用することにより、アピアランスおよびグローバル形状変形の両方にわたる種々の作業において、対応が学習される。これに対して、本発明の例示的な実施形態は、パッチ類似度を最適化することよりはむしろ、距離空間を学習し、完全畳み込みアーキテクチャを、より高速な訓練およびテスティングを可能とする対応コントラスティブ損失によって実装し、局所的パッチ正規化のための畳み込み空間変換器を提案する。
ニューラルネットワークは、空間内のユークリッド距離が意味的距離を保つ、マッピングを学習するために使用される。サイアミーズネットワークを使用して類似度計量を学習するための損失関数が、引き続いて形式化できる。最近では、トリプレット損失が、粒度の細かい画像ランク付けに対して使用されたが、一方で、トリプレット損失が、顔認識およびクラスタリングに対して使用された。ミニバッチが、ネットワークを効率的に訓練するために使用できる。
CNNは、畳み込み層およびプーリング層のために、並進およびスケールなど、一部のタイプの変換に対して不変である。しかしながら、そのような不変性を、データオーギュメンテーション(data augmentation)、または、明示的なネットワーク構造の形式で明示的に処理することが、多くのタスクのより高い精度をもたらす。最近では、関心対象へのズームインの仕方、回転の仕方、または、任意の変換の適用の仕方を学習するために、空間変換器ネットワークが提案された。
セグメンテーションのための完全畳み込みフレームワークを提案するために、全結合層が、1×1畳み込みフィルタにて転換される。通常のCNNを、検出用の完全畳み込みネットワークに変更することは、スピードおよび精度の増進につながる。これらの研究作業と同様に、完全畳み込みアーキテクチャの効率は、活性化を重複領域に対して再使用することによって上昇する。さらに、訓練事例の数は、バッチ内の画像の数をはるかに超えるので、勾配の分散が低下し、そのことは、より高速な訓練および収束につながる。
図2は、本発明の実施形態による、対応するコントラスティブ損失200を示す図である。
ユニバーサル対応ネットワーク(UCN)は、代理特徴に依拠する代わりに、類似度を保存するマッピングを直接学習するように訓練される。アーキテクチャの完全畳み込み性質、より高速な訓練およびテスティングのための新規の対応コントラスティブ損失、アクティブハードネガティブマイニング、ならびに、パッチ正規化を可能にする畳み込み空間変換器を提示する。
訓練をスピードアップし、リソースを効率的に使用するために、例示的な実施形態は、いくつかの利益を備える完全畳み込み特徴学習を実装する。第1に、ネットワークは、重複領域に対して計算された活性化の一部を再使用することができる。第2に、数千個の対応が、各画像対に対して訓練でき、そのことは、ネットワークに、より高速な学習のための精密な勾配をもたらす。第3に、ハードネガティブマイニングは、引き続いて論じるように、効率的であり、わかりやすい。第4に、パッチベースの方法とは異なり、任意のサイズの画像から密な特徴を効率的に抽出するために使用できる。
テスティングの間、完全畳み込みネットワークは、より高速でもある。パッチ類似度ベースのネットワークは、O(n2)のフィードフォワードパスを必要とする。ここで、本発明者らのネットワークのO(n)のみと比較して、nは、各画像内のキーポイントの数である。中間層活性化を代理マッピングとして抽出することは、それらの活性化が視覚対応タスクに関して直接訓練されないので、比較的には最適以下の選択であるということに注目したい。
視覚対応に対する距離空間を学習することは、特徴空間内の近傍ポイントにマッピングすべき、(異なるビューでの)対応するポイントを符号化することを必要とする。制約を符号化するために、対応コントラスティブ損失と呼ぶ、コントラスティブ損失の一般化を提案する。
各画像対に関して、対応が、訓練セットからサンプリングされる。実例として、KITTIデータセットに関し、各レーザスキャンポイントが使用される場合、最高で10万個のポイントが、単一の画像対で使用することができる。しかしながら、実際には、3000個の対応が、メモリ消費を制限するために使用される。このことによって、画像対あたり1つの例を与える、伝統的なコントラスティブ損失より精密な勾配計算が可能となる。テスト時間でのフィードフォワードパスの数は、サイアミーズネットワーク変形例のO(n2)と比較して、O(n)であるということに注目したい。以下に再掲する表2は、対応コントラスティブ損失を伴う完全畳み込みアーキテクチャの利点を要約するものである。
式(1)の対応コントラスティブ損失は、2つの項からなる。第1の項は、ポジティブ対の間の距離を最小にし、第2の項は、ネガティブ対に、少なくともマージンmだけ互いに離れるように強いる。したがって、第2の項は、特徴
代わりに、訓練を劇的にスピードアップするために、制約を最大限に破る、マインネガティブ対が活性化される。特徴が第1の画像から抽出され、最近傍を第2の画像内で探し出す。位置がグラウンドトルス対応位置から遠い場合、例示的な実施形態は、対をネガティブとして使用する。最近傍が、第1の画像上のすべてのグラウンドトルスポイントに対して計算される。そのようなマイニングプロセスは、2つの画像それぞれのmおよびn個の特徴ポイントに対するO(mn)の比較を必要とするので、時間がかかる。行われた実験は、nに対して数千個のポイントを使用し、mは、22000もの大きさである、第2の画像上のすべての特徴である。本発明の例示的な実施形態は、GPU実装を使用して、K−NN探索をスピードアップし、そのGPU実装をCaffe層として埋め込んで、ハードネガティブをオンザフライで活性的にマイニングする。
図3は、本発明の実施形態による、畳み込み空間変換器300である。
CNNは、ある程度のスケールおよび回転不変性を処理することが知られている。しかしながら、データオーギュメンテーション、または、特殊なネットワーク構造を使用して明示的に空間変換を処理することは、多くのタスクで、より成功しているということが示されている。視覚対応に対しては、伝統的にはパッチ正規化によって実現される、正しいスケールおよび回転を探し出すことが肝要である。一連の単純な畳み込みおよびプーリングは、そのような複雑な空間変換をまねることはできない。
パッチ正規化をまねるために、空間変換器層の着想が使用される。しかしながら、グローバルな画像変換の代わりに、画像内の各キーポイントが、独立した変換を経験することができる。したがって、例示的な実施形態は、畳み込み空間変換器と呼ぶ、変換された活性化を生成するための畳み込みバージョンを提案する。このことはとりわけ、大きなクラス内形状変動にわたる対応にとって重要である。
提案した変換器は、その入力を、より低い層から取り込み、各特徴に対して、独立した空間変換を適用する。また、変換パラメータが、畳み込みによって抽出される。それらのパラメータは、独立した変換を経るので、変換された活性化は、重複なしに、より大きな活性化の内側に置かれ、その後、その変換された活性化を独立して組み合わせるために、ストライドを伴う、連続した畳み込みを経る。ストライドサイズは、空間変換器カーネルサイズのサイズと等しくなければならない。図3は、畳み込み空間変換器モジュールを示す。
図4は、本発明の実施形態による、畳み込みニューラルネットワーク(CNN)を訓練するための方法のブロック/フロー図である。
ブロック410で、第1の位置および第2の位置での対応するポイントの座標が抽出される。
ブロック420で、第1の位置および第2の位置でのポジティブポイントが識別される。
ブロック430で、第1の位置および第2の位置でのネガティブポイントが識別される。
ブロック440で、第1の位置および第2の位置のポジティブポイントに対応する特徴が互いに近づくように訓練される。
ブロック450で、第1の位置および第2の位置でのネガティブポイントに対応する特徴が互いに離れるように訓練される。
本発明の利点は、(i)距離空間内の特徴が、視覚対応目的を最適化するために直接に学習されるので、特徴マッチングでのより高い精度、(ii)重複領域での活性化の再使用による、より効率的な訓練、(iii)数千個の対応を画像対毎に訓練することができるので、より高速な訓練、および、(iv)ハードネガティブマイニングは、効率的であり、わかりやすく、そのことが、より高い精度につながるということを含む。本発明の利点を可能にするキーステップは、(i)代理パッチ類似度目的を最適化するよりむしろ、特徴空間内の距離を直接に学習する対応コントラスティブ損失層、(ii)精度の増大のための、ハードネガティブマイニングによる対応コントラスティブ損失に対する効率的な訓練のためのアルゴリズム、ならびに、(iii)完全畳み込み空間変換器を通して回転およびスケーリング効果を処理することができるパッチ正規化である。
実験では、ニューラルネットワーク最適化のためのCaffeパッケージが使用された。Caffeは、表現力、スピード、およびモジュール性を念頭に置いて作製された深層学習フレームワークである。そのCaffeは、Berkeley Vision and Learning Center(BVLC)により、および、コミュニティコントリビュータにより開発されている。Caffeは、応用および技術革新を促進する、表現力に富むアーキテクチャである。モデルおよび最適化は、ハードコーディングなしに、コンフィギュレーションにより定められる。ユーザは、グラフィックス処理ユニット(GPU)マシン上で訓練し、その後、コモディティクラスタまたはモバイルデバイスを展開するように、単一のフラグをセットすることにより、中央処理ユニット(CPU)とGPUとの間を切り替えることができる。また、Caffeは、能動的な開発を助長する拡張可能コードである。加えて、スピードによってCaffeは、研究実験および産業展開にとって役立つものとなる。Caffeは、単一のNVIDIA(登録商標)K40 GPU(グラフィックス処理ユニット)で、1日あたり6000万個を超える画像を処理することができる。
Caffeは、本明細書で提案する新しい層をサポートしないので、例示的な実施形態は、対応コントラスティブ損失層および畳み込み空間変換器層、K−NN層およびチャネル単位L2正規化層を実装する。例示的な実施形態は、ネットワークを完全畳み込みにして、特徴を4ピクセルごとに生成するために、平坦化層も全結合層も使用しなかった。精密な局所化のために、例示的な実施形態は、バイリニア補間を使用して密に特徴を抽出して、量子化誤差を低くする。
結論として、視覚対応推定に対する新規の深層距離学習手法が、代理パッチ類似度目的を最適化する手法よりも有利であることが示される。例示的な実施形態は、完全畳み込みアーキテクチャでの対応コントラスティブ損失、オンザフライのアクティブハードネガティブマイニング、および畳み込み空間変換器などの、いくつかの技術革新を提案する。これらの技術革新は、より効率的な訓練、精密な勾配計算、より高速なテスティング、および局所的パッチ正規化などの能力を加え、そのことが、スピードまたは精度の改善につながる。例示的な実施形態は、空間事前分布または大域的最適化を使用しなくても、幾何学的対応タスクおよび意味的対応タスクの両方に関して、特徴が、従来の現状技術よりよく働くということを実験で実証する。
本明細書で説明する実施形態は、全体的にハードウェア、全体的にソフトウェアであってもよく、または、ハードウェア要素およびソフトウェア要素の両方を含んでいてもよい。好ましい実施形態では、本発明は、ファームウェア、常駐ソフトウェア、マイクロコード、その他を含む、ただしそれらに制限されない、ソフトウェアで実装される。
実施形態は、コンピュータもしくは任意の命令実行システムにより、または、関連して、使用のために、プログラムコードを提供するコンピュータ使用可能またはコンピュータ可読媒体からアクセス可能な、コンピュータプログラム製品を含んでもよい。コンピュータ使用可能またはコンピュータ可読媒体は、命令実行システム、装置、もしくはデバイスによって、または、関連して、使用のために、プログラムを記憶する、伝達する、伝搬する、または搬送する、任意の装置を含んでもよい。媒体は、磁気、光学、電子、電磁気、赤外、もしくは半導体のシステム(または、装置もしくはデバイス)、または伝搬媒体であってもよい。媒体は、半導体または固体メモリ、磁気テープ、リムーバブルコンピュータディスケット、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、リジッド磁気ディスク、および、光学ディスクなどの、コンピュータ可読記憶媒体を含んでもよい。
本明細書で説明する手続を実行するために、記憶媒体またはデバイスがコンピュータにより読み出されるときに、コンピュータの動作を構築および制御するために、各コンピュータプログラムは、汎用または専用プログラマブルコンピュータにより可読な、機械可読記憶媒体またはデバイス(例えば、プログラムメモリまたは磁気ディスク)に有形に記憶されてもよい。また、本発明のシステムは、コンピュータ可読記憶媒体で実施され、コンピュータプログラムで構成されると考えてもよく、その場合、そのように構成された記憶媒体は、本明細書で説明する機能を実行するために、特定の、および、あらかじめ定められた方法でコンピュータを動作させる。
プログラムコードを記憶および/または実行するのに適したデータ処理システムは、システムバスを通してメモリ要素に直接または間接的に結合されている、少なくとも1つのプロセッサを含んでいてもよい。メモリ要素は、プログラムコードの実際の実行の間に用いられるローカルメモリ、バルク記憶装置、および、実行の間にバルク記憶装置からコードが検索される回数の数を減らすために少なくとも何らかのプログラムコードの一時的な記憶を提供するキャッシュメモリを含むことがある。入出力すなわちI/Oデバイス(キーボード、ディスプレイ、ポインティングデバイスなどを含むが、それらに制限されない)が、直接に、または、介在I/Oコントローラを通して、システムに結合されていてもよい。
また、ネットワークアダプタは、データ処理システムを、構内または公衆のネットワークを介在することを通して、他のデータ処理システム、またはリモートプリンタ、または記憶デバイスに結合できるように、システムに結合されていてもよい。モデム、ケーブルモデム、およびEthernet(登録商標)カードは、現在利用可能なタイプのネットワークアダプタの、ほんのわずかなものである。
ここで図5を参照すると、例示的な処理システム600が示されている。処理システム600は、システムバス602を介して他の構成要素に動作可能に結合されている、少なくとも1つのプロセッサ(CPU)604を含む。キャッシュ606、読み出し専用メモリ(ROM)608、ランダムアクセスメモリ(RAM)610、入出力(I/O)アダプタ620、ネットワークアダプタ640、ユーザインターフェイスアダプタ650、およびディスプレイアダプタ660が、システムバス602に動作可能に結合されている。ディスプレイデバイス662を、ディスプレイアダプタ660によりシステムバス602に動作可能に結合することができる。
当然ながら、処理システム600はさらには、当業者により容易に予想されるような他の要素(図示せず)を含んでいてもよく、いくつかの要素を省略してもよい。例えば、当業者により容易に理解されるような、様々な他の入力デバイスおよび/または出力デバイスが、処理システム600に、その処理システム600の個別の実装形態に依存して含まれていてもよい。例えば、様々なタイプの無線および/または有線の入力および/または出力デバイスを使用することができる。また、様々な構成において、当業者により容易に察知されるように、追加的なプロセッサ、コントローラ、メモリ等々が利用できる。処理システム600のこれらおよび他の変形形態は、本明細書で提供する本原理の教示を与えられれば、当業者により容易に予想される。
上記は、あらゆる事項で、説明的かつ例示的であり、限定的ではないと理解すべきであり、本明細書で開示する本発明の範囲を、詳細な説明からではなく、むしろ、特許請求の範囲から、特許法により許される最大限の広さによって解釈するように決定すべきである。本明細書で示し、記載した実施形態は、本発明の原理の例示であり、当業者が、様々な修正形態を、本発明の範囲および趣旨から外れることなく実装することがあるということを理解すべきである。当業者は、本発明の範囲および趣旨から外れることなく、様々な他の特徴の組み合わせを実装できる。したがって、本発明の態様を、特許法で要求される詳細および特殊性とともに説明したが、特許証により保護される、請求および所望するものは、添付の特許請求の範囲に記されている。
Claims (18)
- 畳み込みニューラルネットワーク(CNN)を訓練するためのコンピュータ実装方法であって、
第1の位置および第2の位置での対応するポイントの座標を抽出し、
前記第1の位置および前記第2の位置でのポジティブポイントを識別し、
前記第1の位置および前記第2の位置でのネガティブポイントを識別し、
前記第1の位置および前記第2の位置のポジティブポイントに対応する特徴を互いに近づくように訓練し、
前記第1の位置および前記第2の位置でのネガティブポイントに対応する特徴を互いに離れるように訓練する、ことを含む、コンピュータ実装方法。 - 前記CNNは、回転およびスケーリングを処理するためにパッチを正規化するための完全畳み込み空間変換器を備える、請求項1に記載の方法。
- 前記畳み込み空間変換器は、下層活性化に空間変換を適用する、請求項2に記載の方法。
- コントラスティブ損失層が、前記第1の位置および前記第2の位置の前記特徴の間の距離を符号化する、請求項1に記載の方法。
- コントラスティブ損失層が、ハードネガティブマイニングにより、および、重複領域での活性化を再使用することにより訓練される、請求項1に記載の方法。
- 制約を破るハードネガティブ対がマイニングされる、請求項5に記載の方法。
- 畳み込みニューラルネットワーク(CNN)を訓練するためのシステムであって、
メモリと、
前記メモリと通信するプロセッサと、を有し、
前記プロセッサは、
第1の位置および第2の位置での対応するポイントの座標を抽出し、
前記第1の位置および前記第2の位置でのポジティブポイントを識別し、
前記第1の位置および前記第2の位置でのネガティブポイントを識別し、
前記第1の位置および前記第2の位置のポジティブポイントに対応する特徴を互いに近づくように訓練し、
前記第1の位置および前記第2の位置でのネガティブポイントに対応する特徴を互いに離れるように訓練するように構成されている、システム。 - 前記CNNは、回転およびスケーリングを処理するためにパッチを正規化するための完全畳み込み空間変換器を備える、請求項7に記載のシステム。
- 前記畳み込み空間変換器は、下層活性化に空間変換を適用する、請求項8に記載のシステム。
- コントラスティブ損失層が、前記第1の位置および前記第2の位置の前記特徴の間の距離を符号化する、請求項7に記載のシステム。
- コントラスティブ損失層が、ハードネガティブマイニングにより、および、重複領域での活性化を再使用することにより訓練される、請求項7に記載のシステム。
- 制約を破るハードネガティブ対がマイニングされる、請求項11に記載のシステム。
- 畳み込みニューラルネットワーク(CNN)を訓練するためのコンピュータ可読プログラムを有する非一時的コンピュータ可読記憶媒体であって、前記コンピュータ可読プログラムは、コンピュータ上で実行されるときに、前記コンピュータに、
第1の位置および第2の位置での対応するポイントの座標を抽出するステップと、
前記第1の位置および前記第2の位置でのポジティブポイントを識別するステップと、
前記第1の位置および前記第2の位置でのネガティブポイントを識別するステップと、
前記第1の位置および前記第2の位置のポジティブポイントに対応する特徴を互いに近づくように訓練するステップと、
前記第1の位置および前記第2の位置でのネガティブポイントに対応する特徴を互いに離れるように訓練するステップと、
を実行させる、非一時的コンピュータ可読記憶媒体。 - 前記CNNは、回転およびスケーリングを処理するためにパッチを正規化するための完全畳み込み空間変換器を備える、請求項13に記載の非一時的コンピュータ可読記憶媒体。
- 前記畳み込み空間変換器は、下層活性化に空間変換を適用する、請求項14に記載の非一時的コンピュータ可読記憶媒体。
- コントラスティブ損失層が、前記第1の位置および前記第2の位置の前記特徴の間の距離を符号化する、請求項13に記載の非一時的コンピュータ可読記憶媒体。
- コントラスティブ損失層が、ハードネガティブマイニングにより、および、重複領域での活性化を再使用することにより訓練される、請求項13に記載の非一時的コンピュータ可読記憶媒体。
- 制約を破るハードネガティブ対がマイニングされる、請求項17に記載の非一時的コンピュータ可読記憶媒体。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201562250877P | 2015-11-04 | 2015-11-04 | |
US62/250,877 | 2015-11-04 | ||
US15/342,700 US10115032B2 (en) | 2015-11-04 | 2016-11-03 | Universal correspondence network |
US15/342,700 | 2016-11-03 | ||
PCT/US2016/060479 WO2017079529A1 (en) | 2015-11-04 | 2016-11-04 | Universal correspondence network |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2018537766A true JP2018537766A (ja) | 2018-12-20 |
Family
ID=58635843
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018522563A Pending JP2018537766A (ja) | 2015-11-04 | 2016-11-04 | ユニバーサル対応ネットワーク |
Country Status (4)
Country | Link |
---|---|
US (1) | US10115032B2 (ja) |
JP (1) | JP2018537766A (ja) |
DE (1) | DE112016004535T5 (ja) |
WO (1) | WO2017079529A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021527877A (ja) * | 2019-01-31 | 2021-10-14 | 深▲せん▼市商▲湯▼科技有限公司Shenzhen Sensetime Technology Co., Ltd. | 3次元人体姿勢情報の検出方法および装置、電子機器、記憶媒体 |
Families Citing this family (47)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10565496B2 (en) * | 2016-02-04 | 2020-02-18 | Nec Corporation | Distance metric learning with N-pair loss |
CN106909625A (zh) * | 2017-01-20 | 2017-06-30 | 清华大学 | 一种基于Siamese网络的图像检索方法及系统 |
CN110462684B (zh) * | 2017-04-10 | 2023-08-01 | 赫尔实验室有限公司 | 对对象移动进行隐式预测的系统、计算机可读介质与方法 |
US10261903B2 (en) | 2017-04-17 | 2019-04-16 | Intel Corporation | Extend GPU/CPU coherency to multi-GPU cores |
US11164071B2 (en) * | 2017-04-18 | 2021-11-02 | Samsung Electronics Co., Ltd. | Method and apparatus for reducing computational complexity of convolutional neural networks |
US10089556B1 (en) * | 2017-06-12 | 2018-10-02 | Konica Minolta Laboratory U.S.A., Inc. | Self-attention deep neural network for action recognition in surveillance videos |
US10503978B2 (en) * | 2017-07-14 | 2019-12-10 | Nec Corporation | Spatio-temporal interaction network for learning object interactions |
CN107316042A (zh) * | 2017-07-18 | 2017-11-03 | 盛世贞观(北京)科技有限公司 | 一种绘画图像检索方法及装置 |
CN107562805B (zh) * | 2017-08-08 | 2020-04-03 | 浙江大华技术股份有限公司 | 一种以图搜图的方法及装置 |
US10101486B1 (en) | 2017-08-10 | 2018-10-16 | Datacloud International, Inc. | Seismic-while-drilling survey systems and methods |
US10072919B1 (en) | 2017-08-10 | 2018-09-11 | Datacloud International, Inc. | Efficient blast design facilitation systems and methods |
US10762359B2 (en) * | 2017-08-31 | 2020-09-01 | Nec Corporation | Computer aided traffic enforcement using dense correspondence estimation with multi-level metric learning and hierarchical matching |
US10482337B2 (en) * | 2017-09-29 | 2019-11-19 | Infineon Technologies Ag | Accelerating convolutional neural network computation throughput |
US9947103B1 (en) * | 2017-10-03 | 2018-04-17 | StradVision, Inc. | Learning method and learning device for improving image segmentation and testing method and testing device using the same |
US10410350B2 (en) | 2017-10-30 | 2019-09-10 | Rakuten, Inc. | Skip architecture neural network machine and method for improved semantic segmentation |
US10395147B2 (en) * | 2017-10-30 | 2019-08-27 | Rakuten, Inc. | Method and apparatus for improved segmentation and recognition of images |
KR102535411B1 (ko) * | 2017-11-16 | 2023-05-23 | 삼성전자주식회사 | 메트릭 학습 기반의 데이터 분류와 관련된 장치 및 그 방법 |
WO2019102797A1 (ja) * | 2017-11-21 | 2019-05-31 | 富士フイルム株式会社 | ニューラルネットワークの学習方法、学習装置、学習済みモデル及びプログラム |
CN107944551A (zh) * | 2017-12-15 | 2018-04-20 | 福州大学 | 一种用于电润湿显示屏缺陷识别方法 |
US10902294B2 (en) | 2018-01-23 | 2021-01-26 | Insurance Services Office, Inc. | Computer vision systems and methods for machine learning using image hallucinations |
US10989828B2 (en) | 2018-02-17 | 2021-04-27 | Datacloud International, Inc. | Vibration while drilling acquisition and processing system |
US10697294B2 (en) | 2018-02-17 | 2020-06-30 | Datacloud International, Inc | Vibration while drilling data processing methods |
CN108734773A (zh) * | 2018-05-18 | 2018-11-02 | 中国科学院光电研究院 | 一种用于混合图片的三维重建方法及系统 |
CN108985148B (zh) * | 2018-05-31 | 2022-05-03 | 成都通甲优博科技有限责任公司 | 一种手部关键点检测方法及装置 |
WO2019231105A1 (ko) * | 2018-05-31 | 2019-12-05 | 한국과학기술원 | 트리플릿 기반의 손실함수를 활용한 순서가 있는 분류문제를 위한 딥러닝 모델 학습 방법 및 장치 |
CN108921926B (zh) * | 2018-07-02 | 2020-10-09 | 云从科技集团股份有限公司 | 一种基于单张图像的端到端三维人脸重建方法 |
WO2020024079A1 (zh) * | 2018-07-28 | 2020-02-06 | 合刃科技(深圳)有限公司 | 图像识别系统 |
CN109063139B (zh) * | 2018-08-03 | 2021-08-03 | 天津大学 | 基于全景图及多通道cnn的三维模型分类和检索方法 |
JP6902318B2 (ja) * | 2018-08-06 | 2021-07-14 | Kddi株式会社 | ニューラルネットワークの全結合層を畳み込み層に置き換えるプログラム |
CN110874632B (zh) * | 2018-08-31 | 2024-05-03 | 嘉楠明芯(北京)科技有限公司 | 图像识别处理方法和装置 |
US10318842B1 (en) * | 2018-09-05 | 2019-06-11 | StradVision, Inc. | Learning method, learning device for optimizing parameters of CNN by using multiple video frames and testing method, testing device using the same |
EP3637303B1 (en) * | 2018-10-09 | 2024-02-14 | Naver Corporation | Methods for generating a base of training images, for training a cnn and for detecting a poi change in a pair of inputted poi images using said cnn |
US11055866B2 (en) * | 2018-10-29 | 2021-07-06 | Samsung Electronics Co., Ltd | System and method for disparity estimation using cameras with different fields of view |
KR102219561B1 (ko) * | 2018-11-23 | 2021-02-23 | 연세대학교 산학협력단 | 대응점 일관성에 기반한 비지도 학습 방식의 스테레오 매칭 장치 및 방법 |
CN110009679B (zh) * | 2019-02-28 | 2022-01-04 | 江南大学 | 一种基于多尺度特征卷积神经网络的目标定位方法 |
CN110288089B (zh) * | 2019-06-28 | 2021-07-09 | 北京百度网讯科技有限公司 | 用于发送信息的方法和装置 |
US11003501B2 (en) * | 2019-07-03 | 2021-05-11 | Advanced New Technologies Co., Ltd. | Loading models on nodes having multiple model service frameworks |
CN111461255B (zh) * | 2020-04-20 | 2022-07-05 | 武汉大学 | 一种基于间隔分布的Siamese网络图像识别方法及系统 |
WO2021216310A1 (en) * | 2020-04-21 | 2021-10-28 | Google Llc | Supervised contrastive learning with multiple positive examples |
AU2021259170B2 (en) | 2020-04-21 | 2024-02-08 | Google Llc | Supervised contrastive learning with multiple positive examples |
CN111524166B (zh) * | 2020-04-22 | 2023-06-30 | 北京百度网讯科技有限公司 | 视频帧的处理方法和装置 |
US11809988B2 (en) | 2020-06-22 | 2023-11-07 | Mitsubishi Electric Research Laboratories, Inc. | Artificial intelligence system for classification of data based on contrastive learning |
CN111931937B (zh) * | 2020-09-30 | 2021-01-01 | 深圳云天励飞技术股份有限公司 | 图像处理模型的梯度更新方法、装置及系统 |
CN112712460B (zh) * | 2020-12-09 | 2024-05-24 | 杭州妙绘科技有限公司 | 肖像画生成的方法、装置、电子设备及介质 |
EP4233016A1 (en) * | 2020-12-22 | 2023-08-30 | Huawei Technologies Co., Ltd. | Apparatus and method for automatic keypoint and description extraction |
CN112668627A (zh) * | 2020-12-24 | 2021-04-16 | 四川大学 | 一种基于对比学习的大规模图像在线聚类系统及方法 |
CN114170516B (zh) * | 2021-12-09 | 2022-09-13 | 清华大学 | 一种基于路侧感知的车辆重识别方法、装置及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005515529A (ja) * | 2001-12-27 | 2005-05-26 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | ビデオ中の追跡されたオブジェクトの軌跡を効果的に記憶する方法 |
JP2009205553A (ja) * | 2008-02-28 | 2009-09-10 | Kanazawa Inst Of Technology | 画像生成装置およびその方法 |
US20140019390A1 (en) * | 2012-07-13 | 2014-01-16 | Umami, Co. | Apparatus and method for audio fingerprinting |
JP2015032308A (ja) * | 2013-07-31 | 2015-02-16 | 富士通株式会社 | 畳み込みニューラルネットワークの分類器、及びその分類方法、訓練方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7648460B2 (en) | 2005-08-31 | 2010-01-19 | Siemens Medical Solutions Usa, Inc. | Medical diagnostic imaging optimization based on anatomy recognition |
US20080043144A1 (en) * | 2006-08-21 | 2008-02-21 | International Business Machines Corporation | Multimodal identification and tracking of speakers in video |
US9668699B2 (en) * | 2013-10-17 | 2017-06-06 | Siemens Healthcare Gmbh | Method and system for anatomical object detection using marginal space deep neural networks |
US20170098162A1 (en) * | 2015-10-06 | 2017-04-06 | Evolv Technologies, Inc. | Framework for Augmented Machine Decision Making |
US9710898B2 (en) * | 2015-11-18 | 2017-07-18 | Adobe Systems Incorporated | Image synthesis utilizing an active mask |
US9881234B2 (en) * | 2015-11-25 | 2018-01-30 | Baidu Usa Llc. | Systems and methods for end-to-end object detection |
US10565496B2 (en) * | 2016-02-04 | 2020-02-18 | Nec Corporation | Distance metric learning with N-pair loss |
-
2016
- 2016-11-03 US US15/342,700 patent/US10115032B2/en active Active
- 2016-11-04 WO PCT/US2016/060479 patent/WO2017079529A1/en active Application Filing
- 2016-11-04 JP JP2018522563A patent/JP2018537766A/ja active Pending
- 2016-11-04 DE DE112016004535.2T patent/DE112016004535T5/de active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005515529A (ja) * | 2001-12-27 | 2005-05-26 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | ビデオ中の追跡されたオブジェクトの軌跡を効果的に記憶する方法 |
JP2009205553A (ja) * | 2008-02-28 | 2009-09-10 | Kanazawa Inst Of Technology | 画像生成装置およびその方法 |
US20140019390A1 (en) * | 2012-07-13 | 2014-01-16 | Umami, Co. | Apparatus and method for audio fingerprinting |
JP2015032308A (ja) * | 2013-07-31 | 2015-02-16 | 富士通株式会社 | 畳み込みニューラルネットワークの分類器、及びその分類方法、訓練方法 |
Non-Patent Citations (2)
Title |
---|
SEAN BELL ET AL.: "Learning visual similarity for product design with convolutional neural networks", ACM TRANSACTIONS ON GRAPHICS (TOG), vol. Volume34 Issue4,August2015,Article No.98, JPN7019002106, 27 July 2015 (2015-07-27), US, pages 1 - 10, ISSN: 0004218285 * |
SOREN KAAE SONDERBY ET AL.: "Recurrent Spatial Transformer Networks", ONLINE, vol. arXiv:1509.05329, JPN6019024983, 17 September 2015 (2015-09-17), US, pages 1 - 6, XP055381703, ISSN: 0004218286 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021527877A (ja) * | 2019-01-31 | 2021-10-14 | 深▲せん▼市商▲湯▼科技有限公司Shenzhen Sensetime Technology Co., Ltd. | 3次元人体姿勢情報の検出方法および装置、電子機器、記憶媒体 |
Also Published As
Publication number | Publication date |
---|---|
US20170124711A1 (en) | 2017-05-04 |
DE112016004535T5 (de) | 2018-06-21 |
US10115032B2 (en) | 2018-10-30 |
WO2017079529A1 (en) | 2017-05-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2018537766A (ja) | ユニバーサル対応ネットワーク | |
US10740897B2 (en) | Method and device for three-dimensional feature-embedded image object component-level semantic segmentation | |
Zhang et al. | Visual place recognition: A survey from deep learning perspective | |
Wang et al. | Transvpr: Transformer-based place recognition with multi-level attention aggregation | |
Verma et al. | Feastnet: Feature-steered graph convolutions for 3d shape analysis | |
Deng et al. | A Survey of Non‐Rigid 3D Registration | |
EP3417425B1 (en) | Leveraging multi cues for fine-grained object classification | |
US8861800B2 (en) | Rapid 3D face reconstruction from a 2D image and methods using such rapid 3D face reconstruction | |
US9014480B2 (en) | Identifying a maximally stable extremal region (MSER) in an image by skipping comparison of pixels in the region | |
US20180012411A1 (en) | Augmented Reality Methods and Devices | |
Kadam et al. | Detection and localization of multiple image splicing using MobileNet V1 | |
JP2019169125A (ja) | 六角形空間マップにおけるベクトルナビゲーションのためのコンテキストベースの経路計画 | |
WO2019171628A1 (en) | Image processing system and image processing method | |
JP2023059794A (ja) | 全方位場所認識のためのリフトされたセマンティックグラフ埋め込み | |
US20230326173A1 (en) | Image processing method and apparatus, and computer-readable storage medium | |
US11676406B2 (en) | System and method of augmenting a three-dimensional objects training dataset | |
JP2023502653A (ja) | 人工知能ニューラルネットワークの推論または訓練に対する、故意に歪みを制御する撮像装置の利用 | |
CN114049515A (zh) | 图像分类方法、系统、电子设备和存储介质 | |
CN116189265A (zh) | 基于轻量化语义Transformer模型的素描人脸识别方法、装置及设备 | |
CN108876716A (zh) | 超分辨率重建方法及装置 | |
US20230177637A1 (en) | Method for fast domain adaptation from perspective projection image domain to omnidirectional image domain in machine perception tasks | |
CN110717405A (zh) | 人脸特征点定位方法、装置、介质及电子设备 | |
Zhao et al. | Learning probabilistic coordinate fields for robust correspondences | |
Zhang et al. | Upsampling autoencoder for self-supervised point cloud learning | |
Han et al. | BLNet: Bidirectional learning network for point clouds |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180627 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190626 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190702 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20200225 |