JP2018537766A

JP2018537766A - ユニバーサル対応ネットワーク

Info

Publication number: JP2018537766A
Application number: JP2018522563A
Authority: JP
Inventors: マンモハンチャンドラカー、; シルヴィオサヴァレッセ、; クリストファーボングゾーチョイ、
Original assignee: NEC Laboratories America Inc
Current assignee: NEC Laboratories America Inc
Priority date: 2015-11-04
Filing date: 2016-11-04
Publication date: 2018-12-20
Also published as: US20170124711A1; WO2017079529A1; DE112016004535T5; US10115032B2

Abstract

畳み込みニューラルネットワーク（ＣＮＮ）を訓練するためのコンピュータ実装方法を提示する。方法は、第１の位置および第２の位置での対応するポイントの座標を抽出し、第１の位置および第２の位置でのポジティブポイントを識別し、第１の位置および第２の位置でのネガティブポイントを識別し、第１の位置および第２の位置のポジティブポイントに対応する特徴を互いに近づくように訓練し、第１の位置および第２の位置でのネガティブポイントに対応する特徴を互いに離れるように訓練することを含む。

Description

関連出願情報
この出願は、本明細書に参照によりその全体が組み込まれている、２０１５年１１月４日に出願した、仮出願第62/250,877号の優先権を主張する。

本発明は、画像処理に関し、より詳しくは、幾何学的および意味的対応のためのエンドツーエンド完全畳み込み（ｆｕｌｌｙｃｏｎｖｏｌｕｔｉｏｎａｌ）特徴学習に関するが、それらに制限されない。

関連技術の説明
視覚対応問題では、重複３Ｄ領域を含む複数の画像のセットが与えられ、すべての画像での３Ｄポイントの射影の位置を探し出すことを求められる。この問題は、ステレオ視差、structure from motion、パノラマスティッチング、画像表現、画像検索、ならびに、分類および検出などの、より込み入ったタスクを含む、いくつかのコンピュータビジョンアプリケーションで生じる。

視覚対応問題を解決するために、人手により設計された多くの特徴が提案されてきた。最近では、強力な畳み込みニューラルネットワーク（ＣＮＮ）の出現とともに、多くの研究者が、この新しいツールによって、該問題に戻ってきた。特徴を学習するよりむしろ、ＣＮＮは、パッチ類似度のエンドツーエンド分類を行うことができる。

ＣＮＮが訓練されると、中間畳み込み層特徴が、低次元特徴として使用される。しかしながら、中間畳み込み特徴は、視覚対応タスクに対して最適化されない。特徴は、代理目的関数（パッチ類似度）に対して訓練され、中間特徴は、視覚対応を行う助けになる距離空間（ｍｅｔｒｉｃｓｐａｃｅ）を必ずしも形成しない。加えて、パッチ類似度は、本質的に非効率的であり、遅い。そのパッチ類似度は、パッチベースの方法であるので、たとえ重複領域でも、特徴を再び抽出しなければならない。また、そのパッチ類似度は、ｎ個のパッチの各々を、異なる画像のｎ個の他のパッチと比較するために、Ｏ（ｎ^２）のフィードフォワードパスを必要とする。それでもなお、パッチベースの類似度は、いくつかの理由で、好ましい方法であった。第１に、すべてのベンチマークは、画像パッチ類似度を必要とするだけであるので、パッチ類似度（分類）に対してシステムを最適化することは、距離空間を学習すること（距離学習）よりもよい結果を生むことになる。第２に、ニューラルネットワークは、細かなディテールを抽象化することが得意であるので、ＣＮＮは、グローバルな類似度を測定するための適切なツールである。

畳み込みニューラルネットワークのシステムおよび視覚対応のための訓練方法を提示する。システムは、様々な対応タスクに対して使用することができる密な特徴に画像を変換する。特徴空間は、距離演算が視覚類似度を取得する距離空間を生成する。システムは、完全畳み込みであり、任意のサイズの入力に対する特徴を生成することができ、効率的な特徴抽出を可能とする。距離学習を伴うアクティブハードネガティブマイニングが、ネットワークを訓練するために使用される。

畳み込みニューラルネットワーク（ＣＮＮ）を訓練するためのコンピュータ実装方法を提示する。方法は、第１の位置および第２の位置での対応するポイントの座標を抽出し、第１の位置および第２の位置でのポジティブポイントを識別し、第１の位置および第２の位置でのネガティブポイントを識別し、第１の位置および第２の位置のポジティブポイントに対応する特徴を互い近づくように訓練し、第１の位置および第２の位置でのネガティブポイントに対応する特徴を互いに離れるように訓練することを含む。

畳み込みニューラルネットワーク（ＣＮＮ）を訓練するためのシステムを提示する。システムは、メモリと、該メモリと通信するプロセッサを有し、該プロセッサは、第１の位置および第２の位置での対応するポイントの座標を抽出し、第１の位置および第２の位置でのポジティブポイントを識別し、第１の位置および第２の位置でのネガティブポイントを識別し、第１の位置および第２の位置のポジティブポイントに対応する特徴を互いに近くように訓練し、第１の位置および第２の位置でのネガティブポイントに対応する特徴を互いに離れるように訓練するように構成されている。

畳み込みニューラルネットワーク（ＣＮＮ）を訓練するためのコンピュータ可読プログラムを有する非一時的コンピュータ可読記憶媒体が提示され、前記コンピュータ可読プログラムは、コンピュータ上で実行されるときに、前記コンピュータに、第１の位置および第２の位置での対応するポイントの座標を抽出するステップと、第１の位置および第２の位置でのポジティブポイントを識別するステップと、第１の位置および第２の位置でのネガティブポイントを識別するステップと、第１の位置および第２の位置のポジティブポイントに対応する特徴を互いに近づくように訓練するステップと、第１の位置および第２の位置でのネガティブポイントに対応する特徴を互いに離れるように訓練するステップと、を実行させる。

これらおよび他の、特徴および利点は、付随する図面と関連して読むことになる、それらの例示的な実施態様の以下の詳細な説明から明らかになる。

本開示は、以下の図を参照して、以下の好ましい実施形態の説明で詳細を提供する。

図１は、本発明の実施形態に従う、一連の畳み込みと、畳み込み空間変換器と、を含む完全畳み込みニューラルネットワークである。図２は、本発明の実施形態に従う、対応するコントラスティブ損失（ｃｏｎｔｒａｓｔｉｖｅｌｏｓｓ）を示す図である。図３は、本発明の実施形態に従う、畳み込み空間変換器である。図４は、本発明の実施形態に従う、畳み込みニューラルネットワーク（ＣＮＮ）を訓練するための方法のブロック／フロー図である。図５は、本発明の実施形態に従う、処理システムのブロック図である。

好ましい実施形態の詳細な説明
対応推定は、３Ｄ再構成、画像検索、またはオブジェクト認識など、コンピュータビジョンでのいくつかの根本的な問題を御するワークホースである。サブピクセルの精度を要求する、structure from motionまたはパノラマスティッチングなどの適用は、記述子を使用する、疎なキーポイントマッチに依拠する。その他の場合では、ステレオ視差、オプティカルフロー、または、密な軌跡の形式での、密な対は、表面再構成、トラッキング、ビデオ分析または安定化などの適用に対して使用される。さらに他のシナリオでは、対応は、異なる画像内の同じ３Ｄポイントの複数の射影の間ではなく、異なる鳥のくちばし、または、車のヘッドライトなど、カテゴリ内の異なるインスタンスにわたる複数の意味的類似体の間で捜し求められる。したがって、その最も一般的な形式では、視覚対応推定の概念は、低レベルの特徴マッチングから、高レベルのオブジェクトまたはシーンの理解までの範囲に及ぶ。

慣例上、対応推定は、人手により設計された特徴、または、対象領域固有の事前分布に依拠する。近年では、視覚対応を推定するために畳み込みニューラルネットワーク（ＣＮＮ）のパワーを活かすことの関心が増大してきている。例えば、サイアミーズ（Ｓｉａｍｅｓｅ）ネットワークが、一組の画像パッチを取り込み、それらのパッチの類似度を出力として生成することができる。また、上記のＣＮＮからの中間畳み込み層活性化が、一般特徴として使用可能である。

しかしながら、そのような中間活性化は、視覚対応タスクに対して最適化されない。そのような特徴は、代理目的関数（パッチ類似度）に対して訓練され、視覚対応に対する距離空間を必ずしも形成せず、したがって、距離などの距離演算も、明示的な解釈を備えない。加えて、パッチ内の重複領域に関してさえも特徴を抽出しなければならないので、パッチ類似度は、本質的に非効率的である。さらに、パッチ類似度は、ｎ個のパッチの各々を、異なる画像内のｎ個の他のパッチと比較するために、Ｏ（ｎ^２）のフィードフォワードパスを必要とする。

これに対して、例示的な実施形態は、ユニバーサル対応ネットワーク（ＵＣＮ）、すなわち、幾何学的視覚対応および意味的視覚対応の両方を学習する、ＣＮＮベースの一般の識別フレームワークを提示する。パッチ類似度に対する多くの以前のＣＮＮとは異なり、例示的な実施形態は、深層距離学習を使用して、一般の対応に対する類似度（幾何学的または意味的のいずれか）を保つマッピングまたは特徴を直接学習する。したがって、マッピングは、射影変換、クラス内の形状もしくはアピアランスの変動、または、考慮した類似度に無関係である任意の他の変動に対して不変である。例示的な実施形態は、計算を効率的に分担し、特徴空間内の近傍関係を効果的に符号化することにより、より高速な訓練を可能とする、新規の対応コントラスティブ損失を提案する。テスト時間に、対応は、ペアパッチ類似度を評価することよりも効率的である、特徴空間内の最近傍探索を縮小する。

ＵＣＮは完全畳み込みであり、そのことによって、密な特徴の効率的な生成が可能となる。例示的な実施形態は、より高速な訓練のための、オンザフライのアクティブハードネガティブマイニング方策を提案する。加えて、例示的な実施形態は、特定の変換群に対して不変にするように特徴を設計した、畳み込み空間変換器と呼ばれる、空間変換器の新規の適応を提案する。アフィン変換を補償する最適な特徴空間を学習することにより、畳み込み空間変換器は、記述子の疑似パッチ正規化の能力を与える。

ＵＣＮの能力は、いくつかの重要な従来の手法と比較される。経験的には、ＵＣＮから取得した対応は密であり、特定タスク専用のほとんどの従来手法よりも精密である。このことは実験的には、ＫＩＴＴＩ（Karlsruhe Institute of Technology and Toyota Technological Institute at Chicago）に関する疎なＳＦＭ（structure from motion）、ならびに、様々な他のデータセットの剛体および非剛体の両方についての、密な幾何学的対応または意味的対応に関する、現状技術の性能を示すことにより実証される。

要約すると、例示的な実施形態は、以下の主な寄与を伴う、対象領域から独立した、一般的な対応目的を最適化する、新規のエンドツーエンドシステムを提案する。

対応タスクとマッチングする特徴表現を学習するための、効率的な対応コントラスティブ損失を伴う深層計量学習。

高速なアクティブハードネガティブマイニングを併せた、密な、および効率的な特徴抽出のための完全畳み込みネットワーク。

パッチ正規化のための完全畳み込み空間変換器。

剛体、非剛体、および、クラス内の形状またはアピアランスの変動を包括的に含む、疎なＳＦＭ、密なマッチング、および意味的マッチングにわたる、現状技術の対応。

ここで、同一の数字が、同じまたは同様の要素を表す図を詳細に参照し、初めに図１を参照すると、本発明の実施形態による、一連の畳み込みと、畳み込み空間変換器と、を含んでいる完全畳み込みニューラルネットワークが示されている。

システムネットワーク１００は、特徴マップ１３０および正規化線形ユニット（ＲｅＬＵ）を生み出すための一連の畳み込みと、対応コントラスティブ損失が後に続く畳み込み空間変換器と、からなる完全畳み込みネットワークである。入力として、ネットワーク１００は、一組の画像１１０、１２０、および、これらの画像内の対応するポイントの座標を取り込む。（画像１１０、１２０の両方からの）複数のポジティブポイントに対応する複数の特徴が、互いに近づくように訓練され、複数のネガティブポイントに対応する複数の特徴が、互いに離れるように訓練される。ネットワーク１００は、パッチを正規化することができる畳み込み空間変換器１４０を備えている。

視覚特徴は、多くのコンピュータビジョン用途に対する基本的なビルディングブロックを形成する。慎重に設計された特徴およびカーネル方法は、structure from motion、オブジェクト認識、および画像分類など、多くの分野に影響を及ぼしてきた。

最近では、多くのＣＮＮベースの類似度測定が提案されている。１つの例では、サイアミーズネットワークが、パッチ類似度を測定するために使用することができる。駆動データセットが、最近の研究作業における、パッチ類似度に関するＣＮＮを訓練するために使用され、一方で、他の研究作業はさらには、ステレオマッチングのためにパッチ類似度を測定するサイアミーズネットワークを使用する。ＩｍａｇｅＮｅｔに関してあらかじめ訓練されたＣＮＮが、視覚対応および意味的対応を分析できる。粒度の細かいデータセットでの関係性を活用することにより、アピアランスおよびグローバル形状変形の両方にわたる種々の作業において、対応が学習される。これに対して、本発明の例示的な実施形態は、パッチ類似度を最適化することよりはむしろ、距離空間を学習し、完全畳み込みアーキテクチャを、より高速な訓練およびテスティングを可能とする対応コントラスティブ損失によって実装し、局所的パッチ正規化のための畳み込み空間変換器を提案する。

ニューラルネットワークは、空間内のユークリッド距離が意味的距離を保つ、マッピングを学習するために使用される。サイアミーズネットワークを使用して類似度計量を学習するための損失関数が、引き続いて形式化できる。最近では、トリプレット損失が、粒度の細かい画像ランク付けに対して使用されたが、一方で、トリプレット損失が、顔認識およびクラスタリングに対して使用された。ミニバッチが、ネットワークを効率的に訓練するために使用できる。

ＣＮＮは、畳み込み層およびプーリング層のために、並進およびスケールなど、一部のタイプの変換に対して不変である。しかしながら、そのような不変性を、データオーギュメンテーション（ｄａｔａａｕｇｍｅｎｔａｔｉｏｎ）、または、明示的なネットワーク構造の形式で明示的に処理することが、多くのタスクのより高い精度をもたらす。最近では、関心対象へのズームインの仕方、回転の仕方、または、任意の変換の適用の仕方を学習するために、空間変換器ネットワークが提案された。

セグメンテーションのための完全畳み込みフレームワークを提案するために、全結合層が、１×１畳み込みフィルタにて転換される。通常のＣＮＮを、検出用の完全畳み込みネットワークに変更することは、スピードおよび精度の増進につながる。これらの研究作業と同様に、完全畳み込みアーキテクチャの効率は、活性化を重複領域に対して再使用することによって上昇する。さらに、訓練事例の数は、バッチ内の画像の数をはるかに超えるので、勾配の分散が低下し、そのことは、より高速な訓練および収束につながる。

図２は、本発明の実施形態による、対応するコントラスティブ損失２００を示す図である。

ユニバーサル対応ネットワーク（ＵＣＮ）は、代理特徴に依拠する代わりに、類似度を保存するマッピングを直接学習するように訓練される。アーキテクチャの完全畳み込み性質、より高速な訓練およびテスティングのための新規の対応コントラスティブ損失、アクティブハードネガティブマイニング、ならびに、パッチ正規化を可能にする畳み込み空間変換器を提示する。

訓練をスピードアップし、リソースを効率的に使用するために、例示的な実施形態は、いくつかの利益を備える完全畳み込み特徴学習を実装する。第１に、ネットワークは、重複領域に対して計算された活性化の一部を再使用することができる。第２に、数千個の対応が、各画像対に対して訓練でき、そのことは、ネットワークに、より高速な学習のための精密な勾配をもたらす。第３に、ハードネガティブマイニングは、引き続いて論じるように、効率的であり、わかりやすい。第４に、パッチベースの方法とは異なり、任意のサイズの画像から密な特徴を効率的に抽出するために使用できる。

テスティングの間、完全畳み込みネットワークは、より高速でもある。パッチ類似度ベースのネットワークは、Ｏ（ｎ^２）のフィードフォワードパスを必要とする。ここで、本発明者らのネットワークのＯ（ｎ）のみと比較して、ｎは、各画像内のキーポイントの数である。中間層活性化を代理マッピングとして抽出することは、それらの活性化が視覚対応タスクに関して直接訓練されないので、比較的には最適以下の選択であるということに注目したい。

視覚対応に対する距離空間を学習することは、特徴空間内の近傍ポイントにマッピングすべき、（異なるビューでの）対応するポイントを符号化することを必要とする。制約を符号化するために、対応コントラスティブ損失と呼ぶ、コントラスティブ損失の一般化を提案する。

が、位置ｘ＝（ｘ，ｙ）での画像Ｉ内の特徴を指し示す。損失関数は、座標ｘおよびｘ’それぞれでの、画像ＩおよびＩ’から特徴を取り込む（図２）。座標ｘおよびｘ’が、同じ３Ｄポイントに対応する場合、対は、特徴空間内で近づくように仕向けられるポジティブ対として用いられ、そうでない場合は、少なくともマージンｍだけ間を置くように仕向けられるネガティブ対として使用される。さらに、ｓ＝０はポジティブ対を指し示し、ｓ＝１はネガティブ対を指し示す。完全な対応コントラスティブ損失は、次式により与えられる。

各画像対に関して、対応が、訓練セットからサンプリングされる。実例として、ＫＩＴＴＩデータセットに関し、各レーザスキャンポイントが使用される場合、最高で１０万個のポイントが、単一の画像対で使用することができる。しかしながら、実際には、３０００個の対応が、メモリ消費を制限するために使用される。このことによって、画像対あたり１つの例を与える、伝統的なコントラスティブ損失より精密な勾配計算が可能となる。テスト時間でのフィードフォワードパスの数は、サイアミーズネットワーク変形例のＯ（ｎ^２）と比較して、Ｏ（ｎ）であるということに注目したい。以下に再掲する表２は、対応コントラスティブ損失を伴う完全畳み込みアーキテクチャの利点を要約するものである。

式（１）の対応コントラスティブ損失は、２つの項からなる。第１の項は、ポジティブ対の間の距離を最小にし、第２の項は、ネガティブ対に、少なくともマージンｍだけ互いに離れるように強いる。したがって、第２の項は、特徴

と特徴

との間の距離がマージンｍより小さいときに、アクティブのみである。そのような境界が距離空間を定め、そのため、制約を破る複数のネガティブを探し出し、該複数のネガティブを離すようにネットワークを訓練することが重要である。しかしながら、ランダムなネガティブ対は、それらが一般的には埋め込み空間内で互い離れているので、訓練には寄与しない。

代わりに、訓練を劇的にスピードアップするために、制約を最大限に破る、マインネガティブ対が活性化される。特徴が第１の画像から抽出され、最近傍を第２の画像内で探し出す。位置がグラウンドトルス対応位置から遠い場合、例示的な実施形態は、対をネガティブとして使用する。最近傍が、第１の画像上のすべてのグラウンドトルスポイントに対して計算される。そのようなマイニングプロセスは、２つの画像それぞれのｍおよびｎ個の特徴ポイントに対するＯ（ｍｎ）の比較を必要とするので、時間がかかる。行われた実験は、ｎに対して数千個のポイントを使用し、ｍは、２２０００もの大きさである、第２の画像上のすべての特徴である。本発明の例示的な実施形態は、ＧＰＵ実装を使用して、Ｋ−ＮＮ探索をスピードアップし、そのＧＰＵ実装をＣａｆｆｅ層として埋め込んで、ハードネガティブをオンザフライで活性的にマイニングする。

図３は、本発明の実施形態による、畳み込み空間変換器３００である。

ＣＮＮは、ある程度のスケールおよび回転不変性を処理することが知られている。しかしながら、データオーギュメンテーション、または、特殊なネットワーク構造を使用して明示的に空間変換を処理することは、多くのタスクで、より成功しているということが示されている。視覚対応に対しては、伝統的にはパッチ正規化によって実現される、正しいスケールおよび回転を探し出すことが肝要である。一連の単純な畳み込みおよびプーリングは、そのような複雑な空間変換をまねることはできない。

パッチ正規化をまねるために、空間変換器層の着想が使用される。しかしながら、グローバルな画像変換の代わりに、画像内の各キーポイントが、独立した変換を経験することができる。したがって、例示的な実施形態は、畳み込み空間変換器と呼ぶ、変換された活性化を生成するための畳み込みバージョンを提案する。このことはとりわけ、大きなクラス内形状変動にわたる対応にとって重要である。

提案した変換器は、その入力を、より低い層から取り込み、各特徴に対して、独立した空間変換を適用する。また、変換パラメータが、畳み込みによって抽出される。それらのパラメータは、独立した変換を経るので、変換された活性化は、重複なしに、より大きな活性化の内側に置かれ、その後、その変換された活性化を独立して組み合わせるために、ストライドを伴う、連続した畳み込みを経る。ストライドサイズは、空間変換器カーネルサイズのサイズと等しくなければならない。図３は、畳み込み空間変換器モジュールを示す。

図４は、本発明の実施形態による、畳み込みニューラルネットワーク（ＣＮＮ）を訓練するための方法のブロック／フロー図である。

ブロック４１０で、第１の位置および第２の位置での対応するポイントの座標が抽出される。

ブロック４２０で、第１の位置および第２の位置でのポジティブポイントが識別される。

ブロック４３０で、第１の位置および第２の位置でのネガティブポイントが識別される。

ブロック４４０で、第１の位置および第２の位置のポジティブポイントに対応する特徴が互いに近づくように訓練される。

ブロック４５０で、第１の位置および第２の位置でのネガティブポイントに対応する特徴が互いに離れるように訓練される。

本発明の利点は、（ｉ）距離空間内の特徴が、視覚対応目的を最適化するために直接に学習されるので、特徴マッチングでのより高い精度、（ｉｉ）重複領域での活性化の再使用による、より効率的な訓練、（ｉｉｉ）数千個の対応を画像対毎に訓練することができるので、より高速な訓練、および、（ｉｖ）ハードネガティブマイニングは、効率的であり、わかりやすく、そのことが、より高い精度につながるということを含む。本発明の利点を可能にするキーステップは、（ｉ）代理パッチ類似度目的を最適化するよりむしろ、特徴空間内の距離を直接に学習する対応コントラスティブ損失層、（ｉｉ）精度の増大のための、ハードネガティブマイニングによる対応コントラスティブ損失に対する効率的な訓練のためのアルゴリズム、ならびに、（ｉｉｉ）完全畳み込み空間変換器を通して回転およびスケーリング効果を処理することができるパッチ正規化である。

実験では、ニューラルネットワーク最適化のためのＣａｆｆｅパッケージが使用された。Ｃａｆｆｅは、表現力、スピード、およびモジュール性を念頭に置いて作製された深層学習フレームワークである。そのＣａｆｆｅは、ＢｅｒｋｅｌｅｙＶｉｓｉｏｎａｎｄＬｅａｒｎｉｎｇＣｅｎｔｅｒ（ＢＶＬＣ）により、および、コミュニティコントリビュータにより開発されている。Ｃａｆｆｅは、応用および技術革新を促進する、表現力に富むアーキテクチャである。モデルおよび最適化は、ハードコーディングなしに、コンフィギュレーションにより定められる。ユーザは、グラフィックス処理ユニット（ＧＰＵ）マシン上で訓練し、その後、コモディティクラスタまたはモバイルデバイスを展開するように、単一のフラグをセットすることにより、中央処理ユニット（ＣＰＵ）とＧＰＵとの間を切り替えることができる。また、Ｃａｆｆｅは、能動的な開発を助長する拡張可能コードである。加えて、スピードによってＣａｆｆｅは、研究実験および産業展開にとって役立つものとなる。Ｃａｆｆｅは、単一のＮＶＩＤＩＡ（登録商標）Ｋ４０ＧＰＵ（グラフィックス処理ユニット）で、１日あたり６０００万個を超える画像を処理することができる。

Ｃａｆｆｅは、本明細書で提案する新しい層をサポートしないので、例示的な実施形態は、対応コントラスティブ損失層および畳み込み空間変換器層、Ｋ−ＮＮ層およびチャネル単位Ｌ２正規化層を実装する。例示的な実施形態は、ネットワークを完全畳み込みにして、特徴を４ピクセルごとに生成するために、平坦化層も全結合層も使用しなかった。精密な局所化のために、例示的な実施形態は、バイリニア補間を使用して密に特徴を抽出して、量子化誤差を低くする。

結論として、視覚対応推定に対する新規の深層距離学習手法が、代理パッチ類似度目的を最適化する手法よりも有利であることが示される。例示的な実施形態は、完全畳み込みアーキテクチャでの対応コントラスティブ損失、オンザフライのアクティブハードネガティブマイニング、および畳み込み空間変換器などの、いくつかの技術革新を提案する。これらの技術革新は、より効率的な訓練、精密な勾配計算、より高速なテスティング、および局所的パッチ正規化などの能力を加え、そのことが、スピードまたは精度の改善につながる。例示的な実施形態は、空間事前分布または大域的最適化を使用しなくても、幾何学的対応タスクおよび意味的対応タスクの両方に関して、特徴が、従来の現状技術よりよく働くということを実験で実証する。

本明細書で説明する実施形態は、全体的にハードウェア、全体的にソフトウェアであってもよく、または、ハードウェア要素およびソフトウェア要素の両方を含んでいてもよい。好ましい実施形態では、本発明は、ファームウェア、常駐ソフトウェア、マイクロコード、その他を含む、ただしそれらに制限されない、ソフトウェアで実装される。

実施形態は、コンピュータもしくは任意の命令実行システムにより、または、関連して、使用のために、プログラムコードを提供するコンピュータ使用可能またはコンピュータ可読媒体からアクセス可能な、コンピュータプログラム製品を含んでもよい。コンピュータ使用可能またはコンピュータ可読媒体は、命令実行システム、装置、もしくはデバイスによって、または、関連して、使用のために、プログラムを記憶する、伝達する、伝搬する、または搬送する、任意の装置を含んでもよい。媒体は、磁気、光学、電子、電磁気、赤外、もしくは半導体のシステム（または、装置もしくはデバイス）、または伝搬媒体であってもよい。媒体は、半導体または固体メモリ、磁気テープ、リムーバブルコンピュータディスケット、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、リジッド磁気ディスク、および、光学ディスクなどの、コンピュータ可読記憶媒体を含んでもよい。

本明細書で説明する手続を実行するために、記憶媒体またはデバイスがコンピュータにより読み出されるときに、コンピュータの動作を構築および制御するために、各コンピュータプログラムは、汎用または専用プログラマブルコンピュータにより可読な、機械可読記憶媒体またはデバイス（例えば、プログラムメモリまたは磁気ディスク）に有形に記憶されてもよい。また、本発明のシステムは、コンピュータ可読記憶媒体で実施され、コンピュータプログラムで構成されると考えてもよく、その場合、そのように構成された記憶媒体は、本明細書で説明する機能を実行するために、特定の、および、あらかじめ定められた方法でコンピュータを動作させる。

プログラムコードを記憶および／または実行するのに適したデータ処理システムは、システムバスを通してメモリ要素に直接または間接的に結合されている、少なくとも１つのプロセッサを含んでいてもよい。メモリ要素は、プログラムコードの実際の実行の間に用いられるローカルメモリ、バルク記憶装置、および、実行の間にバルク記憶装置からコードが検索される回数の数を減らすために少なくとも何らかのプログラムコードの一時的な記憶を提供するキャッシュメモリを含むことがある。入出力すなわちＩ／Ｏデバイス（キーボード、ディスプレイ、ポインティングデバイスなどを含むが、それらに制限されない）が、直接に、または、介在Ｉ／Ｏコントローラを通して、システムに結合されていてもよい。

また、ネットワークアダプタは、データ処理システムを、構内または公衆のネットワークを介在することを通して、他のデータ処理システム、またはリモートプリンタ、または記憶デバイスに結合できるように、システムに結合されていてもよい。モデム、ケーブルモデム、およびＥｔｈｅｒｎｅｔ（登録商標）カードは、現在利用可能なタイプのネットワークアダプタの、ほんのわずかなものである。

ここで図５を参照すると、例示的な処理システム６００が示されている。処理システム６００は、システムバス６０２を介して他の構成要素に動作可能に結合されている、少なくとも１つのプロセッサ（ＣＰＵ）６０４を含む。キャッシュ６０６、読み出し専用メモリ（ＲＯＭ）６０８、ランダムアクセスメモリ（ＲＡＭ）６１０、入出力（Ｉ／Ｏ）アダプタ６２０、ネットワークアダプタ６４０、ユーザインターフェイスアダプタ６５０、およびディスプレイアダプタ６６０が、システムバス６０２に動作可能に結合されている。ディスプレイデバイス６６２を、ディスプレイアダプタ６６０によりシステムバス６０２に動作可能に結合することができる。

当然ながら、処理システム６００はさらには、当業者により容易に予想されるような他の要素（図示せず）を含んでいてもよく、いくつかの要素を省略してもよい。例えば、当業者により容易に理解されるような、様々な他の入力デバイスおよび／または出力デバイスが、処理システム６００に、その処理システム６００の個別の実装形態に依存して含まれていてもよい。例えば、様々なタイプの無線および／または有線の入力および／または出力デバイスを使用することができる。また、様々な構成において、当業者により容易に察知されるように、追加的なプロセッサ、コントローラ、メモリ等々が利用できる。処理システム６００のこれらおよび他の変形形態は、本明細書で提供する本原理の教示を与えられれば、当業者により容易に予想される。

上記は、あらゆる事項で、説明的かつ例示的であり、限定的ではないと理解すべきであり、本明細書で開示する本発明の範囲を、詳細な説明からではなく、むしろ、特許請求の範囲から、特許法により許される最大限の広さによって解釈するように決定すべきである。本明細書で示し、記載した実施形態は、本発明の原理の例示であり、当業者が、様々な修正形態を、本発明の範囲および趣旨から外れることなく実装することがあるということを理解すべきである。当業者は、本発明の範囲および趣旨から外れることなく、様々な他の特徴の組み合わせを実装できる。したがって、本発明の態様を、特許法で要求される詳細および特殊性とともに説明したが、特許証により保護される、請求および所望するものは、添付の特許請求の範囲に記されている。

Claims

畳み込みニューラルネットワーク（ＣＮＮ）を訓練するためのコンピュータ実装方法であって、
第１の位置および第２の位置での対応するポイントの座標を抽出し、
前記第１の位置および前記第２の位置でのポジティブポイントを識別し、
前記第１の位置および前記第２の位置でのネガティブポイントを識別し、
前記第１の位置および前記第２の位置のポジティブポイントに対応する特徴を互いに近づくように訓練し、
前記第１の位置および前記第２の位置でのネガティブポイントに対応する特徴を互いに離れるように訓練する、ことを含む、コンピュータ実装方法。
前記ＣＮＮは、回転およびスケーリングを処理するためにパッチを正規化するための完全畳み込み空間変換器を備える、請求項１に記載の方法。
前記畳み込み空間変換器は、下層活性化に空間変換を適用する、請求項２に記載の方法。
コントラスティブ損失層が、前記第１の位置および前記第２の位置の前記特徴の間の距離を符号化する、請求項１に記載の方法。
コントラスティブ損失層が、ハードネガティブマイニングにより、および、重複領域での活性化を再使用することにより訓練される、請求項１に記載の方法。
制約を破るハードネガティブ対がマイニングされる、請求項５に記載の方法。
畳み込みニューラルネットワーク（ＣＮＮ）を訓練するためのシステムであって、
メモリと、
前記メモリと通信するプロセッサと、を有し、
前記プロセッサは、
第１の位置および第２の位置での対応するポイントの座標を抽出し、
前記第１の位置および前記第２の位置でのポジティブポイントを識別し、
前記第１の位置および前記第２の位置でのネガティブポイントを識別し、
前記第１の位置および前記第２の位置のポジティブポイントに対応する特徴を互いに近づくように訓練し、
前記第１の位置および前記第２の位置でのネガティブポイントに対応する特徴を互いに離れるように訓練するように構成されている、システム。
前記ＣＮＮは、回転およびスケーリングを処理するためにパッチを正規化するための完全畳み込み空間変換器を備える、請求項７に記載のシステム。
前記畳み込み空間変換器は、下層活性化に空間変換を適用する、請求項８に記載のシステム。
コントラスティブ損失層が、前記第１の位置および前記第２の位置の前記特徴の間の距離を符号化する、請求項７に記載のシステム。
コントラスティブ損失層が、ハードネガティブマイニングにより、および、重複領域での活性化を再使用することにより訓練される、請求項７に記載のシステム。
制約を破るハードネガティブ対がマイニングされる、請求項１１に記載のシステム。
畳み込みニューラルネットワーク（ＣＮＮ）を訓練するためのコンピュータ可読プログラムを有する非一時的コンピュータ可読記憶媒体であって、前記コンピュータ可読プログラムは、コンピュータ上で実行されるときに、前記コンピュータに、
第１の位置および第２の位置での対応するポイントの座標を抽出するステップと、
前記第１の位置および前記第２の位置でのポジティブポイントを識別するステップと、
前記第１の位置および前記第２の位置でのネガティブポイントを識別するステップと、
前記第１の位置および前記第２の位置のポジティブポイントに対応する特徴を互いに近づくように訓練するステップと、
前記第１の位置および前記第２の位置でのネガティブポイントに対応する特徴を互いに離れるように訓練するステップと、
を実行させる、非一時的コンピュータ可読記憶媒体。
前記ＣＮＮは、回転およびスケーリングを処理するためにパッチを正規化するための完全畳み込み空間変換器を備える、請求項１３に記載の非一時的コンピュータ可読記憶媒体。
前記畳み込み空間変換器は、下層活性化に空間変換を適用する、請求項１４に記載の非一時的コンピュータ可読記憶媒体。
コントラスティブ損失層が、前記第１の位置および前記第２の位置の前記特徴の間の距離を符号化する、請求項１３に記載の非一時的コンピュータ可読記憶媒体。
コントラスティブ損失層が、ハードネガティブマイニングにより、および、重複領域での活性化を再使用することにより訓練される、請求項１３に記載の非一時的コンピュータ可読記憶媒体。
制約を破るハードネガティブ対がマイニングされる、請求項１７に記載の非一時的コンピュータ可読記憶媒体。