JP2022509564A

JP2022509564A - ニューラルネットワークのアクティブトレーニングを行うシステム及び画像処理システム

Info

Publication number: JP2022509564A
Application number: JP2021552087A
Authority: JP
Inventors: コカナオグラリ、アジズ; カンシゾグル、エスラ; カーコデル、ラドゥ・イオアン
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2019-01-30
Filing date: 2019-10-11
Publication date: 2022-01-20
Anticipated expiration: 2039-10-11
Also published as: US10810468B2; WO2020158067A1; US20200242410A1; EP3740899A1; JP7123270B2

Abstract

ニューラルネットワークのアクティブトレーニングを行うシステムは、画像のセットを受信する入力インターフェースと、アクティブサンプラと、特徴生成器と、画像のセットから選択された画像のサブセットとを記憶するメモリであって、画像のサブセットは、所定の特徴領域情報に基づいた類似度値を有する、メモリと、アクティブサンプラの使用によって特徴生成器をトレーニングする少なくとも１つのプロセッサとを備える。アクティブサンプラは、画像のサブセットから、類似度値の閾値に従って、マッチするペア画像として画像のペアを第１に選択することと、画像の別のサブセットから、画像のペアを第２に選択することと、マッチするペア画像及びマッチしていないペア画像を特徴生成器に供給することと、重み付けパラメータを更新することと、予め設定された値に従って閾値を増大させることとを実行するように構成される。システムは、特徴生成器の重み付けパラメータを出力する出力インターフェースを更に備える。

Description

本発明は、包括的には、記述子をトレーニングするシステムに関し、より詳細には、アクティブサンプリングによって記述子をトレーニングする方法及びシステム、並びにアクティブサンプリングトレーニングが行われたニューラルネットワークを用いて物体を検出するシステムに関する。

サンプル選択は、コンピュータビジョンシステムにおける特徴マッチングの最終的な性能を左右する重要なものである。記述子とは、画像から特徴ベクトルを生成するニューラルネットワークのことであり、特徴記述子又は特徴生成器と呼ばれることもある。難易度の高いサンプルを選択すると、記述子をトレーニングする難易度は増大する。

これらの高難易度のサンプルの選択は、現在使われている従来のモデルに基づいている（例えば、高い損失値を有する画像ペアが高難易度のサンプルとして選択される）。しかしながら、トレーニング初期のエポックにおいて学習されるモデルが初期化及び初期バッチにおけるサンプルに大きく依存するため、この手法には欠点がある。

したがって、特徴学習のための記述子のトレーニング方法は、選択されたマッチ／非マッチの画像ペア及び初期化に大きく依存するため、困難であり、従来の手法のアクティブ学習手順では、バッチトレーニングの難易度が時間とともに増大する。結果として、中央処理ユニット（ＣＰＵ又はプロセッサ）の使用量又は電力消費を低減することは困難である。

このため、トレーニング効率及び検出精度を改善するように効率的に記述子をトレーニングする新規のトレーニング方法及びシステムを提供する必要がある。

いくつかの実施の形態は、ニューラルネットワークのアクティブトレーニングを行うシステムが、画像のセットを受信する入力インターフェースと、アクティブサンプラと、特徴生成器と、画像のセットから選択された画像のサブセットとを含むコンピュータ実行可能プログラムを記憶するメモリであって、画像のサブセットは、所定の特徴領域情報に基づいた類似度値を有する、メモリと、メモリと接続され、アクティブサンプラの使用によって特徴生成器をトレーニングする少なくとも１つのプロセッサであって、アクティブサンプラは、少なくとも１つのプロセッサに命令を実行させる、少なくとも１つのプロセッサとを備えるという認識に基づく。命令は、画像のサブセットから、類似度値の閾値に従って、マッチするペア画像として画像のペアを第１に選択することと、画像のセットにおける画像の別のサブセットから、マッチしていないペア画像として画像のペアを第２に選択することと、マッチするペア画像及びマッチしていないペア画像を特徴生成器に供給することと、最適化問題を解いて損失関数を最小化することによって、特徴生成器の重み付けパラメータを更新することと、予め設定された値に従って閾値を増大させるとともに、第１に選択すること、第２に選択すること、供給すること、更新すること、及び増大させることを、画像の全てのサブセットが供給されるまで繰り返すこととを含む。システムは、特徴生成器の重み付けパラメータを出力する出力インターフェースを更に備える。

いくつかの場合、特徴生成器は、特徴のサイズ又はスケールを記述する数を含む、画像内の重要な領域の位置（すなわち、ピクセル座標）を出力するニューラルネットワーク（アルゴリズムモジュール）である特徴検出器と呼ぶことができる。特徴は、画像パッチをマッチングする際に用いることができる。

いくつかの実施の形態によれば、記述子学習のためのアクティブトレーニング手順（方法）は、サンプル領域における等長法の使用、例えば、パッチベースの画像マッチングの場合における視点差に基づく。所与の２つのサンプルがマッチするか否かをチェックすることに加えて、これらがマッチするペアである場合、これらがどの程度類似しているかも検討する。本発明の方法は、トレーニングにおける、よりロバストな特徴表現及びより高速な収束性を提供する。さらに、アクティブトレーニング方法は、より簡単な基本形状から開始する子供の学習パターンマッチングに類似している。トレーニングは、マッチ又は非マッチとして容易に検出される視点差が少ないサンプルを供給することによってバッチトレーニングを開始する。徐々に提示されるパターン間の視点差の閾値を増大させることで、より良好な分離を得ることを予期することができる。

サンプルの難易度を判定するために現在学習されているモデルを用いるのではなく、サンプルペアに関する領域知識を取り入れる。これによって、本発明のシステムは、特徴表現をより良好に捉えることが可能になる。なぜなら、システムはトレーニングされたモデル及びモデルパラメータ（重み付けパラメータ）の初期化に依存しないためである。

本発明の実施の形態によれば、画像処理システムは、ニューラルネットワークのアクティブトレーニングを行うシステムを含むことができる。このシステムは、画像を受信するインターフェースであって、インターフェースは撮像デバイスと接続され、ネットワークがシステムの外側にある、インターフェースと、ローカル記述子、及び画像のセットを受信する入力インターフェースを備えるシステムによってトレーニングされた特徴生成器を含むコンピュータ実行可能プログラムを記憶するメモリと、アクティブサンプラ、特徴生成器、および画像のセットから選択された画像のサブセットを含むコンピュータ実行可能プログラムを記憶するメモリであって、画像のサブセットは、所定の特徴領域情報に基づいた類似度値を有する、メモリと、メモリと接続され、アクティブサンプラの使用によって特徴生成器をトレーニングする少なくとも１つのプロセッサであって、アクティブサンプラは、少なくとも１つのプロセッサに、画像のサブセットから、類似度値の閾値に従って、マッチするペア画像として画像のペアを第１に選択することと、画像のセットにおける画像の別のサブセットから、マッチしていないペア画像として画像のペアを第２に選択することと、マッチするペア画像及びマッチしていないペア画像を特徴生成器に供給することと、最適化問題を解いて損失関数を最小化することによって、特徴生成器の重み付けパラメータ（モデルパラメータ）を更新することと、予め設定された値に従って閾値を増大させるとともに、第１に選択すること、第２に選択すること、供給すること、更新すること、及び増大させることを、画像の全てのサブセットが供給されるまで繰り返すこととを含む命令を実行させる、少なくとも１つのプロセッサと、特徴生成器の重み付けパラメータを出力する出力インターフェースとを備え、少なくとも１つのプロセッサは、メモリと接続され、コンピュータ実行可能プログラムの命令に従って、トレーニングされた特徴生成器を用いて画像をマッチングする。

さらに、本発明の実施の形態によれば、ニューラルネットワークのアクティブトレーニングを行うシステム（アクティブトレーニングシステム）は、中央処理ユニット（ＣＰＵ又はプロセッサ）使用量、電力消費及び／又はネットワーク帯域幅使用量を低減することができる。これにより、プロセッサ（ＣＰＵ）の機能の改善を提供することができる。

ここに開示されている実施形態は、添付図面を参照して更に説明される。図面は、必ずしも一律の縮尺というわけではなく、ここに開示される実施形態の原理を一般的に強調して示されている。

従来技術による、特徴生成器のトレーニングプロセスを示す図である。本発明の実施形態による、特徴生成器のトレーニングプロセスを示す図である。本発明の実施形態による、ニューラルネットワークをトレーニングし、トレーニングされたニューラルネットワークを用いて物体を検出するシステムのブロック図である。本発明の実施形態による、アクティブサンプリングポリシーの詳細を記述するアルゴリズムである。本発明の実施形態によるニューラルネットワークを示す図である。本発明の実施形態による、同一の試験セットについて、ランダムサンプリングに基づくニューラルネットワーク及びアクティブサンプリングに基づくニューラルネットワークを用いたトレーニング誤差を示す図である。本発明の実施形態による、ランダムサンプリングベースのニューラルネットワーク及びアクティブサンプリングベースのニューラルネットワークを用いてそれぞれ得られた、エポック数の関数として３つの視点における偽陽性率（ＦＰＲ）の変化をプロットした図である。

本発明の様々な実施形態が、図面を参照して以下で説明される。図面は縮尺通り描かれておらず、類似の構造又は機能の要素は、図面全体にわたって同様の参照符号によって表されることに留意されたい。図面は、本発明の特定の実施形態の説明を容易にすることのみを意図することにも留意されたい。図面は、本発明の網羅的な説明として意図されるものでもなければ、本発明の範囲を限定するものとして意図されるものでもない。

以下の説明では、実施形態の十分な理解を提供するために、具体的な詳細が与えられる。しかしながら、当業者は、これらの具体的な詳細がなくても実施形態を実施することができることを理解することができる。例えば、開示された主題におけるシステム、プロセス、及び他の要素は、実施形態を不必要な詳細で不明瞭にしないように、ブロック図形式の構成要素として示される場合がある。それ以外の場合において、よく知られたプロセス、構造、及び技法は、実施形態を不明瞭にしないように不必要な詳細なしで示される場合がある。

また、個々の実施形態は、フローチャート、フロー図、データフロー図、構造図、又はブロック図として描かれるプロセスとして説明される場合がある。フローチャートは、動作を逐次的なプロセスとして説明することができるが、これらの動作の多くは、並列又は同時に実行することができる。加えて、これらの動作の順序は、再配列することができる。プロセスは、その動作が完了したときに終了することができるが、論述されない又は図に含まれない追加のステップを有する場合がある。さらに、特に説明される任意のプロセスにおける全ての動作が全ての実施形態において行われ得るとは限らない。プロセスは、方法、関数、手順、サブルーチン、サブプログラム等に対応することができる。プロセスが関数に対応するとき、その関数の終了は、呼び出し側関数又はメイン関数へのその機能の復帰に対応することができる。

さらに、開示された主題の実施形態は、少なくとも一部は手動又は自動のいずれかで実施することができる。手動実施又は自動実施は、マシン、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、又はそれらの任意の組み合わせを用いて実行することもできるし、少なくとも援助することができる。ソフトウェア、ファームウェア、ミドルウェア又はマイクロコードで実施されるとき、必要なタスクを実行するプログラムコード又はプログラムコードセグメントは、マシン可読媒体に記憶することができる。プロセッサが、それらの必要なタスクを実行することができる。

コンピュータシステムは、システムと呼ぶことができることに留意されたい。さらに、モデルパラメータを重み付けパラメータと呼ぶことができる。

（概観）
所与の画像について類似の画像のセットを認識することにより、物体検出又は認識の性能を改善することができ、これを、コンピュータビジョン、又は自動物体検出システムを有するロボットに適用することができる。

特徴記述子（特徴生成器）は、画像から特徴ベクトルを生成するニューラルネットワークであり、この特徴ベクトルを、「可動」物体を発見することができるロボットの物体検出システムに適用し、物体の類似度に基づいて物体の把握可能な姿勢を計算することができる。本開示において、特徴記述子は、記述子、特徴生成器、又はニューラルネットワークと呼ぶことができる。

物体検出システムにおける物体検出の性能及び精度を改善するために、特徴記述子は、トレーニング画像ペアサンプルを選択することによって良好にかつ効率的にトレーニングされる必要がある。特徴記述子の性能は、選択されたマッチ／非マッチペア（ペア画像）及び初期化に大きく依存するため、バッチトレーニングの難易度がトレーニングの時間にわたって徐々に増大するアクティブ学習手順を導入する。

図１Ａは、従来技術による特徴記述子２０（又は特徴記述子アーキテクチャ２０）のトレーニングプロセスを示す図である。従来技術の方法に基づいて特徴記述子２０をトレーニングするとき、ステップ１０において、ペア画像パッチ（ランダムペア画像）は、画像データベースからサンプリングモジュール（図示せず）を用いて非意図的に（ランダムに）選択され、特徴記述子２０に供給され、記述子２０がトレーニングされる。トレーニング中、プロセス３０において特徴記述子２０のモデルパラメータが更新され、プロセス１０において新たに選択されたランダムペア画像が、更なるトレーニングのために特徴記述子２０に供給される。これらのトレーニングステップは、所定の数のペア画像パッチが特徴記述子２０に供給されるまで反復的に実行される。

したがって、そのようなランダムサンプル選択によってトレーニングされた特徴記述子２０は、劣悪な特徴表現を提供し、特徴表現の性能を改善するためには、特徴生成器２０をトレーニングするための大量の画像ペアが必要となり、重い計算負荷が必要となり、これはコンピュータ（プロセッサ）に大量な電力消費を必要とすることがわかっている。

他方で、いくつかの実施形態は、アクティブサンプリングモジュール２０４を用いて特徴記述子をトレーニングする方法が、トレーニング誤差及びＦＰＲ（偽陽性率）を低減するために効果的であるという認識に基づく。これは、特徴生成器システムのトレーニングにおけるコンピュータ又はプロセッサの電力消費を十分に低減することができるという利点を提供することができる。

図１Ｂは、本発明の実施形態による特徴記述子（アーキテクチャ）２５のトレーニングプロセスを示す図である。特徴記述子２５の新規のトレーニングプロセスは、子供の学習のパターンマッチングに類似している。特徴記述子２５のトレーニングプロセスはアクティブサンプリング方法に基づき、このアクティブサンプリング方法は、アクティブサンプリングモジュール２０４（図２）を用いて画像データベース又はデータベース画像のセット（図示せず）からより簡単な基本サンプルペア画像１５を選択することによって開始し、これらを特徴記述子２５に提供する。トレーニングプロセスは、特徴記述子２５にペア画像を供給するバッチトレーニングに基づいて進行する。バッチトレーニングは、サンプルペア画像１５から、より高い類似度（類似度値）を有するペア画像１５を、より低い類似度を有する他のペア画像との間で取得することから開始し、ペア画像１５間の類似度値の差を徐々に増大させている。いくつかの場合、類似度値は、ペア画像から得られた特徴ベクトル間のユークリッド距離の距離メトリックｄによって定義することができる。

特徴記述子２５をトレーニングする間、ステップ３５において特徴記述子２５のモデルパラメータθが更新され、ステップ１５においてアクティブサンプラ２０４を用いて新たに選択されたペア画像が更なるトレーニングのために特徴記述子２５に供給される。これらのトレーニングステップは、所定の数のペア画像パッチが特徴記述子２５に供給され、モデルパラメータθの更新が完了するまで連続して実行され、更新は、全てのペア画像パッチの供給を終了するまで継続される。

いくつかの場合、トレーニング中、アクティブサンプリングの性能を更に増大させるために、統計的及び最近傍ベースの外れ値除去方法を用いることができる。さらに、パッチの深度等の幾何学的情報を適用することができる。

図２は、本発明のいくつかの実施形態による物体検出システム２００のブロック図を示す例である。物体検出システム２００は、アクティブサンプリングによってトレーニングする記述子も含む。システム２００は、キーボード２１１及びポインティングデバイス／媒体２１２と接続されたヒューマンマシンインターフェース（ＨＭＩ）２１０と、プロセッサ２２０と、ストレージデバイス２３０と、メモリ２４０と、ローカル領域ネットワーク及びインターネットネットワークを含むネットワーク２９０と接続されたネットワークインターフェースコントローラー２５０（ＮＩＣ）と、ディスプレイデバイス２６５と接続されたディスプレイインターフェース２６０と、印刷デバイス２８５と接続されたプリンタインターフェース２８０とを備える。システム２００は、特徴記述子モジュール２０２の特徴記述子２５をトレーニングするためにＮＩＣ２５０に接続されたネットワーク２９０を介して画像提供システム２９６からトレーニングされる画像データセットを受信することができる。ストレージデバイス２３０は、アクティブサンプリングモジュール２０４と、特徴記述子モジュール２０２と、トリプレット生成器モジュール２３４と、確率的勾配降下アルゴリズムモジュール２０８と、物体検出アルゴリズムモジュール２１３とを備えることができる。特徴記述子モジュール２０２は、画像から特徴ベクトルを生成するニューラルネットワークである特徴記述子２５を含み、特徴生成器モジュール２０２と呼ぶことができる。トリプレット生成器モジュール２３４は、トリプレット生成器２３４と呼ぶことができる。

ポインティングデバイス／媒体２１２は、コンピュータ可読記録媒体上に記憶されたプログラムを読み出すモジュールを含むことができる。ストレージ２３０は、トレーニング画像セット（図示せず）を含むか、又は、ネットワーク２９０及びＮＩＣ２５０を介して画像提供システム２９６から受信したトレーニング画像セットを記憶することができる。物体検出システム２００は、物体の画像（ピクチャ画像）及び物体の深度画像を取得する３次元（３Ｄ）センサ２０１を備える。物体検出システム２００は、画像（又は複数の画像）を取得するカメラ又は電荷結合素子２０３を更に備えることができる。

特徴記述子２５のモデルパラメータθは、図１Ｂにおけるトレーニングプロセスの間に、又はこのプロセスの後に更新される。物体を含む画像を、ネットワーク２９０を介して受信するか、又はカメラ２０３によって、ストレージ２３０内の物体検出アルゴリズムモジュール２１３を用いて画像を撮影することによって、物体検出システム２００を、トレーニングされた特徴記述子２５に基づく物体検出システムとして用いることができる。

いくつかの場合、トレーニングされた特徴記述子２５を、ネットワーク２９０を介して、又は特徴記述子２５を含むトレーニングされた特徴記述子モジュール２０２を記憶するコンピュータ可読記録媒体を介して、他の物体検出システム２９５に提供することができる。

画像内の物体を検出するために、キーボード２１１、ポインティングデバイス／媒体２１２を用いて、又は他のコンピュータ（図示せず）に接続されたネットワーク２９０を介して、命令を物体検出システム２００に提供することができる。物体検出システム２００は、ＨＭＩ２１０を用いて命令を受信し、プロセッサ２２０及びストレージデバイス２３０に記憶された物体検出アルゴリズムモジュール２１３を用いて画像内の物体を検出するための命令を実行する。プロセッサ２２０は、１つ以上のグラフィックス処理ユニット（ＧＰＵ）を含む複数のプロセッサとすることができる。

確率的勾配降下アルゴリズムモジュール２０８は、画像処理を実行し、命令に関する所与の画像から所定のフォーマット設定された画像を取得することができる。物体検出アルゴリズムモジュール２１３は、物体検出システム２００によって、物体を検出するために用いることができる。物体検出システム２００を用いた物体検出プロセスについて以下に説明する。

いくつかの実施形態では、物体検出システム２００を用いて、図１Ｂに記載のアクティブサンプリングプロセスに基づいて特徴記述子モジュール２０２をトレーニングすることができる。それによって、物体検出システム２００は、システム２００に記憶されているか、又は画像提供システム２９６、ユーザ５００若しくはカメラ２０３からネットワーク２９０を介して提供される画像内の物体の検出を行うことができる。さらに、上記のプロセスによってトレーニングされた特徴記述子２０２は、ネットワーク２９０を介して他の物体検出システム２９５に提供することができる。それによって、他の物体検出システム２９５は、物体検出システムの精度（性能）を効果的に改善することができ、他の物体検出システム２９５の計算能力及び電力消費を十分に節減することができる。

さらに、本発明の実施形態は、特徴学習のためのアクティブトレーニングシステム及び方法を提供することを目的とする。以下では、マッチングサンプルの類似度を低減し、これによりトレーニングの難易度を経時的に増大させることによる、アクティブサンプルバッチ選択手順を用いて、より良好な極小値を達成する方式について説明する。難易度の高いサンプルを選択するためには、現在使われているトレーニングされたモデルに依存するのではなく、領域知識を利用してマッチングサンプルの類似度を定量化する。クラスタが分離可能な低次元のユークリッド空間における埋め込みを得る深層記述子マップを構築する。公表されているデータセットを用いて、文献と比較することによって、モデルの性能を評価する。

本開示の実施形態に従って、アクティブトレーニング手順に基づいて記述子をトレーニングする方法について以下に説明する。トレーニングセッションのためのカリキュラムを提案し、トレーニングの難易度を経時的に増大させる。トレーニング中にバッチを選ぶことによって難易度を増大させる。まず、問題の定式化及び表記に関して説明する。

本発明のいくつかの実施形態は、ニューラルネットワークのアクティブトレーニングを行うシステムによって実現することができる。システムは、画像のセットを受信する入力インターフェースと、アクティブサンプラ、特徴生成器、及び画像のセットから選択された画像のサブセットを含むコンピュータ実行可能プログラムを記憶するメモリとを備えることができる。画像のサブセットは、所定の特徴領域情報に基づいた類似度値を有する。さらに、システムは、メモリと接続され、アクティブサンプラの使用によって特徴生成器をトレーニングする少なくとも１つのプロセッサを備える。この場合、メモリ又はストレージに記憶されたアクティブサンプラは、少なくとも１つのプロセッサに命令を実行させる。命令は、画像のサブセットから、類似度値の閾値に従って、マッチするペア画像として画像のペアを第１に選択することと、画像のセットにおける画像の別のサブセットから、マッチしていないペア画像として画像のペアを第２に選択することと、マッチするペア画像及びマッチしていないペア画像を特徴生成器に供給することと、最適化問題を解いて損失関数を最小化することによって、特徴生成器の重み付けパラメータ（モデルパラメータ）を更新することと、予め設定された値に従って閾値を増大させるとともに、第１に選択すること、第２に選択すること、供給すること、更新すること、及び増大させることを、画像の全てのサブセットが供給されるまで繰り返すこととを含む。さらに、システムは、特徴生成器の重み付けパラメータを出力する出力インターフェースを備える。

いくつかの場合、特徴記述子モジュールをトレーニングするために、所定の特徴領域情報は、画像の視点角度を示すことができる。損失関数は、マッチするペア画像及びマッチしていないペア画像について生成された特徴間のユークリッド距離に基づく。メモリは、プロセッサに、マッチするペア画像とマッチしていないペア画像との組み合わせとしてトリプレットを提供させるように構成されたトリプレット生成器（モジュール）２３４を備える。トリプレットは、アンカー、正値及び負値からなる。

アンカーは、領域提案ネットワークによって、高い確率で物体を含むことが提案される領域ボックス（すなわち、入力画像のサブセット）である。換言すれば、領域提案ネットワークは、アンカーと呼ばれる画像ボックスの確率を、背景又は前景となるように返す。アンカーは、バイナリクラスラベルを割り当てられる（すなわち、正又は負とすることができる）。

ＩＯＵ（intersection-over-union：ユニオン交差）の場合、アンカーが所定の閾値を超えてグラウンドトゥルースボックスと重なるとき、アンカーは、「正」とラベル付けされる。

逆に、アンカーのＩＯＵがグラウンドトゥルースボックスと閾値未満で重なる場合、アンカーには「負」のラベルが割り当てられる。

本発明の実施形態によれば、所定の特徴領域情報に基づいた類似度値を有する画像のサブセットを予め準備し、ストレージ２３０に記憶することができる。

いくつかの場合、類似度値は、画像ペアのカメラ視点角度間の回転距離によって定義することができる。いくつかの場合、損失関数は、トリプレット損失関数とすることができ、更新重み付けパラメータは、確率的勾配降下アルゴリズムによって実行することができる。

（表記）
対応する分布ｐ^Ｄｉを有するクラスタのセット｛Ｄ_１，Ｄ_２，．．．，Ｄ_ｋ｝＝Ｄを所与とすると、特徴学習において、目的は、各クラスタが範囲空間内で分離可能である範囲を有するマッピングｆを学習することである。ｆ_θ：Ｒ^Ｎ×Ｎ→Ｒ^Ｍを、画像領域から、θによってパラメータ化された特徴領域へのマッピングとし、ｄを範囲内の距離メトリックとする。ただし、Ｎ^２＞＞Ｍである。いくつかの場合、θは、モデルパラメータと呼ぶことができる。

特徴マップは、以下を達成しようとする。

それぞれ、「アンカー」、「ペア」、「非ペア」について、ａ、ｐ、ｎの表記に従う。これは、当該技術分野における従来の呼称である。多くの用途、例えばパッチマッチングにおいて、クラスタ情報がアクセス可能でないか、又はクラスタ数が任意に大きい。このため、式（１）において定義されるインジケーターに対する最尤法は可能でない。このため、マッチ又は非マッチ情報のみが用いられるペアワイズ損失又はトリプレット損失を用いて効率的に、問題が近似的に解かれる。本開示において、マッチしていないサンプル間の距離が、マッチするペア間の距離よりも少なくともマージンｍだけ大きいことを強制するトリプレット損失に焦点を当てる。損失関数Ｌは以下のように定義される。

いくつかの場合、損失関数Ｌは、損失関数と呼ばれる場合がある。従来、距離メトリックｄは、ユークリッド類似空間を有するユークリッド距離として選択される。本発明による実施形態において、類似度値は、ユークリッド距離の距離メトリックｄによって定義することができる。深層特徴マップは、ネットワークを通じてトリプレット損失を逆伝搬して学習される。パラメータは以下の式によって最適化される。

ここで、Ｔ＝｛（ａ，ｐ，ｎ）｜∀ａ，ｐ∈Ｄ_ｉ，ｎ∈Ｄ_ｊ，ｊ≠ｉ｝は、サンプリングされたトリプレットのセットを表す。トリプレットは、通常、トレーニングの前にシステム２００のトリプレット生成器モジュール２３４によって予め生成され、（３）を確率的に解くためにネットワークを通じてバッチとして供給される。このため、極小値は、エポックｅのステップｉにおいて、Ｔ_ｅ ^ｉ⊂Ｔとしてバッチに対しバイアスされる。一般に、トリプレット生成器モジュール２３４は、予めトレーニングされたニューラルネットワークとすることができる。

加えて、ｍに基づいて、制約を満たすトリプレットをトレーニングすることにより、誤った勾配推定値が得られ、このためトレーニング時間が増大する場合があり、不良な極小値が得られる場合がある。

（アクティブサンプリング（アクティブバッチサンプリング））
トレーニング中に難易度が低いものから高いものへ進むことは、マッチするサンプル（ペア画像）間の類似度を減少させながらトリプレットを供給することによって満たすことができる。ｋ個のクラスタを有する特定のデータセットＤについて、トリプレットの数はおよそ

である。ここで、Ｄ_ｉは、クラスタ内の平均サンプル数として取得される。このため、全てのトリプレットを決定することにより、トレーニングが低速になる場合がある。したがって、実際的な理由により、サンプル選択の確率的近似を提案する。固定のバッチサイズｂについて、Ｔからのトリプレットの視点差に閾値を適用し、本発明の関心対象のｂ個のサンプルのサブセットをランダムに選ぶ。そのような選択は、関心に応じて異なる場合があり、難易度が増大していくカリキュラムを有するために、マッチするサンプルの類似度に基づく選択方法を提案する。

深層学習の第１のいくつかのエポックは、ネットワークパラメータのランダムな初期化に対しバイアスされる。したがって、最初のいくつかのエポックが、サンプルを空間上に置くことによって、類似度範囲の基線を形成する。記述的クラスタ中心を有するために、分離が容易なサンプルを用いることを提案する。このため、マッチするサンプル間の高い類似度を有するサンプルを選択する。特徴マッチング問題の場合、この類似度は、視点類似度とみなされる。このため、２つのマッチするパッチペアは、それらの視点差が小さい場合、類似していると言われる。ｖ（ａ，ｐ）は、パッチａ及びｐ間の視点差を表すものとする。いくつかの場合、パッチａ及びｐ間又はａ及びｎ間の視点差を、類似度値と呼ぶことができる。

トリプレットのサブセットを以下のように表す。

ここで、δ_ｅは、エポックｅにおける視点差異の閾値を示す。トレーニングのためのバッチは、

からランダムに選ぶことによって形成される。

第１のエポックにおける視点の変動の小さな閾値δ_ｅから開始する。トレーニングが進むにつれ、クラスタ中心が良好に構造化されることが予期される。このため、徐々に閾値を増大させ、より高い視点差を有するマッチするペアの選択を得る。

図３では、アクティブサンプリングポリシーの詳細をアルゴリズム１として示す。アルゴリズム１は、本発明の実施形態によるアクティブサンプリングポリシーの詳細を記述する。このアルゴリズムは、ストレージ２３０又はメモリ２４０にアクティブサンプリングモジュール２０４として記憶することができる。アクティブサンプリングモジュール２０４は、アクティブサンプリングプログラムと呼ぶことができる。図３のアルゴリズム１は、初期視点変動閾値δ_０を所与とした、バッチトレーニング中のアクティブサンプリングのステップを示す。アルゴリズム１は、全てのエポックｅにおいて閾値δ_０を増大させることによってアクティブに選択する。

アクティブサンプリングポリシーのアルゴリズム１は、ストレージ２３０又はメモリ２４０に記憶されたアクティブサンプリングモジュールと呼ぶことができる。この場合、アクティブサンプリングモジュール２０４は、初期視点変動閾値δ_０を所与として、バッチトレーニング中のアクティブサンプリングポリシーのステップを実行する。アクティブサンプラのアルゴリズムは、全てのエポックにおいて閾値を増大させることによって、画像のペアをアクティブに選択する。初期視点変動閾値δ_０を所与として、アルゴリズムは、サンプリング（ライン４）によってバッチを生成する。ライン５及び６は、それぞれ、バッチを受信し、モデルパラメータを更新する。ライン７で見られるように、全てのエポックの後に、視点の変動の閾値を増大させる。

（アーキテクチャ）
本発明の実施形態によるアクティブ学習方法の利点をより良好に評価するために、図４に示すような特徴記述子アーキテクチャ４００を用いる。特徴記述子アーキテクチャ４００は、システム２００のストレージ２３０又はメモリ２４０に記憶された、アクティブサンプラ２０４（アクティブサンプリングモジュール２０４）、特徴記述子モジュール２０２及びトリプレット損失関数モジュール２０５を用いて動作させることができる。非限定的な例として、特徴生成器モジュール２０２は、Ｃｏｎｖ（７，７）－Ｔａｎｈ－ＭａｘＰｏｏｌ（２，２）－Ｃｏｎｖ（６，６）－Ｔａｎｈ－ＦｕｌｌｙＣｏｎｎｅｃｔｅｄ（１２８）を含む。

アクティブサンプラ２０４は、ａ、ｐ、ｎを、それぞれトレーニングのための、アンカー（アンカー画像）、正値（正画像）及び負値（負画像）として提供する。破線で示すように、畳み込み層及び全結合層は、パラメータを共有する。（トレーニングのための）推測中、Ｓｉａｍｅｓｅネットワークのうちの１つのみが用いられる。

トレーニングは、Ｔｅｎｓｏｒｆｌｏｗにおいて実施される。トレーニング中、ストレージ２３０に記憶された確率的勾配降下アルゴリズムモジュール２０８に含まれる、１０^－４の固定学習率のモメンタム及び０．９のモメンタムを有する確率的勾配降下アルゴリズムを用いる。ペア画像の回転度の差異を、視点間の差異として用いる。初期視点差閾値は、δ_０＝１０度として取得される。これは、５エポックごとに値３０、６０及び９０まで増大される。

上記で論考した記述子のトレーニング方法及びシステムに従って取得されるいくつかの実験結果が、以下で例として提供される。特徴マッチングの性能は、アクティブ学習手順を辿ることによって評価される。ローカル記述子マッチング問題における本発明の技法の性能を実証するために、１ＤＳｆｍデータセットの画像パッチベンチマークに対する実験を行う。１ＤＳｆＭデータセットは、いくつかのフレームをそれらの６ＤＯＦ姿勢とともに含み、フレーム間の対応する特徴点を含む。したがって、２つの対応する特徴点間の視点差がデータセットによって提供される。

（パッチベースの画像マッチング）
ローカル記述子学習におけるモデルの性能を評価する。ここで、目的は、２つの提供されるパッチが、ワールド内の同じ点の異なる画像であるか否かを判断することである。パッチペア類似度における性能は、従来、受信者動作特性（ＲＯＣ）曲線を用いて報告される。ＲＯＣ曲線は、ペアを用いて形成される。ここで、マッチはラベル１を有し、非マッチはラベル０を有する。０．９５の再現率（真陽性率）で偽陽性率（ＦＰＲ）を報告する。このため、この尺度は、モデルがマッチするペアを合わせ、マッチしていないペアを離す尤度がどの程度であるかを示す。

実験において、フレーム間の対応関係を、フレーム姿勢とともに含む１ＤＳｆＭデータセットを用いる。本発明の方法を、別の深層学習された特徴と比較する。実験を通じて、基準モデルを「従来」と呼ぶ。提案される方法を、以前の研究と比較するために、同じ所定のペアを用い、提供された情報に基づいて本発明のトリプレットをランダムに生成する。アクティブ学習を用いた性能の漸進的増大を評価するために、従来の方法と同じトレーニングデータサイズ及び学習率を用いる。図５Ａはトレーニング誤差を示し、図５ＢはＦＰＲプロットを示す。図は、トリプレット損失を目的関数として用いて、トレーニング中の損失値及び９５％の再現率での偽陽性率（ＦＰＲ）を示し、（図５Ａ）提案されるアクティブサンプリング及び従来の（ランダムサンプリング）方法の場合の各エポックにおけるトレーニング誤差を示し、（図５Ｂ）最大３０度、６０度、及び９０度の視点差を有するサンプルペアにおける試験セットのエポックあたりのＦＰＲを示す。

図５Ａのグラフは、従来のトレーニングポリシー及び提案されるトレーニングポリシーの双方について、エポックあたりのトレーニング誤差を示すのに対し、図５Ｂのグラフは、試験セットにおける誤差を示す。これらからわかるように、従来の方法と比較して、提案されるアクティブサンプリング方法は、トレーニング誤差をより高速に減少させる。さらに、試験データセットにおけるＦＰＲは、本発明の方法を用いると大幅に小さい。下部のプロットは、最大３０度、６０度、及び９０度の視点の変動を有するサンプルペアにおける誤差を示す。本発明の方法は、予測されるように、より近い視点を有するペアの場合により低い誤差値を与えるのに対し、従来の方法は、低い視点変動と、高い視点変動とを区別することができない。これは、本発明の方法の有用な特性であり、同時位置決め地図作成（ＳＬＡＭ）等の、カメラが平滑に動いているシーンにおいてより好都合となる。

（利点）
本発明の方法は、バッチトレーニング中に経時的により難易度の高いサンプルを選ぶことによって、トレーニングの難易度をアクティブに増大させる。特徴マッチングの問題に対する本発明のアルゴリズムの使用を実証した。実験は１ＤＳｆＭデータセットに対し実行された。提示される技法は、トレーニングを大幅に高速化しながら、マッチング性能において従来の方法を上回っている。

本発明の上記の実施形態は数多くの方法のいずれかにおいて実現することができる。例えば、それらの実施形態は、ハードウェア、ソフトウェア又はその組み合わせを用いて実現することができる。ソフトウェアにおいて実現されるとき、そのソフトウェアコードは、単一のコンピュータ内に設けられるにしても、複数のコンピュータ間に分散されるにしても、任意の適切なプロセッサ、又はプロセッサの集合体において実行することができる。そのようなプロセッサは集積回路として実現することができ、集積回路コンポーネント内に１つ以上のプロセッサが含まれる。しかしながら、プロセッサは、任意の適切な構成の回路を用いて実現することができる。

また、本発明の実施形態は方法として具現することができ、その一例が提供されてきた。その方法の一部として実行される動作は、任意の適切な方法において順序化することができる。したがって、例示的な実施形態において順次の動作として示される場合であっても、例示されるのとは異なる順序において動作が実行される実施形態を構成することもでき、異なる順序は、いくつかの動作を同時に実行することを含むことができる。

請求項要素を変更するために特許請求の範囲において「第１の」、「第２の」のような序数の用語を使用することは、それだけで、或る請求項要素が別の請求項要素よりも優先度が高いこと、優位であること、若しくは上位にあることを、又は方法の動作が実行される時間的な順序を暗示するのではなく、請求項要素を区別するために、或る特定の名称を有する１つの請求項要素を（序数用語を使用しなければ）同じ名称を有する別の要素から区別するラベルとして単に使用される。

Claims

ニューラルネットワークのアクティブトレーニングを行うシステムであって、
画像のセットを受信する入力インターフェースと、
アクティブサンプラと、特徴生成器と、前記画像のセットから選択された画像のサブセットとを含むコンピュータ実行可能プログラムを記憶するメモリであって、前記画像のサブセットは、所定の特徴領域情報に基づいた類似度値を有する、メモリと、
前記メモリと接続され、前記アクティブサンプラの使用によって前記特徴生成器をトレーニングする少なくとも１つのプロセッサであって、前記アクティブサンプラは、前記少なくとも１つのプロセッサに、
前記画像のサブセットから、類似度値の閾値に従って、マッチするペア画像として画像のペアを第１に選択することと、
前記画像のセットにおける前記画像の別のサブセットから、マッチしていないペア画像として画像のペアを第２に選択することと、
前記マッチするペア画像及び前記マッチしていないペア画像を前記特徴生成器に供給することと、
最適化問題を解いて損失関数を最小化することによって、前記特徴生成器の重み付けパラメータを更新することと、
予め設定された値に従って前記閾値を増大させることとともに、前記第１に選択すること、前記第２に選択すること、前記供給すること、前記更新すること、及び前記増大させることを、前記画像の全てのサブセットが供給されるまで繰り返すことと、
を含む命令を実行させるように構成される、少なくとも１つのプロセッサと、
前記特徴生成器の前記重み付けパラメータを出力する出力インターフェースと、
を備える、システム。
前記所定の特徴領域情報は、前記画像の視点角度を示す、請求項１に記載のシステム。
前記損失関数は、マッチするペア画像及びマッチしていないペア画像について生成された特徴間のユークリッド距離に基づく、請求項１に記載のシステム。
前記メモリは、前記プロセッサに、マッチするペア画像とマッチしていないペア画像との組み合わせとしてトリプレットを提供させるように構成されたトリプレット生成器を備え、前記トリプレットは、アンカー、正値及び負値からなる、請求項１に記載のシステム。
前記類似度値は、前記画像のペアのカメラ視点角度間の回転距離によって定義される、請求項１に記載のシステム。
前記損失関数は、トリプレット損失関数である、請求項１に記載のシステム。
前記重み付けパラメータを更新することは、確率的勾配降下アルゴリズムによって行われる、請求項１に記載のシステム。
画像処理システムであって、
画像を受信するインターフェースであって、前記インターフェースは、撮像デバイスと接続され、ネットワークは前記画像処理システムの外部にある、インターフェースと、
ローカル記述子と、請求項１に記載のシステムによってトレーニングされた特徴生成器とを含むコンピュータ実行可能プログラムを記憶するメモリと、
前記メモリと接続され、前記コンピュータ実行可能プログラムの命令に従って、前記トレーニングされた特徴生成器を用いて画像をマッチングするプロセッサと、
を備える、画像処理システム。
前記特徴生成器は、ネットワークインターフェースを介して受信された画像からローカル記述子を抽出する、請求項８に記載の画像処理システム。
前記ローカル記述子は、前記ネットワークインターフェースを介して受信された２つの画像間の対応関係を検出するように構成される、請求項９に記載の画像処理システム。
画像マッチングは、前記画像の抽出された特徴間のユークリッド距離に基づいて判定される、請求項８に記載の画像処理システム。
所定の特徴領域情報は、前記画像の視点角度を示す、請求項８に記載の画像処理システム。
前記メモリは、前記プロセッサに、マッチするペア画像とマッチしていないペア画像との組み合わせとしてトリプレットを提供させるように構成されたトリプレット生成器を備え、前記トリプレットは、アンカー、正値及び負値からなる、請求項８に記載の画像処理システム。
前記損失関数は、トリプレット損失関数である、請求項８に記載の画像処理システム。
重み付けパラメータを更新することは、確率的勾配降下アルゴリズムによって行われる、請求項８に記載の画像処理システム。