JP2023524038A

JP2023524038A - 階層正規化がかけられる画像記述子ネットワーク

Info

Publication number: JP2023524038A
Application number: JP2022566064A
Authority: JP
Inventors: コウイチサトウ，
Original assignee: Magic Leap Inc
Current assignee: Magic Leap Inc
Priority date: 2020-05-01
Filing date: 2021-04-27
Publication date: 2023-06-08
Also published as: EP4143739A1; WO2021222325A1; US11797603B2; CN115552477A; US20210342630A1; EP4143739A4; US20240004925A1

Abstract

記述子ネットワークを使用および訓練するための技法が、開示される。画像が、受信され、記述子ネットワークに提供され得る。記述子ネットワークが、画像に基づいて、画像記述子を生成し得る。画像記述子は、要素のセットの第１のサブセットを備える、主ベクトルと、要素のセットの第２のサブセットを備える、副ベクトルとの間に分散される、要素のセットを含んでもよい。要素のセットの第２のサブセットは、要素のセットの第１のサブセットより多くの要素を含んでもよい。階層正規化が、主ベクトルを主正規化量に正規化し、副ベクトルを副正規化量に正規化することによって、画像記述子にかけられ得る。副正規化量は、主正規化量未満であり得る。

Description

（関連出願の相互参照）
本願は、その全内容が、あらゆる目的のために、参照することによって本明細書に組み込まれる、２０２０年５月１日に出願され、「ＩＭＡＧＥＤＥＳＣＲＩＰＴＯＲＮＥＴＷＯＲＫＷＩＴＨＩＭＰＯＳＥＤＨＩＥＲＡＲＣＨＩＣＡＬＮＯＲＭＡＬＩＺＡＴＩＯＮ」と題された、米国仮特許出願第６３／０１９，２１１号の優先権の利益を主張する。

画像処理では、「画像記述子」とも称される、画像の記述子は、可能性の中でもとりわけ、その色、形状、テクスチャ、運動を含む、画像の視覚的特徴の記述である。画像記述子およびそれらを生産するアルゴリズムは、コンピュータビジョンにおいて、いくつかの用途を有する。例えば、画像記述子は、例えば、画像毎に画像記述子を生成し、２つの記述子間の距離または差異を算出することによって、２つの画像間の類似性を決定するためのロバストな手段を提供する。

本開示は、概して、画像の画像記述子を生成するための技法に関する。より具体的には、本開示の実施形態は、記述子ネットワークを訓練および使用して、主および副ベクトルを有する、画像記述子を正確に生成するための技法を提供する。

本発明の種々の実施形態の説明が、実施例の一覧として、下記に提供される。下記に使用されるように、一連の実施例への任意の言及は、それらの実施例のそれぞれへの離接的な言及として理解されるものである（例えば、「実施例１－４」は、「実施例１、２、３、または４」として理解されるものである）。

実施例１は、第１の画像を受信するステップと、第１の画像を記述子ネットワークに入力として提供するステップと、記述子ネットワークを使用して、第１の画像に基づいて、第１の画像記述子を生成するステップであって、第１の画像記述子は、要素の第１のセットの第１のサブセットを備える、第１の主ベクトルと、要素の第１のセットの第２のサブセットを備える、第１の副ベクトルであって、要素の第１のセットの第２のサブセットは、要素の第１のセットの第１のサブセットより多くの要素を含む、第１の副ベクトルとの間に分散される、要素の第１のセットを含む、ステップと、第１の主ベクトルを主正規化量に正規化するステップと、第１の副ベクトルを副正規化量に正規化するステップであって、副正規化量は、主正規化量未満である、ステップとによって、階層正規化を第１の画像記述子にかけるステップとを含む、コンピュータ実装方法である。

実施例２は、第２の画像を受信するステップと、第２の画像を記述子ネットワークに入力として提供するステップと、記述子ネットワークを使用して、第２の画像に基づいて、第２の画像記述子を生成するステップであって、第２の画像記述子は、要素の第２のセットの第１のサブセットを備える、第２の主ベクトルと、要素の第２のセットの第２のサブセットを備える、第２の副ベクトルであって、要素の第２のセットの第２のサブセットは、要素の第２のセットの第１のサブセットより多くの要素を含む、第２の副ベクトルとの間に分散される、要素の第２のセットを含む、ステップと、第２の主ベクトルを主正規化量に正規化するステップと、第２の副ベクトルを副正規化量に正規化するステップとによって、階層正規化を第２の画像記述子にかけるステップとをさらに含む、実施例１に記載のコンピュータ実装方法である。

実施例３は、第１の主ベクトルおよび第２の主ベクトルに基づいて、第１の画像と第２の画像との間の主距離を算出するステップと、主距離が上限閾値を上回るかどうかを決定するステップとによって、第１の画像が第２の画像にマッチングするかどうかを決定するステップをさらに含む、実施例２に記載のコンピュータ実装方法である。

実施例４は、第１の画像が第２の画像にマッチングするかどうかを決定するステップはさらに、主距離が上限閾値を上回ることを決定するステップと、第１の画像が第２の画像にマッチングしないことを決定するステップとを含む、実施例３に記載のコンピュータ実装方法である。

実施例５は、第１の画像が第２の画像にマッチングするかどうかを決定するステップはさらに、主距離が上限閾値を上回らないことを決定するステップと、主距離が下限閾値を上回るかどうかを決定するステップとを含む、実施例３に記載のコンピュータ実装方法である。

実施例６は、第１の主ベクトルおよび第２の主ベクトルに基づいて、第１の画像と第２の画像との間の主距離を算出するステップは、要素の第１のセットの第１のサブセットと要素の第２のセットの第１のサブセットとの間の差異の２乗の和を算出するステップを含む、実施例３に記載のコンピュータ実装方法である。

実施例７は、第１の画像が第２の画像にマッチングするかどうかを決定するステップがさらに、主距離が下限閾値を上回ることを決定するステップと、第１の副ベクトルおよび第２の副ベクトルに基づいて、第１の画像と第２の画像との間の副距離を算出するステップと、主距離および副距離の和が上限閾値を上回るかどうかを決定するステップとを含む、実施例５に記載のコンピュータ実装方法である。

実施例８は、第１の画像が第２の画像にマッチングするかどうかを決定するステップがさらに、主距離および副距離の和が上限閾値を上回ることを決定するステップと、第１の画像が第２の画像にマッチングしないことを決定するステップとを含む、実施例７に記載のコンピュータ実装方法である。

実施例９は、第１の画像が第２の画像にマッチングするかどうかを決定するステップがさらに、主距離および副距離の和が上限閾値を上回らないことを決定するステップと、第１の画像が第２の画像にマッチングすることを決定するステップとを含む、実施例７に記載のコンピュータ実装方法である。

実施例１０は、第１の副ベクトルおよび第２の副ベクトルに基づいて、第１の画像と第２の画像との間の副距離を算出するステップが、要素の第１のセットの第２のサブセットと要素の第２のセットの第２のサブセットとの間の差異の２乗の和を算出するステップを含む、実施例７に記載のコンピュータ実装方法である。

実施例１１は、主正規化量が、１－αに等しく、副正規化量が、αに等しく、αが、０．５未満である、実施例１－１０に記載のコンピュータ実装方法である。

実施例１２は、αが、１／８、１／１６、または１／３２に等しい、実施例１１に記載のコンピュータ実装方法である。

実施例１３は、記述子ネットワークが、訓練プロセスを通して修正可能である、加重のセットを有する、ニューラルネットワークである、実施例１－１２に記載のコンピュータ実装方法である。

実施例１４は、記述子ネットワークを訓練する方法であって、画像対のセットを受信するステップと、画像対のセットの画像対毎に、画像対からの第１の訓練画像を記述子ネットワークに入力として提供するステップと、記述子ネットワークを使用して、第１の訓練画像に基づいて、第１の画像記述子を生成するステップであって、第１の画像記述子は、要素の第１のセットの第１のサブセットを備える、第１の主ベクトルと、要素の第１のセットの第２のサブセットを備える、第１の副ベクトルであって、要素の第１のセットの第２のサブセットは、要素の第１のセットの第１のサブセットより多くの要素を含む、第１の副ベクトルとの間に分散される、要素の第１のセットを含む、ステップと、第１の主ベクトルを主正規化量に正規化するステップと、第１の副ベクトルを副正規化量に正規化するステップであって、副正規化量は、主正規化量未満である、ステップとによって、階層正規化を第１の画像記述子にかけるステップと、画像対からの第２の訓練画像を記述子ネットワークに入力として提供するステップと、記述子ネットワークを使用して、第２の画像に基づいて、第２の訓練画像記述子を生成するステップであって、第２の画像記述子は、要素の第２のセットの第１のサブセットを備える、第２の主ベクトルと、要素の第２のセットの第２のサブセットを備える、第２の副ベクトルであって、要素の第２のセットの第２のサブセットは、要素の第２のセットの第１のサブセットより多くの要素を含む、第２の副ベクトルとの間に分散される、要素の第２のセットを含む、ステップと、第２の主ベクトルを主正規化量に正規化するステップと、第２の副ベクトルを副正規化量に正規化するステップとによって、階層正規化を第２の画像記述子にかけるステップと、第１の主ベクトルおよび第２の主ベクトルに基づいて、第１の訓練画像と第２の訓練画像との間の主距離を算出するステップと、第１の副ベクトルおよび第２の副ベクトルに基づいて、第１の訓練画像と第２の訓練画像との間の副距離を算出するステップと、主距離および副距離に基づいて、記述子ネットワークを修正するステップとを含む、方法である。

実施例１５は、システムであって、１つまたはそれを上回るプロセッサと、１つまたはそれを上回るプロセッサによって実行されると、１つまたはそれを上回るプロセッサに、実施例１－１４のいずれかに記載の方法を実施させる、命令を備える、コンピュータ可読媒体とを備える、システムである。

実施例１６は、１つまたはそれを上回るプロセッサによって実行されると、１つまたはそれを上回るプロセッサに、実施例１－１４のいずれかに記載の方法を実施させる、命令を備える、非一過性機械可読媒体である。

本開示のさらなる理解を提供するために含まれる、付随の図面は、本明細書に組み込まれ、その一部を成し、本開示の実施形態を図示し、詳細な説明とともに、本開示の原理を解説する役割を果たす。本開示の基本的な理解およびこれが実践され得る種々の方法に関して必要であり得るよりも詳細に、本開示の構造的詳細を示す試みは、行われない。

図１Ａは、記述子ネットワークを含む、例示的システムを図示する。

図１Ｂは、記述子ネットワークを含む、例示的システムを図示する。

図２は、記述子ネットワークを含む、例示的システムを図示する。

図３Ａは、記述子ネットワークを訓練するための例示的システムを図示する。

図３Ｂは、記述子ネットワークを訓練するための例示的システムを図示する。

図４は、記述子ネットワークを使用する方法を図示する。

図５は、記述子ネットワークを訓練する方法を図示する。

図６は、階層正規化の実施例を図示する。

図７は、２つの画像がマッチングするかどうかを決定するための方法を示す、例示的フローチャートを図示する。

図８は、図７に図示される例示的フローチャートのグラフ表現を図示する。

図９は、２つの画像がマッチングするかどうかを決定するための方法を示す、例示的フローチャートを図示する。

図１０は、図９に図示される例示的フローチャートのグラフ表現を図示する。

図１１は、画像のセットから基準画像に最も近い画像を見出すための方法を示す、例示的フローチャートを図示する。

図１２は、図１１に図示される例示的フローチャートのグラフ表現を図示する。

図１３は、画像のセットから基準画像に最も近い画像を見出すための方法を示す、例示的フローチャートを図示する。

図１４は、図１３に図示される例示的フローチャートのグラフ表現を図示する。

図１５は、主距離を使用してフィルタリング除去され得る、領域を示す、付加的グラフ表現を図示する。

図１６は、主距離を使用してフィルタリング除去され得る、領域を示す、付加的グラフ表現を図示する。

図１７は、記述子ネットワークの実験結果を示す、グラフを図示する。

図１８は、記述子ネットワークの実験結果を示す、グラフを図示する。

図１９は、記述子ネットワークの実験結果を示す、グラフを図示する。

図２０は、記述子ネットワークの実験結果を示す、グラフを図示する。

図２１は、複数の主ベクトルを有する、例示的画像記述子を図示する。

図２２は、簡略化されたコンピュータシステムを図示する。

具体的実施形態の詳細な説明
本開示のさらなる理解を提供するために含まれる、付随の図面は、本明細書に組み込まれ、その一部を成し、本開示の実施形態を図示し、詳細な説明とともに、本開示の原理を解説する役割を果たす。本開示の基本的な理解およびこれが実践され得る種々の方法に関して必要であり得るよりも詳細に、本開示の構造的詳細を示す試みは、行われない。

図１Ａは、本開示のいくつかの実施形態による、画像１０２に基づいて画像記述子１１０Ａを生成するための記述子ネットワーク１００Ａを含む、例示的システムを図示する。記述子ネットワーク１００Ａは、特定のアーキテクチャと、関連付けられる加重のセットとを有する、畳み込みニューラルネットワーク等のニューラルネットワークであってもよい。画像１０２が、入力として提供されるが、記述子ネットワーク１００Ａは、Ｎ個の要素１１６Ａを有する、画像記述子１１０Ａを生成するように構成されてもよい。要素１１６Ａはそれぞれ、画像１０２内の視覚的特徴を示し得る。

図１Ｂは、生成された画像記述子１１０Ｂが、主ベクトル１１２と、副ベクトル１１４とを含むことを除き、記述子ネットワーク１００Ａに類似する、記述子ネットワーク１００Ｂを含む、例示的システムを図示する。いくつかの実施形態では、主ベクトル１１２は、第１の要素のサブセット１１６Ｂ（要素１１６Ｂ－１から要素１１６Ｂ－Ｍ）を含んでもよく、副ベクトル１１４は、第２の要素のサブセット１１６Ｂ（要素１１６Ｂ－Ｍ＋１から要素１１６Ｂ－Ｍ＋Ｎ）を含んでもよい。したがって、第１のサブセットは、Ｍ個の要素を含んでもよく、第２のサブセットは、Ｎ個の要素を含んでもよい。

いくつかの実施形態では、主ベクトル１１２および副ベクトル１１４は、階層正規化を画像記述子１１０Ｂにかけることによって取得される。これは、主ベクトル１１２を主正規化量に、および副ベクトル１１４を副正規化量に正規化するステップを含んでもよく、主正規化量は、副正規化量を上回る。階層正規化をかけることと併せて、主ベクトル１１２（Ｍ）のサイズが副ベクトル１１４（Ｎ）のサイズ未満となるように設定することによって、画像記述子１１０Ｂは、本明細書に説明されるように、種々のタスクにおける性能を有意に改良するように使用されることができる。

図２は、本開示のいくつかの実施形態による、記述子ネットワーク２００を含む、例示的システムを図示する。図示される実施例では、記述子ネットワーク２００は、それぞれ、画像２０２および２０３に基づいて生成された画像記述子２１０と２１１との間の距離を決定することによって、画像２０２と２０３との間の類似性を決定するために使用される。記述子ネットワーク２００は、画像記述子２１０および２１１がそれぞれ、主ベクトルおよび副ベクトルを含むように、記述子ネットワーク１００Ｂに類似し得る。種々の実施形態では、画像２０２および２０３は、順次、記述子ネットワーク２００への入力として提供されてもよい（例えば、画像２０２は、第１の時間に提供されてもよく、画像２０３は、第１の時間後、第２の時間に提供されてもよい）、または、同時に、記述子ネットワーク２００の２つの異なるインスタンスに提供されてもよい（例えば、記述子ネットワーク２００と関連付けられる、モデルアーキテクチャおよび加重を実装するための命令が、２つの別個のプロセッサまたはプロセッサコア上にロードされてもよい）。

画像記述子２１０と２１１との間の総距離Ｄ_{ｔｏｔａｌ}が、画像記述子間の主距離Ｄ_{ｍａｊｏｒ}（画像記述子２１０および２１１の主ベクトルのみに基づいて算出される、総距離Ｄ_{ｔｏｔａｌ}の部分）と、画像記述子間の副距離Ｄ_{ｍｉｎｏｒ}（画像記述子２１０および２１１の副ベクトルのみに基づいて算出される、総距離Ｄ_{ｔｏｔａｌ}の部分）の和として算出されてもよい。図示される実施例では、ユークリッド距離が、画像記述子２１０の主ベクトル（ｘ_１、ｘ_２、…、ｘ_Ｍ）および画像記述子２１１の主ベクトル（ｘ’_Ｍ、ｘ’_２、…、ｘ’_Ｍ）の要素に基づく主距離と、画像記述子２１０の副ベクトル（ｘ_Ｍ＋１、ｘ_Ｍ＋２、…、ｘ_Ｍ＋Ｎ）および画像記述子２１１の副ベクトル（ｘ’_Ｍ＋１、ｘ’_Ｍ＋２、…、ｘ’_Ｍ＋Ｎ）の要素に基づく副距離とを計算するために使用される。余弦距離等の他の距離メトリックも、主距離および副距離を計算するために使用されてもよい。

図３Ａは、本開示のいくつかの実施形態による、記述子ネットワーク３００Ａを訓練するための例示的システムを図示する。記述子ネットワーク３００Ａは、記述子ネットワーク１００Ａに類似し得る。複数の訓練反復の単一訓練反復の間、記述子ネットワーク３００Ａは、訓練画像３０２および３０３を提供されてもよい。いくつかの実施形態では、訓練画像３０２および３０３は、類似または異なる画像であることが既知であってもよい。例えば、訓練画像３０３は、訓練画像３０２の若干修正されたバージョンであってもよい。訓練画像３０２および３０３が、入力として提供される（例えば、順次）とき、記述子ネットワーク３００Ａは、それぞれ、画像記述子３１０Ａおよび３１１Ａを生成するように構成されてもよい。総距離Ｄ_{ｔｏｔａｌ}は、次いで、画像記述子３１０Ａおよび３１１Ａに基づいて算出されてもよい。

総距離Ｄ_{ｔｏｔａｌ}は、例えば、記述子ネットワーク３００Ａの加重を修正することによって、記述子ネットワーク３００Ａを訓練するために使用されてもよい。いくつかの実施形態では、記述子ネットワーク３００Ａの加重は、総距離Ｄ_{ｔｏｔａｌ}を所望の値に向かって増加または減少させるように修正されてもよい。例えば、訓練画像３０２および３０３が、類似画像であることが既知である場合、記述子ネットワーク３００Ａの加重は、総距離Ｄ_{ｔｏｔａｌ}をゼロに向かって減少させるように修正されてもよい。別の実施例として、訓練画像３０２および３０３が、異なる画像であることが既知である場合、記述子ネットワーク３００Ａの加重は、総距離Ｄ_{ｔｏｔａｌ}を１に向かって増加させるように修正されてもよい。いくつかの実施形態では、記述子ネットワーク３００Ａの加重は、加重修正器３１８Ａを使用して修正されてもよく、これは、例えば、逆伝搬技法を採用して、加重を調節してもよい。

図３Ｂは、本開示のいくつかの実施形態による、記述子ネットワーク３００Ｂを訓練するための例示的システムを図示する。記述子ネットワーク３００Ｂは、記述子ネットワーク１００Ｂに類似し得る。図３Ａに説明されるものと同様に、複数の訓練反復の単一訓練反復の間、記述子ネットワーク３００Ｂは、訓練画像３０２および３０３を提供されてもよい。訓練画像３０２および３０３が、入力として提供される（例えば、順次）と、記述子ネットワーク３００Ｂは、それぞれ、主ベクトルおよび副ベクトルを有する、画像記述子３１０Ｂおよび３１１Ｂを生成してもよい。総距離Ｄ_{ｔｏｔａｌ}が、次いで、画像記述子３１０Ｂおよび３１１Ｂに基づいて算出されてもよい。

図３Ａに説明されるものと同様に、総距離Ｄ_{ｔｏｔａｌ}は、例えば、記述子ネットワーク３００Ｂの加重を修正することによって、記述子ネットワーク３００Ｂを訓練するために使用されてもよい。いくつかの実施形態では、記述子ネットワーク３００Ｂの加重は、総距離Ｄ_{ｔｏｔａｌ}を所望の値に向かって増加または減少させるように修正されてもよい。例えば、訓練画像３０２および３０３が、類似画像であることが既知である場合、記述子ネットワーク３００Ｂの加重は、総距離Ｄ_{ｔｏｔａｌ}をゼロに向かって減少させるように修正されてもよい。別の実施例として、訓練画像３０２および３０３が、異なる画像であることが既知である場合、記述子ネットワーク３００Ｂの加重は、総距離Ｄ_{ｔｏｔａｌ}を１に向かって増加させるように修正されてもよい。いくつかの実施形態では、記述子ネットワーク３００Ｂの加重は、加重修正器３１８Ｂを使用して修正されてもよく、これは、例えば、逆伝搬技法を採用して、加重を調節してもよい。

図４は、本開示のいくつかの実施形態による、記述子ネットワーク（例えば、記述子ネットワーク１００Ａ、１００Ｂ、２００、３００Ａ、３００Ｂ）を使用する方法４００を図示する。方法４００の１つまたはそれを上回るステップは、方法４００の実施の間、省略されてもよく、方法４００のステップは、示される順序で実施される必要はない。方法４００の１つまたはそれを上回るステップは、１つまたはそれを上回るプロセッサによって実施されてもよい。方法４００は、プログラムが、１つまたはそれを上回るコンピュータによって実行されると、１つまたはそれを上回るコンピュータに、方法４００のステップを行わせる、命令を備える、コンピュータ可読媒体またはコンピュータプログラム製品として実装されてもよい。そのようなコンピュータプログラム製品は、有線または無線ネットワークを経由して、コンピュータプログラム製品を搬送するデータキャリア信号内で伝送されることができる。

ステップ４０２では、第１の画像（例えば、画像１０２、２０２、２０３、３０２、３０３）が、受信される。第１の画像は、可能性の中でもとりわけ、グレースケール画像、マルチチャネル画像（例えば、ＲＧＢ画像）であってもよい。第１の画像は、オリジナル画像またはオリジナル画像の一部であってもよい。

ステップ４０４では、第１の画像が、記述子ネットワークに提供される。

ステップ４０６では、記述子ネットワークが、第１の画像に基づいて、第１の画像記述子（例えば、画像記述子１１０Ａ、１１０Ｂ、２１０、２１１、３１０Ａ、３１１Ａ、３１０Ｂ、３１１Ｂ）を生成する。第１の画像記述子は、要素の第１のセットを含んでもよい。第１の画像記述子は、要素の第１のセットの第１のサブセットを含む、第１の主ベクトル（例えば、主ベクトル１１２）と、要素の第１のセットの第２のサブセットを含む、第１の副ベクトル（例えば、副ベクトル１１４）とを含んでもよい。いくつかの実施形態では、要素の第１のセットの第２のサブセットは、要素の第１のセットの第１のサブセットより多くの要素を含む（例えば、Ｎ＞Ｍ）。

ステップ４０８では、階層正規化が、第１の画像記述子にかけられる。いくつかの実施形態では、階層正規化を第１の画像記述子にかけるステップは、第１の画像記述子の第１の主ベクトルを主正規化量に正規化するステップと、第１の画像記述子の第１の副ベクトルを副正規化量に正規化するステップとを含んでもよい。

ステップ４１０では、第２の画像（例えば、画像１０２、２０２、２０３、３０２、３０３）が、受信される。第２の画像は、可能性の中でもとりわけ、グレースケール画像、マルチチャネル画像（例えば、ＲＧＢ画像）であってもよい。第２の画像は、オリジナル画像またはオリジナル画像の一部であってもよい。

ステップ４１２では、第２の画像が、記述子ネットワークに提供される。

ステップ４１４では、記述子ネットワークが、第２の画像に基づいて、第２の画像記述子を生成する（例えば、画像記述子１１０Ａ、１１０Ｂ、２１０、２１１、３１０Ａ、３１１Ａ、３１０Ｂ、３１１Ｂ）。第２の画像記述子は、要素の第２のセットを含んでもよい。第２の画像記述子は、要素の第２のセットの第１のサブセットを含む、第２の主ベクトル（例えば、主ベクトル１１２）と、要素の第２のセットの第２のサブセットを含む、第２の副ベクトル（例えば、副ベクトル１１４）とを含んでもよい。いくつかの実施形態では、要素の第２のセットの第２のサブセットは、要素の第２のセットの第１のサブセットより多くの要素を含む（例えば、Ｎ＞Ｍ）。

ステップ４１６では、階層正規化が、第２の画像記述子にかけられる。いくつかの実施形態では、階層正規化を第２の画像記述子にかけるステップは、第２の画像記述子の第２の主ベクトルを主正規化量に正規化するステップと、第２の画像記述子の第２の副ベクトルを副正規化量に正規化するステップとを含んでもよい。

ステップ４１８では、第１の画像記述子および第２の画像記述子に基づいて、第１の画像が第２の画像にマッチングするかどうかが決定される。いくつかの実施形態では、ステップ４１８は、ステップ４２０－４２６のうちの１つまたはそれを上回るものを含む。

ステップ４２０では、第１の画像と第２の画像との間の主距離が、第１の主ベクトルおよび第２の主ベクトルに基づいて算出される。いくつかの実施形態では、主距離を算出するステップは、第１の主ベクトルと第２の主ベクトルとの間のユークリッド距離および／または余弦距離を算出するステップを含む。いくつかの実施形態では、主距離を算出するステップは、要素の第１のセットの第１のサブセットと要素の第２のセットの第１のサブセットとの間の差異の２乗の和を算出するステップを含む。

ステップ４２２では、主距離に基づいて、第１の画像が第２の画像にマッチングするかどうかが決定される。いくつかの実施形態では、第１の画像が第２の画像にマッチングすることを決定するステップは、主距離が上限閾値を上回ることを決定するステップを含む。いくつかの実施形態では、第１の画像が第２の画像にマッチングしないことを決定するステップは、主距離が下限閾値未満であることを決定するステップを含む。

いくつかの実施形態では、ステップ４２２において、画像がマッチングするかどうかに関する任意の決定が、行われる場合、方法４００は、終了する。いくつかの実施形態では、主距離のみに基づいて、第１の画像が第２の画像にマッチングするかどうかを決定することが不可能であり得る（例えば、主距離が、上限閾値と下限閾値との間にある）。そのような実施形態では、方法４００は、ステップ４２４に進み、副距離が、算出される。

ステップ４２４では、第１の画像と第２の画像との間の副距離が、第１の副ベクトルおよび第２の副ベクトルに基づいて算出される。いくつかの実施形態では、副距離を算出するステップは、第１の副ベクトルと第２の副ベクトルとの間のユークリッド距離および／または余弦距離を算出するステップを含む。いくつかの実施形態では、副距離を算出するステップは、要素の第１のセットの第２のサブセットと要素の第２のセットの第２のサブセットとの間の差異の２乗の和を算出するステップを含む。

ステップ４２６では、主距離および副距離に基づいて、第１の画像が第２の画像にマッチングするかどうかが決定される。いくつかの実施形態では、主距離および副距離の和（または総距離）が、算出される。いくつかの実施形態では、第１の画像が第２の画像にマッチングすることを決定するステップは、主距離および副距離の和が上限閾値を上回ることを決定するステップを含む。いくつかの実施形態では、第１の画像が第２の画像にマッチングしないことを決定するステップは、主距離および副距離の和が上限閾値未満であることを決定するステップを含む。

図５は、本開示のいくつかの実施形態による、記述子ネットワーク（例えば、記述子ネットワーク１００Ａ、１００Ｂ、２００、３００Ａ、３００Ｂ）を訓練する方法５００を図示する。方法５００の１つまたはそれを上回るステップは、方法５００の実施の間、省略されてもよく、方法５００のステップは、示される順序で実施される必要はない。方法５００の１つまたはそれを上回るステップは、１つまたはそれを上回るプロセッサによって実施されてもよい。方法５００は、プログラムが、１つまたはそれを上回るコンピュータによって実行されると、１つまたはそれを上回るコンピュータに、方法５００のステップを行わせる、命令を備える、コンピュータ可読媒体またはコンピュータプログラム製品として実装されてもよい。そのようなコンピュータプログラム製品は、有線または無線ネットワークを経由して、コンピュータプログラム製品を搬送するデータキャリア信号内で伝送されることができる。

ステップ５０２では、画像対のセット（例えば、画像２０２、２０３、３０２、３０３）が、受信される。種々の実施形態では、画像対のセットは、可能性の中でもとりわけ、訓練データセットのサイズに応じて、１０画像対、１，０００画像対、１，０００，０００画像対を含んでもよい。画像対のセットの各画像対内の各画像は、可能性の中でもとりわけ、グレースケール画像、マルチチャネル画像（例えば、ＲＧＢ画像）であってもよい。各画像は、オリジナル画像またはオリジナル画像の一部であってもよい。

いくつかの実施形態では、ステップ５０４－５２０は、画像対のセットの画像対毎に実施される。ステップ５０４では、画像対からの第１の訓練画像が、記述子ネットワークに提供される。

ステップ５０６では、記述子ネットワークが、第１の訓練画像に基づいて、第１の画像記述子（例えば、画像記述子１１０Ａ、１１０Ｂ、２１０、２１１、３１０Ａ、３１１Ａ、３１０Ｂ、３１１Ｂ）を生成する。第１の画像記述子は、要素の第１のセットを含んでもよい。第１の画像記述子は、要素の第１のセットの第１のサブセットを含む、第１の主ベクトル（例えば、主ベクトル１１２）と、要素の第１のセットの第２のサブセットを含む、第１の副ベクトル（例えば、副ベクトル１１４）とを含んでもよい。いくつかの実施形態では、要素の第１のセットの第２のサブセットは、要素の第１のセットの第１のサブセットより多くの要素を含む（例えば、Ｎ＞Ｍ）。

ステップ５０８では、階層正規化が、第１の画像記述子にかけられる。いくつかの実施形態では、階層正規化を第１の画像記述子にかけるステップは、第１の画像記述子の第１の主ベクトルを主正規化量に正規化するステップと、第１の画像記述子の第１の副ベクトルを副正規化量に正規化するステップとを含んでもよい。

ステップ５１０では、画像対からの第２の訓練画像が、記述子ネットワークに提供される。

ステップ５１２では、記述子ネットワークが、第２の訓練画像に基づいて、第２の画像記述子（例えば、画像記述子１１０Ａ、１１０Ｂ、２１０、２１１、３１０Ａ、３１１Ａ、３１０Ｂ、３１１Ｂ）を生成する。第２の画像記述子は、要素の第２のセットを含んでもよい。第２の画像記述子は、要素の第２のセットの第１のサブセットを含む、第２の主ベクトル（例えば、主ベクトル１１２）と、要素の第２のセットの第２のサブセットを含む、第２の副ベクトル（例えば、副ベクトル１１４）とを含んでもよい。いくつかの実施形態では、要素の第２のセットの第２のサブセットは、要素の第２のセットの第１のサブセットより多くの要素を含む（例えば、Ｎ＞Ｍ）。

ステップ５１４では、階層正規化が、第２の画像記述子にかけられる。いくつかの実施形態では、階層正規化を第２の画像記述子にかけるステップは、第２の画像記述子の第２の主ベクトルを主正規化量に正規化するステップと、第２の画像記述子の第２の副ベクトルを副正規化量に正規化するステップとを含んでもよい。

ステップ５１６では、第１の画像と第２の画像との間の主距離が、ステップ４２０と同様に、第１の主ベクトルおよび第２の主ベクトルに基づいて算出される。いくつかの実施形態では、主距離に基づいて、第１の訓練画像が第２の訓練画像にマッチングするかどうかが決定される。

ステップ５１８では、第１の画像と第２の画像との間の副距離が、ステップ４２４と同様に、第１の副ベクトルおよび第２の副ベクトルに基づいて算出される。いくつかの実施形態では、副距離に基づいて、第１の訓練画像が第２の訓練画像にマッチングするかどうかが決定される。

ステップ５２０では、記述子ネットワークが、主距離および／または副距離に基づいて修正される。いくつかの実施形態では、記述子ネットワークの加重が、同一画像対が記述子ネットワークに入力として提供されるとき、主距離および／または副距離（例えば、距離の和）を増加または減少させるように修正される。記述子ネットワークの加重は、逆伝搬技法を実施し、記述子ネットワークの加重を調節し得る、加重修正器（例えば、加重修正器３１８Ａ、３１８Ｂ）によって修正されてもよい。

いくつかの実施形態では、記述子ネットワークは、最初に、主ベクトルを訓練し、続いて、副ベクトルを訓練することによって、順次、訓練されてもよい。例えば、主ベクトルの要素を算出することに寄与する、記述子ネットワークの加重が、副ベクトルの要素を無視しながら、画像対のセットを使用して訓練されてもよい。いったん訓練されると、主ベクトルの要素を算出することに寄与する、記述子ネットワークの加重は、固定されてもよい。その後、副ベクトルの要素を算出することに寄与する、記述子ネットワークの加重が、同一画像対のセットまたは異なる画像対のセットを使用して、訓練されてもよい。いくつかの実施形態では、主ベクトルの要素は、副ベクトルの要素を訓練する間、無視されてもよい。いくつかの実施形態では、主ベクトルおよび副ベクトルは両方とも、副ベクトルの要素を算出することに寄与する、記述子ネットワークの加重を訓練する間、考慮されてもよい。いくつかの実施形態では、主ベクトルおよび副ベクトルの要素を算出することに寄与する、記述子ネットワークの加重が、同時に訓練されてもよい。

図６は、本開示のいくつかの実施形態による、階層正規化の実施例を図示する。要素の全てを１の値に正規化する代わりに、要素は、主ベクトルおよび副ベクトルに分割され、主ベクトル内の要素は全て、１－αの値に正規化され、副ベクトル内の要素は全て、αの値に正規化される。図示される実施例では、αは、１／１６に等しい。したがって、主ベクトルは、１５／１６に正規化され、副ベクトルは、１／１６に正規化される。図示される実施例では、主ベクトルは、８個の要素を含み、副ベクトルは、２４個の要素を含む。

図７は、本開示のいくつかの実施形態による、２つの画像がマッチングするかどうかを決定する方法を示す、例示的フローチャートを図示する。図示される実施例では、ユークリッド距離が、主距離および副距離を算出するために使用される。ステップ７０２では、主距離が、算出される。ステップ７０４では、主距離が上限閾値を上回るかどうかが決定される。主距離が、上限閾値を上回る場合、画像がマッチングしないと決定される。そうでなければ、本方法は、ステップ７０６に進む。ステップ７０６では、主距離が下限閾値未満である（上限閾値－４αに等しい）かどうかが決定される。主距離が、下限閾値未満である場合、画像がマッチングすると決定される。そうでなければ、本方法は、ステップ７０８に進む。

ステップ７０８では、副距離が、算出される。ステップ７１０では、主距離および副距離の和が上限閾値未満であるかどうかが決定される。主距離および副距離の和が、上限閾値未満である場合、画像がマッチングすると決定される。そうでなければ（例えば、主距離および副距離の和が上限閾値を上回る場合）、画像がマッチングしないと決定される。

図８は、本開示のいくつかの実施形態による、図７に図示される例示的フローチャートのグラフ表現を図示する。図８に示されるように、マッチングは、主距離が上限閾値を上回るとき、または主距離が下限閾値未満であるとき、主距離のみに基づいて決定されることができる。そうでなければ、マッチングは、主距離および副距離の両方に基づいて決定される。

図９は、本開示のいくつかの実施形態による、２つの画像がマッチングするかどうかを決定する方法を示す、例示的フローチャートを図示する。図示される実施例では、余弦距離が、主距離および副距離を算出するために使用される。ステップ９０２では、主距離が、２つの画像の主ベクトル間の内積を算出することによって算出される。ステップ９０４では、主距離が下限閾値未満であるかどうかが決定される。主距離が、下限閾値未満である場合、画像がマッチングしないと決定される。そうでなければ、本方法は、ステップ９０６に進む。ステップ９０６では、主距離が上限閾値を上回る（下限閾値＋２αに等しい）かどうかが決定される。主距離が、上限閾値を上回る場合、画像がマッチングすると決定される。そうでなければ、本方法は、ステップ９０８に進む。

ステップ９０８では、副距離が、２つの画像の副ベクトル間の内積を算出することによって算出される。ステップ９１０では、主距離および副距離の和が中央閾値を上回る（上限閾値と下限閾値との間の平均に等しい）かどうかが決定される。主距離および副距離の和が、中央閾値を上回る場合、画像がマッチングすると決定される。そうでなければ（例えば、主距離および副距離の和が、中央閾値未満である場合）、画像がマッチングしないと決定される。

図１０は、本開示のいくつかの実施形態による、図９に図示される例示的フローチャートのグラフ表現を図示する。図１０に示されるように、マッチングは、主距離が上限閾値を上回るとき、または主距離が下限閾値未満であるとき、主距離のみに基づいて決定されることができる。そうでなければ、マッチングは、主距離および副距離の両方に基づいて決定される。

図１１は、本開示のいくつかの実施形態による、画像のセットから基準画像に最も近い画像を見出すための方法を示す、例示的フローチャートを図示する。図示される実施例では、ユークリッド距離が、主距離および副距離を算出するために使用される。画像記述子の主ベクトルが、画像のセットおよび基準画像のために生成された後、ステップ１１０２では、主距離が、主ベクトルを使用して、画像のセットのそれぞれと基準画像との間で算出される。ステップ１１０４では、最小主距離が、識別される。ステップ１１０６では、最小距離＋４α未満の主距離を有する、全ての画像が、選択される。

ステップ１１０８では、画像記述子の副ベクトルが、選択された画像および基準画像のために生成された後、副距離が、副ベクトルを使用して、選択された画像のそれぞれと基準画像との間で算出される。ステップ１１１０では、最も近い画像は、主距離および副距離の和である、最小総距離を識別することによって選択される。

図１２は、本開示のいくつかの実施形態による、図１１に図示される例示的フローチャートのグラフ表現を図示する。図１２に示されるように、小領域のみが、主距離が、閾値を上回る主距離を有する、画像をフィルタリング除去するために使用されるとき、副距離を使用して検索される必要がある。

図１３は、本開示のいくつかの実施形態による、画像のセットから基準画像に最も近い画像を見出すための方法を示す、例示的フローチャートを図示する。図示される実施例では、余弦距離が、主距離および副距離を算出するために使用される。画像記述子の主ベクトルが、画像のセットおよび基準画像のために生成された後、ステップ１３０２では、主距離が、内積を算出することによって、主ベクトルを使用して、画像のセットのそれぞれと基準画像との間で算出される。ステップ１３０４では、最大主距離が、識別される。ステップ１３０６では、最大距離－αを上回る主距離を有する、全ての画像が、選択される。

ステップ１３０８では、画像記述子の副ベクトルが、選択された画像および基準画像のために生成された後、副距離が、内積を算出することによって、副ベクトルを使用して、選択された画像のそれぞれと基準画像との間で算出される。ステップ１３１０では、最も近い画像が、主距離および副距離の和である、最大総距離を識別することによって選択される。

図１４は、本開示のいくつかの実施形態による、図１３に図示される例示的フローチャートのグラフ表現を図示する。図１４に示されるように、小領域のみが、主距離が、閾値を下回る主距離を有する、画像をフィルタリング除去するために使用されるとき、副距離を使用して検索される必要がある。

図１５は、本開示のいくつかの実施形態による、主距離を使用してフィルタリング除去され得る、領域を示す、付加的グラフ表現を図示する。図示される実施例では、ユークリッド距離が、主距離および副距離を算出するために使用される。

図１６は、本開示のいくつかの実施形態による、主距離を使用してフィルタリング除去され得る、領域を示す、付加的グラフ表現を図示する。図示される実施例では、余弦距離が、主距離および副距離を算出するために使用される。

図１７は、本開示のいくつかの実施形態による、説明される記述子ネットワークの実験結果を示す、グラフを図示する。図示されるグラフは、再現率の関数として精度を示す。

図１８は、本開示のいくつかの実施形態による、説明される記述子ネットワークの実験結果を示す、グラフを図示する。図示されるグラフは、誤検出率の関数として、正検出率を示す。微調整が、３００個の基準時点にわたって均一に訓練し、次いで、３０個の基準時点にわたって非均一に微調整訓練することによって実施される。

図１９は、本開示のいくつかの実施形態による、説明される記述子ネットワークの実験結果を示す、グラフを図示する。図示されるグラフは、再現率の関数として精度を示す。

図２０は、本開示のいくつかの実施形態による、説明される記述子ネットワークの実験結果を示す、グラフを図示する。図示されるグラフは、誤検出率の関数として、正検出率を示す。

図２１は、本開示のいくつかの実施形態による、複数の主ベクトルを有する、例示的画像記述子２１００を図示する。記述子ネットワークは、概して、主ベクトルおよび副ベクトルを有する、画像記述子を生成するように本明細書に説明されるが、本開示の実施形態はさらに、複数の主ベクトルを有する、画像記述子を生成するように構成される、記述子ネットワークを含む。図示される実施例では、画像記述子２１００は、第１の主ベクトルと、第２の主ベクトルと、第３の主ベクトルと、副ベクトルとを含む。いくつかの実施形態では、第１の主ベクトルは、第２の主ベクトルより少ない要素を含んでもよく、これは、第３の主ベクトルより少ない要素を含んでもよく、これは、副ベクトルより少ない要素を含んでもよい。

画像記述子２１００を生成するとき、階層正規化が、以下のようにかけられることができる。すなわち、第１の主ベクトルが、第１の主正規化量に正規化されることができ、第２の主ベクトルが、第２の主正規化量に正規化されることができ、第２の主正規化量は、第１の主正規化量未満であって、第３の主ベクトルは、第３の主正規化量に正規化されることができ、第３の主正規化量は、第２の主正規化量未満であって、副ベクトルは、副正規化量に正規化されることができ、副正規化量は、第３の主正規化量未満である。

図２２は、本開示のいくつかの実施形態による、種々のハードウェア要素を備える、例示的コンピュータシステム２２００を図示する。コンピュータシステム２２００は、本明細書に説明されるデバイスの中に組み込まれる、またはそれと統合されてもよく、および／または種々の実施形態によって提供される方法のステップのいくつかまたは全てを実施するように構成されてもよい。例えば、種々の実施形態では、コンピュータシステム２２００は、方法４００または５００を実施するように構成されてもよい。図２２は、種々のコンポーネントの一般化された例証のみを提供することを意図し、その任意または全てのものが、必要に応じて、利用されてもよいことに留意されたい。図２２は、したがって、広義には、個々のシステム要素が、比較的に分離またはより比較的に統合された様式で実装され得る方法を図示する。

図示される実施例では、コンピュータシステム２２００は、通信媒体２２０２と、１つまたはそれを上回るプロセッサ２２０４と、１つまたはそれを上回る入力デバイス２２０６と、１つまたはそれを上回る出力デバイス２２０８と、通信サブシステム２２１０と、１つまたはそれを上回るメモリデバイス２２１２とを含む。コンピュータシステム２２００は、種々のハードウェア実装および内蔵システム技術を使用して実装されてもよい。例えば、コンピュータシステム２２００の１つまたはそれを上回る要素は、可能性の中でもとりわけ、ＸＩＬＩＮＸ（登録商標）、ＩＮＴＥＬ（登録商標）、またはＬＡＴＴＩＣＥＳＥＭＩＣＯＮＤＵＣＴＯＲ（登録商標）によって市販のもの等のフィールドプログラマブルゲートアレイ（ＦＰＧＡ）、システムオンチップ（ＳｏＣ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、マイクロコントローラ、および／またはＳｏＣＦＰＧＡ等のハイブリッドデバイスとして実装されてもよい。

コンピュータシステム２２００の種々のハードウェア要素は、通信媒体２２０２を介して結合されてもよい。通信媒体２２０２は、明確性の目的のために、単一接続として図示されるが、通信媒体２２０２は、ハードウェア要素間でデータを転送するための種々の数およびタイプの通信媒体を含んでもよいことを理解されたい。例えば、通信媒体２２０２は、可能性の中でもとりわけ、１つまたはそれを上回るワイヤ（例えば、印刷回路基板（ＰＣＢ）または集積回路（ＩＣ）上の伝導性トレース、経路、または導線、マイクロストリップ、ストリップライン、同軸ケーブル）、１つまたはそれを上回る光学導波管（例えば、光ファイバ、ストリップ導波管）、および／または１つまたはそれを上回る無線接続またはリンク（例えば、赤外線無線通信、無線通信、マイクロ波無線通信）を含んでもよい。

いくつかの実施形態では、通信媒体２２０２は、コンピュータシステム２２００のハードウェア要素の１つまたはそれを上回るピンを接続する、バスを含んでもよい。例えば、通信媒体２２０２は、システムバスと称される、プロセッサ２２０４とメインメモリ２２１４を接続する、バスと、拡張バスと称される、メインメモリ２２１４と入力デバイス２２０６または出力デバイス２２０８を接続する、バスとを含んでもよい。システムバスは、アドレスバス、データバス、および制御バスを含む、いくつかの要素から成ってもよい。アドレスバスは、データバスが、メモリアドレスに含有されるデータにアクセスし、プロセッサ２２０４に返すために、メモリアドレスを、プロセッサ２２０４から、メインメモリ２２１４と関連付けられる、アドレスバス回路網に搬送してもよい。制御バスは、プロセッサ２２０４からのコマンドを搬送し、メインメモリ２２１４からのステータス信号を返してもよい。各バスは、複数の情報ビットを搬送するための複数のワイヤを含んでもよく、各バスは、データのシリアルまたはパラレル伝送をサポートしてもよい。

プロセッサ２２０４は、１つまたはそれを上回る中央処理ユニット（ＣＰＵ）、グラフィック処理ユニット（ＧＰＵ）、ニューラルネットワークプロセッサまたはアクセラレータ、デジタル信号プロセッサ（ＤＳＰ）、および／または同等物を含んでもよい。ＣＰＵは、マイクロプロセッサの形態をとってもよく、これは、金属酸化物半導体電界効果トランジスタ（ＭＯＳＦＥＴ）構造の単一ＩＣチップ上に加工される。プロセッサ２２０４は、１つまたはそれを上回るマルチコアプロセッサを含んでもよく、その中で各コアは、他のコアと同時に、プログラム命令を読み取り、実行してもよい。

入力デバイス２２０６は、マウス、キーボード、マイクロホン等の種々のユーザ入力デバイス、および画像捕捉デバイス、圧力センサ（例えば、気圧計、触覚センサ）、温度センサ（例えば、温度計、熱電対、サーミスタ）、移動センサ（例えば、加速度計、ジャイロスコープ、傾斜センサ）、光センサ（例えば、光ダイオード、光検出器、電荷結合素子）、および／または同等物等の種々のセンサ入力デバイスのうちの１つまたはそれを上回るものを含んでもよい。入力デバイス２２０６はまた、リムーバブル記憶デバイスまたは他のリムーバブル媒体を読み取り、および／または受信するためのデバイスを含んでもよい。そのようなリムーバブル媒体は、光学ディスク（例えば、Ｂｌｕ－ｒａｙ（登録商標）ディスク、ＤＶＤ、ＣＤ）、メモリカード（例えば、コンパクトなフラッシュカード、セキュアデジタル（ＳＤ）カード、メモリスティック）、フロッピー（登録商標）ディスク、ユニバーサルシリアルバス（ＵＳＢ）フラッシュドライブ、外部ハードディスクドライブ（ＨＤＤ）またはソリッドステートドライブ（ＳＳＤ）、および／または同等物を含んでもよい。

出力デバイス２２０８は、限定ではないが、ディスプレイデバイス、スピーカ、プリンタ、および／または同等物等、情報を人間可読形態に変換する、種々のデバイスのうちの１つまたはそれを上回るものを含んでもよい。出力デバイス２２０８はまた、入力デバイス２２０６を参照して説明されるもの等のリムーバブル記憶デバイスまたは他のリムーバブル媒体に書き込むためのデバイスを含んでもよい。出力デバイス２２０８はまた、１つまたはそれを上回るコンポーネントの物理的移動を引き起こすための種々のアクチュエータを含んでもよい。そのようなアクチュエータは、油圧、空気圧、電気であってもよく、コンピュータシステム２２００によって制御信号を提供されてもよい。

通信サブシステム２２１０は、コンピュータネットワーク等を経由して、コンピュータシステム２２００を、コンピュータシステム２２００の外部に位置する、システムまたはデバイスに接続するためのハードウェアコンポーネントを含んでもよい。種々の実施形態では、通信サブシステム２２１０は、可能性の中でもとりわけ、１つまたはそれを上回る入／出力ポート（例えば、ユニバーサル非同期送受信機（ＵＡＲＴ））、光学通信デバイス（例えば、光学モデム）、赤外線通信デバイス、無線通信デバイス（例えば、無線ネットワークインターフェースコントローラ、Ｂｌｕｅｔｏｏｔｈ（登録商標）デバイス、ＩＥＥＥ８０２．１１デバイス、Ｗｉ－Ｆｉデバイス、Ｗｉ－Ｍａｘデバイス、セルラーデバイス）に結合される、有線通信デバイスを含んでもよい。

メモリデバイス２２１２は、コンピュータシステム２２００の種々のデータ記憶デバイスを含んでもよい。例えば、メモリデバイス２２１２は、プロセッサレジスタおよびキャッシュ（例えば、Ｌ０、Ｌ１、Ｌ２）等のより高速の応答時間およびより低い容量のメモリから、ランダムアクセスメモリ等の中応答時間および中容量のメモリ、ソリッドステートドライブおよびハードドライブディスク等のより低速の応答時間およびより低い容量のメモリまで、種々の応答時間および容量を伴う、種々のタイプのコンピュータメモリを含んでもよい。プロセッサ２２０４およびメモリデバイス２２１２は、別個の要素として図示されるが、プロセッサ２２０４は、単一プロセッサによって利用される、または複数のプロセッサ間で共有され得る、プロセッサレジスタおよびキャッシュ等の可変レベルのプロセッサ上メモリを含んでもよいことを理解されたい。

メモリデバイス２２１２は、メインメモリ２２１４を含んでもよく、これは、通信媒体２２０２のメモリバスを介して、直接、プロセッサ２２０４によってアクセス可能であってもよい。例えば、プロセッサ２２０４は、メインメモリ２２１４内に記憶される命令を持続的に読み取り、実行してもよい。したがって、種々のソフトウェア要素が、メインメモリ２２１４の中にロードされ、図２２に図示されるように、プロセッサ２２０４によって読み取られ、実行されてもよい。典型的には、メインメモリ２２１４は、揮発性メモリであって、これは、電力がオフにされると、全てのデータを喪失し、故に、記憶されたデータを保存するために電力を必要とする。メインメモリ２２１４はさらに、読取値メモリデバイス２２１２内に記憶される他のソフトウェアをメインメモリ２２１４の中に読み出すために使用される、ソフトウェア（例えば、ＢＩＯＳ等のファームウェア）を含有する、不揮発性メモリのごく一部を含んでもよい。いくつかの実施形態では、メインメモリ２２１４の揮発性メモリは、動的ＲＡＭ（ＤＲＡＭ）等のランダムアクセスメモリ（ＲＡＭ）として実装され、メインメモリ２２１４の不揮発性メモリは、フラッシュメモリ、消去可能プログラマブル読取専用メモリ（ＥＰＲＯＭ）、または電気的消去可能プログラマブル読取専用メモリ（ＥＥＰＲＯＭ）等の読取専用メモリ（ＲＯＭ）として実装される。

コンピュータシステム２２００は、現在メインメモリ２２１４内に位置するように示される、ソフトウェア要素を含んでもよく、これは、本開示の種々の実施形態によって提供されるコンピュータプログラムを含み得る、１つまたはそれを上回るアプリケーションプログラム等、オペレーティングシステム、デバイスドライバ、ファームウェア、コンパイラ、および／または他のコードを含んでもよい。単に、一例として、上記に議論される任意の方法に関して説明される１つまたはそれを上回るステップが、コンピュータシステム２２００によって実行可能な命令２２１６として実装され得る。一実施例では、そのような命令２２１６は、通信サブシステム２２１０を使用して（例えば、命令２２１６を搬送する無線または有線信号を介して）、コンピュータシステム２２００によって受信され、通信媒体２２０２によってメモリデバイス２２１２に搬送され、メモリデバイス２２１２内に記憶され、メインメモリ２２１４の中に読み込まれ、プロセッサ２２０４によって実行され、説明される方法の１つまたはそれを上回るステップを実施してもよい。別の実施例では、命令２２１６は、入力デバイス２２０６を使用して（例えば、リムーバブル媒体のための読取機を介して）、コンピュータシステム２２００によって受信され、通信媒体２２０２によってメモリデバイス２２１２に搬送され、メモリデバイス２２１２内に記憶される、メインメモリ２２１４の中に読み込まれ、プロセッサ２２０４によって実行され、説明される方法の１つまたはそれを上回るステップを実施してもよい。

本開示のいくつかの実施形態では、命令２２１６は、コンピュータ可読記憶媒体、または単に、コンピュータ可読媒体上に記憶される。そのようなコンピュータ可読媒体は、非一過性であってもよく、したがって、非一過性コンピュータ可読媒体と称され得る。ある場合には、非一過性コンピュータ可読媒体は、コンピュータシステム２２００内に組み込まれてもよい。例えば、非一過性コンピュータ可読媒体は、図２２に示されるように、メモリデバイス２２１２のうちの１つであってもよく、命令２２１６は、メモリデバイス２２１２内に記憶される。ある場合には、非一過性コンピュータ可読媒体は、コンピュータシステム２２００と別個であってもよい。一実施例では、非一過性コンピュータ可読媒体は、図２２に示されるように、入力デバイス２２０６を参照して説明されるもの等の入力デバイス２２０６に提供される、リムーバブル媒体であってもよく、命令２２１６は、入力デバイス２２０６に提供される。別の実施例では、非一過性コンピュータ可読媒体は、図２２に示されるように、通信サブシステム２２１０を使用して、命令２２１６を搬送するデータ信号をコンピュータシステム２２００に無線で伝送し得る、携帯電話等の遠隔電子デバイスのコンポーネントであってもよく、命令２２１６は、通信サブシステム２２１０に提供される。

命令２２１６は、コンピュータシステム２２００によって読み取られ、および／または実行されるための任意の好適な形態をとってもよい。例えば、命令２２１６は、ソースコード（Ｊａｖａ（登録商標）、Ｃ、Ｃ＋＋、Ｃ＃、Ｐｙｔｈｏｎ等の人間可読プログラミング言語で書き込まれる）、オブジェクトコード、アセンブリ言語、機械コード、マイクロコード、実行可能コード、および／または同等物であってもよい。一実施例では、命令２２１６は、ソースコードの形態において、コンピュータシステム２２００に提供され、コンパイラが、命令２２１６をソースコードから機械コードに変換するために使用され、これは、次いで、プロセッサ２２０４による実行のために、メインメモリ２２１４の中に読み込まれてもよい。別の実施例として、命令２２１６は、直ちに、プロセッサ２２０４による実行のためにメインメモリ２２１４の中に読み込まれ得る、機械コードを伴う、実行可能ファイルの形態において、コンピュータシステム２２００に提供される。種々の実施例では、命令２２１６は、可能性の中でもとりわけ、より広いソフトウェア展開のために、暗号化または暗号化解除された形態において、圧縮または解凍された形態において、インストールパッケージまたは初期化として、コンピュータシステム２２００に提供されてもよい。

本開示の一側面では、システム（例えば、コンピュータシステム２２００）が、本開示の種々の実施形態による、方法を実施するために提供される。例えば、いくつかの実施形態は、非一過性コンピュータ可読媒体（例えば、メモリデバイス２２１２またはメインメモリ２２１４）に通信可能に結合される、１つまたはそれを上回るプロセッサ（例えば、プロセッサ２２０４）を備える、システムを含んでもよい。非一過性コンピュータ可読媒体は、１つまたはそれを上回るプロセッサによって実行されると、１つまたはそれを上回るプロセッサに、種々の実施形態に説明される方法を実施させる、その中に記憶される、命令（例えば、命令２２１６）を有してもよい。

本開示の別の側面では、命令（例えば、命令２２１６）を含む、コンピュータプログラム製品が、本開示の種々の実施形態による、方法実施するために提供される。コンピュータプログラム製品は、非一過性コンピュータ可読媒体（例えば、メモリデバイス２２１２またはメインメモリ２２１４）内に有形に具現化されてもよい。命令は、１つまたはそれを上回るプロセッサ（例えば、プロセッサ２２０４）に、種々の実施形態に説明される方法を実施させるように構成されてもよい。

本開示の別の側面では、非一過性コンピュータ可読媒体（例えば、メモリデバイス２２１２またはメインメモリ２２１４）が、提供される。非一過性コンピュータ可読媒体は１つまたはそれを上回るプロセッサ（例えば、プロセッサ２２０４）によって実行されると、１つまたはそれを上回るプロセッサに、種々の実施形態に説明される方法を実施させる、その中に記憶される、命令（例えば、命令２２１６）を有してもよい。

上記に議論される方法、システム、およびデバイスは、実施例である。種々の構成は、必要に応じて、種々のプロシージャまたはコンポーネントを省略、代用、または追加してもよい。例えば、代替構成では、本方法は、説明されるものと異なる順序で実施されてもよく、および／または種々の段階は、追加される、省略される、および／または組み合わせられてもよい。また、ある構成に関して説明される特徴は、種々の他の構成において組み合わせられてもよい。構成の異なる側面および要素は、類似様式で組み合わせられてもよい。また、技術は、進歩するものであって、したがって、要素の多くは、実施例であって、本開示の範囲または請求項を限定するものではない。

具体的詳細が、実装を含む、例示的構成の完全な理解を提供するために説明に与えられる。しかしながら、構成は、これらの具体的詳細を伴わずに実践されてもよい。例えば、周知の回路、プロセス、アルゴリズム、構造、および技法は、構成を曖昧にすることを回避するために、不必要な詳細を伴わずに示されている。本説明は、例示的構成のみを提供し、請求項の範囲、可用性、または構成を限定するものではない。むしろ、構成の前述の説明は、当業者に説明される技法を実装するための有効な説明を提供するであろう。種々の変更が、本開示の精神または範囲から逸脱することなく、要素の機能および配列に行われてもよい。

いくつかの例示的構成が説明されたが、種々の修正、代替構造、および均等物が、本開示の精神から逸脱することなく、使用されてもよい。例えば、前述の要素は、より大きいシステムのコンポーネントであってもよく、他のルールが、本技術の用途に優先する、または別様にそれを修正してもよい。また、いくつかのステップは、前述の要素が検討される前、間、または後に行われてもよい。故に、前述の説明は、請求項の範囲を束縛するものではない。

本明細書および添付の請求項で使用されるように、単数形「ａ」、「ａｎ」、および「ｔｈｅ」は、文脈によって明確に別様に示されない限り、複数参照を含む。したがって、例えば、「ユーザ」の言及は、１人またはそれを上回るそのようなユーザの言及を含み、「プロセッサ」の言及は、１つまたはそれを上回るプロセッサおよび当業者に公知のその均等物等の言及を含む。

また、単語「ｃｏｍｐｒｉｓｅ（～を備える）」、「ｃｏｍｐｒｉｓｉｎｇ（～を備える）」、「ｃｏｎｔａｉｎｓ（～を含有する）」、「ｃｏｎｔａｉｎｉｎｇ（～を含有する）」、「ｉｎｃｌｕｄｅ（～を含む）」、「ｉｎｃｌｕｄｉｎｇ（～を含む）」、および「ｉｎｃｌｕｄｅｓ（～を含む）」は、本明細書および以下の請求項で使用されるとき、述べられた特徴、整数、コンポーネント、またはステップの存在を規定するために意図されるが、それらは、１つまたはそれを上回る他の特徴、整数、コンポーネント、ステップ、行為、または群の存在または追加を除外するものではない。

また、本明細書に説明される実施例および実施形態は、例証目的のみのためのものであって、それに照らして、種々の修正または変更が、当業者に示唆され、本願の精神および権限および添付の請求項の範囲内に含まれることを理解されたい。

Claims

コンピュータ実装方法であって、
第１の画像を受信することと、
前記第１の画像を記述子ネットワークに入力として提供することと、
前記記述子ネットワークを使用して、前記第１の画像に基づいて、第１の画像記述子を生成することであって、前記第１の画像記述子は、
要素の第１のセットの第１のサブセットを備える第１の主ベクトルと、
前記要素の第１のセットの第２のサブセットを備える第１の副ベクトルであって、前記要素の第１のセットの第２のサブセットは、前記要素の第１のセットの第１のサブセットより多くの要素を含む、第１の副ベクトルと
の間に分散される要素の第１のセットを含む、ことと、
前記第１の主ベクトルを主正規化量に正規化することと、
前記第１の副ベクトルを副正規化量に正規化することであって、前記副正規化量は、前記主正規化量未満である、ことと
によって、階層正規化を前記第１の画像記述子にかけることと
を含む、コンピュータ実装方法。
第２の画像を受信することと、
前記第２の画像を前記記述子ネットワークに入力として提供することと、
前記記述子ネットワークを使用して、前記第２の画像に基づいて、第２の画像記述子を生成することであって、前記第２の画像記述子は、
要素の第２のセットの第１のサブセットを備える第２の主ベクトルと、
前記要素の第２のセットの第２のサブセットを備える第２の副ベクトルであって、前記要素の第２のセットの第２のサブセットは、前記要素の第２のセットの第１のサブセットより多くの要素を含む、第２の副ベクトルと
の間に分散される要素の第２のセットを含む、ことと、
前記第２の主ベクトルを前記主正規化量に正規化することと、
前記第２の副ベクトルを前記副正規化量に正規化することと
によって、前記階層正規化を前記第２の画像記述子にかけることと
をさらに含む、請求項１に記載のコンピュータ実装方法。
前記第１の主ベクトルおよび前記第２の主ベクトルに基づいて、前記第１の画像と前記第２の画像との間の主距離を算出することと、
前記主距離が上限閾値を上回るかどうかを決定することと
によって、前記第１の画像が前記第２の画像にマッチングするかどうかを決定すること
をさらに含む、請求項２に記載のコンピュータ実装方法。
前記第１の画像が前記第２の画像にマッチングするかどうかを決定することはさらに、
前記主距離が前記上限閾値を上回ることを決定することと、
前記第１の画像が前記第２の画像にマッチングしないことを決定することと
を含む、請求項３に記載のコンピュータ実装方法。
前記第１の画像が前記第２の画像にマッチングするかどうかを決定することはさらに、
前記主距離が前記上限閾値を上回らないことを決定することと、
前記主距離が下限閾値を上回るかどうかを決定することと
を含む、請求項３に記載のコンピュータ実装方法。
前記第１の主ベクトルおよび前記第２の主ベクトルに基づいて、前記第１の画像と前記第２の画像との間の主距離を算出することは、
前記要素の第１のセットの第１のサブセットと前記要素の第２のセットの第１のサブセットとの間の差異の２乗の和を算出すること
を含む、請求項３に記載のコンピュータ実装方法。
前記第１の画像が前記第２の画像にマッチングするかどうかを決定することはさらに、
前記主距離が前記下限閾値を上回ることを決定することと、
前記第１の副ベクトルおよび前記第２の副ベクトルに基づいて、前記第１の画像と前記第２の画像との間の副距離を算出することと、
前記主距離および前記副距離の和が前記上限閾値を上回るかどうかを決定することと
を含む、請求項５に記載のコンピュータ実装方法。
前記第１の画像が前記第２の画像にマッチングするかどうかを決定することはさらに、
前記主距離および前記副距離の和が前記上限閾値を上回ることを決定することと、
前記第１の画像が前記第２の画像にマッチングしないことを決定することと
を含む、請求項７に記載のコンピュータ実装方法。
前記第１の画像が前記第２の画像にマッチングするかどうかを決定することはさらに、
前記主距離および前記副距離の和が前記上限閾値を上回らないことを決定することと、
前記第１の画像が前記第２の画像にマッチングすることを決定することと
を含む、請求項７に記載のコンピュータ実装方法。
前記第１の副ベクトルおよび前記第２の副ベクトルに基づいて、前記第１の画像と前記第２の画像との間の副距離を算出することは、
前記要素の第１のセットの第２のサブセットと前記要素の第２のセットの第２のサブセットとの間の差異の２乗の和を算出すること
を含む、請求項７に記載のコンピュータ実装方法。
前記主正規化量は、１－αに等しく、
前記副正規化量は、αに等しく、αは、０．５未満である、
請求項１に記載のコンピュータ実装方法。
前記記述子ネットワークは、訓練プロセスを通して修正可能である加重のセットを有するニューラルネットワークである、請求項１に記載のコンピュータ実装方法。
システムであって、
１つまたはそれを上回るプロセッサと、
コンピュータ可読媒体であって、前記コンピュータ可読媒体は、命令を記憶しており、前記命令は、前記１つまたはそれを上回るプロセッサによって実行されると、前記１つまたはそれを上回るプロセッサに、
第１の画像を受信することと、
前記第１の画像を記述子ネットワークに入力として提供することと、
前記記述子ネットワークを使用して、前記第１の画像に基づいて、第１の画像記述子を生成することであって、前記第１の画像記述子は、
要素の第１のセットの第１のサブセットを備える第１の主ベクトルと、
前記要素の第１のセットの第２のサブセットを備える第１の副ベクトルであって、前記要素の第１のセットの第２のサブセットは、前記要素の第１のセットの第１のサブセットより多くの要素を含む、第１の副ベクトルと
の間に分散される要素の第１のセットを含む、ことと、
前記第１の主ベクトルを主正規化量に正規化することと、
前記第１の副ベクトルを副正規化量に正規化することであって、前記副正規化量は、前記主正規化量未満である、ことと
によって、階層正規化を前記第１の画像記述子にかけることと
を含む動作を実施させる、コンピュータ可読媒体と
を備える、システム。
前記動作はさらに、
第２の画像を受信することと、
前記第２の画像を前記記述子ネットワークに入力として提供することと、
前記記述子ネットワークを使用して、前記第２の画像に基づいて、第２の画像記述子を生成することであって、前記第２の画像記述子は、
要素の第２のセットの第１のサブセットを備える第２の主ベクトルと、
前記要素の第２のセットの第２のサブセットを備える第２の副ベクトルであって、前記要素の第２のセットの第２のサブセットは、前記要素の第２のセットの第１のサブセットより多くの要素を含む、第２の副ベクトルと
の間に分散される要素の第２のセットを含む、ことと、
前記第２の主ベクトルを前記主正規化量に正規化することと、
前記第２の副ベクトルを前記副正規化量に正規化することと
によって、前記階層正規化を前記第２の画像記述子にかけることと
を含む、請求項１３に記載のシステム。
前記動作はさらに、
前記第１の主ベクトルおよび前記第２の主ベクトルに基づいて、前記第１の画像と前記第２の画像との間の主距離を算出することと、
前記主距離が上限閾値を上回るかどうかを決定することと
によって、前記第１の画像が前記第２の画像にマッチングするかどうかを決定すること
を含む、請求項１４に記載のシステム。
前記第１の画像が前記第２の画像にマッチングするかどうかを決定することはさらに、
前記主距離が前記上限閾値を上回ることを決定することと、
前記第１の画像が前記第２の画像にマッチングしないことを決定することと
を含む、請求項１５に記載のシステム。
前記第１の画像が前記第２の画像にマッチングするかどうかを決定することはさらに、
前記主距離が前記上限閾値を上回らないことを決定することと、
前記主距離が下限閾値を上回るかどうかを決定することと
を含む、請求項１５に記載のシステム。
非一過性機械可読媒体であって、前記非一過性機械可読媒体は、命令を備え、前記命令は、１つまたはそれを上回るプロセッサによって実行されると、前記１つまたはそれを上回るプロセッサに、
第１の画像を受信することと、
前記第１の画像を記述子ネットワークに入力として提供することと、
前記記述子ネットワークを使用して、前記第１の画像に基づいて、第１の画像記述子を生成することであって、前記第１の画像記述子は、
要素の第１のセットの第１のサブセットを備える第１の主ベクトルと、
前記要素の第１のセットの第２のサブセットを備える第１の副ベクトルであって、前記要素の第１のセットの第２のサブセットは、前記要素の第１のセットの第１のサブセットより多くの要素を含む、第１の副ベクトルと
の間に分散される要素の第１のセットを含む、ことと、
前記第１の主ベクトルを主正規化量に正規化することと、
前記第１の副ベクトルを副正規化量に正規化することであって、前記副正規化量は、前記主正規化量未満である、ことと
によって、階層正規化を前記第１の画像記述子にかけることと
を含む動作を実施させる、非一過性機械可読媒体。
前記動作はさらに、
第２の画像を受信することと、
前記第２の画像を前記記述子ネットワークに入力として提供することと、
前記記述子ネットワークを使用して、前記第２の画像に基づいて、第２の画像記述子を生成することであって、前記第２の画像記述子は、
要素の第２のセットの第１のサブセットを備える第２の主ベクトルと、
前記要素の第２のセットの第２のサブセットを備える第２の副ベクトルであって、前記要素の第２のセットの第２のサブセットは、前記要素の第２のセットの第１のサブセットより多くの要素を含む、第２の副ベクトルと
の間に分散される要素の第２のセットを含む、ことと、
前記第２の主ベクトルを前記主正規化量に正規化することと、
前記第２の副ベクトルを前記副正規化量に正規化することと
によって、前記階層正規化を前記第２の画像記述子にかけることと
を含む、請求項１８に記載の非一過性機械可読媒体。
前記動作はさらに、
前記第１の主ベクトルおよび前記第２の主ベクトルに基づいて、前記第１の画像と前記第２の画像との間の主距離を算出することと、
前記主距離が上限閾値を上回るかどうかを決定することと
によって、前記第１の画像が前記第２の画像にマッチングするかどうかを決定すること
を含む、請求項１９に記載の非一過性機械可読媒体。