JP2023524038A - 階層正規化がかけられる画像記述子ネットワーク - Google Patents
階層正規化がかけられる画像記述子ネットワーク Download PDFInfo
- Publication number
- JP2023524038A JP2023524038A JP2022566064A JP2022566064A JP2023524038A JP 2023524038 A JP2023524038 A JP 2023524038A JP 2022566064 A JP2022566064 A JP 2022566064A JP 2022566064 A JP2022566064 A JP 2022566064A JP 2023524038 A JP2023524038 A JP 2023524038A
- Authority
- JP
- Japan
- Prior art keywords
- image
- elements
- principal
- descriptor
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/56—Information retrieval; Database structures therefor; File system structures therefor of still image data having vectorial format
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/469—Contour-based spatial representations, e.g. vector-coding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Abstract
記述子ネットワークを使用および訓練するための技法が、開示される。画像が、受信され、記述子ネットワークに提供され得る。記述子ネットワークが、画像に基づいて、画像記述子を生成し得る。画像記述子は、要素のセットの第1のサブセットを備える、主ベクトルと、要素のセットの第2のサブセットを備える、副ベクトルとの間に分散される、要素のセットを含んでもよい。要素のセットの第2のサブセットは、要素のセットの第1のサブセットより多くの要素を含んでもよい。階層正規化が、主ベクトルを主正規化量に正規化し、副ベクトルを副正規化量に正規化することによって、画像記述子にかけられ得る。副正規化量は、主正規化量未満であり得る。
Description
(関連出願の相互参照)
本願は、その全内容が、あらゆる目的のために、参照することによって本明細書に組み込まれる、2020年5月1日に出願され、「IMAGE DESCRIPTOR NETWORK WITH IMPOSED HIERARCHICAL NORMALIZATION」と題された、米国仮特許出願第63/019,211号の優先権の利益を主張する。
本願は、その全内容が、あらゆる目的のために、参照することによって本明細書に組み込まれる、2020年5月1日に出願され、「IMAGE DESCRIPTOR NETWORK WITH IMPOSED HIERARCHICAL NORMALIZATION」と題された、米国仮特許出願第63/019,211号の優先権の利益を主張する。
画像処理では、「画像記述子」とも称される、画像の記述子は、可能性の中でもとりわけ、その色、形状、テクスチャ、運動を含む、画像の視覚的特徴の記述である。画像記述子およびそれらを生産するアルゴリズムは、コンピュータビジョンにおいて、いくつかの用途を有する。例えば、画像記述子は、例えば、画像毎に画像記述子を生成し、2つの記述子間の距離または差異を算出することによって、2つの画像間の類似性を決定するためのロバストな手段を提供する。
本開示は、概して、画像の画像記述子を生成するための技法に関する。より具体的には、本開示の実施形態は、記述子ネットワークを訓練および使用して、主および副ベクトルを有する、画像記述子を正確に生成するための技法を提供する。
本発明の種々の実施形態の説明が、実施例の一覧として、下記に提供される。下記に使用されるように、一連の実施例への任意の言及は、それらの実施例のそれぞれへの離接的な言及として理解されるものである(例えば、「実施例1-4」は、「実施例1、2、3、または4」として理解されるものである)。
実施例1は、第1の画像を受信するステップと、第1の画像を記述子ネットワークに入力として提供するステップと、記述子ネットワークを使用して、第1の画像に基づいて、第1の画像記述子を生成するステップであって、第1の画像記述子は、要素の第1のセットの第1のサブセットを備える、第1の主ベクトルと、要素の第1のセットの第2のサブセットを備える、第1の副ベクトルであって、要素の第1のセットの第2のサブセットは、要素の第1のセットの第1のサブセットより多くの要素を含む、第1の副ベクトルとの間に分散される、要素の第1のセットを含む、ステップと、第1の主ベクトルを主正規化量に正規化するステップと、第1の副ベクトルを副正規化量に正規化するステップであって、副正規化量は、主正規化量未満である、ステップとによって、階層正規化を第1の画像記述子にかけるステップとを含む、コンピュータ実装方法である。
実施例2は、第2の画像を受信するステップと、第2の画像を記述子ネットワークに入力として提供するステップと、記述子ネットワークを使用して、第2の画像に基づいて、第2の画像記述子を生成するステップであって、第2の画像記述子は、要素の第2のセットの第1のサブセットを備える、第2の主ベクトルと、要素の第2のセットの第2のサブセットを備える、第2の副ベクトルであって、要素の第2のセットの第2のサブセットは、要素の第2のセットの第1のサブセットより多くの要素を含む、第2の副ベクトルとの間に分散される、要素の第2のセットを含む、ステップと、第2の主ベクトルを主正規化量に正規化するステップと、第2の副ベクトルを副正規化量に正規化するステップとによって、階層正規化を第2の画像記述子にかけるステップとをさらに含む、実施例1に記載のコンピュータ実装方法である。
実施例3は、第1の主ベクトルおよび第2の主ベクトルに基づいて、第1の画像と第2の画像との間の主距離を算出するステップと、主距離が上限閾値を上回るかどうかを決定するステップとによって、第1の画像が第2の画像にマッチングするかどうかを決定するステップをさらに含む、実施例2に記載のコンピュータ実装方法である。
実施例4は、第1の画像が第2の画像にマッチングするかどうかを決定するステップはさらに、主距離が上限閾値を上回ることを決定するステップと、第1の画像が第2の画像にマッチングしないことを決定するステップとを含む、実施例3に記載のコンピュータ実装方法である。
実施例5は、第1の画像が第2の画像にマッチングするかどうかを決定するステップはさらに、主距離が上限閾値を上回らないことを決定するステップと、主距離が下限閾値を上回るかどうかを決定するステップとを含む、実施例3に記載のコンピュータ実装方法である。
実施例6は、第1の主ベクトルおよび第2の主ベクトルに基づいて、第1の画像と第2の画像との間の主距離を算出するステップは、要素の第1のセットの第1のサブセットと要素の第2のセットの第1のサブセットとの間の差異の2乗の和を算出するステップを含む、実施例3に記載のコンピュータ実装方法である。
実施例7は、第1の画像が第2の画像にマッチングするかどうかを決定するステップがさらに、主距離が下限閾値を上回ることを決定するステップと、第1の副ベクトルおよび第2の副ベクトルに基づいて、第1の画像と第2の画像との間の副距離を算出するステップと、主距離および副距離の和が上限閾値を上回るかどうかを決定するステップとを含む、実施例5に記載のコンピュータ実装方法である。
実施例8は、第1の画像が第2の画像にマッチングするかどうかを決定するステップがさらに、主距離および副距離の和が上限閾値を上回ることを決定するステップと、第1の画像が第2の画像にマッチングしないことを決定するステップとを含む、実施例7に記載のコンピュータ実装方法である。
実施例9は、第1の画像が第2の画像にマッチングするかどうかを決定するステップがさらに、主距離および副距離の和が上限閾値を上回らないことを決定するステップと、第1の画像が第2の画像にマッチングすることを決定するステップとを含む、実施例7に記載のコンピュータ実装方法である。
実施例10は、第1の副ベクトルおよび第2の副ベクトルに基づいて、第1の画像と第2の画像との間の副距離を算出するステップが、要素の第1のセットの第2のサブセットと要素の第2のセットの第2のサブセットとの間の差異の2乗の和を算出するステップを含む、実施例7に記載のコンピュータ実装方法である。
実施例11は、主正規化量が、1-αに等しく、副正規化量が、αに等しく、αが、0.5未満である、実施例1-10に記載のコンピュータ実装方法である。
実施例12は、αが、1/8、1/16、または1/32に等しい、実施例11に記載のコンピュータ実装方法である。
実施例13は、記述子ネットワークが、訓練プロセスを通して修正可能である、加重のセットを有する、ニューラルネットワークである、実施例1-12に記載のコンピュータ実装方法である。
実施例14は、記述子ネットワークを訓練する方法であって、画像対のセットを受信するステップと、画像対のセットの画像対毎に、画像対からの第1の訓練画像を記述子ネットワークに入力として提供するステップと、記述子ネットワークを使用して、第1の訓練画像に基づいて、第1の画像記述子を生成するステップであって、第1の画像記述子は、要素の第1のセットの第1のサブセットを備える、第1の主ベクトルと、要素の第1のセットの第2のサブセットを備える、第1の副ベクトルであって、要素の第1のセットの第2のサブセットは、要素の第1のセットの第1のサブセットより多くの要素を含む、第1の副ベクトルとの間に分散される、要素の第1のセットを含む、ステップと、第1の主ベクトルを主正規化量に正規化するステップと、第1の副ベクトルを副正規化量に正規化するステップであって、副正規化量は、主正規化量未満である、ステップとによって、階層正規化を第1の画像記述子にかけるステップと、画像対からの第2の訓練画像を記述子ネットワークに入力として提供するステップと、記述子ネットワークを使用して、第2の画像に基づいて、第2の訓練画像記述子を生成するステップであって、第2の画像記述子は、要素の第2のセットの第1のサブセットを備える、第2の主ベクトルと、要素の第2のセットの第2のサブセットを備える、第2の副ベクトルであって、要素の第2のセットの第2のサブセットは、要素の第2のセットの第1のサブセットより多くの要素を含む、第2の副ベクトルとの間に分散される、要素の第2のセットを含む、ステップと、第2の主ベクトルを主正規化量に正規化するステップと、第2の副ベクトルを副正規化量に正規化するステップとによって、階層正規化を第2の画像記述子にかけるステップと、第1の主ベクトルおよび第2の主ベクトルに基づいて、第1の訓練画像と第2の訓練画像との間の主距離を算出するステップと、第1の副ベクトルおよび第2の副ベクトルに基づいて、第1の訓練画像と第2の訓練画像との間の副距離を算出するステップと、主距離および副距離に基づいて、記述子ネットワークを修正するステップとを含む、方法である。
実施例15は、システムであって、1つまたはそれを上回るプロセッサと、1つまたはそれを上回るプロセッサによって実行されると、1つまたはそれを上回るプロセッサに、実施例1-14のいずれかに記載の方法を実施させる、命令を備える、コンピュータ可読媒体とを備える、システムである。
実施例16は、1つまたはそれを上回るプロセッサによって実行されると、1つまたはそれを上回るプロセッサに、実施例1-14のいずれかに記載の方法を実施させる、命令を備える、非一過性機械可読媒体である。
本開示のさらなる理解を提供するために含まれる、付随の図面は、本明細書に組み込まれ、その一部を成し、本開示の実施形態を図示し、詳細な説明とともに、本開示の原理を解説する役割を果たす。本開示の基本的な理解およびこれが実践され得る種々の方法に関して必要であり得るよりも詳細に、本開示の構造的詳細を示す試みは、行われない。
具体的実施形態の詳細な説明
本開示のさらなる理解を提供するために含まれる、付随の図面は、本明細書に組み込まれ、その一部を成し、本開示の実施形態を図示し、詳細な説明とともに、本開示の原理を解説する役割を果たす。本開示の基本的な理解およびこれが実践され得る種々の方法に関して必要であり得るよりも詳細に、本開示の構造的詳細を示す試みは、行われない。
本開示のさらなる理解を提供するために含まれる、付随の図面は、本明細書に組み込まれ、その一部を成し、本開示の実施形態を図示し、詳細な説明とともに、本開示の原理を解説する役割を果たす。本開示の基本的な理解およびこれが実践され得る種々の方法に関して必要であり得るよりも詳細に、本開示の構造的詳細を示す試みは、行われない。
図1Aは、本開示のいくつかの実施形態による、画像102に基づいて画像記述子110Aを生成するための記述子ネットワーク100Aを含む、例示的システムを図示する。記述子ネットワーク100Aは、特定のアーキテクチャと、関連付けられる加重のセットとを有する、畳み込みニューラルネットワーク等のニューラルネットワークであってもよい。画像102が、入力として提供されるが、記述子ネットワーク100Aは、N個の要素116Aを有する、画像記述子110Aを生成するように構成されてもよい。要素116Aはそれぞれ、画像102内の視覚的特徴を示し得る。
図1Bは、生成された画像記述子110Bが、主ベクトル112と、副ベクトル114とを含むことを除き、記述子ネットワーク100Aに類似する、記述子ネットワーク100Bを含む、例示的システムを図示する。いくつかの実施形態では、主ベクトル112は、第1の要素のサブセット116B(要素116B-1から要素116B-M)を含んでもよく、副ベクトル114は、第2の要素のサブセット116B(要素116B-M+1から要素116B-M+N)を含んでもよい。したがって、第1のサブセットは、M個の要素を含んでもよく、第2のサブセットは、N個の要素を含んでもよい。
いくつかの実施形態では、主ベクトル112および副ベクトル114は、階層正規化を画像記述子110Bにかけることによって取得される。これは、主ベクトル112を主正規化量に、および副ベクトル114を副正規化量に正規化するステップを含んでもよく、主正規化量は、副正規化量を上回る。階層正規化をかけることと併せて、主ベクトル112(M)のサイズが副ベクトル114(N)のサイズ未満となるように設定することによって、画像記述子110Bは、本明細書に説明されるように、種々のタスクにおける性能を有意に改良するように使用されることができる。
図2は、本開示のいくつかの実施形態による、記述子ネットワーク200を含む、例示的システムを図示する。図示される実施例では、記述子ネットワーク200は、それぞれ、画像202および203に基づいて生成された画像記述子210と211との間の距離を決定することによって、画像202と203との間の類似性を決定するために使用される。記述子ネットワーク200は、画像記述子210および211がそれぞれ、主ベクトルおよび副ベクトルを含むように、記述子ネットワーク100Bに類似し得る。種々の実施形態では、画像202および203は、順次、記述子ネットワーク200への入力として提供されてもよい(例えば、画像202は、第1の時間に提供されてもよく、画像203は、第1の時間後、第2の時間に提供されてもよい)、または、同時に、記述子ネットワーク200の2つの異なるインスタンスに提供されてもよい(例えば、記述子ネットワーク200と関連付けられる、モデルアーキテクチャおよび加重を実装するための命令が、2つの別個のプロセッサまたはプロセッサコア上にロードされてもよい)。
画像記述子210と211との間の総距離Dtotalが、画像記述子間の主距離Dmajor(画像記述子210および211の主ベクトルのみに基づいて算出される、総距離Dtotalの部分)と、画像記述子間の副距離Dminor(画像記述子210および211の副ベクトルのみに基づいて算出される、総距離Dtotalの部分)の和として算出されてもよい。図示される実施例では、ユークリッド距離が、画像記述子210の主ベクトル(x1、x2、…、xM)および画像記述子211の主ベクトル(x’M、x’2、…、x’M)の要素に基づく主距離と、画像記述子210の副ベクトル(xM+1、xM+2、…、xM+N)および画像記述子211の副ベクトル(x’M+1、x’M+2、…、x’M+N)の要素に基づく副距離とを計算するために使用される。余弦距離等の他の距離メトリックも、主距離および副距離を計算するために使用されてもよい。
図3Aは、本開示のいくつかの実施形態による、記述子ネットワーク300Aを訓練するための例示的システムを図示する。記述子ネットワーク300Aは、記述子ネットワーク100Aに類似し得る。複数の訓練反復の単一訓練反復の間、記述子ネットワーク300Aは、訓練画像302および303を提供されてもよい。いくつかの実施形態では、訓練画像302および303は、類似または異なる画像であることが既知であってもよい。例えば、訓練画像303は、訓練画像302の若干修正されたバージョンであってもよい。訓練画像302および303が、入力として提供される(例えば、順次)とき、記述子ネットワーク300Aは、それぞれ、画像記述子310Aおよび311Aを生成するように構成されてもよい。総距離Dtotalは、次いで、画像記述子310Aおよび311Aに基づいて算出されてもよい。
総距離Dtotalは、例えば、記述子ネットワーク300Aの加重を修正することによって、記述子ネットワーク300Aを訓練するために使用されてもよい。いくつかの実施形態では、記述子ネットワーク300Aの加重は、総距離Dtotalを所望の値に向かって増加または減少させるように修正されてもよい。例えば、訓練画像302および303が、類似画像であることが既知である場合、記述子ネットワーク300Aの加重は、総距離Dtotalをゼロに向かって減少させるように修正されてもよい。別の実施例として、訓練画像302および303が、異なる画像であることが既知である場合、記述子ネットワーク300Aの加重は、総距離Dtotalを1に向かって増加させるように修正されてもよい。いくつかの実施形態では、記述子ネットワーク300Aの加重は、加重修正器318Aを使用して修正されてもよく、これは、例えば、逆伝搬技法を採用して、加重を調節してもよい。
図3Bは、本開示のいくつかの実施形態による、記述子ネットワーク300Bを訓練するための例示的システムを図示する。記述子ネットワーク300Bは、記述子ネットワーク100Bに類似し得る。図3Aに説明されるものと同様に、複数の訓練反復の単一訓練反復の間、記述子ネットワーク300Bは、訓練画像302および303を提供されてもよい。訓練画像302および303が、入力として提供される(例えば、順次)と、記述子ネットワーク300Bは、それぞれ、主ベクトルおよび副ベクトルを有する、画像記述子310Bおよび311Bを生成してもよい。総距離Dtotalが、次いで、画像記述子310Bおよび311Bに基づいて算出されてもよい。
図3Aに説明されるものと同様に、総距離Dtotalは、例えば、記述子ネットワーク300Bの加重を修正することによって、記述子ネットワーク300Bを訓練するために使用されてもよい。いくつかの実施形態では、記述子ネットワーク300Bの加重は、総距離Dtotalを所望の値に向かって増加または減少させるように修正されてもよい。例えば、訓練画像302および303が、類似画像であることが既知である場合、記述子ネットワーク300Bの加重は、総距離Dtotalをゼロに向かって減少させるように修正されてもよい。別の実施例として、訓練画像302および303が、異なる画像であることが既知である場合、記述子ネットワーク300Bの加重は、総距離Dtotalを1に向かって増加させるように修正されてもよい。いくつかの実施形態では、記述子ネットワーク300Bの加重は、加重修正器318Bを使用して修正されてもよく、これは、例えば、逆伝搬技法を採用して、加重を調節してもよい。
図4は、本開示のいくつかの実施形態による、記述子ネットワーク(例えば、記述子ネットワーク100A、100B、200、300A、300B)を使用する方法400を図示する。方法400の1つまたはそれを上回るステップは、方法400の実施の間、省略されてもよく、方法400のステップは、示される順序で実施される必要はない。方法400の1つまたはそれを上回るステップは、1つまたはそれを上回るプロセッサによって実施されてもよい。方法400は、プログラムが、1つまたはそれを上回るコンピュータによって実行されると、1つまたはそれを上回るコンピュータに、方法400のステップを行わせる、命令を備える、コンピュータ可読媒体またはコンピュータプログラム製品として実装されてもよい。そのようなコンピュータプログラム製品は、有線または無線ネットワークを経由して、コンピュータプログラム製品を搬送するデータキャリア信号内で伝送されることができる。
ステップ402では、第1の画像(例えば、画像102、202、203、302、303)が、受信される。第1の画像は、可能性の中でもとりわけ、グレースケール画像、マルチチャネル画像(例えば、RGB画像)であってもよい。第1の画像は、オリジナル画像またはオリジナル画像の一部であってもよい。
ステップ404では、第1の画像が、記述子ネットワークに提供される。
ステップ406では、記述子ネットワークが、第1の画像に基づいて、第1の画像記述子(例えば、画像記述子110A、110B、210、211、310A、311A、310B、311B)を生成する。第1の画像記述子は、要素の第1のセットを含んでもよい。第1の画像記述子は、要素の第1のセットの第1のサブセットを含む、第1の主ベクトル(例えば、主ベクトル112)と、要素の第1のセットの第2のサブセットを含む、第1の副ベクトル(例えば、副ベクトル114)とを含んでもよい。いくつかの実施形態では、要素の第1のセットの第2のサブセットは、要素の第1のセットの第1のサブセットより多くの要素を含む(例えば、N>M)。
ステップ408では、階層正規化が、第1の画像記述子にかけられる。いくつかの実施形態では、階層正規化を第1の画像記述子にかけるステップは、第1の画像記述子の第1の主ベクトルを主正規化量に正規化するステップと、第1の画像記述子の第1の副ベクトルを副正規化量に正規化するステップとを含んでもよい。
ステップ410では、第2の画像(例えば、画像102、202、203、302、303)が、受信される。第2の画像は、可能性の中でもとりわけ、グレースケール画像、マルチチャネル画像(例えば、RGB画像)であってもよい。第2の画像は、オリジナル画像またはオリジナル画像の一部であってもよい。
ステップ412では、第2の画像が、記述子ネットワークに提供される。
ステップ414では、記述子ネットワークが、第2の画像に基づいて、第2の画像記述子を生成する(例えば、画像記述子110A、110B、210、211、310A、311A、310B、311B)。第2の画像記述子は、要素の第2のセットを含んでもよい。第2の画像記述子は、要素の第2のセットの第1のサブセットを含む、第2の主ベクトル(例えば、主ベクトル112)と、要素の第2のセットの第2のサブセットを含む、第2の副ベクトル(例えば、副ベクトル114)とを含んでもよい。いくつかの実施形態では、要素の第2のセットの第2のサブセットは、要素の第2のセットの第1のサブセットより多くの要素を含む(例えば、N>M)。
ステップ416では、階層正規化が、第2の画像記述子にかけられる。いくつかの実施形態では、階層正規化を第2の画像記述子にかけるステップは、第2の画像記述子の第2の主ベクトルを主正規化量に正規化するステップと、第2の画像記述子の第2の副ベクトルを副正規化量に正規化するステップとを含んでもよい。
ステップ418では、第1の画像記述子および第2の画像記述子に基づいて、第1の画像が第2の画像にマッチングするかどうかが決定される。いくつかの実施形態では、ステップ418は、ステップ420-426のうちの1つまたはそれを上回るものを含む。
ステップ420では、第1の画像と第2の画像との間の主距離が、第1の主ベクトルおよび第2の主ベクトルに基づいて算出される。いくつかの実施形態では、主距離を算出するステップは、第1の主ベクトルと第2の主ベクトルとの間のユークリッド距離および/または余弦距離を算出するステップを含む。いくつかの実施形態では、主距離を算出するステップは、要素の第1のセットの第1のサブセットと要素の第2のセットの第1のサブセットとの間の差異の2乗の和を算出するステップを含む。
ステップ422では、主距離に基づいて、第1の画像が第2の画像にマッチングするかどうかが決定される。いくつかの実施形態では、第1の画像が第2の画像にマッチングすることを決定するステップは、主距離が上限閾値を上回ることを決定するステップを含む。いくつかの実施形態では、第1の画像が第2の画像にマッチングしないことを決定するステップは、主距離が下限閾値未満であることを決定するステップを含む。
いくつかの実施形態では、ステップ422において、画像がマッチングするかどうかに関する任意の決定が、行われる場合、方法400は、終了する。いくつかの実施形態では、主距離のみに基づいて、第1の画像が第2の画像にマッチングするかどうかを決定することが不可能であり得る(例えば、主距離が、上限閾値と下限閾値との間にある)。そのような実施形態では、方法400は、ステップ424に進み、副距離が、算出される。
ステップ424では、第1の画像と第2の画像との間の副距離が、第1の副ベクトルおよび第2の副ベクトルに基づいて算出される。いくつかの実施形態では、副距離を算出するステップは、第1の副ベクトルと第2の副ベクトルとの間のユークリッド距離および/または余弦距離を算出するステップを含む。いくつかの実施形態では、副距離を算出するステップは、要素の第1のセットの第2のサブセットと要素の第2のセットの第2のサブセットとの間の差異の2乗の和を算出するステップを含む。
ステップ426では、主距離および副距離に基づいて、第1の画像が第2の画像にマッチングするかどうかが決定される。いくつかの実施形態では、主距離および副距離の和(または総距離)が、算出される。いくつかの実施形態では、第1の画像が第2の画像にマッチングすることを決定するステップは、主距離および副距離の和が上限閾値を上回ることを決定するステップを含む。いくつかの実施形態では、第1の画像が第2の画像にマッチングしないことを決定するステップは、主距離および副距離の和が上限閾値未満であることを決定するステップを含む。
図5は、本開示のいくつかの実施形態による、記述子ネットワーク(例えば、記述子ネットワーク100A、100B、200、300A、300B)を訓練する方法500を図示する。方法500の1つまたはそれを上回るステップは、方法500の実施の間、省略されてもよく、方法500のステップは、示される順序で実施される必要はない。方法500の1つまたはそれを上回るステップは、1つまたはそれを上回るプロセッサによって実施されてもよい。方法500は、プログラムが、1つまたはそれを上回るコンピュータによって実行されると、1つまたはそれを上回るコンピュータに、方法500のステップを行わせる、命令を備える、コンピュータ可読媒体またはコンピュータプログラム製品として実装されてもよい。そのようなコンピュータプログラム製品は、有線または無線ネットワークを経由して、コンピュータプログラム製品を搬送するデータキャリア信号内で伝送されることができる。
ステップ502では、画像対のセット(例えば、画像202、203、302、303)が、受信される。種々の実施形態では、画像対のセットは、可能性の中でもとりわけ、訓練データセットのサイズに応じて、10画像対、1,000画像対、1,000,000画像対を含んでもよい。画像対のセットの各画像対内の各画像は、可能性の中でもとりわけ、グレースケール画像、マルチチャネル画像(例えば、RGB画像)であってもよい。各画像は、オリジナル画像またはオリジナル画像の一部であってもよい。
いくつかの実施形態では、ステップ504-520は、画像対のセットの画像対毎に実施される。ステップ504では、画像対からの第1の訓練画像が、記述子ネットワークに提供される。
ステップ506では、記述子ネットワークが、第1の訓練画像に基づいて、第1の画像記述子(例えば、画像記述子110A、110B、210、211、310A、311A、310B、311B)を生成する。第1の画像記述子は、要素の第1のセットを含んでもよい。第1の画像記述子は、要素の第1のセットの第1のサブセットを含む、第1の主ベクトル(例えば、主ベクトル112)と、要素の第1のセットの第2のサブセットを含む、第1の副ベクトル(例えば、副ベクトル114)とを含んでもよい。いくつかの実施形態では、要素の第1のセットの第2のサブセットは、要素の第1のセットの第1のサブセットより多くの要素を含む(例えば、N>M)。
ステップ508では、階層正規化が、第1の画像記述子にかけられる。いくつかの実施形態では、階層正規化を第1の画像記述子にかけるステップは、第1の画像記述子の第1の主ベクトルを主正規化量に正規化するステップと、第1の画像記述子の第1の副ベクトルを副正規化量に正規化するステップとを含んでもよい。
ステップ510では、画像対からの第2の訓練画像が、記述子ネットワークに提供される。
ステップ512では、記述子ネットワークが、第2の訓練画像に基づいて、第2の画像記述子(例えば、画像記述子110A、110B、210、211、310A、311A、310B、311B)を生成する。第2の画像記述子は、要素の第2のセットを含んでもよい。第2の画像記述子は、要素の第2のセットの第1のサブセットを含む、第2の主ベクトル(例えば、主ベクトル112)と、要素の第2のセットの第2のサブセットを含む、第2の副ベクトル(例えば、副ベクトル114)とを含んでもよい。いくつかの実施形態では、要素の第2のセットの第2のサブセットは、要素の第2のセットの第1のサブセットより多くの要素を含む(例えば、N>M)。
ステップ514では、階層正規化が、第2の画像記述子にかけられる。いくつかの実施形態では、階層正規化を第2の画像記述子にかけるステップは、第2の画像記述子の第2の主ベクトルを主正規化量に正規化するステップと、第2の画像記述子の第2の副ベクトルを副正規化量に正規化するステップとを含んでもよい。
ステップ516では、第1の画像と第2の画像との間の主距離が、ステップ420と同様に、第1の主ベクトルおよび第2の主ベクトルに基づいて算出される。いくつかの実施形態では、主距離に基づいて、第1の訓練画像が第2の訓練画像にマッチングするかどうかが決定される。
ステップ518では、第1の画像と第2の画像との間の副距離が、ステップ424と同様に、第1の副ベクトルおよび第2の副ベクトルに基づいて算出される。いくつかの実施形態では、副距離に基づいて、第1の訓練画像が第2の訓練画像にマッチングするかどうかが決定される。
ステップ520では、記述子ネットワークが、主距離および/または副距離に基づいて修正される。いくつかの実施形態では、記述子ネットワークの加重が、同一画像対が記述子ネットワークに入力として提供されるとき、主距離および/または副距離(例えば、距離の和)を増加または減少させるように修正される。記述子ネットワークの加重は、逆伝搬技法を実施し、記述子ネットワークの加重を調節し得る、加重修正器(例えば、加重修正器318A、318B)によって修正されてもよい。
いくつかの実施形態では、記述子ネットワークは、最初に、主ベクトルを訓練し、続いて、副ベクトルを訓練することによって、順次、訓練されてもよい。例えば、主ベクトルの要素を算出することに寄与する、記述子ネットワークの加重が、副ベクトルの要素を無視しながら、画像対のセットを使用して訓練されてもよい。いったん訓練されると、主ベクトルの要素を算出することに寄与する、記述子ネットワークの加重は、固定されてもよい。その後、副ベクトルの要素を算出することに寄与する、記述子ネットワークの加重が、同一画像対のセットまたは異なる画像対のセットを使用して、訓練されてもよい。いくつかの実施形態では、主ベクトルの要素は、副ベクトルの要素を訓練する間、無視されてもよい。いくつかの実施形態では、主ベクトルおよび副ベクトルは両方とも、副ベクトルの要素を算出することに寄与する、記述子ネットワークの加重を訓練する間、考慮されてもよい。いくつかの実施形態では、主ベクトルおよび副ベクトルの要素を算出することに寄与する、記述子ネットワークの加重が、同時に訓練されてもよい。
図6は、本開示のいくつかの実施形態による、階層正規化の実施例を図示する。要素の全てを1の値に正規化する代わりに、要素は、主ベクトルおよび副ベクトルに分割され、主ベクトル内の要素は全て、1-αの値に正規化され、副ベクトル内の要素は全て、αの値に正規化される。図示される実施例では、αは、1/16に等しい。したがって、主ベクトルは、15/16に正規化され、副ベクトルは、1/16に正規化される。図示される実施例では、主ベクトルは、8個の要素を含み、副ベクトルは、24個の要素を含む。
図7は、本開示のいくつかの実施形態による、2つの画像がマッチングするかどうかを決定する方法を示す、例示的フローチャートを図示する。図示される実施例では、ユークリッド距離が、主距離および副距離を算出するために使用される。ステップ702では、主距離が、算出される。ステップ704では、主距離が上限閾値を上回るかどうかが決定される。主距離が、上限閾値を上回る場合、画像がマッチングしないと決定される。そうでなければ、本方法は、ステップ706に進む。ステップ706では、主距離が下限閾値未満である(上限閾値-4αに等しい)かどうかが決定される。主距離が、下限閾値未満である場合、画像がマッチングすると決定される。そうでなければ、本方法は、ステップ708に進む。
ステップ708では、副距離が、算出される。ステップ710では、主距離および副距離の和が上限閾値未満であるかどうかが決定される。主距離および副距離の和が、上限閾値未満である場合、画像がマッチングすると決定される。そうでなければ(例えば、主距離および副距離の和が上限閾値を上回る場合)、画像がマッチングしないと決定される。
図8は、本開示のいくつかの実施形態による、図7に図示される例示的フローチャートのグラフ表現を図示する。図8に示されるように、マッチングは、主距離が上限閾値を上回るとき、または主距離が下限閾値未満であるとき、主距離のみに基づいて決定されることができる。そうでなければ、マッチングは、主距離および副距離の両方に基づいて決定される。
図9は、本開示のいくつかの実施形態による、2つの画像がマッチングするかどうかを決定する方法を示す、例示的フローチャートを図示する。図示される実施例では、余弦距離が、主距離および副距離を算出するために使用される。ステップ902では、主距離が、2つの画像の主ベクトル間の内積を算出することによって算出される。ステップ904では、主距離が下限閾値未満であるかどうかが決定される。主距離が、下限閾値未満である場合、画像がマッチングしないと決定される。そうでなければ、本方法は、ステップ906に進む。ステップ906では、主距離が上限閾値を上回る(下限閾値+2αに等しい)かどうかが決定される。主距離が、上限閾値を上回る場合、画像がマッチングすると決定される。そうでなければ、本方法は、ステップ908に進む。
ステップ908では、副距離が、2つの画像の副ベクトル間の内積を算出することによって算出される。ステップ910では、主距離および副距離の和が中央閾値を上回る(上限閾値と下限閾値との間の平均に等しい)かどうかが決定される。主距離および副距離の和が、中央閾値を上回る場合、画像がマッチングすると決定される。そうでなければ(例えば、主距離および副距離の和が、中央閾値未満である場合)、画像がマッチングしないと決定される。
図10は、本開示のいくつかの実施形態による、図9に図示される例示的フローチャートのグラフ表現を図示する。図10に示されるように、マッチングは、主距離が上限閾値を上回るとき、または主距離が下限閾値未満であるとき、主距離のみに基づいて決定されることができる。そうでなければ、マッチングは、主距離および副距離の両方に基づいて決定される。
図11は、本開示のいくつかの実施形態による、画像のセットから基準画像に最も近い画像を見出すための方法を示す、例示的フローチャートを図示する。図示される実施例では、ユークリッド距離が、主距離および副距離を算出するために使用される。画像記述子の主ベクトルが、画像のセットおよび基準画像のために生成された後、ステップ1102では、主距離が、主ベクトルを使用して、画像のセットのそれぞれと基準画像との間で算出される。ステップ1104では、最小主距離が、識別される。ステップ1106では、最小距離+4α未満の主距離を有する、全ての画像が、選択される。
ステップ1108では、画像記述子の副ベクトルが、選択された画像および基準画像のために生成された後、副距離が、副ベクトルを使用して、選択された画像のそれぞれと基準画像との間で算出される。ステップ1110では、最も近い画像は、主距離および副距離の和である、最小総距離を識別することによって選択される。
図12は、本開示のいくつかの実施形態による、図11に図示される例示的フローチャートのグラフ表現を図示する。図12に示されるように、小領域のみが、主距離が、閾値を上回る主距離を有する、画像をフィルタリング除去するために使用されるとき、副距離を使用して検索される必要がある。
図13は、本開示のいくつかの実施形態による、画像のセットから基準画像に最も近い画像を見出すための方法を示す、例示的フローチャートを図示する。図示される実施例では、余弦距離が、主距離および副距離を算出するために使用される。画像記述子の主ベクトルが、画像のセットおよび基準画像のために生成された後、ステップ1302では、主距離が、内積を算出することによって、主ベクトルを使用して、画像のセットのそれぞれと基準画像との間で算出される。ステップ1304では、最大主距離が、識別される。ステップ1306では、最大距離-αを上回る主距離を有する、全ての画像が、選択される。
ステップ1308では、画像記述子の副ベクトルが、選択された画像および基準画像のために生成された後、副距離が、内積を算出することによって、副ベクトルを使用して、選択された画像のそれぞれと基準画像との間で算出される。ステップ1310では、最も近い画像が、主距離および副距離の和である、最大総距離を識別することによって選択される。
図14は、本開示のいくつかの実施形態による、図13に図示される例示的フローチャートのグラフ表現を図示する。図14に示されるように、小領域のみが、主距離が、閾値を下回る主距離を有する、画像をフィルタリング除去するために使用されるとき、副距離を使用して検索される必要がある。
図15は、本開示のいくつかの実施形態による、主距離を使用してフィルタリング除去され得る、領域を示す、付加的グラフ表現を図示する。図示される実施例では、ユークリッド距離が、主距離および副距離を算出するために使用される。
図16は、本開示のいくつかの実施形態による、主距離を使用してフィルタリング除去され得る、領域を示す、付加的グラフ表現を図示する。図示される実施例では、余弦距離が、主距離および副距離を算出するために使用される。
図17は、本開示のいくつかの実施形態による、説明される記述子ネットワークの実験結果を示す、グラフを図示する。図示されるグラフは、再現率の関数として精度を示す。
図18は、本開示のいくつかの実施形態による、説明される記述子ネットワークの実験結果を示す、グラフを図示する。図示されるグラフは、誤検出率の関数として、正検出率を示す。微調整が、300個の基準時点にわたって均一に訓練し、次いで、30個の基準時点にわたって非均一に微調整訓練することによって実施される。
図19は、本開示のいくつかの実施形態による、説明される記述子ネットワークの実験結果を示す、グラフを図示する。図示されるグラフは、再現率の関数として精度を示す。
図20は、本開示のいくつかの実施形態による、説明される記述子ネットワークの実験結果を示す、グラフを図示する。図示されるグラフは、誤検出率の関数として、正検出率を示す。
図21は、本開示のいくつかの実施形態による、複数の主ベクトルを有する、例示的画像記述子2100を図示する。記述子ネットワークは、概して、主ベクトルおよび副ベクトルを有する、画像記述子を生成するように本明細書に説明されるが、本開示の実施形態はさらに、複数の主ベクトルを有する、画像記述子を生成するように構成される、記述子ネットワークを含む。図示される実施例では、画像記述子2100は、第1の主ベクトルと、第2の主ベクトルと、第3の主ベクトルと、副ベクトルとを含む。いくつかの実施形態では、第1の主ベクトルは、第2の主ベクトルより少ない要素を含んでもよく、これは、第3の主ベクトルより少ない要素を含んでもよく、これは、副ベクトルより少ない要素を含んでもよい。
画像記述子2100を生成するとき、階層正規化が、以下のようにかけられることができる。すなわち、第1の主ベクトルが、第1の主正規化量に正規化されることができ、第2の主ベクトルが、第2の主正規化量に正規化されることができ、第2の主正規化量は、第1の主正規化量未満であって、第3の主ベクトルは、第3の主正規化量に正規化されることができ、第3の主正規化量は、第2の主正規化量未満であって、副ベクトルは、副正規化量に正規化されることができ、副正規化量は、第3の主正規化量未満である。
図22は、本開示のいくつかの実施形態による、種々のハードウェア要素を備える、例示的コンピュータシステム2200を図示する。コンピュータシステム2200は、本明細書に説明されるデバイスの中に組み込まれる、またはそれと統合されてもよく、および/または種々の実施形態によって提供される方法のステップのいくつかまたは全てを実施するように構成されてもよい。例えば、種々の実施形態では、コンピュータシステム2200は、方法400または500を実施するように構成されてもよい。図22は、種々のコンポーネントの一般化された例証のみを提供することを意図し、その任意または全てのものが、必要に応じて、利用されてもよいことに留意されたい。図22は、したがって、広義には、個々のシステム要素が、比較的に分離またはより比較的に統合された様式で実装され得る方法を図示する。
図示される実施例では、コンピュータシステム2200は、通信媒体2202と、1つまたはそれを上回るプロセッサ2204と、1つまたはそれを上回る入力デバイス2206と、1つまたはそれを上回る出力デバイス2208と、通信サブシステム2210と、1つまたはそれを上回るメモリデバイス2212とを含む。コンピュータシステム2200は、種々のハードウェア実装および内蔵システム技術を使用して実装されてもよい。例えば、コンピュータシステム2200の1つまたはそれを上回る要素は、可能性の中でもとりわけ、XILINX(登録商標)、INTEL(登録商標)、またはLATTICE SEMICONDUCTOR(登録商標)によって市販のもの等のフィールドプログラマブルゲートアレイ(FPGA)、システムオンチップ(SoC)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、マイクロコントローラ、および/またはSoCFPGA等のハイブリッドデバイスとして実装されてもよい。
コンピュータシステム2200の種々のハードウェア要素は、通信媒体2202を介して結合されてもよい。通信媒体2202は、明確性の目的のために、単一接続として図示されるが、通信媒体2202は、ハードウェア要素間でデータを転送するための種々の数およびタイプの通信媒体を含んでもよいことを理解されたい。例えば、通信媒体2202は、可能性の中でもとりわけ、1つまたはそれを上回るワイヤ(例えば、印刷回路基板(PCB)または集積回路(IC)上の伝導性トレース、経路、または導線、マイクロストリップ、ストリップライン、同軸ケーブル)、1つまたはそれを上回る光学導波管(例えば、光ファイバ、ストリップ導波管)、および/または1つまたはそれを上回る無線接続またはリンク(例えば、赤外線無線通信、無線通信、マイクロ波無線通信)を含んでもよい。
いくつかの実施形態では、通信媒体2202は、コンピュータシステム2200のハードウェア要素の1つまたはそれを上回るピンを接続する、バスを含んでもよい。例えば、通信媒体2202は、システムバスと称される、プロセッサ2204とメインメモリ2214を接続する、バスと、拡張バスと称される、メインメモリ2214と入力デバイス2206または出力デバイス2208を接続する、バスとを含んでもよい。システムバスは、アドレスバス、データバス、および制御バスを含む、いくつかの要素から成ってもよい。アドレスバスは、データバスが、メモリアドレスに含有されるデータにアクセスし、プロセッサ2204に返すために、メモリアドレスを、プロセッサ2204から、メインメモリ2214と関連付けられる、アドレスバス回路網に搬送してもよい。制御バスは、プロセッサ2204からのコマンドを搬送し、メインメモリ2214からのステータス信号を返してもよい。各バスは、複数の情報ビットを搬送するための複数のワイヤを含んでもよく、各バスは、データのシリアルまたはパラレル伝送をサポートしてもよい。
プロセッサ2204は、1つまたはそれを上回る中央処理ユニット(CPU)、グラフィック処理ユニット(GPU)、ニューラルネットワークプロセッサまたはアクセラレータ、デジタル信号プロセッサ(DSP)、および/または同等物を含んでもよい。CPUは、マイクロプロセッサの形態をとってもよく、これは、金属酸化物半導体電界効果トランジスタ(MOSFET)構造の単一ICチップ上に加工される。プロセッサ2204は、1つまたはそれを上回るマルチコアプロセッサを含んでもよく、その中で各コアは、他のコアと同時に、プログラム命令を読み取り、実行してもよい。
入力デバイス2206は、マウス、キーボード、マイクロホン等の種々のユーザ入力デバイス、および画像捕捉デバイス、圧力センサ(例えば、気圧計、触覚センサ)、温度センサ(例えば、温度計、熱電対、サーミスタ)、移動センサ(例えば、加速度計、ジャイロスコープ、傾斜センサ)、光センサ(例えば、光ダイオード、光検出器、電荷結合素子)、および/または同等物等の種々のセンサ入力デバイスのうちの1つまたはそれを上回るものを含んでもよい。入力デバイス2206はまた、リムーバブル記憶デバイスまたは他のリムーバブル媒体を読み取り、および/または受信するためのデバイスを含んでもよい。そのようなリムーバブル媒体は、光学ディスク(例えば、Blu-ray(登録商標)ディスク、DVD、CD)、メモリカード(例えば、コンパクトなフラッシュカード、セキュアデジタル(SD)カード、メモリスティック)、フロッピー(登録商標)ディスク、ユニバーサルシリアルバス(USB)フラッシュドライブ、外部ハードディスクドライブ(HDD)またはソリッドステートドライブ(SSD)、および/または同等物を含んでもよい。
出力デバイス2208は、限定ではないが、ディスプレイデバイス、スピーカ、プリンタ、および/または同等物等、情報を人間可読形態に変換する、種々のデバイスのうちの1つまたはそれを上回るものを含んでもよい。出力デバイス2208はまた、入力デバイス2206を参照して説明されるもの等のリムーバブル記憶デバイスまたは他のリムーバブル媒体に書き込むためのデバイスを含んでもよい。出力デバイス2208はまた、1つまたはそれを上回るコンポーネントの物理的移動を引き起こすための種々のアクチュエータを含んでもよい。そのようなアクチュエータは、油圧、空気圧、電気であってもよく、コンピュータシステム2200によって制御信号を提供されてもよい。
通信サブシステム2210は、コンピュータネットワーク等を経由して、コンピュータシステム2200を、コンピュータシステム2200の外部に位置する、システムまたはデバイスに接続するためのハードウェアコンポーネントを含んでもよい。種々の実施形態では、通信サブシステム2210は、可能性の中でもとりわけ、1つまたはそれを上回る入/出力ポート(例えば、ユニバーサル非同期送受信機(UART))、光学通信デバイス(例えば、光学モデム)、赤外線通信デバイス、無線通信デバイス(例えば、無線ネットワークインターフェースコントローラ、Bluetooth(登録商標) デバイス、IEEE802.11デバイス、Wi-Fiデバイス、Wi-Maxデバイス、セルラーデバイス)に結合される、有線通信デバイスを含んでもよい。
メモリデバイス2212は、コンピュータシステム2200の種々のデータ記憶デバイスを含んでもよい。例えば、メモリデバイス2212は、プロセッサレジスタおよびキャッシュ(例えば、L0、L1、L2)等のより高速の応答時間およびより低い容量のメモリから、ランダムアクセスメモリ等の中応答時間および中容量のメモリ、ソリッドステートドライブおよびハードドライブディスク等のより低速の応答時間およびより低い容量のメモリまで、種々の応答時間および容量を伴う、種々のタイプのコンピュータメモリを含んでもよい。プロセッサ2204およびメモリデバイス2212は、別個の要素として図示されるが、プロセッサ2204は、単一プロセッサによって利用される、または複数のプロセッサ間で共有され得る、プロセッサレジスタおよびキャッシュ等の可変レベルのプロセッサ上メモリを含んでもよいことを理解されたい。
メモリデバイス2212は、メインメモリ2214を含んでもよく、これは、通信媒体2202のメモリバスを介して、直接、プロセッサ2204によってアクセス可能であってもよい。例えば、プロセッサ2204は、メインメモリ2214内に記憶される命令を持続的に読み取り、実行してもよい。したがって、種々のソフトウェア要素が、メインメモリ2214の中にロードされ、図22に図示されるように、プロセッサ2204によって読み取られ、実行されてもよい。典型的には、メインメモリ2214は、揮発性メモリであって、これは、電力がオフにされると、全てのデータを喪失し、故に、記憶されたデータを保存するために電力を必要とする。メインメモリ2214はさらに、読取値メモリデバイス2212内に記憶される他のソフトウェアをメインメモリ2214の中に読み出すために使用される、ソフトウェア(例えば、BIOS等のファームウェア)を含有する、不揮発性メモリのごく一部を含んでもよい。いくつかの実施形態では、メインメモリ2214の揮発性メモリは、動的RAM(DRAM)等のランダムアクセスメモリ(RAM)として実装され、メインメモリ2214の不揮発性メモリは、フラッシュメモリ、消去可能プログラマブル読取専用メモリ(EPROM)、または電気的消去可能プログラマブル読取専用メモリ(EEPROM)等の読取専用メモリ(ROM)として実装される。
コンピュータシステム2200は、現在メインメモリ2214内に位置するように示される、ソフトウェア要素を含んでもよく、これは、本開示の種々の実施形態によって提供されるコンピュータプログラムを含み得る、1つまたはそれを上回るアプリケーションプログラム等、オペレーティングシステム、デバイスドライバ、ファームウェア、コンパイラ、および/または他のコードを含んでもよい。単に、一例として、上記に議論される任意の方法に関して説明される1つまたはそれを上回るステップが、コンピュータシステム2200によって実行可能な命令2216として実装され得る。一実施例では、そのような命令2216は、通信サブシステム2210を使用して(例えば、命令2216を搬送する無線または有線信号を介して)、コンピュータシステム2200によって受信され、通信媒体2202によってメモリデバイス2212に搬送され、メモリデバイス2212内に記憶され、メインメモリ2214の中に読み込まれ、プロセッサ2204によって実行され、説明される方法の1つまたはそれを上回るステップを実施してもよい。別の実施例では、命令2216は、入力デバイス2206を使用して(例えば、リムーバブル媒体のための読取機を介して)、コンピュータシステム2200によって受信され、通信媒体2202によってメモリデバイス2212に搬送され、メモリデバイス2212内に記憶される、メインメモリ2214の中に読み込まれ、プロセッサ2204によって実行され、説明される方法の1つまたはそれを上回るステップを実施してもよい。
本開示のいくつかの実施形態では、命令2216は、コンピュータ可読記憶媒体、または単に、コンピュータ可読媒体上に記憶される。そのようなコンピュータ可読媒体は、非一過性であってもよく、したがって、非一過性コンピュータ可読媒体と称され得る。ある場合には、非一過性コンピュータ可読媒体は、コンピュータシステム2200内に組み込まれてもよい。例えば、非一過性コンピュータ可読媒体は、図22に示されるように、メモリデバイス2212のうちの1つであってもよく、命令2216は、メモリデバイス2212内に記憶される。ある場合には、非一過性コンピュータ可読媒体は、コンピュータシステム2200と別個であってもよい。一実施例では、非一過性コンピュータ可読媒体は、図22に示されるように、入力デバイス2206を参照して説明されるもの等の入力デバイス2206に提供される、リムーバブル媒体であってもよく、命令2216は、入力デバイス2206に提供される。別の実施例では、非一過性コンピュータ可読媒体は、図22に示されるように、通信サブシステム2210を使用して、命令2216を搬送するデータ信号をコンピュータシステム2200に無線で伝送し得る、携帯電話等の遠隔電子デバイスのコンポーネントであってもよく、命令2216は、通信サブシステム2210に提供される。
命令2216は、コンピュータシステム2200によって読み取られ、および/または実行されるための任意の好適な形態をとってもよい。例えば、命令2216は、ソースコード(Java(登録商標)、C、C++、C#、Python等の人間可読プログラミング言語で書き込まれる)、オブジェクトコード、アセンブリ言語、機械コード、マイクロコード、実行可能コード、および/または同等物であってもよい。一実施例では、命令2216は、ソースコードの形態において、コンピュータシステム2200に提供され、コンパイラが、命令2216をソースコードから機械コードに変換するために使用され、これは、次いで、プロセッサ2204による実行のために、メインメモリ2214の中に読み込まれてもよい。別の実施例として、命令2216は、直ちに、プロセッサ2204による実行のためにメインメモリ2214の中に読み込まれ得る、機械コードを伴う、実行可能ファイルの形態において、コンピュータシステム2200に提供される。種々の実施例では、命令2216は、可能性の中でもとりわけ、より広いソフトウェア展開のために、暗号化または暗号化解除された形態において、圧縮または解凍された形態において、インストールパッケージまたは初期化として、コンピュータシステム2200に提供されてもよい。
本開示の一側面では、システム(例えば、コンピュータシステム2200)が、本開示の種々の実施形態による、方法を実施するために提供される。例えば、いくつかの実施形態は、非一過性コンピュータ可読媒体(例えば、メモリデバイス2212またはメインメモリ2214)に通信可能に結合される、1つまたはそれを上回るプロセッサ(例えば、プロセッサ2204)を備える、システムを含んでもよい。非一過性コンピュータ可読媒体は、1つまたはそれを上回るプロセッサによって実行されると、1つまたはそれを上回るプロセッサに、種々の実施形態に説明される方法を実施させる、その中に記憶される、命令(例えば、命令2216)を有してもよい。
本開示の別の側面では、命令(例えば、命令2216)を含む、コンピュータプログラム製品が、本開示の種々の実施形態による、方法実施するために提供される。コンピュータプログラム製品は、非一過性コンピュータ可読媒体(例えば、メモリデバイス2212またはメインメモリ2214)内に有形に具現化されてもよい。命令は、1つまたはそれを上回るプロセッサ(例えば、プロセッサ2204)に、種々の実施形態に説明される方法を実施させるように構成されてもよい。
本開示の別の側面では、非一過性コンピュータ可読媒体(例えば、メモリデバイス2212またはメインメモリ2214)が、提供される。非一過性コンピュータ可読媒体は1つまたはそれを上回るプロセッサ(例えば、プロセッサ2204)によって実行されると、1つまたはそれを上回るプロセッサに、種々の実施形態に説明される方法を実施させる、その中に記憶される、命令(例えば、命令2216)を有してもよい。
上記に議論される方法、システム、およびデバイスは、実施例である。種々の構成は、必要に応じて、種々のプロシージャまたはコンポーネントを省略、代用、または追加してもよい。例えば、代替構成では、本方法は、説明されるものと異なる順序で実施されてもよく、および/または種々の段階は、追加される、省略される、および/または組み合わせられてもよい。また、ある構成に関して説明される特徴は、種々の他の構成において組み合わせられてもよい。構成の異なる側面および要素は、類似様式で組み合わせられてもよい。また、技術は、進歩するものであって、したがって、要素の多くは、実施例であって、本開示の範囲または請求項を限定するものではない。
具体的詳細が、実装を含む、例示的構成の完全な理解を提供するために説明に与えられる。しかしながら、構成は、これらの具体的詳細を伴わずに実践されてもよい。例えば、周知の回路、プロセス、アルゴリズム、構造、および技法は、構成を曖昧にすることを回避するために、不必要な詳細を伴わずに示されている。本説明は、例示的構成のみを提供し、請求項の範囲、可用性、または構成を限定するものではない。むしろ、構成の前述の説明は、当業者に説明される技法を実装するための有効な説明を提供するであろう。種々の変更が、本開示の精神または範囲から逸脱することなく、要素の機能および配列に行われてもよい。
いくつかの例示的構成が説明されたが、種々の修正、代替構造、および均等物が、本開示の精神から逸脱することなく、使用されてもよい。例えば、前述の要素は、より大きいシステムのコンポーネントであってもよく、他のルールが、本技術の用途に優先する、または別様にそれを修正してもよい。また、いくつかのステップは、前述の要素が検討される前、間、または後に行われてもよい。故に、前述の説明は、請求項の範囲を束縛するものではない。
本明細書および添付の請求項で使用されるように、単数形「a」、「an」、および「the」は、文脈によって明確に別様に示されない限り、複数参照を含む。したがって、例えば、「ユーザ」の言及は、1人またはそれを上回るそのようなユーザの言及を含み、「プロセッサ」の言及は、1つまたはそれを上回るプロセッサおよび当業者に公知のその均等物等の言及を含む。
また、単語「comprise(~を備える)」、「comprising(~を備える)」、「contains(~を含有する)」、「containing(~を含有する)」、「include(~を含む)」、「including(~を含む)」、および「includes(~を含む)」は、本明細書および以下の請求項で使用されるとき、述べられた特徴、整数、コンポーネント、またはステップの存在を規定するために意図されるが、それらは、1つまたはそれを上回る他の特徴、整数、コンポーネント、ステップ、行為、または群の存在または追加を除外するものではない。
また、本明細書に説明される実施例および実施形態は、例証目的のみのためのものであって、それに照らして、種々の修正または変更が、当業者に示唆され、本願の精神および権限および添付の請求項の範囲内に含まれることを理解されたい。
Claims (20)
- コンピュータ実装方法であって、
第1の画像を受信することと、
前記第1の画像を記述子ネットワークに入力として提供することと、
前記記述子ネットワークを使用して、前記第1の画像に基づいて、第1の画像記述子を生成することであって、前記第1の画像記述子は、
要素の第1のセットの第1のサブセットを備える第1の主ベクトルと、
前記要素の第1のセットの第2のサブセットを備える第1の副ベクトルであって、前記要素の第1のセットの第2のサブセットは、前記要素の第1のセットの第1のサブセットより多くの要素を含む、第1の副ベクトルと
の間に分散される要素の第1のセットを含む、ことと、
前記第1の主ベクトルを主正規化量に正規化することと、
前記第1の副ベクトルを副正規化量に正規化することであって、前記副正規化量は、前記主正規化量未満である、ことと
によって、階層正規化を前記第1の画像記述子にかけることと
を含む、コンピュータ実装方法。 - 第2の画像を受信することと、
前記第2の画像を前記記述子ネットワークに入力として提供することと、
前記記述子ネットワークを使用して、前記第2の画像に基づいて、第2の画像記述子を生成することであって、前記第2の画像記述子は、
要素の第2のセットの第1のサブセットを備える第2の主ベクトルと、
前記要素の第2のセットの第2のサブセットを備える第2の副ベクトルであって、前記要素の第2のセットの第2のサブセットは、前記要素の第2のセットの第1のサブセットより多くの要素を含む、第2の副ベクトルと
の間に分散される要素の第2のセットを含む、ことと、
前記第2の主ベクトルを前記主正規化量に正規化することと、
前記第2の副ベクトルを前記副正規化量に正規化することと
によって、前記階層正規化を前記第2の画像記述子にかけることと
をさらに含む、請求項1に記載のコンピュータ実装方法。 - 前記第1の主ベクトルおよび前記第2の主ベクトルに基づいて、前記第1の画像と前記第2の画像との間の主距離を算出することと、
前記主距離が上限閾値を上回るかどうかを決定することと
によって、前記第1の画像が前記第2の画像にマッチングするかどうかを決定すること
をさらに含む、請求項2に記載のコンピュータ実装方法。 - 前記第1の画像が前記第2の画像にマッチングするかどうかを決定することはさらに、
前記主距離が前記上限閾値を上回ることを決定することと、
前記第1の画像が前記第2の画像にマッチングしないことを決定することと
を含む、請求項3に記載のコンピュータ実装方法。 - 前記第1の画像が前記第2の画像にマッチングするかどうかを決定することはさらに、
前記主距離が前記上限閾値を上回らないことを決定することと、
前記主距離が下限閾値を上回るかどうかを決定することと
を含む、請求項3に記載のコンピュータ実装方法。 - 前記第1の主ベクトルおよび前記第2の主ベクトルに基づいて、前記第1の画像と前記第2の画像との間の主距離を算出することは、
前記要素の第1のセットの第1のサブセットと前記要素の第2のセットの第1のサブセットとの間の差異の2乗の和を算出すること
を含む、請求項3に記載のコンピュータ実装方法。 - 前記第1の画像が前記第2の画像にマッチングするかどうかを決定することはさらに、
前記主距離が前記下限閾値を上回ることを決定することと、
前記第1の副ベクトルおよび前記第2の副ベクトルに基づいて、前記第1の画像と前記第2の画像との間の副距離を算出することと、
前記主距離および前記副距離の和が前記上限閾値を上回るかどうかを決定することと
を含む、請求項5に記載のコンピュータ実装方法。 - 前記第1の画像が前記第2の画像にマッチングするかどうかを決定することはさらに、
前記主距離および前記副距離の和が前記上限閾値を上回ることを決定することと、
前記第1の画像が前記第2の画像にマッチングしないことを決定することと
を含む、請求項7に記載のコンピュータ実装方法。 - 前記第1の画像が前記第2の画像にマッチングするかどうかを決定することはさらに、
前記主距離および前記副距離の和が前記上限閾値を上回らないことを決定することと、
前記第1の画像が前記第2の画像にマッチングすることを決定することと
を含む、請求項7に記載のコンピュータ実装方法。 - 前記第1の副ベクトルおよび前記第2の副ベクトルに基づいて、前記第1の画像と前記第2の画像との間の副距離を算出することは、
前記要素の第1のセットの第2のサブセットと前記要素の第2のセットの第2のサブセットとの間の差異の2乗の和を算出すること
を含む、請求項7に記載のコンピュータ実装方法。 - 前記主正規化量は、1-αに等しく、
前記副正規化量は、αに等しく、αは、0.5未満である、
請求項1に記載のコンピュータ実装方法。 - 前記記述子ネットワークは、訓練プロセスを通して修正可能である加重のセットを有するニューラルネットワークである、請求項1に記載のコンピュータ実装方法。
- システムであって、
1つまたはそれを上回るプロセッサと、
コンピュータ可読媒体であって、前記コンピュータ可読媒体は、命令を記憶しており、前記命令は、前記1つまたはそれを上回るプロセッサによって実行されると、前記1つまたはそれを上回るプロセッサに、
第1の画像を受信することと、
前記第1の画像を記述子ネットワークに入力として提供することと、
前記記述子ネットワークを使用して、前記第1の画像に基づいて、第1の画像記述子を生成することであって、前記第1の画像記述子は、
要素の第1のセットの第1のサブセットを備える第1の主ベクトルと、
前記要素の第1のセットの第2のサブセットを備える第1の副ベクトルであって、前記要素の第1のセットの第2のサブセットは、前記要素の第1のセットの第1のサブセットより多くの要素を含む、第1の副ベクトルと
の間に分散される要素の第1のセットを含む、ことと、
前記第1の主ベクトルを主正規化量に正規化することと、
前記第1の副ベクトルを副正規化量に正規化することであって、前記副正規化量は、前記主正規化量未満である、ことと
によって、階層正規化を前記第1の画像記述子にかけることと
を含む動作を実施させる、コンピュータ可読媒体と
を備える、システム。 - 前記動作はさらに、
第2の画像を受信することと、
前記第2の画像を前記記述子ネットワークに入力として提供することと、
前記記述子ネットワークを使用して、前記第2の画像に基づいて、第2の画像記述子を生成することであって、前記第2の画像記述子は、
要素の第2のセットの第1のサブセットを備える第2の主ベクトルと、
前記要素の第2のセットの第2のサブセットを備える第2の副ベクトルであって、前記要素の第2のセットの第2のサブセットは、前記要素の第2のセットの第1のサブセットより多くの要素を含む、第2の副ベクトルと
の間に分散される要素の第2のセットを含む、ことと、
前記第2の主ベクトルを前記主正規化量に正規化することと、
前記第2の副ベクトルを前記副正規化量に正規化することと
によって、前記階層正規化を前記第2の画像記述子にかけることと
を含む、請求項13に記載のシステム。 - 前記動作はさらに、
前記第1の主ベクトルおよび前記第2の主ベクトルに基づいて、前記第1の画像と前記第2の画像との間の主距離を算出することと、
前記主距離が上限閾値を上回るかどうかを決定することと
によって、前記第1の画像が前記第2の画像にマッチングするかどうかを決定すること
を含む、請求項14に記載のシステム。 - 前記第1の画像が前記第2の画像にマッチングするかどうかを決定することはさらに、
前記主距離が前記上限閾値を上回ることを決定することと、
前記第1の画像が前記第2の画像にマッチングしないことを決定することと
を含む、請求項15に記載のシステム。 - 前記第1の画像が前記第2の画像にマッチングするかどうかを決定することはさらに、
前記主距離が前記上限閾値を上回らないことを決定することと、
前記主距離が下限閾値を上回るかどうかを決定することと
を含む、請求項15に記載のシステム。 - 非一過性機械可読媒体であって、前記非一過性機械可読媒体は、命令を備え、前記命令は、1つまたはそれを上回るプロセッサによって実行されると、前記1つまたはそれを上回るプロセッサに、
第1の画像を受信することと、
前記第1の画像を記述子ネットワークに入力として提供することと、
前記記述子ネットワークを使用して、前記第1の画像に基づいて、第1の画像記述子を生成することであって、前記第1の画像記述子は、
要素の第1のセットの第1のサブセットを備える第1の主ベクトルと、
前記要素の第1のセットの第2のサブセットを備える第1の副ベクトルであって、前記要素の第1のセットの第2のサブセットは、前記要素の第1のセットの第1のサブセットより多くの要素を含む、第1の副ベクトルと
の間に分散される要素の第1のセットを含む、ことと、
前記第1の主ベクトルを主正規化量に正規化することと、
前記第1の副ベクトルを副正規化量に正規化することであって、前記副正規化量は、前記主正規化量未満である、ことと
によって、階層正規化を前記第1の画像記述子にかけることと
を含む動作を実施させる、非一過性機械可読媒体。 - 前記動作はさらに、
第2の画像を受信することと、
前記第2の画像を前記記述子ネットワークに入力として提供することと、
前記記述子ネットワークを使用して、前記第2の画像に基づいて、第2の画像記述子を生成することであって、前記第2の画像記述子は、
要素の第2のセットの第1のサブセットを備える第2の主ベクトルと、
前記要素の第2のセットの第2のサブセットを備える第2の副ベクトルであって、前記要素の第2のセットの第2のサブセットは、前記要素の第2のセットの第1のサブセットより多くの要素を含む、第2の副ベクトルと
の間に分散される要素の第2のセットを含む、ことと、
前記第2の主ベクトルを前記主正規化量に正規化することと、
前記第2の副ベクトルを前記副正規化量に正規化することと
によって、前記階層正規化を前記第2の画像記述子にかけることと
を含む、請求項18に記載の非一過性機械可読媒体。 - 前記動作はさらに、
前記第1の主ベクトルおよび前記第2の主ベクトルに基づいて、前記第1の画像と前記第2の画像との間の主距離を算出することと、
前記主距離が上限閾値を上回るかどうかを決定することと
によって、前記第1の画像が前記第2の画像にマッチングするかどうかを決定すること
を含む、請求項19に記載の非一過性機械可読媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202063019211P | 2020-05-01 | 2020-05-01 | |
US63/019,211 | 2020-05-01 | ||
PCT/US2021/029496 WO2021222325A1 (en) | 2020-05-01 | 2021-04-27 | Image descriptor network with imposed hierarchical normalization |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023524038A true JP2023524038A (ja) | 2023-06-08 |
Family
ID=78292187
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022566064A Pending JP2023524038A (ja) | 2020-05-01 | 2021-04-27 | 階層正規化がかけられる画像記述子ネットワーク |
Country Status (5)
Country | Link |
---|---|
US (2) | US11797603B2 (ja) |
EP (1) | EP4143739A4 (ja) |
JP (1) | JP2023524038A (ja) |
CN (1) | CN115552477A (ja) |
WO (1) | WO2021222325A1 (ja) |
Family Cites Families (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8532438B2 (en) * | 2008-05-09 | 2013-09-10 | Empire Technology Development Llc | Matching images with shape descriptors |
US8401276B1 (en) | 2008-05-20 | 2013-03-19 | University Of Southern California | 3-D reconstruction and registration |
US20120090009A1 (en) | 2010-10-12 | 2012-04-12 | Comcast Cable Communications, Llc | Video Assets Having Associated Graphical Descriptor Data |
US9258564B2 (en) * | 2012-02-07 | 2016-02-09 | Stmicroelectronics S.R.L. | Visual search system architectures based on compressed or compact feature descriptors |
US10540566B2 (en) | 2012-06-29 | 2020-01-21 | Nec Corporation | Image processing apparatus, image processing method, and program |
KR20140102038A (ko) | 2013-02-13 | 2014-08-21 | 삼성전자주식회사 | 영상 정합 장치 및 영상 정합 방법 |
US9177224B1 (en) | 2013-03-14 | 2015-11-03 | Amazon Technologies, Inc. | Object recognition and tracking |
US8885901B1 (en) | 2013-10-22 | 2014-11-11 | Eyenuk, Inc. | Systems and methods for automated enhancement of retinal images |
IL231862A (en) | 2014-04-01 | 2015-04-30 | Superfish Ltd | Image representation using a neural network |
US9576221B2 (en) | 2014-07-09 | 2017-02-21 | Ditto Labs, Inc. | Systems, methods, and devices for image matching and object recognition in images using template image classifiers |
US11544214B2 (en) * | 2015-02-02 | 2023-01-03 | Optimum Semiconductor Technologies, Inc. | Monolithic vector processor configured to operate on variable length vectors using a vector length register |
JP2017041113A (ja) | 2015-08-20 | 2017-02-23 | 日本電気株式会社 | 画像処理装置、画像処理システム、画像処理方法及びプログラム |
US10871536B2 (en) | 2015-11-29 | 2020-12-22 | Arterys Inc. | Automated cardiac volume segmentation |
WO2017168899A1 (ja) | 2016-03-30 | 2017-10-05 | ソニー株式会社 | 情報処理方法および情報処理装置 |
EP3267368B1 (en) * | 2016-07-06 | 2020-06-03 | Accenture Global Solutions Limited | Machine learning image processing |
WO2018039269A1 (en) | 2016-08-22 | 2018-03-01 | Magic Leap, Inc. | Augmented reality display device with deep learning sensors |
US11379688B2 (en) | 2017-03-16 | 2022-07-05 | Packsize Llc | Systems and methods for keypoint detection with convolutional neural networks |
BR112019022447A2 (pt) | 2017-04-27 | 2020-06-09 | Bober Miroslaw | sistema e método para análise de imagem funduscópica automatizada |
JP7250709B2 (ja) | 2017-06-28 | 2023-04-03 | マジック リープ, インコーポレイテッド | 畳み込み画像変換を使用して同時位置特定およびマッピングを実施する方法およびシステム |
CN110019903A (zh) * | 2017-10-10 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 图像处理引擎组件的生成方法、搜索方法及终端、系统 |
IL274426B2 (en) | 2017-11-14 | 2024-01-01 | Magic Leap Inc | Discovering and describing a fully complex point of interest using homographic processing |
US11182424B2 (en) * | 2018-05-08 | 2021-11-23 | Spotify Ab | Image based content search and recommendations |
US10783398B1 (en) * | 2018-10-22 | 2020-09-22 | Shutterstock, Inc. | Image editor including localized editing based on generative adversarial networks |
CN111832584A (zh) * | 2019-04-16 | 2020-10-27 | 富士通株式会社 | 图像处理装置及其训练装置和训练方法 |
US11604993B1 (en) * | 2019-05-03 | 2023-03-14 | Zoox, Inc. | Machine-learning model structural pruning |
CN110222220A (zh) * | 2019-05-06 | 2019-09-10 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、计算机可读介质及电子设备 |
CN110717913B (zh) * | 2019-09-06 | 2022-04-22 | 浪潮电子信息产业股份有限公司 | 一种图像分割方法及装置 |
EP4042320A1 (en) * | 2019-10-09 | 2022-08-17 | Ancestry.com Operations Inc. | Adversarial network for transforming handwritten text |
AU2020100413A4 (en) * | 2019-10-25 | 2020-04-23 | Xero Limited | Docket analysis methods and systems |
KR20210074748A (ko) * | 2019-12-12 | 2021-06-22 | 삼성전자주식회사 | 도메인 적응에 기반한 네트워크의 트레이닝 방법, 동작 방법 및 동작 장치 |
CN111145097B (zh) * | 2019-12-31 | 2023-09-01 | 华为技术有限公司 | 图像处理方法、装置和图像处理系统 |
CN111325222A (zh) * | 2020-02-27 | 2020-06-23 | 深圳市商汤科技有限公司 | 图像归一化处理方法及装置、存储介质 |
CN111340048B (zh) * | 2020-02-28 | 2022-02-22 | 深圳市商汤科技有限公司 | 图像处理方法及装置、电子设备和存储介质 |
GB2592440A (en) * | 2020-02-28 | 2021-09-01 | Correvate Ltd | Object recognition via object data database and augmentation of 3D image data |
CN113408561A (zh) * | 2020-03-17 | 2021-09-17 | 北京京东乾石科技有限公司 | 模型生成方法、目标检测方法、装置、设备及存储介质 |
US11645328B2 (en) * | 2020-03-17 | 2023-05-09 | Adobe Inc. | 3D-aware image search |
CN115456161A (zh) * | 2020-03-27 | 2022-12-09 | 华为技术有限公司 | 一种数据处理方法和数据处理系统 |
US20230169669A1 (en) * | 2020-04-09 | 2023-06-01 | Nec Corporation | Endoscope insertion assistance apparatus, method and non-transitory computer-readable medium storing program thereof |
US11836178B2 (en) * | 2020-04-13 | 2023-12-05 | Ancestry.Com Operations Inc. | Topic segmentation of image-derived text |
US20230173546A1 (en) * | 2020-04-30 | 2023-06-08 | Jfe Steel Corporation | Scrap determination system and scrap determination method |
CN113628123A (zh) * | 2020-05-09 | 2021-11-09 | 深圳市中兴微电子技术有限公司 | 图像恢复模型的训练方法及装置、电子设备、可读介质 |
-
2021
- 2021-04-27 JP JP2022566064A patent/JP2023524038A/ja active Pending
- 2021-04-27 WO PCT/US2021/029496 patent/WO2021222325A1/en unknown
- 2021-04-27 EP EP21797107.6A patent/EP4143739A4/en active Pending
- 2021-04-27 US US17/242,251 patent/US11797603B2/en active Active
- 2021-04-27 CN CN202180032100.0A patent/CN115552477A/zh active Pending
-
2023
- 2023-09-14 US US18/368,153 patent/US20240004925A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
EP4143739A1 (en) | 2023-03-08 |
WO2021222325A1 (en) | 2021-11-04 |
US11797603B2 (en) | 2023-10-24 |
CN115552477A (zh) | 2022-12-30 |
US20210342630A1 (en) | 2021-11-04 |
EP4143739A4 (en) | 2023-09-27 |
US20240004925A1 (en) | 2024-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110520870B (zh) | 用于具有动态向量长度和码本大小的高吞吐量向量去量化的灵活硬件 | |
TWI791610B (zh) | 對人工神經網路及浮點神經網路進行量化的方法及裝置 | |
US20200364552A1 (en) | Quantization method of improving the model inference accuracy | |
KR102410820B1 (ko) | 뉴럴 네트워크를 이용한 인식 방법 및 장치 및 상기 뉴럴 네트워크를 트레이닝하는 방법 및 장치 | |
CN111033529A (zh) | 神经网络的架构优化训练 | |
WO2020113355A1 (en) | A content adaptive attention model for neural network-based image and video encoders | |
KR20200066953A (ko) | Pim을 채용하는 반도체 메모리 장치 및 그 동작 방법 | |
KR20220164570A (ko) | 딥 러닝 가속기 및 랜덤 액세스 메모리를 구비한 에지 서버 | |
US20210049989A1 (en) | Techniques for learning effective musical features for generative and retrieval-based applications | |
US20210400286A1 (en) | Video Compression in Removable Storage Device having Deep Learning Accelerator and Random Access Memory | |
KR20210094915A (ko) | 스토리지 컨트롤러, 이를 포함하는 스토리지 장치 및 스토리지 컨트롤러의동작 방법 | |
CN111626340A (zh) | 一种分类方法、装置、终端及计算机存储介质 | |
KR20220030106A (ko) | 저장 장치, 저장 장치의 동작 방법 및 이를 포함한 전자 장치 | |
JP2019194851A (ja) | 分類のためのニューラルネットワークにおいて、パラメータを処理する方法及び装置 | |
JP2023524038A (ja) | 階層正規化がかけられる画像記述子ネットワーク | |
CN113868187A (zh) | 处理神经网络的方法和电子装置 | |
KR20230013995A (ko) | 공정 시뮬레이션 모델 생성 방법 및 장치 | |
KR20210156554A (ko) | 텐서 처리 방법, 가속기 및 이를 포함한 전자 장치 | |
EP4357928A1 (en) | Methods and system for efficient access to solid state drive | |
KR20200139071A (ko) | 뉴럴 네트워크에서 파라미터를 양자화하는 방법 및 장치 | |
US20230236744A1 (en) | Electronic device and method for managing memory of electronic device | |
US11452003B1 (en) | Compatible packet separation for communication networks | |
US20230123312A1 (en) | Electronic device including neural processing unit supporting different data types and method for controlling the same | |
KR102500904B1 (ko) | 딥러닝 기반 데이터 압축 방법 및 데이터 압축 장치 | |
US20230168831A1 (en) | Electronic device and operation method of electronic device for managing storage space |