JP7657828B2 - 階層正規化がかけられる画像記述子ネットワーク - Google Patents

階層正規化がかけられる画像記述子ネットワーク Download PDF

Info

Publication number
JP7657828B2
JP7657828B2 JP2022566064A JP2022566064A JP7657828B2 JP 7657828 B2 JP7657828 B2 JP 7657828B2 JP 2022566064 A JP2022566064 A JP 2022566064A JP 2022566064 A JP2022566064 A JP 2022566064A JP 7657828 B2 JP7657828 B2 JP 7657828B2
Authority
JP
Japan
Prior art keywords
image
vector
descriptor
elements
principal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022566064A
Other languages
English (en)
Other versions
JP2023524038A (ja
Inventor
コウイチ サトウ,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Magic Leap Inc
Original Assignee
Magic Leap Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Magic Leap Inc filed Critical Magic Leap Inc
Publication of JP2023524038A publication Critical patent/JP2023524038A/ja
Application granted granted Critical
Publication of JP7657828B2 publication Critical patent/JP7657828B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/56Information retrieval; Database structures therefor; File system structures therefor of still image data having vectorial format
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/469Contour-based spatial representations, e.g. vector-coding
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Description

(関連出願の相互参照)
本願は、その全内容が、あらゆる目的のために、参照することによって本明細書に組み込まれる、2020年5月1日に出願され、「IMAGE DESCRIPTOR NETWORK WITH IMPOSED HIERARCHICAL NORMALIZATION」と題された、米国仮特許出願第63/019,211号の優先権の利益を主張する。
画像処理では、「画像記述子」とも称される、画像の記述子は、可能性の中でもとりわけ、その色、形状、テクスチャ、運動を含む、画像の視覚的特徴の記述である。画像記述子およびそれらを生産するアルゴリズムは、コンピュータビジョンにおいて、いくつかの用途を有する。例えば、画像記述子は、例えば、画像毎に画像記述子を生成し、2つの記述子間の距離または差異を算出することによって、2つの画像間の類似性を決定するためのロバストな手段を提供する。
本開示は、概して、画像の画像記述子を生成するための技法に関する。より具体的には、本開示の実施形態は、記述子ネットワークを訓練および使用して、主および副ベクトルを有する、画像記述子を正確に生成するための技法を提供する。
本発明の種々の実施形態の説明が、実施例の一覧として、下記に提供される。下記に使用されるように、一連の実施例への任意の言及は、それらの実施例のそれぞれへの離接的な言及として理解されるものである(例えば、「実施例1-4」は、「実施例1、2、3、または4」として理解されるものである)。
実施例1は、第1の画像を受信するステップと、第1の画像を記述子ネットワークに入力として提供するステップと、記述子ネットワークを使用して、第1の画像に基づいて、第1の画像記述子を生成するステップであって、第1の画像記述子は、要素の第1のセットの第1のサブセットを備える、第1の主ベクトルと、要素の第1のセットの第2のサブセットを備える、第1の副ベクトルであって、要素の第1のセットの第2のサブセットは、要素の第1のセットの第1のサブセットより多くの要素を含む、第1の副ベクトルとの間に分散される、要素の第1のセットを含む、ステップと、第1の主ベクトルを主正規化量に正規化するステップと、第1の副ベクトルを副正規化量に正規化するステップであって、副正規化量は、主正規化量未満である、ステップとによって、階層正規化を第1の画像記述子にかけるステップとを含む、コンピュータ実装方法である。
実施例2は、第2の画像を受信するステップと、第2の画像を記述子ネットワークに入力として提供するステップと、記述子ネットワークを使用して、第2の画像に基づいて、第2の画像記述子を生成するステップであって、第2の画像記述子は、要素の第2のセットの第1のサブセットを備える、第2の主ベクトルと、要素の第2のセットの第2のサブセットを備える、第2の副ベクトルであって、要素の第2のセットの第2のサブセットは、要素の第2のセットの第1のサブセットより多くの要素を含む、第2の副ベクトルとの間に分散される、要素の第2のセットを含む、ステップと、第2の主ベクトルを主正規化量に正規化するステップと、第2の副ベクトルを副正規化量に正規化するステップとによって、階層正規化を第2の画像記述子にかけるステップとをさらに含む、実施例1に記載のコンピュータ実装方法である。
実施例3は、第1の主ベクトルおよび第2の主ベクトルに基づいて、第1の画像と第2の画像との間の主距離を算出するステップと、主距離が上限閾値を上回るかどうかを決定するステップとによって、第1の画像が第2の画像にマッチングするかどうかを決定するステップをさらに含む、実施例2に記載のコンピュータ実装方法である。
実施例4は、第1の画像が第2の画像にマッチングするかどうかを決定するステップはさらに、主距離が上限閾値を上回ることを決定するステップと、第1の画像が第2の画像にマッチングしないことを決定するステップとを含む、実施例3に記載のコンピュータ実装方法である。
実施例5は、第1の画像が第2の画像にマッチングするかどうかを決定するステップはさらに、主距離が上限閾値を上回らないことを決定するステップと、主距離が下限閾値を上回るかどうかを決定するステップとを含む、実施例3に記載のコンピュータ実装方法である。
実施例6は、第1の主ベクトルおよび第2の主ベクトルに基づいて、第1の画像と第2の画像との間の主距離を算出するステップは、要素の第1のセットの第1のサブセットと要素の第2のセットの第1のサブセットとの間の差異の2乗の和を算出するステップを含む、実施例3に記載のコンピュータ実装方法である。
実施例7は、第1の画像が第2の画像にマッチングするかどうかを決定するステップがさらに、主距離が下限閾値を上回ることを決定するステップと、第1の副ベクトルおよび第2の副ベクトルに基づいて、第1の画像と第2の画像との間の副距離を算出するステップと、主距離および副距離の和が上限閾値を上回るかどうかを決定するステップとを含む、実施例5に記載のコンピュータ実装方法である。
実施例8は、第1の画像が第2の画像にマッチングするかどうかを決定するステップがさらに、主距離および副距離の和が上限閾値を上回ることを決定するステップと、第1の画像が第2の画像にマッチングしないことを決定するステップとを含む、実施例7に記載のコンピュータ実装方法である。
実施例9は、第1の画像が第2の画像にマッチングするかどうかを決定するステップがさらに、主距離および副距離の和が上限閾値を上回らないことを決定するステップと、第1の画像が第2の画像にマッチングすることを決定するステップとを含む、実施例7に記載のコンピュータ実装方法である。
実施例10は、第1の副ベクトルおよび第2の副ベクトルに基づいて、第1の画像と第2の画像との間の副距離を算出するステップが、要素の第1のセットの第2のサブセットと要素の第2のセットの第2のサブセットとの間の差異の2乗の和を算出するステップを含む、実施例7に記載のコンピュータ実装方法である。
実施例11は、主正規化量が、1-αに等しく、副正規化量が、αに等しく、αが、0.5未満である、実施例1-10に記載のコンピュータ実装方法である。
実施例12は、αが、1/8、1/16、または1/32に等しい、実施例11に記載のコンピュータ実装方法である。
実施例13は、記述子ネットワークが、訓練プロセスを通して修正可能である、加重のセットを有する、ニューラルネットワークである、実施例1-12に記載のコンピュータ実装方法である。
実施例14は、記述子ネットワークを訓練する方法であって、画像対のセットを受信するステップと、画像対のセットの画像対毎に、画像対からの第1の訓練画像を記述子ネットワークに入力として提供するステップと、記述子ネットワークを使用して、第1の訓練画像に基づいて、第1の画像記述子を生成するステップであって、第1の画像記述子は、要素の第1のセットの第1のサブセットを備える、第1の主ベクトルと、要素の第1のセットの第2のサブセットを備える、第1の副ベクトルであって、要素の第1のセットの第2のサブセットは、要素の第1のセットの第1のサブセットより多くの要素を含む、第1の副ベクトルとの間に分散される、要素の第1のセットを含む、ステップと、第1の主ベクトルを主正規化量に正規化するステップと、第1の副ベクトルを副正規化量に正規化するステップであって、副正規化量は、主正規化量未満である、ステップとによって、階層正規化を第1の画像記述子にかけるステップと、画像対からの第2の訓練画像を記述子ネットワークに入力として提供するステップと、記述子ネットワークを使用して、第2の画像に基づいて、第2の訓練画像記述子を生成するステップであって、第2の画像記述子は、要素の第2のセットの第1のサブセットを備える、第2の主ベクトルと、要素の第2のセットの第2のサブセットを備える、第2の副ベクトルであって、要素の第2のセットの第2のサブセットは、要素の第2のセットの第1のサブセットより多くの要素を含む、第2の副ベクトルとの間に分散される、要素の第2のセットを含む、ステップと、第2の主ベクトルを主正規化量に正規化するステップと、第2の副ベクトルを副正規化量に正規化するステップとによって、階層正規化を第2の画像記述子にかけるステップと、第1の主ベクトルおよび第2の主ベクトルに基づいて、第1の訓練画像と第2の訓練画像との間の主距離を算出するステップと、第1の副ベクトルおよび第2の副ベクトルに基づいて、第1の訓練画像と第2の訓練画像との間の副距離を算出するステップと、主距離および副距離に基づいて、記述子ネットワークを修正するステップとを含む、方法である。
実施例15は、システムであって、1つまたはそれを上回るプロセッサと、1つまたはそれを上回るプロセッサによって実行されると、1つまたはそれを上回るプロセッサに、実施例1-14のいずれかに記載の方法を実施させる、命令を備える、コンピュータ可読媒体とを備える、システムである。
実施例16は、1つまたはそれを上回るプロセッサによって実行されると、1つまたはそれを上回るプロセッサに、実施例1-14のいずれかに記載の方法を実施させる、命令を備える、非一過性機械可読媒体である。
本開示のさらなる理解を提供するために含まれる、付随の図面は、本明細書に組み込まれ、その一部を成し、本開示の実施形態を図示し、詳細な説明とともに、本開示の原理を解説する役割を果たす。本開示の基本的な理解およびこれが実践され得る種々の方法に関して必要であり得るよりも詳細に、本開示の構造的詳細を示す試みは、行われない。
図1Aは、記述子ネットワークを含む、例示的システムを図示する。
図1Bは、記述子ネットワークを含む、例示的システムを図示する。
図2は、記述子ネットワークを含む、例示的システムを図示する。
図3Aは、記述子ネットワークを訓練するための例示的システムを図示する。
図3Bは、記述子ネットワークを訓練するための例示的システムを図示する。
図4は、記述子ネットワークを使用する方法を図示する。
図5は、記述子ネットワークを訓練する方法を図示する。
図6は、階層正規化の実施例を図示する。
図7は、2つの画像がマッチングするかどうかを決定するための方法を示す、例示的フローチャートを図示する。
図8は、図7に図示される例示的フローチャートのグラフ表現を図示する。
図9は、2つの画像がマッチングするかどうかを決定するための方法を示す、例示的フローチャートを図示する。
図10は、図9に図示される例示的フローチャートのグラフ表現を図示する。
図11は、画像のセットから基準画像に最も近い画像を見出すための方法を示す、例示的フローチャートを図示する。
図12は、図11に図示される例示的フローチャートのグラフ表現を図示する。
図13は、画像のセットから基準画像に最も近い画像を見出すための方法を示す、例示的フローチャートを図示する。
図14は、図13に図示される例示的フローチャートのグラフ表現を図示する。
図15は、主距離を使用してフィルタリング除去され得る、領域を示す、付加的グラフ表現を図示する。
図16は、主距離を使用してフィルタリング除去され得る、領域を示す、付加的グラフ表現を図示する。
図17は、記述子ネットワークの実験結果を示す、グラフを図示する。
図18は、記述子ネットワークの実験結果を示す、グラフを図示する。
図19は、記述子ネットワークの実験結果を示す、グラフを図示する。
図20は、記述子ネットワークの実験結果を示す、グラフを図示する。
図21は、複数の主ベクトルを有する、例示的画像記述子を図示する。
図22は、簡略化されたコンピュータシステムを図示する。
具体的実施形態の詳細な説明
本開示のさらなる理解を提供するために含まれる、付随の図面は、本明細書に組み込まれ、その一部を成し、本開示の実施形態を図示し、詳細な説明とともに、本開示の原理を解説する役割を果たす。本開示の基本的な理解およびこれが実践され得る種々の方法に関して必要であり得るよりも詳細に、本開示の構造的詳細を示す試みは、行われない。
図1Aは、本開示のいくつかの実施形態による、画像102に基づいて画像記述子110Aを生成するための記述子ネットワーク100Aを含む、例示的システムを図示する。記述子ネットワーク100Aは、特定のアーキテクチャと、関連付けられる加重のセットとを有する、畳み込みニューラルネットワーク等のニューラルネットワークであってもよい。画像102が、入力として提供されるが、記述子ネットワーク100Aは、N個の要素116Aを有する、画像記述子110Aを生成するように構成されてもよい。要素116Aはそれぞれ、画像102内の視覚的特徴を示し得る。
図1Bは、生成された画像記述子110Bが、主ベクトル112と、副ベクトル114とを含むことを除き、記述子ネットワーク100Aに類似する、記述子ネットワーク100Bを含む、例示的システムを図示する。いくつかの実施形態では、主ベクトル112は、第1の要素のサブセット116B(要素116B-1から要素116B-M)を含んでもよく、副ベクトル114は、第2の要素のサブセット116B(要素116B-M+1から要素116B-M+N)を含んでもよい。したがって、第1のサブセットは、M個の要素を含んでもよく、第2のサブセットは、N個の要素を含んでもよい。
いくつかの実施形態では、主ベクトル112および副ベクトル114は、階層正規化を画像記述子110Bにかけることによって取得される。これは、主ベクトル112を主正規化量に、および副ベクトル114を副正規化量に正規化するステップを含んでもよく、主正規化量は、副正規化量を上回る。階層正規化をかけることと併せて、主ベクトル112(M)のサイズが副ベクトル114(N)のサイズ未満となるように設定することによって、画像記述子110Bは、本明細書に説明されるように、種々のタスクにおける性能を有意に改良するように使用されることができる。
図2は、本開示のいくつかの実施形態による、記述子ネットワーク200を含む、例示的システムを図示する。図示される実施例では、記述子ネットワーク200は、それぞれ、画像202および203に基づいて生成された画像記述子210と211との間の距離を決定することによって、画像202と203との間の類似性を決定するために使用される。記述子ネットワーク200は、画像記述子210および211がそれぞれ、主ベクトルおよび副ベクトルを含むように、記述子ネットワーク100Bに類似し得る。種々の実施形態では、画像202および203は、順次、記述子ネットワーク200への入力として提供されてもよい(例えば、画像202は、第1の時間に提供されてもよく、画像203は、第1の時間後、第2の時間に提供されてもよい)、または、同時に、記述子ネットワーク200の2つの異なるインスタンスに提供されてもよい(例えば、記述子ネットワーク200と関連付けられる、モデルアーキテクチャおよび加重を実装するための命令が、2つの別個のプロセッサまたはプロセッサコア上にロードされてもよい)。
画像記述子210と211との間の総距離Dtotalが、画像記述子間の主距離Dmajor(画像記述子210および211の主ベクトルのみに基づいて算出される、総距離Dtotalの部分)と、画像記述子間の副距離Dminor(画像記述子210および211の副ベクトルのみに基づいて算出される、総距離Dtotalの部分)の和として算出されてもよい。図示される実施例では、ユークリッド距離が、画像記述子210の主ベクトル(x、x、…、x)および画像記述子211の主ベクトル(x’、x’、…、x’)の要素に基づく主距離と、画像記述子210の副ベクトル(xM+1、xM+2、…、xM+N)および画像記述子211の副ベクトル(x’M+1、x’M+2、…、x’M+N)の要素に基づく副距離とを計算するために使用される。余弦距離等の他の距離メトリックも、主距離および副距離を計算するために使用されてもよい。
図3Aは、本開示のいくつかの実施形態による、記述子ネットワーク300Aを訓練するための例示的システムを図示する。記述子ネットワーク300Aは、記述子ネットワーク100Aに類似し得る。複数の訓練反復の単一訓練反復の間、記述子ネットワーク300Aは、訓練画像302および303を提供されてもよい。いくつかの実施形態では、訓練画像302および303は、類似または異なる画像であることが既知であってもよい。例えば、訓練画像303は、訓練画像302の若干修正されたバージョンであってもよい。訓練画像302および303が、入力として提供される(例えば、順次)とき、記述子ネットワーク300Aは、それぞれ、画像記述子310Aおよび311Aを生成するように構成されてもよい。総距離Dtotalは、次いで、画像記述子310Aおよび311Aに基づいて算出されてもよい。
総距離Dtotalは、例えば、記述子ネットワーク300Aの加重を修正することによって、記述子ネットワーク300Aを訓練するために使用されてもよい。いくつかの実施形態では、記述子ネットワーク300Aの加重は、総距離Dtotalを所望の値に向かって増加または減少させるように修正されてもよい。例えば、訓練画像302および303が、類似画像であることが既知である場合、記述子ネットワーク300Aの加重は、総距離Dtotalをゼロに向かって減少させるように修正されてもよい。別の実施例として、訓練画像302および303が、異なる画像であることが既知である場合、記述子ネットワーク300Aの加重は、総距離Dtotalを1に向かって増加させるように修正されてもよい。いくつかの実施形態では、記述子ネットワーク300Aの加重は、加重修正器318Aを使用して修正されてもよく、これは、例えば、逆伝搬技法を採用して、加重を調節してもよい。
図3Bは、本開示のいくつかの実施形態による、記述子ネットワーク300Bを訓練するための例示的システムを図示する。記述子ネットワーク300Bは、記述子ネットワーク100Bに類似し得る。図3Aに説明されるものと同様に、複数の訓練反復の単一訓練反復の間、記述子ネットワーク300Bは、訓練画像302および303を提供されてもよい。訓練画像302および303が、入力として提供される(例えば、順次)と、記述子ネットワーク300Bは、それぞれ、主ベクトルおよび副ベクトルを有する、画像記述子310Bおよび311Bを生成してもよい。総距離Dtotalが、次いで、画像記述子310Bおよび311Bに基づいて算出されてもよい。
図3Aに説明されるものと同様に、総距離Dtotalは、例えば、記述子ネットワーク300Bの加重を修正することによって、記述子ネットワーク300Bを訓練するために使用されてもよい。いくつかの実施形態では、記述子ネットワーク300Bの加重は、総距離Dtotalを所望の値に向かって増加または減少させるように修正されてもよい。例えば、訓練画像302および303が、類似画像であることが既知である場合、記述子ネットワーク300Bの加重は、総距離Dtotalをゼロに向かって減少させるように修正されてもよい。別の実施例として、訓練画像302および303が、異なる画像であることが既知である場合、記述子ネットワーク300Bの加重は、総距離Dtotalを1に向かって増加させるように修正されてもよい。いくつかの実施形態では、記述子ネットワーク300Bの加重は、加重修正器318Bを使用して修正されてもよく、これは、例えば、逆伝搬技法を採用して、加重を調節してもよい。
図4は、本開示のいくつかの実施形態による、記述子ネットワーク(例えば、記述子ネットワーク100A、100B、200、300A、300B)を使用する方法400を図示する。方法400の1つまたはそれを上回るステップは、方法400の実施の間、省略されてもよく、方法400のステップは、示される順序で実施される必要はない。方法400の1つまたはそれを上回るステップは、1つまたはそれを上回るプロセッサによって実施されてもよい。方法400は、プログラムが、1つまたはそれを上回るコンピュータによって実行されると、1つまたはそれを上回るコンピュータに、方法400のステップを行わせる、命令を備える、コンピュータ可読媒体またはコンピュータプログラム製品として実装されてもよい。そのようなコンピュータプログラム製品は、有線または無線ネットワークを経由して、コンピュータプログラム製品を搬送するデータキャリア信号内で伝送されることができる。
ステップ402では、第1の画像(例えば、画像102、202、203、302、303)が、受信される。第1の画像は、可能性の中でもとりわけ、グレースケール画像、マルチチャネル画像(例えば、RGB画像)であってもよい。第1の画像は、オリジナル画像またはオリジナル画像の一部であってもよい。
ステップ404では、第1の画像が、記述子ネットワークに提供される。
ステップ406では、記述子ネットワークが、第1の画像に基づいて、第1の画像記述子(例えば、画像記述子110A、110B、210、211、310A、311A、310B、311B)を生成する。第1の画像記述子は、要素の第1のセットを含んでもよい。第1の画像記述子は、要素の第1のセットの第1のサブセットを含む、第1の主ベクトル(例えば、主ベクトル112)と、要素の第1のセットの第2のサブセットを含む、第1の副ベクトル(例えば、副ベクトル114)とを含んでもよい。いくつかの実施形態では、要素の第1のセットの第2のサブセットは、要素の第1のセットの第1のサブセットより多くの要素を含む(例えば、N>M)。
ステップ408では、階層正規化が、第1の画像記述子にかけられる。いくつかの実施形態では、階層正規化を第1の画像記述子にかけるステップは、第1の画像記述子の第1の主ベクトルを主正規化量に正規化するステップと、第1の画像記述子の第1の副ベクトルを副正規化量に正規化するステップとを含んでもよい。
ステップ410では、第2の画像(例えば、画像102、202、203、302、303)が、受信される。第2の画像は、可能性の中でもとりわけ、グレースケール画像、マルチチャネル画像(例えば、RGB画像)であってもよい。第2の画像は、オリジナル画像またはオリジナル画像の一部であってもよい。
ステップ412では、第2の画像が、記述子ネットワークに提供される。
ステップ414では、記述子ネットワークが、第2の画像に基づいて、第2の画像記述子を生成する(例えば、画像記述子110A、110B、210、211、310A、311A、310B、311B)。第2の画像記述子は、要素の第2のセットを含んでもよい。第2の画像記述子は、要素の第2のセットの第1のサブセットを含む、第2の主ベクトル(例えば、主ベクトル112)と、要素の第2のセットの第2のサブセットを含む、第2の副ベクトル(例えば、副ベクトル114)とを含んでもよい。いくつかの実施形態では、要素の第2のセットの第2のサブセットは、要素の第2のセットの第1のサブセットより多くの要素を含む(例えば、N>M)。
ステップ416では、階層正規化が、第2の画像記述子にかけられる。いくつかの実施形態では、階層正規化を第2の画像記述子にかけるステップは、第2の画像記述子の第2の主ベクトルを主正規化量に正規化するステップと、第2の画像記述子の第2の副ベクトルを副正規化量に正規化するステップとを含んでもよい。
ステップ418では、第1の画像記述子および第2の画像記述子に基づいて、第1の画像が第2の画像にマッチングするかどうかが決定される。いくつかの実施形態では、ステップ418は、ステップ420-426のうちの1つまたはそれを上回るものを含む。
ステップ420では、第1の画像と第2の画像との間の主距離が、第1の主ベクトルおよび第2の主ベクトルに基づいて算出される。いくつかの実施形態では、主距離を算出するステップは、第1の主ベクトルと第2の主ベクトルとの間のユークリッド距離および/または余弦距離を算出するステップを含む。いくつかの実施形態では、主距離を算出するステップは、要素の第1のセットの第1のサブセットと要素の第2のセットの第1のサブセットとの間の差異の2乗の和を算出するステップを含む。
ステップ422では、主距離に基づいて、第1の画像が第2の画像にマッチングするかどうかが決定される。いくつかの実施形態では、第1の画像が第2の画像にマッチングすることを決定するステップは、主距離が上限閾値を上回ることを決定するステップを含む。いくつかの実施形態では、第1の画像が第2の画像にマッチングしないことを決定するステップは、主距離が下限閾値未満であることを決定するステップを含む。
いくつかの実施形態では、ステップ422において、画像がマッチングするかどうかに関する任意の決定が、行われる場合、方法400は、終了する。いくつかの実施形態では、主距離のみに基づいて、第1の画像が第2の画像にマッチングするかどうかを決定することが不可能であり得る(例えば、主距離が、上限閾値と下限閾値との間にある)。そのような実施形態では、方法400は、ステップ424に進み、副距離が、算出される。
ステップ424では、第1の画像と第2の画像との間の副距離が、第1の副ベクトルおよび第2の副ベクトルに基づいて算出される。いくつかの実施形態では、副距離を算出するステップは、第1の副ベクトルと第2の副ベクトルとの間のユークリッド距離および/または余弦距離を算出するステップを含む。いくつかの実施形態では、副距離を算出するステップは、要素の第1のセットの第2のサブセットと要素の第2のセットの第2のサブセットとの間の差異の2乗の和を算出するステップを含む。
ステップ426では、主距離および副距離に基づいて、第1の画像が第2の画像にマッチングするかどうかが決定される。いくつかの実施形態では、主距離および副距離の和(または総距離)が、算出される。いくつかの実施形態では、第1の画像が第2の画像にマッチングすることを決定するステップは、主距離および副距離の和が上限閾値を上回ることを決定するステップを含む。いくつかの実施形態では、第1の画像が第2の画像にマッチングしないことを決定するステップは、主距離および副距離の和が上限閾値未満であることを決定するステップを含む。
図5は、本開示のいくつかの実施形態による、記述子ネットワーク(例えば、記述子ネットワーク100A、100B、200、300A、300B)を訓練する方法500を図示する。方法500の1つまたはそれを上回るステップは、方法500の実施の間、省略されてもよく、方法500のステップは、示される順序で実施される必要はない。方法500の1つまたはそれを上回るステップは、1つまたはそれを上回るプロセッサによって実施されてもよい。方法500は、プログラムが、1つまたはそれを上回るコンピュータによって実行されると、1つまたはそれを上回るコンピュータに、方法500のステップを行わせる、命令を備える、コンピュータ可読媒体またはコンピュータプログラム製品として実装されてもよい。そのようなコンピュータプログラム製品は、有線または無線ネットワークを経由して、コンピュータプログラム製品を搬送するデータキャリア信号内で伝送されることができる。
ステップ502では、画像対のセット(例えば、画像202、203、302、303)が、受信される。種々の実施形態では、画像対のセットは、可能性の中でもとりわけ、訓練データセットのサイズに応じて、10画像対、1,000画像対、1,000,000画像対を含んでもよい。画像対のセットの各画像対内の各画像は、可能性の中でもとりわけ、グレースケール画像、マルチチャネル画像(例えば、RGB画像)であってもよい。各画像は、オリジナル画像またはオリジナル画像の一部であってもよい。
いくつかの実施形態では、ステップ504-520は、画像対のセットの画像対毎に実施される。ステップ504では、画像対からの第1の訓練画像が、記述子ネットワークに提供される。
ステップ506では、記述子ネットワークが、第1の訓練画像に基づいて、第1の画像記述子(例えば、画像記述子110A、110B、210、211、310A、311A、310B、311B)を生成する。第1の画像記述子は、要素の第1のセットを含んでもよい。第1の画像記述子は、要素の第1のセットの第1のサブセットを含む、第1の主ベクトル(例えば、主ベクトル112)と、要素の第1のセットの第2のサブセットを含む、第1の副ベクトル(例えば、副ベクトル114)とを含んでもよい。いくつかの実施形態では、要素の第1のセットの第2のサブセットは、要素の第1のセットの第1のサブセットより多くの要素を含む(例えば、N>M)。
ステップ508では、階層正規化が、第1の画像記述子にかけられる。いくつかの実施形態では、階層正規化を第1の画像記述子にかけるステップは、第1の画像記述子の第1の主ベクトルを主正規化量に正規化するステップと、第1の画像記述子の第1の副ベクトルを副正規化量に正規化するステップとを含んでもよい。
ステップ510では、画像対からの第2の訓練画像が、記述子ネットワークに提供される。
ステップ512では、記述子ネットワークが、第2の訓練画像に基づいて、第2の画像記述子(例えば、画像記述子110A、110B、210、211、310A、311A、310B、311B)を生成する。第2の画像記述子は、要素の第2のセットを含んでもよい。第2の画像記述子は、要素の第2のセットの第1のサブセットを含む、第2の主ベクトル(例えば、主ベクトル112)と、要素の第2のセットの第2のサブセットを含む、第2の副ベクトル(例えば、副ベクトル114)とを含んでもよい。いくつかの実施形態では、要素の第2のセットの第2のサブセットは、要素の第2のセットの第1のサブセットより多くの要素を含む(例えば、N>M)。
ステップ514では、階層正規化が、第2の画像記述子にかけられる。いくつかの実施形態では、階層正規化を第2の画像記述子にかけるステップは、第2の画像記述子の第2の主ベクトルを主正規化量に正規化するステップと、第2の画像記述子の第2の副ベクトルを副正規化量に正規化するステップとを含んでもよい。
ステップ516では、第1の画像と第2の画像との間の主距離が、ステップ420と同様に、第1の主ベクトルおよび第2の主ベクトルに基づいて算出される。いくつかの実施形態では、主距離に基づいて、第1の訓練画像が第2の訓練画像にマッチングするかどうかが決定される。
ステップ518では、第1の画像と第2の画像との間の副距離が、ステップ424と同様に、第1の副ベクトルおよび第2の副ベクトルに基づいて算出される。いくつかの実施形態では、副距離に基づいて、第1の訓練画像が第2の訓練画像にマッチングするかどうかが決定される。
ステップ520では、記述子ネットワークが、主距離および/または副距離に基づいて修正される。いくつかの実施形態では、記述子ネットワークの加重が、同一画像対が記述子ネットワークに入力として提供されるとき、主距離および/または副距離(例えば、距離の和)を増加または減少させるように修正される。記述子ネットワークの加重は、逆伝搬技法を実施し、記述子ネットワークの加重を調節し得る、加重修正器(例えば、加重修正器318A、318B)によって修正されてもよい。
いくつかの実施形態では、記述子ネットワークは、最初に、主ベクトルを訓練し、続いて、副ベクトルを訓練することによって、順次、訓練されてもよい。例えば、主ベクトルの要素を算出することに寄与する、記述子ネットワークの加重が、副ベクトルの要素を無視しながら、画像対のセットを使用して訓練されてもよい。いったん訓練されると、主ベクトルの要素を算出することに寄与する、記述子ネットワークの加重は、固定されてもよい。その後、副ベクトルの要素を算出することに寄与する、記述子ネットワークの加重が、同一画像対のセットまたは異なる画像対のセットを使用して、訓練されてもよい。いくつかの実施形態では、主ベクトルの要素は、副ベクトルの要素を訓練する間、無視されてもよい。いくつかの実施形態では、主ベクトルおよび副ベクトルは両方とも、副ベクトルの要素を算出することに寄与する、記述子ネットワークの加重を訓練する間、考慮されてもよい。いくつかの実施形態では、主ベクトルおよび副ベクトルの要素を算出することに寄与する、記述子ネットワークの加重が、同時に訓練されてもよい。
図6は、本開示のいくつかの実施形態による、階層正規化の実施例を図示する。要素の全てを1の値に正規化する代わりに、要素は、主ベクトルおよび副ベクトルに分割され、主ベクトル内の要素は全て、1-αの値に正規化され、副ベクトル内の要素は全て、αの値に正規化される。図示される実施例では、αは、1/16に等しい。したがって、主ベクトルは、15/16に正規化され、副ベクトルは、1/16に正規化される。図示される実施例では、主ベクトルは、8個の要素を含み、副ベクトルは、24個の要素を含む。
図7は、本開示のいくつかの実施形態による、2つの画像がマッチングするかどうかを決定する方法を示す、例示的フローチャートを図示する。図示される実施例では、ユークリッド距離が、主距離および副距離を算出するために使用される。ステップ702では、主距離が、算出される。ステップ704では、主距離が上限閾値を上回るかどうかが決定される。主距離が、上限閾値を上回る場合、画像がマッチングしないと決定される。そうでなければ、本方法は、ステップ706に進む。ステップ706では、主距離が下限閾値未満である(上限閾値-4αに等しい)かどうかが決定される。主距離が、下限閾値未満である場合、画像がマッチングすると決定される。そうでなければ、本方法は、ステップ708に進む。
ステップ708では、副距離が、算出される。ステップ710では、主距離および副距離の和が上限閾値未満であるかどうかが決定される。主距離および副距離の和が、上限閾値未満である場合、画像がマッチングすると決定される。そうでなければ(例えば、主距離および副距離の和が上限閾値を上回る場合)、画像がマッチングしないと決定される。
図8は、本開示のいくつかの実施形態による、図7に図示される例示的フローチャートのグラフ表現を図示する。図8に示されるように、マッチングは、主距離が上限閾値を上回るとき、または主距離が下限閾値未満であるとき、主距離のみに基づいて決定されることができる。そうでなければ、マッチングは、主距離および副距離の両方に基づいて決定される。
図9は、本開示のいくつかの実施形態による、2つの画像がマッチングするかどうかを決定する方法を示す、例示的フローチャートを図示する。図示される実施例では、余弦距離が、主距離および副距離を算出するために使用される。ステップ902では、主距離が、2つの画像の主ベクトル間の内積を算出することによって算出される。ステップ904では、主距離が下限閾値未満であるかどうかが決定される。主距離が、下限閾値未満である場合、画像がマッチングしないと決定される。そうでなければ、本方法は、ステップ906に進む。ステップ906では、主距離が上限閾値を上回る(下限閾値+2αに等しい)かどうかが決定される。主距離が、上限閾値を上回る場合、画像がマッチングすると決定される。そうでなければ、本方法は、ステップ908に進む。
ステップ908では、副距離が、2つの画像の副ベクトル間の内積を算出することによって算出される。ステップ910では、主距離および副距離の和が中央閾値を上回る(上限閾値と下限閾値との間の平均に等しい)かどうかが決定される。主距離および副距離の和が、中央閾値を上回る場合、画像がマッチングすると決定される。そうでなければ(例えば、主距離および副距離の和が、中央閾値未満である場合)、画像がマッチングしないと決定される。
図10は、本開示のいくつかの実施形態による、図9に図示される例示的フローチャートのグラフ表現を図示する。図10に示されるように、マッチングは、主距離が上限閾値を上回るとき、または主距離が下限閾値未満であるとき、主距離のみに基づいて決定されることができる。そうでなければ、マッチングは、主距離および副距離の両方に基づいて決定される。
図11は、本開示のいくつかの実施形態による、画像のセットから基準画像に最も近い画像を見出すための方法を示す、例示的フローチャートを図示する。図示される実施例では、ユークリッド距離が、主距離および副距離を算出するために使用される。画像記述子の主ベクトルが、画像のセットおよび基準画像のために生成された後、ステップ1102では、主距離が、主ベクトルを使用して、画像のセットのそれぞれと基準画像との間で算出される。ステップ1104では、最小主距離が、識別される。ステップ1106では、最小距離+4α未満の主距離を有する、全ての画像が、選択される。
ステップ1108では、画像記述子の副ベクトルが、選択された画像および基準画像のために生成された後、副距離が、副ベクトルを使用して、選択された画像のそれぞれと基準画像との間で算出される。ステップ1110では、最も近い画像は、主距離および副距離の和である、最小総距離を識別することによって選択される。
図12は、本開示のいくつかの実施形態による、図11に図示される例示的フローチャートのグラフ表現を図示する。図12に示されるように、小領域のみが、主距離が、閾値を上回る主距離を有する、画像をフィルタリング除去するために使用されるとき、副距離を使用して検索される必要がある。
図13は、本開示のいくつかの実施形態による、画像のセットから基準画像に最も近い画像を見出すための方法を示す、例示的フローチャートを図示する。図示される実施例では、余弦距離が、主距離および副距離を算出するために使用される。画像記述子の主ベクトルが、画像のセットおよび基準画像のために生成された後、ステップ1302では、主距離が、内積を算出することによって、主ベクトルを使用して、画像のセットのそれぞれと基準画像との間で算出される。ステップ1304では、最大主距離が、識別される。ステップ1306では、最大距離-αを上回る主距離を有する、全ての画像が、選択される。
ステップ1308では、画像記述子の副ベクトルが、選択された画像および基準画像のために生成された後、副距離が、内積を算出することによって、副ベクトルを使用して、選択された画像のそれぞれと基準画像との間で算出される。ステップ1310では、最も近い画像が、主距離および副距離の和である、最大総距離を識別することによって選択される。
図14は、本開示のいくつかの実施形態による、図13に図示される例示的フローチャートのグラフ表現を図示する。図14に示されるように、小領域のみが、主距離が、閾値を下回る主距離を有する、画像をフィルタリング除去するために使用されるとき、副距離を使用して検索される必要がある。
図15は、本開示のいくつかの実施形態による、主距離を使用してフィルタリング除去され得る、領域を示す、付加的グラフ表現を図示する。図示される実施例では、ユークリッド距離が、主距離および副距離を算出するために使用される。
図16は、本開示のいくつかの実施形態による、主距離を使用してフィルタリング除去され得る、領域を示す、付加的グラフ表現を図示する。図示される実施例では、余弦距離が、主距離および副距離を算出するために使用される。
図17は、本開示のいくつかの実施形態による、説明される記述子ネットワークの実験結果を示す、グラフを図示する。図示されるグラフは、再現率の関数として精度を示す。
図18は、本開示のいくつかの実施形態による、説明される記述子ネットワークの実験結果を示す、グラフを図示する。図示されるグラフは、誤検出率の関数として、正検出率を示す。微調整が、300個の基準時点にわたって均一に訓練し、次いで、30個の基準時点にわたって非均一に微調整訓練することによって実施される。
図19は、本開示のいくつかの実施形態による、説明される記述子ネットワークの実験結果を示す、グラフを図示する。図示されるグラフは、再現率の関数として精度を示す。
図20は、本開示のいくつかの実施形態による、説明される記述子ネットワークの実験結果を示す、グラフを図示する。図示されるグラフは、誤検出率の関数として、正検出率を示す。
図21は、本開示のいくつかの実施形態による、複数の主ベクトルを有する、例示的画像記述子2100を図示する。記述子ネットワークは、概して、主ベクトルおよび副ベクトルを有する、画像記述子を生成するように本明細書に説明されるが、本開示の実施形態はさらに、複数の主ベクトルを有する、画像記述子を生成するように構成される、記述子ネットワークを含む。図示される実施例では、画像記述子2100は、第1の主ベクトルと、第2の主ベクトルと、第3の主ベクトルと、副ベクトルとを含む。いくつかの実施形態では、第1の主ベクトルは、第2の主ベクトルより少ない要素を含んでもよく、これは、第3の主ベクトルより少ない要素を含んでもよく、これは、副ベクトルより少ない要素を含んでもよい。
画像記述子2100を生成するとき、階層正規化が、以下のようにかけられることができる。すなわち、第1の主ベクトルが、第1の主正規化量に正規化されることができ、第2の主ベクトルが、第2の主正規化量に正規化されることができ、第2の主正規化量は、第1の主正規化量未満であって、第3の主ベクトルは、第3の主正規化量に正規化されることができ、第3の主正規化量は、第2の主正規化量未満であって、副ベクトルは、副正規化量に正規化されることができ、副正規化量は、第3の主正規化量未満である。
図22は、本開示のいくつかの実施形態による、種々のハードウェア要素を備える、例示的コンピュータシステム2200を図示する。コンピュータシステム2200は、本明細書に説明されるデバイスの中に組み込まれる、またはそれと統合されてもよく、および/または種々の実施形態によって提供される方法のステップのいくつかまたは全てを実施するように構成されてもよい。例えば、種々の実施形態では、コンピュータシステム2200は、方法400または500を実施するように構成されてもよい。図22は、種々のコンポーネントの一般化された例証のみを提供することを意図し、その任意または全てのものが、必要に応じて、利用されてもよいことに留意されたい。図22は、したがって、広義には、個々のシステム要素が、比較的に分離またはより比較的に統合された様式で実装され得る方法を図示する。
図示される実施例では、コンピュータシステム2200は、通信媒体2202と、1つまたはそれを上回るプロセッサ2204と、1つまたはそれを上回る入力デバイス2206と、1つまたはそれを上回る出力デバイス2208と、通信サブシステム2210と、1つまたはそれを上回るメモリデバイス2212とを含む。コンピュータシステム2200は、種々のハードウェア実装および内蔵システム技術を使用して実装されてもよい。例えば、コンピュータシステム2200の1つまたはそれを上回る要素は、可能性の中でもとりわけ、XILINX(登録商標)、INTEL(登録商標)、またはLATTICE SEMICONDUCTOR(登録商標)によって市販のもの等のフィールドプログラマブルゲートアレイ(FPGA)、システムオンチップ(SoC)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、マイクロコントローラ、および/またはSoCFPGA等のハイブリッドデバイスとして実装されてもよい。
コンピュータシステム2200の種々のハードウェア要素は、通信媒体2202を介して結合されてもよい。通信媒体2202は、明確性の目的のために、単一接続として図示されるが、通信媒体2202は、ハードウェア要素間でデータを転送するための種々の数およびタイプの通信媒体を含んでもよいことを理解されたい。例えば、通信媒体2202は、可能性の中でもとりわけ、1つまたはそれを上回るワイヤ(例えば、印刷回路基板(PCB)または集積回路(IC)上の伝導性トレース、経路、または導線、マイクロストリップ、ストリップライン、同軸ケーブル)、1つまたはそれを上回る光学導波管(例えば、光ファイバ、ストリップ導波管)、および/または1つまたはそれを上回る無線接続またはリンク(例えば、赤外線無線通信、無線通信、マイクロ波無線通信)を含んでもよい。
いくつかの実施形態では、通信媒体2202は、コンピュータシステム2200のハードウェア要素の1つまたはそれを上回るピンを接続する、バスを含んでもよい。例えば、通信媒体2202は、システムバスと称される、プロセッサ2204とメインメモリ2214を接続する、バスと、拡張バスと称される、メインメモリ2214と入力デバイス2206または出力デバイス2208を接続する、バスとを含んでもよい。システムバスは、アドレスバス、データバス、および制御バスを含む、いくつかの要素から成ってもよい。アドレスバスは、データバスが、メモリアドレスに含有されるデータにアクセスし、プロセッサ2204に返すために、メモリアドレスを、プロセッサ2204から、メインメモリ2214と関連付けられる、アドレスバス回路網に搬送してもよい。制御バスは、プロセッサ2204からのコマンドを搬送し、メインメモリ2214からのステータス信号を返してもよい。各バスは、複数の情報ビットを搬送するための複数のワイヤを含んでもよく、各バスは、データのシリアルまたはパラレル伝送をサポートしてもよい。
プロセッサ2204は、1つまたはそれを上回る中央処理ユニット(CPU)、グラフィック処理ユニット(GPU)、ニューラルネットワークプロセッサまたはアクセラレータ、デジタル信号プロセッサ(DSP)、および/または同等物を含んでもよい。CPUは、マイクロプロセッサの形態をとってもよく、これは、金属酸化物半導体電界効果トランジスタ(MOSFET)構造の単一ICチップ上に加工される。プロセッサ2204は、1つまたはそれを上回るマルチコアプロセッサを含んでもよく、その中で各コアは、他のコアと同時に、プログラム命令を読み取り、実行してもよい。
入力デバイス2206は、マウス、キーボード、マイクロホン等の種々のユーザ入力デバイス、および画像捕捉デバイス、圧力センサ(例えば、気圧計、触覚センサ)、温度センサ(例えば、温度計、熱電対、サーミスタ)、移動センサ(例えば、加速度計、ジャイロスコープ、傾斜センサ)、光センサ(例えば、光ダイオード、光検出器、電荷結合素子)、および/または同等物等の種々のセンサ入力デバイスのうちの1つまたはそれを上回るものを含んでもよい。入力デバイス2206はまた、リムーバブル記憶デバイスまたは他のリムーバブル媒体を読み取り、および/または受信するためのデバイスを含んでもよい。そのようなリムーバブル媒体は、光学ディスク(例えば、Blu-ray(登録商標)ディスク、DVD、CD)、メモリカード(例えば、コンパクトなフラッシュカード、セキュアデジタル(SD)カード、メモリスティック)、フロッピー(登録商標)ディスク、ユニバーサルシリアルバス(USB)フラッシュドライブ、外部ハードディスクドライブ(HDD)またはソリッドステートドライブ(SSD)、および/または同等物を含んでもよい。
出力デバイス2208は、限定ではないが、ディスプレイデバイス、スピーカ、プリンタ、および/または同等物等、情報を人間可読形態に変換する、種々のデバイスのうちの1つまたはそれを上回るものを含んでもよい。出力デバイス2208はまた、入力デバイス2206を参照して説明されるもの等のリムーバブル記憶デバイスまたは他のリムーバブル媒体に書き込むためのデバイスを含んでもよい。出力デバイス2208はまた、1つまたはそれを上回るコンポーネントの物理的移動を引き起こすための種々のアクチュエータを含んでもよい。そのようなアクチュエータは、油圧、空気圧、電気であってもよく、コンピュータシステム2200によって制御信号を提供されてもよい。
通信サブシステム2210は、コンピュータネットワーク等を経由して、コンピュータシステム2200を、コンピュータシステム2200の外部に位置する、システムまたはデバイスに接続するためのハードウェアコンポーネントを含んでもよい。種々の実施形態では、通信サブシステム2210は、可能性の中でもとりわけ、1つまたはそれを上回る入/出力ポート(例えば、ユニバーサル非同期送受信機(UART))、光学通信デバイス(例えば、光学モデム)、赤外線通信デバイス、無線通信デバイス(例えば、無線ネットワークインターフェースコントローラ、Bluetooth(登録商標) デバイス、IEEE802.11デバイス、Wi-Fiデバイス、Wi-Maxデバイス、セルラーデバイス)に結合される、有線通信デバイスを含んでもよい。
メモリデバイス2212は、コンピュータシステム2200の種々のデータ記憶デバイスを含んでもよい。例えば、メモリデバイス2212は、プロセッサレジスタおよびキャッシュ(例えば、L0、L1、L2)等のより高速の応答時間およびより低い容量のメモリから、ランダムアクセスメモリ等の中応答時間および中容量のメモリ、ソリッドステートドライブおよびハードドライブディスク等のより低速の応答時間およびより低い容量のメモリまで、種々の応答時間および容量を伴う、種々のタイプのコンピュータメモリを含んでもよい。プロセッサ2204およびメモリデバイス2212は、別個の要素として図示されるが、プロセッサ2204は、単一プロセッサによって利用される、または複数のプロセッサ間で共有され得る、プロセッサレジスタおよびキャッシュ等の可変レベルのプロセッサ上メモリを含んでもよいことを理解されたい。
メモリデバイス2212は、メインメモリ2214を含んでもよく、これは、通信媒体2202のメモリバスを介して、直接、プロセッサ2204によってアクセス可能であってもよい。例えば、プロセッサ2204は、メインメモリ2214内に記憶される命令を持続的に読み取り、実行してもよい。したがって、種々のソフトウェア要素が、メインメモリ2214の中にロードされ、図22に図示されるように、プロセッサ2204によって読み取られ、実行されてもよい。典型的には、メインメモリ2214は、揮発性メモリであって、これは、電力がオフにされると、全てのデータを喪失し、故に、記憶されたデータを保存するために電力を必要とする。メインメモリ2214はさらに、読取値メモリデバイス2212内に記憶される他のソフトウェアをメインメモリ2214の中に読み出すために使用される、ソフトウェア(例えば、BIOS等のファームウェア)を含有する、不揮発性メモリのごく一部を含んでもよい。いくつかの実施形態では、メインメモリ2214の揮発性メモリは、動的RAM(DRAM)等のランダムアクセスメモリ(RAM)として実装され、メインメモリ2214の不揮発性メモリは、フラッシュメモリ、消去可能プログラマブル読取専用メモリ(EPROM)、または電気的消去可能プログラマブル読取専用メモリ(EEPROM)等の読取専用メモリ(ROM)として実装される。
コンピュータシステム2200は、現在メインメモリ2214内に位置するように示される、ソフトウェア要素を含んでもよく、これは、本開示の種々の実施形態によって提供されるコンピュータプログラムを含み得る、1つまたはそれを上回るアプリケーションプログラム等、オペレーティングシステム、デバイスドライバ、ファームウェア、コンパイラ、および/または他のコードを含んでもよい。単に、一例として、上記に議論される任意の方法に関して説明される1つまたはそれを上回るステップが、コンピュータシステム2200によって実行可能な命令2216として実装され得る。一実施例では、そのような命令2216は、通信サブシステム2210を使用して(例えば、命令2216を搬送する無線または有線信号を介して)、コンピュータシステム2200によって受信され、通信媒体2202によってメモリデバイス2212に搬送され、メモリデバイス2212内に記憶され、メインメモリ2214の中に読み込まれ、プロセッサ2204によって実行され、説明される方法の1つまたはそれを上回るステップを実施してもよい。別の実施例では、命令2216は、入力デバイス2206を使用して(例えば、リムーバブル媒体のための読取機を介して)、コンピュータシステム2200によって受信され、通信媒体2202によってメモリデバイス2212に搬送され、メモリデバイス2212内に記憶される、メインメモリ2214の中に読み込まれ、プロセッサ2204によって実行され、説明される方法の1つまたはそれを上回るステップを実施してもよい。
本開示のいくつかの実施形態では、命令2216は、コンピュータ可読記憶媒体、または単に、コンピュータ可読媒体上に記憶される。そのようなコンピュータ可読媒体は、非一過性であってもよく、したがって、非一過性コンピュータ可読媒体と称され得る。ある場合には、非一過性コンピュータ可読媒体は、コンピュータシステム2200内に組み込まれてもよい。例えば、非一過性コンピュータ可読媒体は、図22に示されるように、メモリデバイス2212のうちの1つであってもよく、命令2216は、メモリデバイス2212内に記憶される。ある場合には、非一過性コンピュータ可読媒体は、コンピュータシステム2200と別個であってもよい。一実施例では、非一過性コンピュータ可読媒体は、図22に示されるように、入力デバイス2206を参照して説明されるもの等の入力デバイス2206に提供される、リムーバブル媒体であってもよく、命令2216は、入力デバイス2206に提供される。別の実施例では、非一過性コンピュータ可読媒体は、図22に示されるように、通信サブシステム2210を使用して、命令2216を搬送するデータ信号をコンピュータシステム2200に無線で伝送し得る、携帯電話等の遠隔電子デバイスのコンポーネントであってもよく、命令2216は、通信サブシステム2210に提供される。
命令2216は、コンピュータシステム2200によって読み取られ、および/または実行されるための任意の好適な形態をとってもよい。例えば、命令2216は、ソースコード(Java(登録商標)、C、C++、C#、Python等の人間可読プログラミング言語で書き込まれる)、オブジェクトコード、アセンブリ言語、機械コード、マイクロコード、実行可能コード、および/または同等物であってもよい。一実施例では、命令2216は、ソースコードの形態において、コンピュータシステム2200に提供され、コンパイラが、命令2216をソースコードから機械コードに変換するために使用され、これは、次いで、プロセッサ2204による実行のために、メインメモリ2214の中に読み込まれてもよい。別の実施例として、命令2216は、直ちに、プロセッサ2204による実行のためにメインメモリ2214の中に読み込まれ得る、機械コードを伴う、実行可能ファイルの形態において、コンピュータシステム2200に提供される。種々の実施例では、命令2216は、可能性の中でもとりわけ、より広いソフトウェア展開のために、暗号化または暗号化解除された形態において、圧縮または解凍された形態において、インストールパッケージまたは初期化として、コンピュータシステム2200に提供されてもよい。
本開示の一側面では、システム(例えば、コンピュータシステム2200)が、本開示の種々の実施形態による、方法を実施するために提供される。例えば、いくつかの実施形態は、非一過性コンピュータ可読媒体(例えば、メモリデバイス2212またはメインメモリ2214)に通信可能に結合される、1つまたはそれを上回るプロセッサ(例えば、プロセッサ2204)を備える、システムを含んでもよい。非一過性コンピュータ可読媒体は、1つまたはそれを上回るプロセッサによって実行されると、1つまたはそれを上回るプロセッサに、種々の実施形態に説明される方法を実施させる、その中に記憶される、命令(例えば、命令2216)を有してもよい。
本開示の別の側面では、命令(例えば、命令2216)を含む、コンピュータプログラム製品が、本開示の種々の実施形態による、方法実施するために提供される。コンピュータプログラム製品は、非一過性コンピュータ可読媒体(例えば、メモリデバイス2212またはメインメモリ2214)内に有形に具現化されてもよい。命令は、1つまたはそれを上回るプロセッサ(例えば、プロセッサ2204)に、種々の実施形態に説明される方法を実施させるように構成されてもよい。
本開示の別の側面では、非一過性コンピュータ可読媒体(例えば、メモリデバイス2212またはメインメモリ2214)が、提供される。非一過性コンピュータ可読媒体は1つまたはそれを上回るプロセッサ(例えば、プロセッサ2204)によって実行されると、1つまたはそれを上回るプロセッサに、種々の実施形態に説明される方法を実施させる、その中に記憶される、命令(例えば、命令2216)を有してもよい。
上記に議論される方法、システム、およびデバイスは、実施例である。種々の構成は、必要に応じて、種々のプロシージャまたはコンポーネントを省略、代用、または追加してもよい。例えば、代替構成では、本方法は、説明されるものと異なる順序で実施されてもよく、および/または種々の段階は、追加される、省略される、および/または組み合わせられてもよい。また、ある構成に関して説明される特徴は、種々の他の構成において組み合わせられてもよい。構成の異なる側面および要素は、類似様式で組み合わせられてもよい。また、技術は、進歩するものであって、したがって、要素の多くは、実施例であって、本開示の範囲または請求項を限定するものではない。
具体的詳細が、実装を含む、例示的構成の完全な理解を提供するために説明に与えられる。しかしながら、構成は、これらの具体的詳細を伴わずに実践されてもよい。例えば、周知の回路、プロセス、アルゴリズム、構造、および技法は、構成を曖昧にすることを回避するために、不必要な詳細を伴わずに示されている。本説明は、例示的構成のみを提供し、請求項の範囲、可用性、または構成を限定するものではない。むしろ、構成の前述の説明は、当業者に説明される技法を実装するための有効な説明を提供するであろう。種々の変更が、本開示の精神または範囲から逸脱することなく、要素の機能および配列に行われてもよい。
いくつかの例示的構成が説明されたが、種々の修正、代替構造、および均等物が、本開示の精神から逸脱することなく、使用されてもよい。例えば、前述の要素は、より大きいシステムのコンポーネントであってもよく、他のルールが、本技術の用途に優先する、または別様にそれを修正してもよい。また、いくつかのステップは、前述の要素が検討される前、間、または後に行われてもよい。故に、前述の説明は、請求項の範囲を束縛するものではない。
本明細書および添付の請求項で使用されるように、単数形「a」、「an」、および「the」は、文脈によって明確に別様に示されない限り、複数参照を含む。したがって、例えば、「ユーザ」の言及は、1人またはそれを上回るそのようなユーザの言及を含み、「プロセッサ」の言及は、1つまたはそれを上回るプロセッサおよび当業者に公知のその均等物等の言及を含む。
また、単語「comprise(~を備える)」、「comprising(~を備える)」、「contains(~を含有する)」、「containing(~を含有する)」、「include(~を含む)」、「including(~を含む)」、および「includes(~を含む)」は、本明細書および以下の請求項で使用されるとき、述べられた特徴、整数、コンポーネント、またはステップの存在を規定するために意図されるが、それらは、1つまたはそれを上回る他の特徴、整数、コンポーネント、ステップ、行為、または群の存在または追加を除外するものではない。
また、本明細書に説明される実施例および実施形態は、例証目的のみのためのものであって、それに照らして、種々の修正または変更が、当業者に示唆され、本願の精神および権限および添付の請求項の範囲内に含まれることを理解されたい。

Claims (20)

  1. コンピュータ実装方法であって、
    第1の画像を受信することと、
    前記第1の画像を記述子ネットワークに入力として提供することと、
    前記記述子ネットワークを使用して、前記第1の画像に基づいて、第1の画像記述子を生成することであって、前記第1の画像記述子は、
    要素の第1のセットの第1のサブセットを備える第1の主ベクトルと、
    前記要素の第1のセットの第2のサブセットを備える第1の副ベクトルであって、前記要素の第1のセットの第2のサブセットは、前記要素の第1のセットの第1のサブセットより多くの要素を含む、第1の副ベクトルと
    の間に分散される要素の第1のセットを含む、ことと、
    前記第1の主ベクトルを主正規化量に正規化することと、
    前記第1の副ベクトルを副正規化量に正規化することであって、前記副正規化量は、前記主正規化量未満である、ことと
    によって、階層正規化を前記第1の画像記述子にかけることと
    を含む、コンピュータ実装方法。
  2. 第2の画像を受信することと、
    前記第2の画像を前記記述子ネットワークに入力として提供することと、
    前記記述子ネットワークを使用して、前記第2の画像に基づいて、第2の画像記述子を生成することであって、前記第2の画像記述子は、
    要素の第2のセットの第1のサブセットを備える第2の主ベクトルと、
    前記要素の第2のセットの第2のサブセットを備える第2の副ベクトルであって、前記要素の第2のセットの第2のサブセットは、前記要素の第2のセットの第1のサブセットより多くの要素を含む、第2の副ベクトルと
    の間に分散される要素の第2のセットを含む、ことと、
    前記第2の主ベクトルを前記主正規化量に正規化することと、
    前記第2の副ベクトルを前記副正規化量に正規化することと
    によって、前記階層正規化を前記第2の画像記述子にかけることと
    をさらに含む、請求項1に記載のコンピュータ実装方法。
  3. 前記第1の主ベクトルおよび前記第2の主ベクトルに基づいて、前記第1の画像と前記第2の画像との間の主距離を算出することと、
    前記主距離が上限閾値を上回るかどうかを決定することと
    によって、前記第1の画像が前記第2の画像にマッチングするかどうかを決定すること
    をさらに含む、請求項2に記載のコンピュータ実装方法。
  4. 前記第1の画像が前記第2の画像にマッチングするかどうかを決定することはさらに、
    前記主距離が前記上限閾値を上回ることを決定することと、
    前記第1の画像が前記第2の画像にマッチングしないことを決定することと
    を含む、請求項3に記載のコンピュータ実装方法。
  5. 前記第1の画像が前記第2の画像にマッチングするかどうかを決定することはさらに、
    前記主距離が前記上限閾値を上回らないことを決定することと、
    前記主距離が下限閾値を上回るかどうかを決定することと
    を含む、請求項3に記載のコンピュータ実装方法。
  6. 前記第1の主ベクトルおよび前記第2の主ベクトルに基づいて、前記第1の画像と前記第2の画像との間の主距離を算出することは、
    前記要素の第1のセットの第1のサブセットと前記要素の第2のセットの第1のサブセットとの間の差異の2乗の和を算出すること
    を含む、請求項3に記載のコンピュータ実装方法。
  7. 前記第1の画像が前記第2の画像にマッチングするかどうかを決定することはさらに、
    前記主距離が前記下限閾値を上回ることを決定することと、
    前記第1の副ベクトルおよび前記第2の副ベクトルに基づいて、前記第1の画像と前記第2の画像との間の副距離を算出することと、
    前記主距離および前記副距離の和が前記上限閾値を上回るかどうかを決定することと
    を含む、請求項5に記載のコンピュータ実装方法。
  8. 前記第1の画像が前記第2の画像にマッチングするかどうかを決定することはさらに、
    前記主距離および前記副距離の和が前記上限閾値を上回ることを決定することと、
    前記第1の画像が前記第2の画像にマッチングしないことを決定することと
    を含む、請求項7に記載のコンピュータ実装方法。
  9. 前記第1の画像が前記第2の画像にマッチングするかどうかを決定することはさらに、
    前記主距離および前記副距離の和が前記上限閾値を上回らないことを決定することと、
    前記第1の画像が前記第2の画像にマッチングすることを決定することと
    を含む、請求項7に記載のコンピュータ実装方法。
  10. 前記第1の副ベクトルおよび前記第2の副ベクトルに基づいて、前記第1の画像と前記第2の画像との間の副距離を算出することは、
    前記要素の第1のセットの第2のサブセットと前記要素の第2のセットの第2のサブセットとの間の差異の2乗の和を算出すること
    を含む、請求項7に記載のコンピュータ実装方法。
  11. 前記主正規化量は、1-αに等しく、
    前記副正規化量は、αに等しく、αは、0.5未満である、
    請求項1に記載のコンピュータ実装方法。
  12. 前記記述子ネットワークは、訓練プロセスを通して修正可能である加重のセットを有するニューラルネットワークである、請求項1に記載のコンピュータ実装方法。
  13. システムであって、
    1つまたはそれを上回るプロセッサと、
    コンピュータ可読媒体であって、前記コンピュータ可読媒体は、命令を記憶しており、前記命令は、前記1つまたはそれを上回るプロセッサによって実行されると、前記1つまたはそれを上回るプロセッサに、
    第1の画像を受信することと、
    前記第1の画像を記述子ネットワークに入力として提供することと、
    前記記述子ネットワークを使用して、前記第1の画像に基づいて、第1の画像記述子を生成することであって、前記第1の画像記述子は、
    要素の第1のセットの第1のサブセットを備える第1の主ベクトルと、
    前記要素の第1のセットの第2のサブセットを備える第1の副ベクトルであって、前記要素の第1のセットの第2のサブセットは、前記要素の第1のセットの第1のサブセットより多くの要素を含む、第1の副ベクトルと
    の間に分散される要素の第1のセットを含む、ことと、
    前記第1の主ベクトルを主正規化量に正規化することと、
    前記第1の副ベクトルを副正規化量に正規化することであって、前記副正規化量は、前記主正規化量未満である、ことと
    によって、階層正規化を前記第1の画像記述子にかけることと
    を含む動作を実施させる、コンピュータ可読媒体と
    を備える、システム。
  14. 前記動作はさらに、
    第2の画像を受信することと、
    前記第2の画像を前記記述子ネットワークに入力として提供することと、
    前記記述子ネットワークを使用して、前記第2の画像に基づいて、第2の画像記述子を生成することであって、前記第2の画像記述子は、
    要素の第2のセットの第1のサブセットを備える第2の主ベクトルと、
    前記要素の第2のセットの第2のサブセットを備える第2の副ベクトルであって、前記要素の第2のセットの第2のサブセットは、前記要素の第2のセットの第1のサブセットより多くの要素を含む、第2の副ベクトルと
    の間に分散される要素の第2のセットを含む、ことと、
    前記第2の主ベクトルを前記主正規化量に正規化することと、
    前記第2の副ベクトルを前記副正規化量に正規化することと
    によって、前記階層正規化を前記第2の画像記述子にかけることと
    を含む、請求項13に記載のシステム。
  15. 前記動作はさらに、
    前記第1の主ベクトルおよび前記第2の主ベクトルに基づいて、前記第1の画像と前記第2の画像との間の主距離を算出することと、
    前記主距離が上限閾値を上回るかどうかを決定することと
    によって、前記第1の画像が前記第2の画像にマッチングするかどうかを決定すること
    を含む、請求項14に記載のシステム。
  16. 前記第1の画像が前記第2の画像にマッチングするかどうかを決定することはさらに、
    前記主距離が前記上限閾値を上回ることを決定することと、
    前記第1の画像が前記第2の画像にマッチングしないことを決定することと
    を含む、請求項15に記載のシステム。
  17. 前記第1の画像が前記第2の画像にマッチングするかどうかを決定することはさらに、
    前記主距離が前記上限閾値を上回らないことを決定することと、
    前記主距離が下限閾値を上回るかどうかを決定することと
    を含む、請求項15に記載のシステム。
  18. 非一過性機械可読媒体であって、前記非一過性機械可読媒体は、命令を備え、前記命令は、1つまたはそれを上回るプロセッサによって実行されると、前記1つまたはそれを上回るプロセッサに、
    第1の画像を受信することと、
    前記第1の画像を記述子ネットワークに入力として提供することと、
    前記記述子ネットワークを使用して、前記第1の画像に基づいて、第1の画像記述子を生成することであって、前記第1の画像記述子は、
    要素の第1のセットの第1のサブセットを備える第1の主ベクトルと、
    前記要素の第1のセットの第2のサブセットを備える第1の副ベクトルであって、前記要素の第1のセットの第2のサブセットは、前記要素の第1のセットの第1のサブセットより多くの要素を含む、第1の副ベクトルと
    の間に分散される要素の第1のセットを含む、ことと、
    前記第1の主ベクトルを主正規化量に正規化することと、
    前記第1の副ベクトルを副正規化量に正規化することであって、前記副正規化量は、前記主正規化量未満である、ことと
    によって、階層正規化を前記第1の画像記述子にかけることと
    を含む動作を実施させる、非一過性機械可読媒体。
  19. 前記動作はさらに、
    第2の画像を受信することと、
    前記第2の画像を前記記述子ネットワークに入力として提供することと、
    前記記述子ネットワークを使用して、前記第2の画像に基づいて、第2の画像記述子を生成することであって、前記第2の画像記述子は、
    要素の第2のセットの第1のサブセットを備える第2の主ベクトルと、
    前記要素の第2のセットの第2のサブセットを備える第2の副ベクトルであって、前記要素の第2のセットの第2のサブセットは、前記要素の第2のセットの第1のサブセットより多くの要素を含む、第2の副ベクトルと
    の間に分散される要素の第2のセットを含む、ことと、
    前記第2の主ベクトルを前記主正規化量に正規化することと、
    前記第2の副ベクトルを前記副正規化量に正規化することと
    によって、前記階層正規化を前記第2の画像記述子にかけることと
    を含む、請求項18に記載の非一過性機械可読媒体。
  20. 前記動作はさらに、
    前記第1の主ベクトルおよび前記第2の主ベクトルに基づいて、前記第1の画像と前記第2の画像との間の主距離を算出することと、
    前記主距離が上限閾値を上回るかどうかを決定することと
    によって、前記第1の画像が前記第2の画像にマッチングするかどうかを決定すること
    を含む、請求項19に記載の非一過性機械可読媒体。
JP2022566064A 2020-05-01 2021-04-27 階層正規化がかけられる画像記述子ネットワーク Active JP7657828B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202063019211P 2020-05-01 2020-05-01
US63/019,211 2020-05-01
PCT/US2021/029496 WO2021222325A1 (en) 2020-05-01 2021-04-27 Image descriptor network with imposed hierarchical normalization

Publications (2)

Publication Number Publication Date
JP2023524038A JP2023524038A (ja) 2023-06-08
JP7657828B2 true JP7657828B2 (ja) 2025-04-07

Family

ID=78292187

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022566064A Active JP7657828B2 (ja) 2020-05-01 2021-04-27 階層正規化がかけられる画像記述子ネットワーク

Country Status (5)

Country Link
US (2) US11797603B2 (ja)
EP (1) EP4143739A4 (ja)
JP (1) JP7657828B2 (ja)
CN (1) CN115552477A (ja)
WO (1) WO2021222325A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7657828B2 (ja) 2020-05-01 2025-04-07 マジック リープ, インコーポレイテッド 階層正規化がかけられる画像記述子ネットワーク

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015118887A1 (ja) 2014-02-10 2015-08-13 日本電気株式会社 検索システム、検索方法およびプログラム記録媒体

Family Cites Families (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101669117A (zh) * 2008-05-09 2010-03-10 韩国外国语大学校研究产学协力团 用形状描述符匹配图像
US8401276B1 (en) 2008-05-20 2013-03-19 University Of Southern California 3-D reconstruction and registration
US20120090009A1 (en) 2010-10-12 2012-04-12 Comcast Cable Communications, Llc Video Assets Having Associated Graphical Descriptor Data
US9131163B2 (en) 2012-02-07 2015-09-08 Stmicroelectronics S.R.L. Efficient compact descriptors in visual search systems
WO2014002554A1 (ja) 2012-06-29 2014-01-03 日本電気株式会社 画像処理装置、画像処理方法、及びプログラム
US9076257B2 (en) 2013-01-03 2015-07-07 Qualcomm Incorporated Rendering augmented reality based on foreground object
KR20140102038A (ko) * 2013-02-13 2014-08-21 삼성전자주식회사 영상 정합 장치 및 영상 정합 방법
US9177224B1 (en) 2013-03-14 2015-11-03 Amazon Technologies, Inc. Object recognition and tracking
US8885901B1 (en) 2013-10-22 2014-11-11 Eyenuk, Inc. Systems and methods for automated enhancement of retinal images
US9280560B1 (en) * 2013-12-18 2016-03-08 A9.Com, Inc. Scalable image matching
IL231862A (en) 2014-04-01 2015-04-30 Superfish Ltd Image representation using a neural network
US9576221B2 (en) 2014-07-09 2017-02-21 Ditto Labs, Inc. Systems, methods, and devices for image matching and object recognition in images using template image classifiers
US11544214B2 (en) * 2015-02-02 2023-01-03 Optimum Semiconductor Technologies, Inc. Monolithic vector processor configured to operate on variable length vectors using a vector length register
WO2016124644A1 (en) 2015-02-05 2016-08-11 Carl Zeiss Meditec Ag A method and apparatus for reducing scattered light in broad-line fundus imaging
JP2017041113A (ja) 2015-08-20 2017-02-23 日本電気株式会社 画像処理装置、画像処理システム、画像処理方法及びプログラム
KR102380862B1 (ko) 2015-09-01 2022-03-31 삼성전자주식회사 영상 처리 방법 및 장치
EP3380859A4 (en) 2015-11-29 2019-07-31 Arterys Inc. AUTOMATED HEART VOLUME SEGMENTATION
TWI553591B (zh) * 2015-12-28 2016-10-11 緯創資通股份有限公司 深度影像處理方法及深度影像處理系統
EP3438925A4 (en) 2016-03-30 2019-04-17 Sony Corporation INFORMATION PROCESSING METHOD AND INFORMATION PROCESSING DEVICE
EP3246851A1 (en) * 2016-05-17 2017-11-22 Fujitsu Limited Method and apparatus for searching a database of 3d items using descriptors
EP3267368B1 (en) * 2016-07-06 2020-06-03 Accenture Global Solutions Limited Machine learning image processing
CN114253400A (zh) 2016-08-22 2022-03-29 奇跃公司 具有深度学习传感器的增强现实显示装置
CN108171712B (zh) * 2016-12-07 2022-02-11 富士通株式会社 确定图像相似度的方法和装置
US11379688B2 (en) 2017-03-16 2022-07-05 Packsize Llc Systems and methods for keypoint detection with convolutional neural networks
EP3616120B1 (en) 2017-04-27 2024-09-04 Retinascan Limited System and method for automated funduscopic image analysis
US20180336397A1 (en) * 2017-05-17 2018-11-22 Tandent Vision Science, Inc. Method for detecting a live face for access to an electronic device
US10402448B2 (en) * 2017-06-28 2019-09-03 Google Llc Image retrieval with deep local feature descriptors and attention-based keypoint descriptors
CN110799991B (zh) 2017-06-28 2023-09-05 奇跃公司 用于使用卷积图像变换执行同时定位和映射的方法和系统
CN110019903A (zh) * 2017-10-10 2019-07-16 阿里巴巴集团控股有限公司 图像处理引擎组件的生成方法、搜索方法及终端、系统
CA3078977A1 (en) 2017-11-14 2019-05-23 Magic Leap, Inc. Fully convolutional interest point detection and description via homographic adaptation
CN110049303B (zh) * 2018-01-15 2021-08-13 微软技术许可有限责任公司 立体图像的视觉风格化
GB2572755B (en) * 2018-04-05 2020-06-10 Imagination Tech Ltd Matching local image feature descriptors
US11182424B2 (en) * 2018-05-08 2021-11-23 Spotify Ab Image based content search and recommendations
US11498776B1 (en) * 2018-08-02 2022-11-15 Staples, Inc. Automated guided vehicle control and organizing inventory items using dissimilarity models
US10783398B1 (en) * 2018-10-22 2020-09-22 Shutterstock, Inc. Image editor including localized editing based on generative adversarial networks
WO2020110703A1 (ja) * 2018-11-27 2020-06-04 凸版印刷株式会社 画像データの生成方法、表示体の製造方法、プログラム、コンピュータ読み取り可能な記録媒体及び表示体の製造装置
JP7218215B2 (ja) * 2019-03-07 2023-02-06 株式会社日立製作所 画像診断装置、画像処理方法及びプログラム
CN111832584A (zh) * 2019-04-16 2020-10-27 富士通株式会社 图像处理装置及其训练装置和训练方法
US11604993B1 (en) * 2019-05-03 2023-03-14 Zoox, Inc. Machine-learning model structural pruning
CN110222220B (zh) * 2019-05-06 2024-05-10 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机可读介质及电子设备
US11842283B2 (en) * 2019-06-17 2023-12-12 Axell Corporation Learning method, computer program, classifier, generator, and processing system
CN110717913B (zh) * 2019-09-06 2022-04-22 浪潮电子信息产业股份有限公司 一种图像分割方法及装置
WO2021057504A1 (en) * 2019-09-29 2021-04-01 Zhejiang Dahua Technology Co., Ltd. Systems and methods for traffic monitoring
AU2020363782B2 (en) * 2019-10-09 2025-11-20 Ancestry.Com Operations Inc. Adversarial network for transforming handwritten text
AU2020100413A4 (en) * 2019-10-25 2020-04-23 Xero Limited Docket analysis methods and systems
US11182612B2 (en) * 2019-10-28 2021-11-23 The Chinese University Of Hong Kong Systems and methods for place recognition based on 3D point cloud
US11341370B2 (en) * 2019-11-22 2022-05-24 International Business Machines Corporation Classifying images in overlapping groups of images using convolutional neural networks
KR102869896B1 (ko) * 2019-12-12 2025-10-14 삼성전자주식회사 도메인 적응에 기반한 네트워크의 트레이닝 방법, 동작 방법 및 동작 장치
CN111145097B (zh) * 2019-12-31 2023-09-01 华为技术有限公司 图像处理方法、装置和图像处理系统
CN111310664B (zh) * 2020-02-18 2022-11-22 深圳市商汤科技有限公司 图像处理方法及装置、电子设备和存储介质
CN111325222A (zh) * 2020-02-27 2020-06-23 深圳市商汤科技有限公司 图像归一化处理方法及装置、存储介质
CN111340048B (zh) * 2020-02-28 2022-02-22 深圳市商汤科技有限公司 图像处理方法及装置、电子设备和存储介质
GB2592440A (en) * 2020-02-28 2021-09-01 Correvate Ltd Object recognition via object data database and augmentation of 3D image data
US11645328B2 (en) * 2020-03-17 2023-05-09 Adobe Inc. 3D-aware image search
CN113408561B (zh) * 2020-03-17 2024-06-18 北京京东乾石科技有限公司 模型生成方法、目标检测方法、装置、设备及存储介质
WO2021185629A1 (en) * 2020-03-20 2021-09-23 British Telecommunications Public Limited Company Image feature measurement
CN115456160A (zh) * 2020-03-27 2022-12-09 华为技术有限公司 一种数据处理方法和数据处理设备
EP4133988A4 (en) * 2020-04-09 2024-04-17 NEC Corporation ENDOSCOPE INSERTION ASSISTANCE DEVICE, METHOD, AND NON-TEMPORARY COMPUTER-READABLE MEDIUM ON WHICH A PROGRAM IS STORED
US11836178B2 (en) * 2020-04-13 2023-12-05 Ancestry.Com Operations Inc. Topic segmentation of image-derived text
KR102748556B1 (ko) * 2020-04-16 2025-01-02 삼성전자주식회사 라이브니스 검사 방법 및 장치
EP4144448B1 (en) * 2020-04-30 2024-11-06 JFE Steel Corporation Scrap determination system and scrap determination method
JP7657828B2 (ja) 2020-05-01 2025-04-07 マジック リープ, インコーポレイテッド 階層正規化がかけられる画像記述子ネットワーク
CN113628123A (zh) * 2020-05-09 2021-11-09 深圳市中兴微电子技术有限公司 图像恢复模型的训练方法及装置、电子设备、可读介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015118887A1 (ja) 2014-02-10 2015-08-13 日本電気株式会社 検索システム、検索方法およびプログラム記録媒体

Also Published As

Publication number Publication date
WO2021222325A1 (en) 2021-11-04
US20240004925A1 (en) 2024-01-04
US11797603B2 (en) 2023-10-24
JP2023524038A (ja) 2023-06-08
US12072927B2 (en) 2024-08-27
EP4143739A4 (en) 2023-09-27
CN115552477A (zh) 2022-12-30
EP4143739A1 (en) 2023-03-08
US20210342630A1 (en) 2021-11-04

Similar Documents

Publication Publication Date Title
CN110689109B (zh) 神经网络方法和装置
KR102778192B1 (ko) Pim을 채용하는 반도체 메모리 장치 및 그 동작 방법
US11321625B2 (en) Quantum circuit optimization using machine learning
US20230385546A1 (en) System and method for context insertion for contrastive siamese network training
US20210049989A1 (en) Techniques for learning effective musical features for generative and retrieval-based applications
US20230402028A1 (en) Unsupervised alignment for text to speech synthesis using neural networks
US20230068381A1 (en) Method and electronic device for quantizing dnn model
CN110673860B (zh) 智能云数据中心建设与运营部署系统及方法
US20240291665A1 (en) Electronic device and method for preventing non-fungible token plagiarism in electronic device
JP7657828B2 (ja) 階層正規化がかけられる画像記述子ネットワーク
US20210357753A1 (en) Method and apparatus for multi-level stepwise quantization for neural network
CN114882308B (zh) 生物特征提取模型训练方法和图像分割方法
US20250077436A1 (en) System and method for early prefetch for memory device
US20230222343A1 (en) Control method and system based on layer-wise adaptive channel pruning
US11452003B1 (en) Compatible packet separation for communication networks
JP7350214B2 (ja) 推論装置、推論方法、及び、推論プログラム
KR20190127510A (ko) 분류를 위한 뉴럴 네트워크에서 파라미터를 처리하는 방법 및 장치
US20230236744A1 (en) Electronic device and method for managing memory of electronic device
EP4357928B1 (en) Methods and system for efficient access to solid state drive
US12271288B2 (en) Device and method for operating memory in electronic device
US20250225096A1 (en) Electronic device comprising neural processing unit, and operating method therefor
EP4521256A1 (en) Memory system and method for adaptive prefetch for memory device
US20230123312A1 (en) Electronic device including neural processing unit supporting different data types and method for controlling the same
CN114861901B (zh) 神经网络模型的运行方法、可读介质和电子设备
KR102500904B1 (ko) 딥러닝 기반 데이터 압축 방법 및 데이터 압축 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240424

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20240613

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20240627

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20250225

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20250326

R150 Certificate of patent or registration of utility model

Ref document number: 7657828

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150