JP7439153B2 - 全方位場所認識のためのリフトされたセマンティックグラフ埋め込み - Google Patents
全方位場所認識のためのリフトされたセマンティックグラフ埋め込み Download PDFInfo
- Publication number
- JP7439153B2 JP7439153B2 JP2022045381A JP2022045381A JP7439153B2 JP 7439153 B2 JP7439153 B2 JP 7439153B2 JP 2022045381 A JP2022045381 A JP 2022045381A JP 2022045381 A JP2022045381 A JP 2022045381A JP 7439153 B2 JP7439153 B2 JP 7439153B2
- Authority
- JP
- Japan
- Prior art keywords
- vector
- node
- generating
- graph
- representation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000013598 vector Substances 0.000 claims description 486
- 238000000034 method Methods 0.000 claims description 126
- 238000010801 machine learning Methods 0.000 claims description 95
- 238000012549 training Methods 0.000 claims description 76
- 238000001514 detection method Methods 0.000 claims description 52
- 230000011218 segmentation Effects 0.000 claims description 40
- 230000004044 response Effects 0.000 claims description 30
- 239000011159 matrix material Substances 0.000 claims description 13
- 238000011524 similarity measure Methods 0.000 claims description 7
- 230000002776 aggregation Effects 0.000 claims description 4
- 238000004220 aggregation Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 230000001172 regenerating effect Effects 0.000 claims 1
- 238000013527 convolutional neural network Methods 0.000 description 38
- 230000000007 visual effect Effects 0.000 description 29
- 230000006870 function Effects 0.000 description 25
- 239000000306 component Substances 0.000 description 17
- 238000000605 extraction Methods 0.000 description 16
- 238000013459 approach Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 10
- 238000000513 principal component analysis Methods 0.000 description 9
- 230000009466 transformation Effects 0.000 description 6
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 5
- 230000033001 locomotion Effects 0.000 description 5
- 230000004931 aggregating effect Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 230000004807 localization Effects 0.000 description 4
- 230000001629 suppression Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000004069 differentiation Effects 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000010200 validation analysis Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000003709 image segmentation Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000739 chaotic effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 239000008358 core component Substances 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000002620 method output Methods 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000001932 seasonal effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
- G06V10/7635—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks based on graphs, e.g. graph cuts or spectral clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/30—Scenes; Scene-specific elements in albums, collections or shared content, e.g. social network photos or video
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/48—Matching video sequences
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/80—Recognising image objects characterised by unique random patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20072—Graph-based image processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30244—Camera pose
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/97—Determining parameters from multiple pictures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/35—Categorising the entire scene, e.g. birthday party or wedding scene
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Image Analysis (AREA)
- Television Signal Processing For Recording (AREA)
Description
σ(x)は、ロジスティックシグモイド関数
MLPgate(x)は、入力xに基づいてゲーティング重みを生成するように構成された多層パーセプトロンであり、
γは、マージンであり、オプションで1.0に設定されており、
Claims (23)
- 場所認識のためのコンピュータ実装方法であって、
第1のシーンの画像を識別する情報を取得することと、ここで、前記画像は複数のピクセルを備え、前記情報はピクセルごとの値を備え、
前記画像を識別する前記情報における複数のピクセルクラスタを識別することと、前記画像は前記複数のピクセルクラスタにグループ化され、前記複数のピクセルクラスタは、第1のピクセルクラスタと、第2のピクセルクラスタと、を備え、ここで、ピクセルクラスタは1以上のピクセルからなり、
前記画像を識別する前記情報から、ピクセルクラスタの特徴を数値により示す特徴ベクトルのセットを生成することと、前記特徴ベクトルのセットは、前記第1のピクセルクラスタに関連付けられた第1の特徴ベクトルと、前記第2のピクセルクラスタに関連付けられた第2の特徴ベクトルと、を備え、
前記第1のシーンのグラフを生成することと、前記グラフは、複数のノードと、ある条件を満たす場合に2つのノードを接続するエッジと、を備え、前記第1のピクセルクラスタを表す第1のノードと、前記第1のノードは、前記第1の特徴ベクトルに関連付けられており、前記第2のピクセルクラスタを表す第2のノードと、前記第2のノードは、前記第2の特徴ベクトルに関連付けられている、を備え、
前記第1のピクセルクラスタに関連付けられた第1の特性が、前記第2のピクセルクラスタに関連付けられた第2の特性に類似していることが前記条件であり、この条件を満たすと決定することに応答して、前記第1のノードと前記第2のノードとの間に第1のエッジを追加することと、ここで、前記特性は、ピクセルクラスタの座標位置、又はピクセルクラスタに関連付けられたオブジェクトのクラスのラベルであり、前記特性が前記座標位置の場合は2つのピクセルクラスタの座標位置が近いほど2つのピクセルクラスタの特性が類似し、前記特性がクラスの前記ラベルの場合は2つのラベルが同じクラスのグループに属すれば2つのラベルの特性は類似し、
前記グラフのベクトル表現を生成することと、前記ベクトル表現は、前記ノードと前記エッジとの空間的関係、及びノード間の空間的関係をベクトルにより表し、
前記グラフの前記ベクトル表現と、参照ベクトル表現との間の類似性の尺度を互いのベクトルにより計算することと、ここにおいて、前記参照ベクトル表現は、第2のシーンに関連付けられており、
前記類似性の尺度が閾値より小さいと決定することに応答して、前記第1のシーンと前記第2のシーンとが、同じ場所に関連付けられていると決定することと、
を備え、
前記グラフの前記ベクトル表現を生成することは、
第1のノードベクトルを生成することと、ここにおいて、前記第1のノードベクトルは、前記第1のノードに関連付けられており、
第2のノードベクトルを生成することと、ここにおいて、前記第2のノードベクトルは、前記第2のノードに関連付けられており、
前記グラフにおける前記第2のノードは、前記第1のエッジによって、前記グラフにおける前記第1のノードに接続されており、前記第1のノードベクトルを生成することは、
前記第1のノードベクトルを、前記第1の特徴ベクトルに等しく設定することと、
前記第1のノードベクトル及び前記第2のノードベクトルに基づいて、前記第2のノードと前記第1のノードとの間の第1のメッセージを生成することと、ここで、前記第1のメッセージは、前記第1のノードベクトル及び前記第2のノードベクトルがどの割合で出力されるかを制御し、
前記第1のノードベクトルの値及び前記第1のメッセージに基づいて、前記第1のノードベクトルを更新することと、
を備えるコンピュータ実装方法。 - 前記画像は、複数のピクセルを備え、前記複数のピクセルは、前記第1のピクセルクラスタに関連付けられた第1のセットのピクセルと、を備え、前記特徴ベクトルのセットを生成することは、
前記第1のセットのピクセルにおける第1のピクセルに関連付けられた第3の特徴ベクトルを生成することと、
前記第1のセットのピクセルにおける第2のピクセルに関連付けられた第4の特徴ベクトルを生成することと、
前記第3の特徴ベクトル及び前記第4の特徴ベクトルを総和することによって、前記第1の特徴ベクトルを生成することと、
を備える、請求項1に記載のコンピュータ実装方法。 - 前記第1のノードベクトルと前記第2のノードベクトルとの合計に基づいて、クエリグラフ表現を生成することと、ここで、前記クエリグラフ表現は、あるシーンのグラフ表現を示す、
を備える、請求項1又は2に記載のコンピュータ実装方法。 - 前記第2のノードと前記第1のノードとの間の前記第1のメッセージを生成することは、
第1の機械学習モデルを使用して、前記第1のノードベクトル及び前記第2のノードベクトルにより決定される第1のセットのゲーティング重みを生成することと、
前記第1のノードベクトルと前記第1のセットのゲーティング重みとを乗算して、第1のゲーティングされたベクトルを形成することによって、前記第1のノードベクトルをゲーティングすることと、
第2の機械学習モデルを使用して、前記第1のノードベクトル及び前記第2のノードベクトルにより決定される第2のセットのゲーティング重みを生成することと、
前記第2のノードベクトルと前記第2のセットのゲーティング重みとを乗算して、第2のゲーティングされたベクトルを形成することによって、前記第2のノードベクトルをゲーティングすることと、
前記第1のゲーティングされたベクトルと前記第2のゲーティングされたベクトルとの合計に基づいて、前記第1のメッセージを生成することと、
を備える、請求項3に記載のコンピュータ実装方法。 - 前記第1のシーンの前記グラフは、第3のピクセルクラスタを表す第3のノードを更に備え、前記第3のノードは、第5の特徴ベクトルに関連付けられており、前記第3のノードは、第2のエッジによって、前記第1のノードに接続されており、
前記方法は、
第3のノードベクトルを生成することと、前記第3のノードベクトルは、前記第3のノードに関連付けられており、
前記第1の機械学習モデルを使用して、前記第1のノードベクトル及び前記第3のノードベクトルにより決定される第3のセットのゲーティング重みを生成し、
前記第1のノードベクトルと前記第3のセットのゲーティング重みとを乗算して、第3のゲーティングされたベクトルを形成することによって、前記第1のノードベクトルをゲーティングし、
前記第2の機械学習モデルを使用して、前記第1のノードベクトル及び前記第3のノードベクトルにより決定される第4のセットのゲーティング重みを生成し、
前記第3のノードベクトルと前記第4のセットのゲーティング重みとを乗算して、第4のゲーティングされたベクトルを形成することによって、前記第3のノードベクトルをゲーティングし、
前記第3のゲーティングされたベクトルと前記第4のゲーティングされたベクトルとの合計に基づいて、第2のメッセージを生成する、
ことによって、前記第1のノードベクトル及び前記第3のノードベクトルに基づいて、前記第3のノードと前記第1のノードとの間の前記第2のメッセージを生成することと、
を更に備え、
前記第1のノードベクトルの前記値及び前記第1のメッセージに基づいて、前記第1のノードベクトルを更新することは、
前記第1のノードベクトルの前記値及び前記第1のメッセージと前記第2のメッセージとの合計に基づいて、前記第1のノードベクトルを更新することを備える、
請求項4に記載のコンピュータ実装方法。 - 前記第1のノードベクトルの前記値及び前記第1のメッセージに基づいて、前記第1のノードベクトルを更新することは、
第3の機械学習モデルを使用して、前記第1のノードベクトル及び前記第1のメッセージにより決定される第5のセットのゲーティング重みを生成することと、
前記第1のノードベクトルと前記第5のセットのゲーティング重みとを乗算して、第5のゲーティングされたベクトルを形成することによって、前記第1のノードベクトルをゲーティングすることと、
第4の機械学習モデルを使用して、前記第1のノードベクトル及び前記第1のメッセージにより決定される第6のセットのゲーティング重みを生成することと、
前記第1のメッセージと前記第6のセットのゲーティング重みとを乗算して、第6のゲーティングされたベクトルを形成することによって、前記第1のメッセージをゲーティングすることと、
前記第5のゲーティングされたベクトルと前記第6のゲーティングされたベクトルとの合計に基づいて、前記第1のノードベクトルを更新することと、
を備える、請求項4又は5に記載のコンピュータ実装方法。 - 前記第1のノードベクトルと前記第2のノードベクトルとの前記合計に基づいて、前記クエリグラフ表現を生成することは、
第5の機械学習モデルを使用して、前記第1のノードベクトルにより決定される第7のセットのゲーティング重みを生成することと、
第6の機械学習モデルを使用して、前記第1のノードベクトルに基づいて、前記第1のノードベクトルの第1のノード表現を生成することと、
最終的な第1のノード表現を取得するために、前記第7のセットのゲーティング重みと前記第1のノードベクトルの前記第1のノード表現とを乗算することと、
前記第5の機械学習モデルを使用して、前記第2のノードベクトルにより決定される第8のセットのゲーティング重みを生成することと、
前記第6の機械学習モデルを使用して、前記第2のノードベクトルに基づいて、前記第2のノードベクトルの第2のノード表現を生成することと、
最終的な第2のノード表現を取得するために、前記第8のセットのゲーティング重みと前記第2のノードベクトルの前記第2のノード表現とを乗算することと、
前記最終的な第1のノード表現と前記最終的な第2のノード表現とを合計することによって、前記クエリグラフ表現を生成することと、
を備える、請求項3乃至6のいずれか一項に記載のコンピュータ実装方法。 - 前記第5の機械学習モデル及び前記第6の機械学習モデルは、前記最終的な第1のノード表現及び前記最終的な第2のノード表現が、単一列を有する行列をそれぞれ備えるように、行カーネルを実装する、請求項7に記載のコンピュータ実装方法。
- 前記クエリグラフ表現を生成することは、
前記最終的な第1のノード表現と前記最終的な第2のノード表現との合計を決定することと、
前記クエリグラフ表現を形成するために、前記合計の次元数を削減することと、
を備える、請求項7又は8に記載のコンピュータ実装方法。 - 前記第1のノードベクトルを生成することは、
前記第1のノードベクトルを更新することに応答して、時間値を増分することと、
前記時間値が時間閾値未満であるかどうかを決定することと、
前記時間値が前記時間閾値未満であると決定することに応答して、
前記第1のノードベクトル及び前記第2のノードベクトルに基づいて、前記第2のノードと前記第1のノードとの間の前記第1のメッセージを再生成することと、
前記第1のノードベクトルの前記値及び前記第1のメッセージに基づいて、前記第1のノードベクトルを更新することと、
を更に備える、請求項1に記載のコンピュータ実装方法。 - 前記画像は、正距円筒画像である、請求項1乃至10のいずれか一項に記載のコンピュータ実装方法。
- 前記画像を識別する前記情報における前記複数のピクセルクラスタを識別することは、
前記画像に対してインスタンスセグメンテーションを行うことによって、第1の検出のセットを生成することと、前記第1の検出のセットは、前記第1のピクセルクラスタを備え、
回転させた画像を形成するために、前記画像を回転させることと、
前記回転させた画像に対してインスタンスセグメンテーションを行うことによって、第2の検出のセットを生成することと、前記第2の検出のセットは、前記第2のピクセルクラスタを備え、
前記複数のピクセルクラスタを形成するために、前記第1の検出のセットと前記第2の検出のセットとを組み合わせることと、
を備える、請求項11に記載のコンピュータ実装方法。 - 前記第1の特徴ベクトルは、局所集約記述子のベクトルを使用して表される、請求項1乃至12のいずれか一項に記載のコンピュータ実装方法。
- 前記第1のピクセルクラスタに関連付けられた前記第1の特性が、前記第2のピクセルクラスタに関連付けられた前記第2の特性に類似していると決定することは、
前記第1のピクセルクラスタに関連付けられた第1のセットの3次元座標を決定することと、
前記第2のピクセルクラスタに関連付けられた第2のセットの3次元座標を決定することと、
前記第1のセットの3次元座標と前記第2のセットの3次元座標との間の距離を計算することと、
前記距離が距離閾値より小さいとき、前記第1の特性が前記第2の特性に類似していると決定することと、
を備える、請求項1乃至13のいずれか一項に記載のコンピュータ実装方法。 - 前記第1のピクセルクラスタに関連付けられた第1のセットの3次元座標を決定することは、
前記第1のピクセルクラスタの深度を推定することと、
前記深度及び前記画像を識別する前記情報に基づいて、前記第1のセットの3次元座標を生成することと、
を備える、請求項14に記載のコンピュータ実装方法。 - プロセッサによって実行されると、前記プロセッサに、請求項1乃至15のいずれか一項に記載の方法を実行させるコンピュータプログラム命令を備える非一時的なコンピュータ可読媒体。
- 場所認識のための装置であって、前記装置は、
第1のシーンの画像を識別する情報を取得することと、ここで、前記画像は複数のピクセルを備え、前記情報はピクセルごとの値を備え、
前記画像を識別する前記情報における複数のピクセルクラスタを識別することと、前記画像は前記複数のピクセルクラスタにグループ化され、前記複数のピクセルクラスタは、第1のピクセルクラスタと、第2のピクセルクラスタと、を備え、ここで、ピクセルクラスタは1以上のピクセルからなり、
前記画像を識別する前記情報から、ピクセルクラスタの特徴を数値により示す特徴ベクトルのセットを生成することと、前記特徴ベクトルのセットは、前記第1のピクセルクラスタに関連付けられた第1の特徴ベクトルと、前記第2のピクセルクラスタに関連付けられた第2の特徴ベクトルと、を備え、
前記第1のシーンのグラフを生成することと、前記グラフは、複数のノードと、ある条件を満たす場合に2つのノードを接続するエッジと、を備え、前記第1のピクセルクラスタを表す第1のノードと、前記第1のノードは、前記第1の特徴ベクトルに関連付けられており、前記第2のピクセルクラスタを表す第2のノードと、前記第2のノードは、前記第2の特徴ベクトルに関連付けられている、を備え、
前記第1のピクセルクラスタに関連付けられた第1の特性が、前記第2のピクセルクラスタに関連付けられた第2の特性に類似していることが前記条件であり、この条件を満たすと決定することに応答して、前記第1のノードと前記第2のノードとの間に第1のエッジを追加することと、ここで、前記特性は、ピクセルクラスタの座標位置、又はピクセルクラスタに関連付けられたオブジェクトのクラスのラベルであり、前記特性が前記座標位置の場合は2つのピクセルクラスタの座標位置が近いほど2つのピクセルクラスタの特性が類似し、前記特性がクラスの前記ラベルの場合は2つのラベルが同じクラスのグループに属すれば2つのラベルの特性は類似し、
前記グラフのベクトル表現を生成することと、前記ベクトル表現は、前記ノードと前記エッジとの空間的関係、及びノード間の空間的関係をベクトルにより表し、
前記グラフの前記ベクトル表現と、参照ベクトル表現との間の類似性の尺度を互いのベクトルにより計算することと、ここにおいて、前記参照ベクトル表現は、第2のシーンに関連付けられており、
前記類似性の尺度が閾値より小さいと決定することに応答して、前記第1のシーンと前記第2のシーンとが、同じ場所に関連付けられていると決定することと、
を行うように構成され、
前記装置は、前記グラフの前記ベクトル表現を生成するとき、
第1のノードベクトルを生成することと、ここにおいて、前記第1のノードベクトルは、前記第1のノードに関連付けられており、
第2のノードベクトルを生成することと、ここにおいて、前記第2のノードベクトルは、前記第2のノードに関連付けられており、
を行うように更に構成され、
前記グラフにおける前記第2のノードは、前記第1のエッジによって、前記グラフにおける前記第1のノードに接続されており、前記装置は、前記第1のノードベクトルを生成するとき、
前記第1のノードベクトルを、前記第1の特徴ベクトルに等しく設定することと、
前記第1のノードベクトル及び前記第2のノードベクトルに基づいて、前記第2のノードと前記第1のノードとの間の第1のメッセージを生成することと、ここで、前記第1のメッセージは、前記第1のノードベクトル及び前記第2のノードベクトルがどの割合で出力されるかを制御し、
前記第1のノードベクトルの値及び前記第1のメッセージに基づいて、前記第1のノードベクトルを更新することと、
を行うように更に構成されている、装置。 - 前記画像は、複数のピクセルを備え、前記複数のピクセルは、前記第1のピクセルクラスタに関連付けられた第1のセットのピクセルと、を備え、前記装置は、前記特徴ベクトルのセットを生成するとき、
前記第1のセットのピクセルにおける第1のピクセルに関連付けられた第3の特徴ベクトルを生成することと、
前記第1のセットのピクセルにおける第2のピクセルに関連付けられた第4の特徴ベクトルを生成することと、
前記第3の特徴ベクトル及び前記第4の特徴ベクトルを総和することによって、前記第1の特徴ベクトルを生成することと、
を行うように更に構成されている、請求項17に記載の装置。 - 前記装置は、前記グラフの前記ベクトル表現を生成するとき、
前記第1のノードベクトルと前記第2のノードベクトルとの合計に基づいて、クエリグラフ表現を生成することと、ここで、前記クエリグラフ表現は、あるシーンのグラフ表現を示す、
を行うように更に構成されている、請求項17又は18に記載の装置。 - 前記装置は、前記第2のノードと前記第1のノードとの間の前記第1のメッセージを生成するとき、
第1の機械学習モデルを使用して、前記第1のノードベクトル及び前記第2のノードベクトルにより決定される第1のセットのゲーティング重みを生成することと、
前記第1のノードベクトルと前記第1のセットのゲーティング重みとを乗算して、第1のゲーティングされたベクトルを形成することによって、前記第1のノードベクトルをゲーティングすることと、
第2の機械学習モデルを使用して、前記第1のノードベクトル及び前記第2のノードベクトルにより決定される第2のセットのゲーティング重みを生成することと、
前記第2のノードベクトルと前記第2のセットのゲーティング重みとを乗算して、第2のゲーティングされたベクトルを形成することによって、前記第2のノードベクトルをゲーティングすることと、
前記第1のゲーティングされたベクトルと前記第2のゲーティングされたベクトルとの合計に基づいて、前記第1のメッセージを生成することと、
を行うように更に構成されている、請求項19に記載の装置。 - 前記第1のシーンの前記グラフは、第3のピクセルクラスタを表す第3のノードを更に備え、前記第3のノードは、第5の特徴ベクトルに関連付けられており、前記第3のノードは、第2のエッジによって、前記第1のノードに接続されており、
前記装置は、
第3のノードベクトルを生成することと、前記第3のノードベクトルは、前記第3のノードに関連付けられており、
前記第1の機械学習モデルを使用して、前記第1のノードベクトル及び前記第3のノードベクトルにより決定される第3のセットのゲーティング重みを生成し、
前記第1のノードベクトルと前記第3のセットのゲーティング重みとを乗算して、第3のゲーティングされたベクトルを形成することによって、前記第1のノードベクトルをゲーティングし、
前記第2の機械学習モデルを使用して、前記第1のノードベクトル及び前記第3のノードベクトルにより決定される第4のセットのゲーティング重みを生成し、
前記第3のノードベクトルと前記第4のセットのゲーティング重みとを乗算して、第4のゲーティングされたベクトルを形成することによって、前記第3のノードベクトルをゲーティングし、
前記第3のゲーティングされたベクトルと前記第4のゲーティングされたベクトルとの合計に基づいて、第2のメッセージを生成する、
ことによって、前記第1のノードベクトル及び前記第3のノードベクトルに基づいて、前記第3のノードと前記第1のノードとの間の前記第2のメッセージを生成することと、
を行うように更に構成されており、
前記第1のノードベクトルの前記値及び前記第1のメッセージに基づいて、前記第1のノードベクトルを更新することは、前記第1のノードベクトルの前記値及び前記第1のメッセージと前記第2のメッセージとの合計に基づいて、前記第1のノードベクトルを更新することを備える、
請求項20に記載の装置。 - 場所認識のためにグラフマッチングネットワークをトレーニングするためのコンピュータ実装方法であって、ここにおいて、前記グラフマッチングネットワークは、請求項4又は5に記載のコンピュータ実装方法に使用される前記第1の機械学習モデル又は前記第2の機械学習モデル、請求項6に記載のコンピュータ実装方法に使用される前記第3の機械学習モデル又は前記第4の機械学習モデル、又は、請求項7に記載のコンピュータ実装方法に使用される前記第5の機械学習モデル又は前記第6の機械学習モデル、のうちのいずれか1つの機械学習モデルを備え、前記グラフマッチングネットワークをトレーニングするためのコンピュータ実装方法は、
トレーニングトリプレットを取得することと、前記トレーニングトリプレットは、クエリグラフと、ポジティブグラフと、ネガティブグラフと、を備え、
前記1つの機械学習モデルを使用して、前記クエリグラフのクエリベクトル表現を生成することと、
前記1つの機械学習モデルを使用して、前記ポジティブグラフのポジティブベクトル表現を生成することと、
前記1つの機械学習モデルを使用して、前記ネガティブグラフのネガティブベクトル表現を生成することと、
前記クエリベクトル表現と前記ポジティブベクトル表現との間の第1の類似性を決定することと、
前記クエリベクトル表現と前記ネガティブベクトル表現との間の第2の類似性を決定することと、
前記第1の類似性及び前記第2の類似性に基づいて、トリプレット損失を生成することと、
前記トリプレット損失に基づいて、前記1つの機械学習モデルをトレーニングすることと、
を備える、コンピュータ実装方法。 - 前記トリプレット損失に基づいて、前記1つの機械学習モデルをトレーニングすることは、
誤差逆伝播法及び勾配降下法を使用して、前記1つの機械学習モデルの重みを決定すること
を備える、請求項22に記載のコンピュータ実装方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB2114788.9A GB2612029A (en) | 2021-10-15 | 2021-10-15 | Lifted semantic graph embedding for omnidirectional place recognition |
GB2114788.9 | 2021-10-15 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023059794A JP2023059794A (ja) | 2023-04-27 |
JP7439153B2 true JP7439153B2 (ja) | 2024-02-27 |
Family
ID=78718427
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022045381A Active JP7439153B2 (ja) | 2021-10-15 | 2022-03-22 | 全方位場所認識のためのリフトされたセマンティックグラフ埋め込み |
Country Status (4)
Country | Link |
---|---|
US (1) | US12087028B2 (ja) |
JP (1) | JP7439153B2 (ja) |
CN (1) | CN115995039A (ja) |
GB (1) | GB2612029A (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US12008478B2 (en) | 2019-10-18 | 2024-06-11 | Unlearn.AI, Inc. | Systems and methods for training generative models using summary statistics and other constraints |
EP4116871A1 (en) * | 2021-07-08 | 2023-01-11 | Argo AI GmbH | Method and processing unit for processing sensor data of several different sensors with an artificial neural network in a vehicle |
US11830267B2 (en) * | 2021-08-27 | 2023-11-28 | Optum, Inc. | Techniques for digital document analysis using document image fingerprinting |
US12020789B1 (en) * | 2023-02-17 | 2024-06-25 | Unlearn.AI, Inc. | Systems and methods enabling baseline prediction correction |
US11966850B1 (en) | 2023-02-22 | 2024-04-23 | Unlearn.AI, Inc. | Systems and methods for training predictive models that ignore missing features |
CN117094895B (zh) * | 2023-09-05 | 2024-03-26 | 杭州一隅千象科技有限公司 | 图像全景拼接方法及其系统 |
CN117292213B (zh) * | 2023-11-27 | 2024-01-30 | 江西啄木蜂科技有限公司 | 多类型相机下样本不均衡的松林变色异木识别方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5978505A (en) * | 1997-03-13 | 1999-11-02 | Massachusetts General Hospital | System and method for image regularization in inhomogeneous environments using clustering in neural networks |
US6400846B1 (en) * | 1999-06-04 | 2002-06-04 | Mitsubishi Electric Research Laboratories, Inc. | Method for ordering image spaces to search for object surfaces |
US7065242B2 (en) * | 2000-03-28 | 2006-06-20 | Viewpoint Corporation | System and method of three-dimensional image capture and modeling |
US7221794B1 (en) * | 2000-12-18 | 2007-05-22 | Sportsvision, Inc. | Foreground detection |
CN112069336B (zh) * | 2020-08-04 | 2022-10-14 | 中国科学院软件研究所 | 一种基于场景草图的细粒度图像检索方法及系统 |
US11776129B2 (en) * | 2020-12-16 | 2023-10-03 | Qualcomm Incorporated | Semantic refinement of image regions |
-
2021
- 2021-10-15 GB GB2114788.9A patent/GB2612029A/en active Pending
-
2022
- 2022-03-01 US US17/652,336 patent/US12087028B2/en active Active
- 2022-03-22 JP JP2022045381A patent/JP7439153B2/ja active Active
- 2022-04-21 CN CN202210422004.3A patent/CN115995039A/zh active Pending
Non-Patent Citations (2)
Title |
---|
Shiqi Lin et al.,Topology Aware Object-Level Semantic Mapping Towards More Robust Loop Closure,IEEE ROBOTICS AND AUTOMATION LETTERS,米国,IEEE,2021年07月14日,VOL. 6, NO. 4,p.7041ーp.7048,https://ieeexplore.ieee.org/abstract/document/9484819 |
Xin Kong et al.,Semantic Graph Based Place Recognition for 3D Point Clouds,2020 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS),米国,IEEE,2021年02月10日,p.8216ーp.8223,https://ieeexplore.ieee.org/abstract/document/9341060 |
Also Published As
Publication number | Publication date |
---|---|
US12087028B2 (en) | 2024-09-10 |
CN115995039A (zh) | 2023-04-21 |
GB202114788D0 (en) | 2021-12-01 |
JP2023059794A (ja) | 2023-04-27 |
US20230118864A1 (en) | 2023-04-20 |
GB2612029A (en) | 2023-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7439153B2 (ja) | 全方位場所認識のためのリフトされたセマンティックグラフ埋め込み | |
CN111862126B (zh) | 深度学习与几何算法结合的非合作目标相对位姿估计方法 | |
CN113537208B (zh) | 一种基于语义orb-slam技术的视觉定位方法及系统 | |
Zhang et al. | Deep hierarchical guidance and regularization learning for end-to-end depth estimation | |
Liu et al. | Bipartite differential neural network for unsupervised image change detection | |
CN111583263A (zh) | 一种基于联合动态图卷积的点云分割方法 | |
Košecka | Detecting changes in images of street scenes | |
US20230326173A1 (en) | Image processing method and apparatus, and computer-readable storage medium | |
Shi et al. | An improved lightweight deep neural network with knowledge distillation for local feature extraction and visual localization using images and LiDAR point clouds | |
CN111581313A (zh) | 一种基于实例分割的语义slam鲁棒性改进方法 | |
Raza et al. | Framework for estimating distance and dimension attributes of pedestrians in real-time environments using monocular camera | |
CN112396036A (zh) | 一种结合空间变换网络和多尺度特征提取的遮挡行人重识别方法 | |
CN116385660A (zh) | 室内单视图场景语义重建方法及系统 | |
CN116543217A (zh) | 一种结构相似的小目标分类识别与位姿估计方法 | |
CN113420648A (zh) | 一种具有旋转适应性的目标检测方法及系统 | |
WO2023222643A1 (en) | Method for image segmentation matching | |
CN116664851A (zh) | 一种基于人工智能的自动驾驶数据提取方法 | |
Tan et al. | A Review of Deep Learning-Based LiDAR and Camera Extrinsic Calibration | |
Li et al. | Few-shot meta-learning on point cloud for semantic segmentation | |
Wang et al. | So-perm: Pose estimation and robust measurement for small objects | |
Dadgostar et al. | Gesture-based human–machine interfaces: a novel approach for robust hand and face tracking | |
Su et al. | Omnidirectional depth estimation with hierarchical deep network for multi-fisheye navigation systems | |
Lin et al. | Using Fully Convolutional Networks for Floor Area Detection. | |
Sun et al. | A Topological Semantic Mapping Method Based on Text-Based Unsupervised Image Segmentation for Assistive Indoor Navigation | |
Shinohara et al. | Image to point cloud translation using conditional generative adversarial network for airborne lidar data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220620 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20230105 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230905 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231102 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240116 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240214 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7439153 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |