JP2023500198A - 場所認識のための視覚的オブジェクトインスタンス記述子 - Google Patents
場所認識のための視覚的オブジェクトインスタンス記述子 Download PDFInfo
- Publication number
- JP2023500198A JP2023500198A JP2022520892A JP2022520892A JP2023500198A JP 2023500198 A JP2023500198 A JP 2023500198A JP 2022520892 A JP2022520892 A JP 2022520892A JP 2022520892 A JP2022520892 A JP 2022520892A JP 2023500198 A JP2023500198 A JP 2023500198A
- Authority
- JP
- Japan
- Prior art keywords
- image
- descriptors
- objects
- location
- descriptor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000000007 visual effect Effects 0.000 title description 3
- 238000012549 training Methods 0.000 claims abstract description 45
- 238000000034 method Methods 0.000 claims description 38
- 238000013528 artificial neural network Methods 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 5
- 238000013459 approach Methods 0.000 abstract description 18
- 238000001514 detection method Methods 0.000 abstract description 7
- 230000004807 localization Effects 0.000 abstract description 2
- 241000196324 Embryophyta Species 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 230000008901 benefit Effects 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000013507 mapping Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 101100001675 Emericella variicolor andJ gene Proteins 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 201000011243 gastrointestinal stromal tumor Diseases 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/35—Categorising the entire scene, e.g. birthday party or wedding scene
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/5866—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/587—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Library & Information Science (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
Abstract
Description
本出願は、2019年11月1日出願の米国特許出願第16/671,525号の利益を請求するものであり、その内容全体は参照することにより本明細書に組み込まれる。
図1を参照すると、場所認識システム100の例は、その場所の画像106を処理して画像内のオブジェクトを識別し、それらのオブジェクトを既知の場所に関連付けられたオブジェクトと比較することによって、未知の場所102を識別するために使用される。例えば、それらの既知の場所で以前に発見されたオブジェクトは、既知の場所をオブジェクトと関連付けるデータベース116に表されている。オブジェクトの識別は、画像内の識別されたオブジェクトの各インスタンスに対して数値記述子(例えば、固定長の実数値ベクトル)を決定することを含む。以下でさらに論じられるように、これらの記述子は、オブジェクトのタイプ(クラス)(例えば、植物と比較した時計)を区別できるとともに、同じクラス内のオブジェクトの異なるインスタンス(例えば、アラビア数字の時計とローマ数字の時計)を区別できるという特性を有する(または少なくともそのような特性を有するように設計されている)。所望により、記述子は、クラス間で区別されるように設計されてもよい。
図1を参照して上記で紹介したように、本実施形態のオブジェクトロケータ/記述子生成器108は、オブジェクトの位置を特定し、次いで記述子生成という2段階で動作する。これら2つの段階のそれぞれを後述する。
オブジェクトロケータは、画像106のピクセルを処理して、オブジェクトロケータの訓練で使用されるオブジェクトタイプのセットに対応するオブジェクトのバウンディングボックスを決定する畳み込みニューラルネットワークアプローチを利用する。しかしながら、オブジェクトロケータの訓練が、既知の部屋における特定のオブジェクトインスタンスの例を有していたこと、または部屋におけるオブジェクトクラスの例を有していたことさえも、要件ではないことに留意されたい。むしろ、オブジェクトロケータは、より一般的には画像内の関心区域のセットを識別すると考えることができ、その後、これらの関心区域は、後述する記述子生成器を含むさらなる処理に使用される。
記述子生成器は、オブジェクトロケータの出力を受信する。本実施形態では、記述子生成器は、M*N*NNNの特徴量のみを使用し、クラス確率、信頼度、およびバウンディングボックスの特定の位置は無視する。
上記で紹介したように、マッチャーの機能は、未知の部屋の記述子のセット112と、データベース内の各既知の部屋の記述子120のセットとを比較することである。マッチャーは、2つのそのようなセット間でスコアを形成し(図2のステップ336)、そのスコアが大きいほど、記述子はより類似している。
上記で紹介したように、オブジェクトロケータ/記述子生成器108(図1参照)は、設定パラメータ110の値を用いてパラメータ化されている。また、上述したように、オブジェクトロケータ/記述子生成器の2つのコンポーネント、すなわち、オブジェクトロケータおよび記述子生成器がある。これらのコンポーネントはそれぞれ、別個の訓練手順を用いて決定される別個の設定パラメータを有する。
オブジェクトロケータは、画像のデータベースを用いて訓練され、各画像は、画像で見出され得る定義済みのオブジェクトクラスのセットからさまざまなオブジェクトのクラスラベルおよびバウンディングボックスアノテーションを含む。いくつかの実験では、オブジェクト検出器はCOCOデータセット(T.-Y.Lin,M.Maire,S.Belongie,J.Hays,P.Perona,D.Ramanan,P.Dollar,and C.L.Zitnick,“Microsoft COCO: Common Objects in Context,” In ECCV,2014)およびADE20Kデータセット(B.Zhou,H.Zhao,X.Puig,S.Fidler,A.Barriuso,and A.Torralba,“Scene Parsing through ADE20K Dataset,”In CVPR,2017)を用いて訓練される。これらのデータセットは、さまざまなオブジェクトカテゴリに対するバウンディングボックスアノテーションを有する画像を含む。80のオブジェクトカテゴリがアノテーションされているCOCOデータセットからは、室内環境に現れ、比較的静的な15カテゴリのみを使用した。さらに、ADE20Kデータセットのより具体的なカテゴリのいくつかを統合することによって、10個の異なるオブジェクトカテゴリを形成した。選択されたカテゴリは、COCOデータセットでは約45k画像、ADE20Kデータセットでは約10k画像で出現する。
記述子生成器の訓練の目標は、同じオブジェクトインスタンスを比較したときにユークリッド距離が小さく、異なるオブジェクトインスタンス由来の場合はユークリッド距離が大きくなる記述子を生成することである。上記マッチング手順では、オブジェクトロケータによって同じクラスだとみなされたオブジェクトの記述子のみが比較される。訓練手順は、図3に示す構造を有するニューラルネットワークの重みを決定する。
dp=||desca-descp||,およびdn=||desca-descn||
に従って計算され、dpおよびdnを用いて、トリプレット損失Lは、
L=max(0,dp-dn+M)
と定義され、式中、Mは、ポジティブサンプルとネガティブサンプルとの間の最小の望ましい分離を示すマージンパラメータである。
既知の場所のデータベース116の構築は、オブジェクトロケータおよび記述子生成器の訓練とは独立している。いくつかの例では、既知の部屋についての画像が収集され、未知の部屋について図1に示すのと同様に記述子が生成される。その既知の部屋についての記述子のセットは、その後、既知の部屋についての識別子と関連するデータベースに格納される。マッチング中、既知の部屋の1つの画像に対応する記述子のベストマッチングセットが決定された後、既知の部屋についてのその識別子は、認識結果として戻すために利用できる。
オブジェクトロケータ/記述子生成器の代替構造を使用してもよいと認識すべきである。例えば、オブジェクトロケータおよび記述子生成器は、1つのニューラルネットワークに組み込まれ、一緒に訓練されてもよい。さらに、(例えば、CNNsとは対照的に)他のタイプの機械学習技術がこれらのコンポーネントに使用されてもよい。
Claims (16)
- 場所認識のための方法であって、
未知の場所について取得された画像を受信するステップと、
前記未知の場所についての前記画像から記述子のセットを計算するステップであって、
前記画像内の事前定義されたクラスの第1のセットから複数のオブジェクトの位置を特定することであって、位置が特定された各オブジェクトに対して前記画像の対応する領域を決定することを含むことと、
少なくとも前記画像の前記関連付けられた領域に基づいて、それぞれ位置が特定されたオブジェクトを表す数値ベクトルを構成するように各記述子を計算することと
を含む、ステップと、
参照レコードのデータベースにアクセスするステップであって、各参照レコードは、既知の場所に関連付けられており、前記既知の場所の対応する画像内のオブジェクトに対して以前に計算された記述子のセットを含む、ステップと、
前記未知の場所についての前記画像からの前記記述子のセットを、前記データベースの前記参照レコードとマッチングするステップであって、
前記参照レコードの少なくとも一部の各参照レコードに対して、
前記未知の場所の前記画像から計算された記述子と前記参照レコードの記述子との間のマッチングを表すスコアを決定することと、
前記データベースのベストマッチング参照レコードを決定することと
を含む、ステップと、
前記未知の場所を、前記データベースの前記ベストマッチングレコードに関連付けられた場所として認識するステップと
を含む、方法。 - 前記未知の場所についての前記画像から前記記述子のセットを計算するステップは、
オブジェクトロケータを用いて前記画像を処理して、
前記画像内の前記オブジェクトのセット、
前記オブジェクトのセットの各オブジェクトと関連付けられた前記画像の領域、および
各領域と関連付けられた前記画像の処理済み特徴
を決定することと、
記述子生成器を用いて前記記述子を計算することであって、
前記オブジェクトのセットの各オブジェクトについて、
前記処理済み特徴を入力すること、および
前記対応する記述子を出力として生成すること
を含む、ことと
を含む、請求項1に記載の方法。 - 前記オブジェクトロケータは、第1の人工ニューラルネットワークを構成し、前記記述子生成器は、第2の人工ニューラルネットワークを構成する、請求項2に記載の方法。
- オブジェクトについての前記画像の前記処理済み特徴を決定することは、前記画像内の前記オブジェクトの前記決定された領域について、前記第1の人工ニューラルネットワーク内で生成された中間値を使用することを含む、請求項3に記載の方法。
- 前記第1の人工ニューラルネットワークを、第1の設定パラメータの値を用いて設定することをさらに含み、前記値は、前記オブジェクトクラスの第1のセットに従ってオブジェクトとともにアノテーションが付けられた画像を含む第1の訓練コーパスから決定されている、請求項3に記載の方法。
- 前記第2の人工ニューラルネットワークを、第2の設定パラメータの値を用いて設定することをさらに含み、前記値は、オブジェクトクラスの第2のセットに従ってオブジェクトとともにアノテーションが付けられた画像と、前記クラス内のオブジェクトのインスタンスと、からなる第2の訓練コーパスから決定され、前記第2の訓練コーパスは、オブジェクトの同じインスタンスを有する複数の画像と、前記オブジェクトクラスの第2のセットのうちのあるオブジェクトクラスの複数の異なるインスタンスを有する画像とを含む、請求項5に記載の方法。
- 前記オブジェクトクラスの第2のセットは、前記オブジェクトクラスの第1のセットとは異なり、前記第1の訓練コーパスは、前記第2の訓練コーパスとは異なる、請求項6に記載の方法。
- 前記第2の設定パラメータの前記値は、前記オブジェクトクラスの第2のセット内のオブジェクトクラスの異なるインスタンスを区別するために選択される、請求項6に記載の方法。
- 前記第1の設定パラメータの前記値を、前記第1の訓練コーパスを用いた人工ニューラルネットワーク訓練手順を用いて決定することをさらに含む、請求項6に記載の方法。
- 前記第2の設定パラメータの前記値を、前記第2の訓練コーパスを用いた人工ニューラルネットワーク訓練手順を用いて決定することをさらに含む、請求項6に記載の方法。
- 前記第2の設定パラメータの前記値を決定するために用いられる前記訓練手順は、前記オブジェクトクラスの第2のセットの各オブジェクトクラス内のオブジェクトインスタンスの区別性を最適化することを含む、請求項10に記載の方法。
- 前記未知の場所についての前記画像からの前記記述子のセットを、前記データベースの前記レコードとマッチングするステップは、前記未知の場所についての前記記述子のセットを前記データベースの第1のレコードの記述子の第1のセットとマッチングすることを含み、
記述子の対の間でスコアを決定することであって、各対は、前記未知の場所についての前記画像からの前記記述子のセットのうちの1つの記述子と、前記データベースからの前記記述子の第1のセットのうちの1つの記述子とを含む、ことと、
前記未知の場所についての前記画像からの前記記述子のセットのうちの一部または全部の記述子のそれぞれと、前記記述子の第1のセットの対応する記述子とのベストマッチングを決定することであって、前記ベストマッチングは、記述子の対の間の前記スコアから決定された対応する最良のスコアを有する、ことと
を含む、請求項1に記載の方法。 - 前記未知の場所についての前記記述子のセットを、前記データベースの第1のレコードの記述子の第1のセットとマッチングすることは、エッジ重みが記述子の対の間の前記スコアから決定された二部グラフにおけるグラフマッチング手順を実行することを含む、請求項12に記載の方法。
- コンピュータに実装される場所認識システムであって、
未知の場所の画像を受信するように構成され、前記画像内の事前定義されたクラスのセットからオブジェクトの位置を特定し、位置が特定された各オブジェクトについての前記画像の関連付けられた領域を決定するように構成されたオブジェクトロケータと、
前記オブジェクトロケータによって位置が特定された前記オブジェクトのセットの各オブジェクトについて、少なくとも前記画像の前記関連付けられた領域に基づいて、それぞれ位置が特定されたオブジェクトを表す数値ベクトルを構成する記述子を計算するように構成可能な記述子生成器と、
各レコードが既知の場所と関連付けられている複数の参照レコードと、前記既知の場所に関連付けられたオブジェクトの記述子についてのセットとを格納するデータベースと、
前記参照レコードの少なくとも一部の各参照レコードについて、前記未知の場所の前記画像から計算された記述子と、前記参照レコードの記述子との間のマッチングを表すスコアを決定するように構成されたマッチャーと
を備え、
前記場所認識システムは、前記ベストマッチングレコードに従って前記未知の場所を認識するように構成される、場所認識システム。 - 前記オブジェクトロケータは、第1の設定パラメータの値に従って設定可能な第1の人工ニューラルネットワークを構成し、前記記述子生成器は、第2の設定パラメータの値に従って設定可能な第2の人工ニューラルネットワークを構成する、請求項14に記載の場所認識システム。
- 前記第1の設定パラメータおよび前記第2の設定パラメータの値を用いて設定され、前記第1の設定パラメータの前記値は、前記オブジェクトクラスの第1のセットに従ってオブジェクトとともにアノテーションが付けられた画像を含む第1の訓練コーパスから決定され、前記第2の設定パラメータの値は、オブジェクトクラスの第2のセットに従ってオブジェクトとともにアノテーションが付けられた画像からなる第2の訓練コーパスから決定される、請求項15に記載の場所認識システム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/671,525 | 2019-11-01 | ||
US16/671,525 US11295162B2 (en) | 2019-11-01 | 2019-11-01 | Visual object instance descriptor for place recognition |
PCT/US2019/068657 WO2021086422A1 (en) | 2019-11-01 | 2019-12-27 | A visual object instance descriptor for place recognition |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023500198A true JP2023500198A (ja) | 2023-01-05 |
JP7430254B2 JP7430254B2 (ja) | 2024-02-09 |
Family
ID=69400627
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022520892A Active JP7430254B2 (ja) | 2019-11-01 | 2019-12-27 | 場所認識のための視覚的オブジェクトインスタンス記述子 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11295162B2 (ja) |
JP (1) | JP7430254B2 (ja) |
CN (1) | CN114586075A (ja) |
WO (1) | WO2021086422A1 (ja) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011215054A (ja) * | 2010-03-31 | 2011-10-27 | Aisin Aw Co Ltd | 風景画像認識を用いた自車位置検出システム |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103503025B (zh) * | 2011-02-25 | 2016-09-07 | 弗劳恩霍夫应用研究促进协会 | 基于对对象的模型进行变换来确定模型参数 |
US9179201B2 (en) * | 2011-08-26 | 2015-11-03 | Cyberlink Corp. | Systems and methods of detecting significant faces in video streams |
US9443314B1 (en) * | 2012-03-29 | 2016-09-13 | Google Inc. | Hierarchical conditional random field model for labeling and segmenting images |
EP2915101A4 (en) * | 2012-11-02 | 2017-01-11 | Itzhak Wilf | Method and system for predicting personality traits, capabilities and suggested interactions from images of a person |
US20140244837A1 (en) * | 2013-02-26 | 2014-08-28 | Adience SER LTD | Determining a user's identity from an interaction with an identifiable service |
US20140267736A1 (en) * | 2013-03-15 | 2014-09-18 | Bruno Delean | Vision based system for detecting a breach of security in a monitored location |
WO2014169238A1 (en) * | 2013-04-11 | 2014-10-16 | Digimarc Corporation | Methods for object recognition and related arrangements |
US20150098616A1 (en) * | 2013-10-03 | 2015-04-09 | Qualcomm Incorporated | Object recognition and map generation with environment references |
US9639806B2 (en) * | 2014-04-15 | 2017-05-02 | Xerox Corporation | System and method for predicting iconicity of an image |
US20160180193A1 (en) * | 2014-12-22 | 2016-06-23 | Amazon Technologies, Inc. | Image-based complementary item selection |
US9922271B2 (en) * | 2015-03-20 | 2018-03-20 | Netra, Inc. | Object detection and classification |
US10592854B2 (en) * | 2015-12-18 | 2020-03-17 | Ricoh Co., Ltd. | Planogram matching |
AU2017245132A1 (en) * | 2016-03-29 | 2018-10-11 | Bossa Nova Robotics Ip, Inc. | System and method for locating, identifying and counting ltems |
US10055882B2 (en) * | 2016-08-15 | 2018-08-21 | Aquifi, Inc. | System and method for three-dimensional scanning and for capturing a bidirectional reflectance distribution function |
US20180246964A1 (en) * | 2017-02-28 | 2018-08-30 | Lighthouse Ai, Inc. | Speech interface for vision-based monitoring system |
-
2019
- 2019-11-01 US US16/671,525 patent/US11295162B2/en active Active
- 2019-12-27 WO PCT/US2019/068657 patent/WO2021086422A1/en active Application Filing
- 2019-12-27 CN CN201980101321.1A patent/CN114586075A/zh active Pending
- 2019-12-27 JP JP2022520892A patent/JP7430254B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011215054A (ja) * | 2010-03-31 | 2011-10-27 | Aisin Aw Co Ltd | 風景画像認識を用いた自車位置検出システム |
Non-Patent Citations (1)
Title |
---|
YI HOU,HONG ZHANG,SHILIN ZHOU: "Evaluation of Object Proposals and ConvNet Features for Landmarkbased", JOURNAL OF INTELLIGENT & ROBOTIC SYSTEMS, vol. 第92巻, JPN6023020591, 7 November 2017 (2017-11-07), pages 505 - 520, ISSN: 0005066646 * |
Also Published As
Publication number | Publication date |
---|---|
US20210133480A1 (en) | 2021-05-06 |
CN114586075A (zh) | 2022-06-03 |
JP7430254B2 (ja) | 2024-02-09 |
WO2021086422A1 (en) | 2021-05-06 |
US11295162B2 (en) | 2022-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Dube et al. | SegMap: Segment-based mapping and localization using data-driven descriptors | |
US8798357B2 (en) | Image-based localization | |
Cheraghian et al. | Zero-shot learning of 3d point cloud objects | |
CN110543841A (zh) | 行人重识别方法、系统、电子设备及介质 | |
Taira et al. | Is this the right place? geometric-semantic pose verification for indoor visual localization | |
US20230154170A1 (en) | Method and apparatus with multi-modal feature fusion | |
KR102252439B1 (ko) | 이미지에서 오브젝트 검출 및 표현 | |
JP7430243B2 (ja) | 視覚的測位方法及び関連装置 | |
Xin et al. | A review of visual-based localization | |
Shi et al. | An improved lightweight deep neural network with knowledge distillation for local feature extraction and visual localization using images and LiDAR point clouds | |
Kim et al. | Self-supervised keypoint detection based on multi-layer random forest regressor | |
Ramisa et al. | Robust vision-based robot localization using combinations of local feature region detectors | |
Zhou et al. | Retrieval and localization with observation constraints | |
JP7430254B2 (ja) | 場所認識のための視覚的オブジェクトインスタンス記述子 | |
Proença et al. | SHREC’15 Track: Retrieval of Oobjects captured with kinect one camera | |
CN115482398A (zh) | 一种外观侵权的检测方法、装置及存储介质 | |
JP7336653B2 (ja) | ディープラーニングを利用した屋内位置測位方法 | |
KR102449031B1 (ko) | 딥러닝을 이용한 실내 위치 측위 방법 | |
CN111967365B (zh) | 影像连接点的提取方法和装置 | |
KR20220126622A (ko) | 디바이스의 자세 추정 방법 및 장치 | |
Joshi et al. | Meta-Learning, Fast Adaptation, and Latent Representation for Head Pose Estimation | |
CN113096104A (zh) | 目标分割模型的训练方法及装置和目标分割方法及装置 | |
Dubenova et al. | D-InLoc++: Indoor Localization in Dynamic Environments | |
KR102640148B1 (ko) | 딥러닝을 이용한 실내 위치 측위 방법 | |
Sharma et al. | Improved scale-invariant feature transform feature-matching technique-based object tracking in video sequences via a neural network and Kinect sensor |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220706 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230519 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230525 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20230824 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231023 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240105 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240130 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7430254 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |