JP2023540896A - 単一視点画像からの室内シーン理解 - Google Patents

単一視点画像からの室内シーン理解 Download PDF

Info

Publication number
JP2023540896A
JP2023540896A JP2023512763A JP2023512763A JP2023540896A JP 2023540896 A JP2023540896 A JP 2023540896A JP 2023512763 A JP2023512763 A JP 2023512763A JP 2023512763 A JP2023512763 A JP 2023512763A JP 2023540896 A JP2023540896 A JP 2023540896A
Authority
JP
Japan
Prior art keywords
scene
perspective image
parametric
representation
down view
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023512763A
Other languages
English (en)
Inventor
ブユ リウ、
パン ジ、
ビンビン ズオン、
マンモハン チャンドラカー、
ウデイ クスパティ、
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Laboratories America Inc
Original Assignee
NEC Laboratories America Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Laboratories America Inc filed Critical NEC Laboratories America Inc
Publication of JP2023540896A publication Critical patent/JP2023540896A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • B60W60/0015Planning or execution of driving tasks specially adapted for safety
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/94Hardware or software architectures specially adapted for image or video understanding
    • G06V10/95Hardware or software architectures specially adapted for image or video understanding structured as a network, e.g. client-server architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/35Categorising the entire scene, e.g. birthday party or wedding scene
    • G06V20/36Indoor scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • G06V20/647Three-dimensional objects by matching two-dimensional images to three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2420/00Indexing codes relating to the type of sensors based on the principle of their operation
    • B60W2420/40Photo, light or radio wave sensitive means, e.g. infrared sensors
    • B60W2420/403Image sensing, e.g. optical camera
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2554/00Input parameters relating to objects
    • B60W2554/80Spatial relation or speed relative to objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30241Trajectory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • G06T2207/30261Obstacle

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Automation & Control Theory (AREA)
  • Human Computer Interaction (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)
  • Navigation (AREA)
  • Traffic Control Systems (AREA)

Abstract

経路を決定するための方法およびシステムは、シーンを示す透視画像内の物体を検出する(206)ことを含む。透視画像内の奥行きを予測する(208)。透視画像に対して、意味的分割を行う(210)。検出された物体と予測された奥行きとを用いて、注目マップが生成される(212)。予測された奥行きと意味的分割とを用いて、シーンの洗練されたトップダウンビューが生成される(214)。関係グラフモデルを用いて、シーンのパラメトリックトップダウン表現が決定される(216)。パラメトリックトップダウン表現を用いて、シーンを通過する経路が決定される(406)。

Description

関連出願情報
本出願は、2021年10月6日に出願された米国特許出願第17/494,927号および2020年10月8日に出願された米国仮特許出願第63/089,058号の優先権を主張し、いずれも参照によりその全体を本明細書に組み込んでいる。
本発明は、コンピュータビジョンに関し、より詳細には、屋内シーンの人間が解釈可能な表現を特定することに関するものである。
関連技術の説明
シーンを単一の視点から見る場合、コンピュータビジョンシステムは、作業するための二次元の情報しか持っていない。奥行きやオクルージョンの影響で、物体間の関係を判断するのが難しい。
経路を決定するための方法は、シーンを示す透視画像内の物体を検出することを含む。奥行きは透視画像の中で予測される。透視画像に対して、意味的な分割を行う。検出された物体と予測された奥行きとを用いて、注目マップが生成される。予測された奥行きと意味的分割とを用いて、シーンの洗練されたトップダウンビューが生成される。シーンのパラメトリックトップダウン表現は、関係グラフモデルを用いて決定される。パラメトリックトップダウン表現により、シーンを通過する経路が決定される。
経路を決定するための方法は、シーンを示す透視画像内の物体を検出することを含む。奥行きは透視画像の中で予測される。透視画像に対して、意味的な分割を行う。検出された物体と予測された奥行きとを用いて、注目マップが生成される。予測された奥行きを使って透視画像の画素を三次元空間へ投影し、シーンの初期トップダウンビューを生成する。シーンの洗練されたトップダウンビューは、投影された画素から外挿し、シーンの完全な意味的トップダウンビューを提供するために意味的分割を用いることで、最初のトップダウンビューを使用して生成される。洗練されたトップダウンビューと注目マップとを用いて、シーンの関係グラフ表現が生成される。関係グラフ表現を入力として、シーンのパラメトリックトップダウン表現を決定し、関係グラフニューラルネットワークモデルに入力する。パラメトリックトップダウン表現を用いて、シーンを通過する経路を決定する。決定した経路を用いて、シーンの通過をナビゲートする。
経路を決定するためのシステムは、ハードウェアプロセッサと、コンピュータプログラムを格納するメモリとを含む。ハードウェアプロセッサによって実行されると、コンピュータプログラムは、ハードウェアプロセッサに、シーンを示す透視画像内の物体を検出することと、透視画像内の奥行きを予測することと、透視画像に対して意味的分割を行うことと、検出された物体と予測された奥行きとを用いて注目マップを生成することと、予測された奥行きと意味的分割とを用いてシーンの洗練されたトップダウンビューを生成することと、関係グラフモデルを用いてシーンのパラメトリックトップダウン表現を決定することと、パラメトリックトップダウン表現を用いてシーンを通過するパスを決定することとを行わせる。
これらおよび他の特徴および利点は、添付の図面と関連して読まれる、その例示的な実施形態の以下の詳細な説明から明らかになるであろう。
本開示は、以下の図を参照して、好ましい実施形態の以下の説明において詳細を提供する。
本発明の一実施形態に係る、物体とレイアウト要素とを描いた室内シーンの透視図である。
本発明の一実施形態に係る、様々な異なる機械学習モデルを使用した、シーンのトップダウン型パラメトリック表現の生成を示すブロック図である。
本発明の一実施形態に係る、シーンのトップダウン型パラメトリック表現を生成するためのモデルを学習する方法のブロック/フロー図である。
本発明の一実施形態に係る、シーンをナビゲートする方法のブロック/フロー図である。
本発明の一実施形態に係る、シーンを通過する経路の決定を示す、シーンのトップダウンビューの図である。
本発明の一実施形態に係る、シーンのトップダウン型パラメトリック表現を生成するように構成され得る演算装置のブロック図である。
本発明の一実施形態に係る、シーンのトップダウン型パラメトリック表現を生成するためのソフトウェアプログラムのブロック図である。
本発明の一実施形態に係る、ニューラルネットワークモデルの構成図である。
本発明の一実施形態に係る、ディープニューラルネットワークモデルの構成図である。
幾何学的に完全で、人間が解釈可能な室内シーンの表現を提供するために、物体の位置を有する室内レイアウトは、単眼カメラからの透視画像から生成され得る。この表現は、パラメトリック形式のトップビューであってもよく、トップビューの各物体のレイアウトは、有向バウンディングボックスとして表現される。
透視画像は、機械学習を利用して、意味的なトップビューマップと、オクルージョン関係を扱うための注目マップとにマッピングされてもよい。特に、エンドツーエンドの半教師付き機械学習では、学習に実画像を使うこともあれば、トップビューのセマンティックマップをシミュレートすることもある。物体と物体との関係、物体とレイアウトとの関係など、複数の関係をグラフニューラルネットワーク(GNN)でモデル化し、トップビューのレイアウトと物体との両方をパラメトリックに予測することが可能である。
図示的な実施形態は、意味的および幾何学的に一貫したトップビュー意味的マップをシミュレートすることができる。これらをもとに、より多様なレイアウトを学習することができる。このモデルでは、透視画像を入力とし、中間表現としてトップビューの意味的マップを予測する学習と、興味深い領域に注目するための注目マップを予測する学習とが可能である。
このように、室内シーンからの各透視画像について、室内レイアウトと物体の位置とがパラメトリック形式で予測される場合がある。部屋のレイアウトのためのパラメトリック表現は、多数の壁とその位置や向きを含み、物体はその向きのバウンディングボックスで表現されることがある。エンドツーエンドモデルでは、オクルージョンを処理しながら、画素レベルでトップビューマップの予測を学習する。外観上の特徴は、透視図に組み込むこともできる。実データとシミュレーションとの両方の学習データを用いることで、多様および稀なケースに対応する汎化モデルを学習させることができる。
このような内部空間のトップダウンマップは、例えば、ロボットや他の自律型装置によるその後のナビゲーションを支援するために使用することができる。物体間の関係や空間の境界を認識することで、ロボットはより簡単に空間を操作することができる。このため、ロボットにカメラが1台しか搭載されていないような状況でも、空いた空間を特定して経路を探索することができるのがメリットである。
パラメトリック表現は、空間の特徴を列挙することができる。例えば、空間のレイアウトは、壁の位置や向きを含む境界線(例えば、壁)に従って定義されてもよい。空間内の物体は、その意味(例えば、椅子、ベッド、テーブルなど)だけでなく、それらが占める空間を表す有向バウンディングボックスによってラベル付けすることができる。
ここで、同様の数字が同一または類似の要素を表す図を詳細に参照し、最初に図1を参照すると、例示的な画像100が示されている。画像100は、室内の風景を含み、テーブル102が椅子104の視界を部分的に遮蔽している。また、壁106や床などの物体も示されており、これらは前景の物体によって部分的に遮蔽されている可能性がある。壁106は背景面とみなし、テーブル102および椅子104は前景の一部とみなしてよい。
この画像のパラメトリック表現は、以下のような情報を含むことができる。
壁の数:2枚
壁1中央。<座標>
壁1通常。<ベクトル>
壁2中央。<座標>
壁2通常。<ベクトル>
テーブル数:1
テーブルの場所:<有向バウンディングボックス>
椅子の数:1
椅子の位置:<有向バウンディングボックス>。
このように、図1の透視画像が与えられると、奥行きと二次元の物体検出とともに、意味的な分割(セマンティックセグメンテーション)を得ることができる。モデルを用いて、トップビューの模式図と、物体検出と奥行きとによる注目マップを得ることができる。洗練されたネットワークは、遮蔽関係を回復する、より代表的なトップダウンマップを生成するために使用されるかもしれない。トップビューの意味的マップがあれば、部屋のレイアウトを推定することができる。トップビューの注目マップと透視ビューの二次元外観特徴とを用いて、グラフニューラルネットワークは隣接、近接、距離、共起などの複数の物体間の関係をモデル化する。グラフニューラルネットワークの出力は、上述したようなパラメトリック表現であってもよい。
次に、図2を参照すると、透視画像のパラメトリック表現を生成するモデルの構成図が示されている。カメラ202は、透視画像204を撮影するために使用される。カメラ202は、例えば、二次元画像を撮影する単眼カメラを含む、任意の適切な画像撮影装置であってよい。透視画像204は、物体のセットだけでなく、レイアウトの特徴を含む、内部空間のビューを含んでもよい。
透視画像204は、複数の異なるモデルによって処理され、異なる種類の情報を抽出する。例えば、物体検出モデル206は、透視画像204内の物体を識別するように訓練され、そのような物体ごとにラベルおよびバウンディングボックスを提供する。奥行き予測モデル208は、透視画像204の各画素の奥行きを識別するように学習され、それによって、カメラ202に近い物体とカメラ204から遠い物体とを区別するのに役立つ。意味的分割モデル210は、例えばテーブルとテーブルの上に置いてある物体との違いを識別するなど、透視画像204内の個別的な物体と表面とを識別するように訓練される。
追加モデルは、物体検出モデル206、奥行き予測モデル208、および意味的分割モデル210の出力を処理する。例えば、注目モデル212は、物体検出モデル206と奥行き予測モデル208の出力を使用して三次元注目マップを生成するように学習され、洗練モデル214は、奥行き予測モデル208と意味的分割モデル210との出力を使用してトップビューの意味的マップを得るように学習される。
注目モデル212を用いて外観特徴を生成する場合、物体検出モデル206と奥行き予測モデル208とからの情報を組み合わせて、三次元空間内の物体の位置を特定する。洗練モデル214は、奥行き予測モデル208を用いて透視画像204の画素に三次元座標を割り当て、分割モデル210を用いてそれらの画素にラベルを割り当て、異なる表面を識別するために意味的分割を使用する三次元空間の別表現を作成する。三次元の意味的情報をトップダウンビューに投影することで、三次元空間の初期トップダウンビューを生成することができるが、このビューには比較的まばらに画素が配置されていることがある。この投影は、既知のカメラパラメータを利用することができ、例えば、各画素に[x,y,z]座標を割り当てることによって、透視画像204内の画素を三次元幾何学を有する三次元空間へマッピングするのに役立つことがある。画素単位の意味的マップは、さらに各画素と意味的ラベルとを関連付け、三次元の意味的マップを生成する。
洗練モデル214は、三次元空間の残りを推論するように訓練されてもよい。例えば、洗練モデル214は、透視画像、またはそのような透視画像の三次元表現を、透視画像と同じ内部空間の完全なトップダウンビューおよびパラメトリック形式の注釈と共に使用して訓練されてもよい。このようにして、洗練モデル214は、任意の新たな透視画像に対応する、完全な、オクルージョンに配慮した意味的トップダウンビューを生成することができる。透視画像204の画素を三次元空間に配置した初期意味的マップから、完全な意味的トップビューマップへのマッピングが学習される。
注目モデル212と洗練モデル214との出力を用いて、関係グラフモデル216は、例えばグラフニューラルネットワークを使用して、異なる物体間の関係、および物体と部屋のレイアウトの特徴との間の関係をモデル化する。関係グラフモデル216は、室内レイアウトのためのデカルトグリッドの使用が画像エッジ勾配統計の規則性をもたらすという仮定に依存し得るパラメトリック出力218を出力する。その関係をグラフでモデル化することで、一貫性のあるレイアウト予測が可能になる。このように、関係グラフは、洗練されたトップダウン表現で特定された空間関係と、注目マップからの注目情報とを用いて、関係グラフモデル216への入力として用いるために生成されてもよい。
関係グラフモデル216は、畳み込みニューラルネットワークと同様の方法で動作することができる。関係グラフモデル216は、二次元画像の画素の近さに基づくのではなく、室内シーン内の物体を、空間的な近さ、あるいは意味的な関係によって互いに関連していると見なすものである。この情報は、関係グラフのノードとエッジとを使って符号化することができる。ノードは物体やレイアウト要素を表し、エッジはそのノード間の関係を表す。この情報は、注目マップと同様に、洗練されたトップビューの意味から得ることができる。例えば、注目マップは、壁の位置で区切られた部屋の内部を推定することができる。エッジはノード間に定義され、距離に応じた関係が定義され、近接関係、遠距離関係を示すことができる。また、物体間の密な接続を導入して、その共起関係もモデル化することができる。
GNN入力特徴は、洗練されたトップダウンビュー意味からのノードおよびエッジ、ならびに透視画像204からの外観特徴、レイアウト要素および物体の初期位置、ならびに透視画像204からの物体およびレイアウト要素の両方のパラメトリック予測の出力を含むことができる。
洗練モデル214からの洗練されたトップダウンビューと、注目モデル212からの初期マップを使用して、空間の特徴のセットが、グラフのノードとエッジと共に生成されてもよい。関係グラフモデル216は、それによって、透視画像204に示される物体およびレイアウト特徴のリストを含むパラメトリック表現218を出力することができる。
次に、図3を参照すると、室内シーンのパラメトリック表現を生成するシステムの学習方法が示されている。図2中の各モデルは、それぞれ異なる学習情報を用いて、別々に学習させることができる。例えば、ブロック302は、訓練画像のセットを使用して物体検出モデル206を訓練してもよく、各々は、任意の適切な数の物体でラベル付けされ、そのような物体それぞれに対するバウンディングボックスおよび意味的なラベルを含む。これにより、物体検出モデル206は、様々な種類の物体の存在を検出し、入力画像内の位置を特定し、具体的な位置情報を生成することができる。
ブロック304は、奥行き予測モデル208を訓練してもよい。奥行き予測学習情報は、学習画像のセットを含んでもよく、そのような学習画像の各々は、画像を構成する画素の各々についての奥行き情報を有する。これに基づいて、奥行き予測モデル208は、入力画像の各画素に関連する奥行き値を特定することができる。
ブロック306は、意味的分割モデル210を訓練することができる。意味的分割の訓練情報は、訓練画像のセットを含み、各訓練画像は、シーン内の異なる表面または物体が何らかの適切なアノテーションスキームに従ってラベル付けされていることがある。例えば、ある物体は壁などのレイアウト物体であり、他の物体は家具などのインテリア物体であるかもしれない。このような物体それぞれは、さらに異なる意味的なサブカテゴリに分解されることがある。例えば、椅子には座面、脚、背もたれがあり、それぞれ異なる意味的なラベル付けがなされている場合がある。
ブロック308は、注目モデル212を訓練してもよい。注目モデル学習情報は、学習画像のセットを含んでもよく、各学習画像は、物体と画素奥行きとに従ってラベル付けされる。注目モデル212は、透視画像204から物体と画素奥行きとを受け入れ、物体がカメラ202からの中心位置の距離に従ってラベル付けされた空間の注目マップを出力するように訓練されてもよい。
ブロック310は、洗練モデル216を訓練することができる。洗練されたモデルの学習情報は、同じ室内シーンの対応するトップダウンビューに関連付けられた学習画像を含んでもよい。それにより、洗練モデルは、透視画像204の奥行き拡張された画素によって直接提供されないトップダウンビュー内の空間を埋めるように訓練され得る。この洗練は、意味的分割モデル306からの意味的な情報を利用し、それによって、特定の共通な物体の構造に関する知識を利用することができる。例えば、画像からベッドが検出された場合、その情報を使って、出力されるトップダウンビュー内でベッドの大まかな比率や大きさを示すことができる。
ブロック312は、関係グラフモデル218を訓練してもよい。関係グラフ学習情報は、室内シーンのトップダウンビューに関する情報と、同じシーンの透視ビューからの位置関係画像を提供する対応する注目マップとを含み、グラフの各ノードがシーン内のそれぞれの物体またはレイアウト要素に対応する、トップダウンビューのパラメトリック表現を生成してもよい。
場合によっては、特定のモデルをタンデムで、またはエンドツーエンドで訓練することができる。他のケースでは、モデルは、訓練データの異なるそれぞれのセットを使用して、別々に訓練されてもよい。それぞれの透視画像に対する既知のトップダウンビューを含む訓練データを生成してもよく、これはパラメトリック表現の予測の精度を向上させるために様々なモデルを訓練するために使用することができる。さらに、シミュレートされた学習データを用いてもよい。任意のパラメトリックなアノテーションを与えると、レンダラーを用いて意味的なトップダウンビューを生成することができる。さらに、パラメトリックアノテーションにより、グラフと注目マップとを生成することができる。その後、外見的特徴をサンプリングして意味的なラベルと関連付けるとともに、シミュレートされたカメラからの距離を決定することができる。このデータを使ってオリジナルの学習データを補完することで、学習済みモデルの汎用性や頑健性を向上させることができる。
次に、図4を参照すると、室内環境をナビゲートする方法が示されている。ブロック402は、カメラ202を用いて透視画像204を撮影する。例えば、カメラ202は、環境内の固定された場所にあってもよいし、移動可能であってもよい。移動カメラの例としては、人間が携帯するカメラや、ロボットなどの自律型車両や装置に搭載されるカメラなどが考えられる。
ブロック404は、透視画像204に図示されたシーンのトップダウンビューを決定し、例えば、上述のように、シーン内の物体およびレイアウト要素のパラメトリック表現を生成する。次にブロック406は、環境を通過する経路を計画する。この経路は、シーン内で検出された物体との衝突を避けるように計画されてもよく、また、視点内で見えなかったが、ブロック404で推論された環境の領域を考慮してもよい。ブロック408は、次に、例えば、電話を持つ人に指示を与えることによって、または自律走行車または装置に環境内の物体の周りを操縦させることによって、環境内をナビゲートする。ブロック402に戻り、新たな透視画像204を撮影することで、環境内で移動した後に経路を更新することができる。
パラメトリックトップダウン表現は、空間をナビゲートするという特定の文脈で説明されているが、トップダウン表現は、任意の適切なアプリケーションに使用され得ることが理解されるべきである。したがって、環境中の経路計画や環境中のナビゲーションは任意である。
次に、図5を参照すると、例示的なトップダウン図が示され、これは図1に示す透視画像に対応することができる。カメラ202は、壁106との関係で示されるテーブル102と椅子104とを含む検出された物体の文脈で示されている。検出された物体の周りの、環境内をナビゲートするために使用される可能性のある経路502が示されている。
本明細書に記載する実施形態は、完全にハードウェアであってもよく、完全にソフトウェアであってもよく、または、ハードウェア要素とソフトウェア要素との両方を含むものであってもよい。好ましい実施形態では、本発明は、ファームウェア、常駐ソフトウェア、マイクロコードなどを含むがこれらに限定されないソフトウェアで実施される。
実施形態は、コンピュータまたは任意の命令実行システムによって、またはそれに関連して使用するためのプログラムコードを提供する、コンピュータ使用可能またはコンピュータ可読媒体からアクセス可能なコンピュータプログラム製品を含むことができる。コンピュータ使用可能媒体またはコンピュータ可読媒体は、命令実行システム、装置、またはデバイスによって、またはそれに関連して使用するためのプログラムを格納、通信、伝搬、またはトランスポートする任意の装置を含むことができる。媒体は、磁気、光学、電子、電磁気、赤外線、または半導体システム(または装置またはデバイス)、または伝搬媒体とすることができる。媒体は、半導体または固体ステートメモリ、磁気テープ、リムーバブルコンピュータディスケット、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、リジッド磁気ディスクおよび光ディスクなどのコンピュータ読み取り可能な記憶媒体を含むことができる。
各コンピュータプログラムは、本明細書に記載する手順を実行するために、記憶媒体または装置がコンピュータによって読み取られるときに、コンピュータの操作を構成し制御するために、汎用または特殊目的のプログラム可能コンピュータによって読み取り可能な、機械読み取り可能な記憶媒体または装置(例えば、プログラムメモリまたは磁気ディスク)に実体的に記憶することができる。本発明のシステムはまた、コンピュータプログラムで構成された、コンピュータ読み取り可能な記憶媒体で実施されるものと考えることができ、その場合、構成された記憶媒体は、コンピュータを特定の所定の方法で動作させて、本明細書に記載する機能を実行させる。
プログラムコードを記憶および/または実行するのに適したデータ処理システムは、システムバスを介してメモリ要素に直接的または間接的に結合された少なくとも1つのプロセッサを含んでもよい。メモリ要素は、プログラムコードの実際の実行中に採用されるローカルメモリ、バルクストレージ、および実行中にバルクストレージからコードが検索される回数を減らすために少なくとも何らかのプログラムコードの一時記憶を提供するキャッシュメモリを含むことができる。入力/出力またはI/O装置(キーボード、ディスプレイ、ポインティング装置などを含むが、これらに限定されない)は、直接または介在するI/Oコントローラを介してシステムに結合され得る。
ネットワークアダプタは、データ処理システムが、介在するプライベートまたはパブリックネットワークを介して他のデータ処理システムまたはリモートプリンタまたは記憶装置に結合されるようになることを可能にするために、システムに結合されることもできる。モデム、ケーブルモデム、イーサネット(登録商標)カードは、現在利用可能なネットワークアダプタの種類のほんの一部に過ぎない。
本明細書で採用されるように、「ハードウェアプロセッササブシステム」または「ハードウェアプロセッサ」という用語は、1つ以上の特定のタスクを実行するために協働するプロセッサ、メモリ、ソフトウェアまたはそれらの組み合わせを指すことができる。有用な実施形態では、ハードウェアプロセッササブシステムは、1つまたは複数のデータ処理要素(例えば、論理回路、処理回路、命令実行デバイスなど)を含むことができる。1つまたは複数のデータ処理要素は、中央処理ユニット、画像処理ユニットおよび/または別個のプロセッサまたはコンピューティング要素ベースのコントローラ(たとえば、論理ゲートなど)に含めることができる。ハードウェアプロセッササブシステムは、1つ以上のオンボードメモリ(例えば、キャッシュ、専用メモリアレイ、読み出し専用メモリなど)を含むことができる。いくつかの実施形態では、ハードウェアプロセッササブシステムは、オンボードまたはオフボードにすることができるか、またはハードウェアプロセッササブシステム(例えば、ROM、RAM、基本入出力システム(BIOS)など)によって使用するために専用にすることができる1つ以上のメモリを含むことができる。
ある実施形態では、ハードウェアプロセッササブシステムは、1つ以上のソフトウェア要素を含むことができ、実行することができる。1つ以上のソフトウェア要素は、特定の結果を達成するために、オペレーティングシステムおよび/または1つ以上のアプリケーションおよび/または特定のコードを含むことができる。
他の実施形態では、ハードウェアプロセッササブシステムは、指定された結果を達成するために1つまたは複数の電子処理機能を実行する専用の専用回路を含むことができる。そのような回路は、1つまたは複数のアプリケーション専用集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、および/またはプログラマブルロジックアレイ(PLA)を含むことができる。
ハードウェアプロセッササブシステムのこれらおよび他の変形もまた、本発明の実施形態に従って企図される。
図6は、本発明の一実施形態による例示的な演算装置600を示すブロック図である。演算装置600は、室内シーンのトップダウンのパラメトリック表現を特定し、シーンを介したナビゲーションを提供するように構成される。
演算装置600は、限定されないが、コンピュータ、サーバ、ラックベースのサーバ、ブレードサーバ、ワークステーション、デスクトップコンピュータ、ラップトップコンピュータ、ノートブックコンピュータ、タブレットコンピュータ、モバイル演算装置、ウェアラブル演算装置、ネットワーク機器、ウェブ機器、分散演算システム、プロセッサベースのシステム、および/または利用者電子装置など、本書に記載される機能を実行できる任意のタイプの計算またはコンピュータ装置として具現化することができる。さらにまたは代替的に、演算装置600は、1つまたは複数のコンピュートスレッド、メモリスレッド、または他のラック、スレッド、演算シャーシ、または物理的に分解された演算装置の他の構成要素として具現化されてもよい。
図6に示すように、演算装置600は、例示的に、プロセッサ610、入力/出力サブシステム620、メモリ630、データ記憶装置640、および通信サブシステム650、および/またはサーバまたは同様の演算装置に一般的に見られる他の構成要素およびデバイスを含んでいる。演算装置600は、他の実施形態において、サーバコンピュータに一般的に見られるような他のまたは追加の構成要素(例えば、様々な入力/出力デバイス)を含んでもよい。さらに、いくつかの実施形態では、例示的な構成要素の1つ以上が、別の構成要素に組み込まれるか、さもなければ、別の構成要素の一部を形成することができる。例えば、メモリ630、またはその一部は、いくつかの実施形態において、プロセッサ610に組み込まれてもよい。
プロセッサ610は、本明細書に記載された機能を実行することができる任意のタイプのプロセッサとして具現化することができる。プロセッサ610は、シングルプロセッサ、マルチプロセッサ、中央処理ユニット(CPU)、グラフィック処理ユニット(GPU)、シングルまたはマルチコアプロセッサ、デジタル信号プロセッサ、マイクロコントローラ、またはその他のプロセッサやプロセスシング/制御回路として具現化されてもよい。
メモリ630は、本明細書に記載された機能を実行することができる任意のタイプの揮発性または不揮発性メモリまたははデータストレージとして具現化され得る。動作中、メモリ630は、オペレーティングシステム、アプリケーション、プログラム、ライブラリ、およびドライバなど、演算装置600の動作中に使用される様々なデータおよびソフトウェアを格納することができる。メモリ630は、I/Oサブシステム620を介してプロセッサ610と通信可能に結合され、プロセッサ610メモリ630、および演算装置600の他の構成要素との入出力動作を容易にするための回路および/または構成要素として具現化され得る。例えば、I/Oサブシステム620は、メモリコントローラハブ、入力/出力制御ハブ、プラットフォームコントローラハブ、集積制御回路、ファームウェアデバイス、通信リンク(例えば、ポイントツーポイントリンク、バスリンク、ワイヤ、ケーブル、ライトガイド、プリント回路基板トレースなど)および/または、入力/出力操作を容易にするための他の構成要素およびサブシステムとして具現化されてもよく、さもなければ、これらを含んでいても良い。いくつかの実施形態では、I/Oサブシステム620は、システムオンチップ(SOC)の一部を形成し、プロセッサ610、メモリ630、および演算装置600の他の構成要素と共に、単一の集積回路チップに組み込まれてもよい。
データ記憶装置640は、例えば、メモリ装置および回路、メモリカード、ハードディスクドライブ、ソリッドステートドライブ、または他のデータ記憶装置など、データの短期または長期記憶用に構成された任意のタイプの装置またはデバイスとして具現化することができる。データ記憶装置640は、透視画像のパラメトリックトップダウン表現を生成するためのプログラムコード640Aと、表現に基づいてシーン内でナビゲートするためのプログラムコード640Bとを格納することができる。演算装置600の通信サブシステム650は、ネットワークを介して演算装置600と他のリモート装置との間の通信を可能にすることができる、任意のネットワークインターフェースコントローラまたは他の通信回路、装置、またはその集合体として具現されることができる。通信サブシステム650は、任意の1つ以上の通信技術(例えば、有線または無線通信)および関連するプロトコル(例えば、イーサネット、InfiniBand(登録商標)、Bluetooth(登録商標)、Wi-Fi(登録商標)、WiMAXなど)を使用してそのような通信を実現するように構成され得る。
図示のように、演算装置600は、1つ以上の周辺装置660も含むことができる。周辺装置660は、任意の数の追加の入出力装置、インタフェース装置、および/または他の周辺装置を含んでもよい。例えば、いくつかの実施形態では、周辺装置660は、ディスプレイ、タッチスクリーン、グラフィック回路、キーボード、マウス、スピーカシステム、マイク、ネットワークインターフェース、および/または他の入力/出力装置、インタフェース装置、および/または周辺装置を含むことができる。
もちろん、演算装置600は、当業者が容易に思いつくように、他の要素(図示せず)を含むこともでき、また、特定の要素を省略することもできる。例えば、様々な他のセンサ、入力装置および/または出力装置は、当業者によって容易に理解されるように、同じものの特定の実装に依存して、演算装置600に含まれることが可能である。例えば、様々なタイプの無線および/または有線の入力および/または出力装置を使用することができる。さらに、プロセッサ、コントローラ、メモリなどを追加して、様々な構成で利用することも可能である。処理システム600のこれらおよび他の変形例は、本明細書に提供される本発明の教示を考慮すれば、当業者によって容易に企図されるものである。
ハードウェアプロセッササブシステムのこれらおよび他の変形例も、本発明の実施形態に従って企図される。
次に、図7を参照すると、パラメトリック表現生成640Aに関する追加的な詳細が示されている。図2に関して上述した異なるモデルをこのようにソフトウェアで実装してもよい。例えば、これらのモデルは、ニューラルネットワークモデルとして実装されてもよいが、代わりに他の適切な機械学習技術を使用してもよいことが理解されるべきである。
ニューラルネットワークは、追加の経験的データに触れることによってその機能と精度を向上させる一般化されたシステムである。経験則に基づいたデータに触れることで、ニューラルネットワークは訓練される。訓練中、ニューラルネットワークは、入力される経験的データに適用される複数の重みを記憶し、調整する。調整された重みをデータに適用することで、データがクラスの集合から予め設定された特定のクラスに属することを特定したり、入力されたデータが各クラスに属する確率を出力したりすることができる。
一連の例からの経験的データ(訓練データとしても知られている)は、値の文字列としてフォーマットされ、ニューラルネットワークの入力に供給されることができる。各例は、既知の結果または出力と関連付けられている場合がある。各例は、xが入力データ、yが既知の出力を表す、(x,y)の組で表現される。入力データは、さまざまな種類のデータを含み、複数の異なる値を含む可能性がある。ネットワークは、例の入力データを構成する各値に対して1つの入力ノードを持つことができ、各入力値に対して個別の重みを適用することができる。入力データは、構築・訓練されるニューラルネットワークのアーキテクチャに応じて、例えば、ベクトル、配列、文字列などの形式とすることができる。
ニューラルネットワークは、入力データから生成されたニューラルネットワークの出力を例の既知の値と比較し、出力値と既知の値との差を最小にするように記憶された重みを調整することによって「学習」する。調整は、数学的勾配を計算し、出力を最小差にシフトするように重みを調整することにより、出力値に対する重みの影響を決定する逆伝搬を通じて、記憶された重みに行われてもよい。この最適化は、勾配降下法と呼ばれ、訓練方法の非限定的な例である。訓練に使用しなかった既知の値を持つ例のサブセットを使用して、ニューラルネットワークの精度をテストし、検証することができる。
動作中、訓練されたニューラルネットワークは、汎化によって、訓練または検証で以前に使用されていない新しいデータで使用することができる。調整されたニューラルネットワークの重みは、新しいデータに適用することができる。ここで、重みは、訓練例から開発された関数を推定する。重みによって捉えられる推定関数のパラメータは、統計的推論に基づいている。
次に、図8を参照すると、例示的なニューラルネットワークのアーキテクチャが示されている。層状ニューラルネットワークでは、ノードが層状に配置されている。単純なニューラルネットワークは、ソースノード822の入力層820と、出力ノードとしても機能する1つ以上の計算ノード832を有する単一の計算層830とを備え、入力例が分類され得る各カテゴリについて単一のノード832が存在する。入力層820は、入力データ810のデータ値812の数に等しい数のソースノード822を有することができる。入力データ810のデータ値812は、列ベクトルとして表現することができる。計算層の各計算ノード830は、入力ノード820に供給された入力データ810から重み付けされた値の線形結合を生成し、その和に微分可能な非線形活性化関数を適用する。単純なニューラルネットワークは、線形分離可能な例(例えば、パターン)に対して分類を行うことができる。
次に、図9を参照すると、深層ニューラルネットワークのアーキテクチャが示されている。多層パーセプトロンとも呼ばれる深層ニューラルネットワークは、ソースノード822の入力層820と、1つ以上の計算ノード832を有する1つ以上の計算層830と、および入力例が分類され得る各カテゴリに対して単一の出力ノード842が存在する出力層840とを有する。入力層820は、入力データ810のデータ値812の数に等しい数のソースノード822を有することができる。計算層830の計算ノード832は、ソースノード822と出力ノード842との間にあり、直接観測されないため、隠れ層とも呼ばれることができる。計算層の各ノード832,842は、前の層のノードから出力された値から重み付けされた値の線形結合を生成し、その和に微分可能な非線形活性化関数を適用する。前の各ノードからの値に適用される重みは、例えば、w1,w2,wn-1,wnで表すことができる。出力層は、入力されたデータに対するネットワークの全体的な応答を提供する。深層ニューラルネットワークは、計算層の各ノードが前の層の他のすべてのノードに接続されている完全接続型にすることができる。ノード間のリンクがない場合、ネットワークは部分的に接続されていると呼ばれる。
深層ニューラルネットワークの訓練は、各ノードの重みが固定され、入力がネットワークを通じて伝搬するフォワードフェーズと、エラー値がネットワークを通じて逆伝搬するバックワードフェーズとの2つのフェーズを含むことができる。
1つ以上の計算(隠れ)層830の計算ノード832は、特徴空間を生成する入力データ812に対して非線形変換を実行する。特徴空間では、クラスやカテゴリは元のデータ空間よりも容易に分離される可能性がある。
図8および図9のニューラルネットワークアーキテクチャは、例えば、図2に示されたモデルのいずれかを実装するために使用され得る。ニューラルネットワークを訓練するために、訓練データを訓練セットとテストセットとに分けることができる。訓練データには、入力と既知の出力との組が含まれる。訓練時には、訓練セットの入力がフィードフォワード伝搬を利用してニューラルネットワークに供給される。各入力後、ニューラルネットワークの出力は、それぞれの既知の出力と比較される。ニューラルネットワークの出力と、その特定の入力に関連する既知の出力との間の不一致は、エラー値を生成するために使用され、それはニューラルネットワークを介して逆伝搬されてもよく、その後、ニューラルネットワークの重み値が更新されることがある。この処理は、訓練セットの組がなくなるまで続けられる。
訓練が完了した後、ニューラルネットワークをテストセットに対してテストし、訓練がオーバーフィットをもたらしていないことを確認することができる。ニューラルネットワークが、すでに学習させた入力以外の新しい入力に対しても汎化することができれば、それは使用可能な状態にあるといえる。ニューラルネットワークがテストセットの既知の出力を正確に再現できない場合、追加の訓練データが必要であったり、ニューラルネットワークのハイパーパラメータの調整が必要であったりする場合がある。
明細書において、本発明の「一実施形態」または「一実施形態」、およびその他の変形例への言及は、実施形態に関連して説明した特定の特徴、構造、特性などが、本発明の少なくとも一実施形態に含まれることを意味する。したがって、本明細書中の各所に現れる「一実施形態において」または「一実施形態において」という表現、および他の任意の変形は、必ずしもすべてが同じ実施形態を指すとは限らない。しかしながら、本明細書で提供される本発明の教示を考慮して、1つ以上の実施形態の特徴を組み合わせることができることは理解されるであろう。
例えば「A/B」の場合、「Aおよび/またはB」、「AとBとの少なくとも1つ」のような、以下の「/」、「および/または」、「少なくとも1つ」のいずれかの使用は、第1のリストされた選択肢(A)のみの選択、または第2のリストされた選択肢(B)のみの選択、または両方の選択肢(AおよびB)の選択を包含すると意図していると理解されよう。さらなる例として、「A、B、および/またはC」および「A、B、およびCの少なくとも1つ」の場合、かかる表現は、第1のリストされた選択肢(A)のみの選択、または第2のリストされた選択肢(B)のみの選択、または第3のリストされた選択肢(C)のみの選択、または第1および第2のリストされた選択肢(AおよびB)のみの選択、第1および第3のリストされた選択肢(AおよびC)のみの選択、第2および第3のリストされた選択肢(BおよびC)のみの選択、または3つすべての選択肢(AおよびBおよびC)の選択を包含すると意図されている。このことは、記載された項目の数だけ拡張することができる。
上記は、あらゆる点で例示的かつ例示的であるが、制限的なものではないと理解され、ここに開示された発明の範囲は、詳細な説明からではなく、特許法によって許される全幅に従って解釈された請求項から決定されるものである。本明細書に示され説明された実施形態は、本発明の例示に過ぎず、当業者は、本発明の範囲及び精神から逸脱することなく、様々な修正を実施することができることを理解されたい。当業者であれば、本発明の範囲と精神から逸脱することなく、様々な他の特徴の組み合わせを実施することができる。このように、特許法が要求する詳細さと特殊性をもって本発明の側面を説明したが、特許状によって請求され、保護されることを望むものは、添付の特許請求の範囲に記載されているとおりである。

Claims (20)

  1. 経路決定方法であって、
    シーンを示す透視画像内の物体を検出すること(206)と、
    前記透視画像内の奥行きを予測すること(208)と、
    前記透視画像に対して意味的分割を行うこと(210)と、
    前記検出された物体と前記予測された奥行きとを用いて、注目マップを生成すること(212)と、
    前記予測された奥行きと前記意味的分割とを用いて、前記シーンの洗練されたトップダウンビューを生成すること(214)と、
    関係グラフモデルを用いて、前記シーンのパラメトリックトップダウン表現を決定すること(216)と、
    前記パラメトリックトップダウン表現を用いて、前記シーンを通過する経路を決定すること(406)とを含む方法。
  2. 請求項1に記載の方法において、
    前記決定された経路を用いて、前記シーンの通過をナビゲートすることをさらに含む方法。
  3. 請求項2に記載の方法において、
    新たな透視画像内の物体の検出と、前記新たな透視画像内の奥行きの予測と、前記新たな透視画像に対する意味的分割と、前記新たな透視画像から前記検出された物体と前記予測された奥行きとを用いた注目マップの生成と、前記新たな透視画像から前記予測された奥行きと前記意味的分割とを用いた前記シーンの洗練されたトップダウンビューの生成と、前記シーンを通してナビゲーションした後に関係グラフモデルを用いた前記シーンのパラメトリックトップダウン表現の決定とを繰り返すことをさらに含む方法。
  4. 請求項1に記載の方法において、
    前記関係グラフモデルは、ニューラルネットワークモデルとして実装される方法。
  5. 請求項1に記載の方法において、
    シーンのパラメトリックトップダウン表現と関連する注目マップとを含む訓練データを用いて、前記関係グラフモデルを訓練することをさらに含む方法。
  6. 請求項1に記載の方法において、
    前記シーンの洗練されたトップダウンビューを生成することは、前記予測された奥行きを用いて、前記透視画像の画素を三次元空間に投影することによって、初期トップダウンビューを生成することを含む方法。
  7. 請求項6に記載の方法において、
    前記シーンの洗練されたトップダウンビューを生成することは、前記シーンの完全な意味的トップダウンビューを提供するために、前記初期トップダウンビューにおける前記投影された画素と前記投影された画素のそれぞれに対する意味的ラベルとから外挿することを含む方法。
  8. 請求項1に記載の方法において、
    前記パラメトリックトップダウン表現を決定することは、前記関係グラフモデルへの入力として使用するために、前記洗練されたトップダウンビューと前記注目マップとを用いて、前記シーンの関係グラフ表現を生成することを含む方法。
  9. 請求項1に記載の方法において、
    前記パラメトリックトップダウン表現は、前記シーン内の物体とレイアウト要素との座標および方向情報を含む方法。
  10. 請求項1に記載の方法において、
    自律走行車上の単眼カメラを用いて、前記透視画像を撮影することをさらに含む方法。
  11. 経路決定方法であって、
    シーンを示す透視画像内の物体を検出すること(206)と、
    前記透視画像内の奥行きを予測すること(208)と、
    前記透視画像に対して意味的分割を行うこと(210)と、
    前記検出された物体と前記予測された奥行きとを用いて、注目マップを生成すること(212)と、
    前記予測された奥行きを用いて前記透視画像の画素を三次元空間に投影することにより、前記シーンの初期トップダウンビューを生成すること(214)と、
    前記投影された画素から外挿し、前記シーンの完全な意味的トップダウンビューを提供するために意味的分割を使用することによって、前記初期トップダウンビューを使用して前記シーンの洗練されたトップダウンビューを生成すること(214)と、
    前記洗練されたトップダウンビューと前記注目マップとを用いて、前記シーンの関係グラフ表現を決定すること(216)と、
    関係グラフニューラルネットワークモデルへの入力として前記関係グラフ表現を用いて、前記シーンのパラメトリックトップダウン表現を決定すること(216)と、
    前記パラメトリックトップダウン表現を用いて、前記シーンを通る経路を決定すること(406)と、
    前記決定された経路を用いて、前記シーンの通過をナビゲートすること(408)とを含む方法。
  12. ハードウェアプロセッサ(610)と、
    前記ハードウェアプロセッサによって実行されるコンピュータプログラム(640A,640B)を格納するメモリ(640)とを有し、前記コンピュータプログラムは前記ハードウェアプロセッサに、
    シーンを示す透視画像内の物体を検出する手順(206)と、
    前記透視画像内の奥行きを予測する手順(208)と、
    前記透視画像に対して意味的分割を行う手順(210)と、
    前記検出された物体と前記予測された奥行きとを用いて、注目マップを生成する手順(212)と、
    前記予測された奥行きと前記意味的分割とを用いて、前記シーンの洗練されたトップダウンビューを生成する手順(214)と、
    関係グラフモデルを用いて、前記シーンのパラメトリックトップダウン表現を決定する手順(216)と、
    前記パラメトリックトップダウン表現を用いて、前記シーンを通過する経路を決定する手順(406)とを実行させるシステム。
  13. 請求項12に記載のシステムにおいて、
    前記コンピュータプログラムは、前記ハードウェアプロセッサに、前記決定された経路を用いて、前記シーンの通過をナビゲートする手順をさらに実行させるシステム。
  14. 請求項13に記載のシステムにおいて、
    前記コンピュータプログラムは、前記ハードウェアプロセッサに、新たな透視画像内の物体の検出と、前記新たな透視画像内の奥行きの予測と、前記新たな透視画像に対する意味的分割と、前記新たな透視画像から前記検出された物体と前記予測された奥行きとを用いた注目マップの生成と、前記新たな透視画像から前記予測された奥行きと前記意味的分割とを用いた前記シーンの洗練されたトップダウンビューの生成と、前記シーンを通してナビゲーション後に関連グラフモデルを用いた前記シーンのパラメトリックトップダウン表現の決定とを繰り返す手順をさらに実行させるシステム。
  15. 請求項12に記載のシステムにおいて、
    前記関係グラフモデルは、ニューラルネットワークモデルとして実装されるシステム。
  16. 請求項12に記載のシステムにおいて、
    前記コンピュータプログラムは、さらに、前記ハードウェアプロセッサに、シーンのパラメトリックトップダウン表現と関連する注目マップとを含む訓練データを用いて、前記関係グラフモデルを訓練する手順を実行させるシステム。
  17. 請求項12に記載のシステムにおいて、
    前記コンピュータプログラムは、さらに、前記ハードウェアプロセッサに、前記予測された奥行きを用いて、前記透視画像の画素を三次元空間に投影することによって、初期トップダウンビューを生成する手順を実行させるシステム。
  18. 請求項17に記載のシステムにおいて、
    前記コンピュータプログラムは、さらに、前記ハードウェアプロセッサに、前記シーンの完全な意味的トップダウンビューを提供するために、前記初期トップダウンビューにおける前記投影された画素と前記投影された画素のそれぞれに対する意味的ラベルとから外挿させる手順を実行させるシステム。
  19. 請求項12に記載のシステムにおいて、
    前記コンピュータプログラムは、さらに、前記ハードウェアプロセッサに、前記関係グラフモデルへの入力として使用するために、前記洗練されたトップダウンビューと前記注目マップとを用いて、前記シーンの関係グラフ表現を生成する手順を実行させるシステム。
  20. 請求項12に記載のシステムにおいて、
    前記パラメトリックトップダウン表現は、前記シーン内の物体とレイアウト要素との座標および方向情報を含むシステム。
JP2023512763A 2020-10-08 2021-10-07 単一視点画像からの室内シーン理解 Pending JP2023540896A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202063089058P 2020-10-08 2020-10-08
US63/089,058 2020-10-08
US17/494,927 US20220111869A1 (en) 2020-10-08 2021-10-06 Indoor scene understanding from single-perspective images
US17/494,927 2021-10-06
PCT/US2021/053928 WO2022076658A1 (en) 2020-10-08 2021-10-07 Indoor scene understanding from single-perspective images

Publications (1)

Publication Number Publication Date
JP2023540896A true JP2023540896A (ja) 2023-09-27

Family

ID=81078779

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023512763A Pending JP2023540896A (ja) 2020-10-08 2021-10-07 単一視点画像からの室内シーン理解

Country Status (4)

Country Link
US (1) US20220111869A1 (ja)
JP (1) JP2023540896A (ja)
DE (1) DE112021005320T5 (ja)
WO (1) WO2022076658A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220198813A1 (en) * 2020-12-17 2022-06-23 Sri International System and method for efficient visual navigation
US20240020876A1 (en) * 2022-07-18 2024-01-18 Wing Aviation Llc Machine-Learned Monocular Depth Estimation and Semantic Segmentation for 6-DOF Absolute Localization of a Delivery Drone
EP4427000A1 (en) * 2022-10-21 2024-09-11 Mobileye Vision Technologies Ltd. Graph neural networks for parsing roads

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10769438B2 (en) * 2017-05-23 2020-09-08 Samsung Electronics Company, Ltd. Augmented reality
US10824862B2 (en) * 2017-11-14 2020-11-03 Nuro, Inc. Three-dimensional object detection for autonomous robotic systems using image proposals
US10902616B2 (en) * 2018-08-13 2021-01-26 Nvidia Corporation Scene embedding for visual navigation
EP3847803A4 (en) * 2018-09-05 2022-06-15 Vicarious FPC, Inc. METHOD AND SYSTEM FOR UNDERSTANDING A MACHINE CONCEPT
US11514293B2 (en) * 2018-09-11 2022-11-29 Nvidia Corporation Future object trajectory predictions for autonomous machine applications
US11195418B1 (en) * 2018-10-04 2021-12-07 Zoox, Inc. Trajectory prediction on top-down scenes and associated model
US11461963B2 (en) * 2018-11-16 2022-10-04 Uatc, Llc Systems and methods for generating synthetic light detection and ranging data via machine learning
US11449079B2 (en) * 2019-01-30 2022-09-20 Adobe Inc. Generalizable robot approach control techniques
US11210547B2 (en) * 2019-03-20 2021-12-28 NavInfo Europe B.V. Real-time scene understanding system
US11126180B1 (en) * 2019-04-30 2021-09-21 Zoox, Inc. Predicting an occupancy associated with occluded region
US11409304B1 (en) * 2019-09-27 2022-08-09 Zoox, Inc. Supplementing top-down predictions with image features
US20210197813A1 (en) * 2019-12-27 2021-07-01 Lyft, Inc. Systems and methods for appropriate speed inference

Also Published As

Publication number Publication date
DE112021005320T5 (de) 2023-07-27
US20220111869A1 (en) 2022-04-14
WO2022076658A1 (en) 2022-04-14

Similar Documents

Publication Publication Date Title
US10482674B1 (en) System and method for mobile augmented reality
US11024041B2 (en) Depth and motion estimations in machine learning environments
JP2023540896A (ja) 単一視点画像からの室内シーン理解
CN108885701B (zh) 使用机器学习的根据飞行时间的深度
Christie et al. Camera control in computer graphics
Andújar et al. Way‐finder: Guided tours through complex walkthrough models
AU2022345532B2 (en) Browser optimized interactive electronic model based determination of attributes of a structure
US10539881B1 (en) Generation of hotspot-containing physical design layout patterns
US10706205B2 (en) Detecting hotspots in physical design layout patterns utilizing hotspot detection model with data augmentation
CN107784671A (zh) 一种用于视觉即时定位与建图的方法与系统
Bera et al. Online parameter learning for data-driven crowd simulation and content generation
Barnett et al. Coordinated crowd simulation with topological scene analysis
US11328182B2 (en) Three-dimensional map inconsistency detection using neural network
CN115362478A (zh) 用于标记图像之间的空间关系的强化学习模型
CN114463825A (zh) 基于多模态融合的人脸预测方法及相关设备
US11188787B1 (en) End-to-end room layout estimation
TWI716938B (zh) 臉部表情建構方法、裝置及非暫態電腦可讀取紀錄媒體
US20230289498A1 (en) Machine learning system for parameterizing building information from building images
US20220230702A1 (en) Optical Flow Based Forecasting of Binding States in Molecular Dynamic Simulations
US10650581B1 (en) Sketch-based 3D fluid volume generation using a machine learning system
WO2022199325A1 (en) Robotic geometric camera calibration and monitoring alert configuration and testing
US20240331356A1 (en) Generating images for neural network training
Han Deep Representation Learning on Spatial and Temporal Data Towards Design and Construction Automation
Forootaninia Guiding simulations of highly dynamic phenomena
Azizi Graph-Representation Learning for Human-Centeredanalysis of Building Layouts

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230314

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240423