JP7148718B2 - 場面のパラメトリック上面視表現 - Google Patents

場面のパラメトリック上面視表現 Download PDF

Info

Publication number
JP7148718B2
JP7148718B2 JP2021520291A JP2021520291A JP7148718B2 JP 7148718 B2 JP7148718 B2 JP 7148718B2 JP 2021520291 A JP2021520291 A JP 2021520291A JP 2021520291 A JP2021520291 A JP 2021520291A JP 7148718 B2 JP7148718 B2 JP 7148718B2
Authority
JP
Japan
Prior art keywords
scene
representation
image
map
pixels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021520291A
Other languages
English (en)
Other versions
JP2021528798A (ja
Inventor
サミュエル シュルター、
ジヤン ワン、
ブユ リウ、
マンモハン チャンドラカー、
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Laboratories America Inc
Original Assignee
NEC Laboratories America Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Laboratories America Inc filed Critical NEC Laboratories America Inc
Publication of JP2021528798A publication Critical patent/JP2021528798A/ja
Application granted granted Critical
Publication of JP7148718B2 publication Critical patent/JP7148718B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R11/00Arrangements for holding or mounting articles, not otherwise provided for
    • B60R11/04Mounting of cameras operative during drive; Arrangement of controls thereof relative to the vehicle
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W50/08Interaction between the driver and the control system
    • B60W50/14Means for informing the driver, warning the driver or prompting a driver intervention
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0246Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
    • G05D1/0251Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means extracting 3D information from a plurality of images taken from different locations, e.g. stereo vision
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/698Control of cameras or camera modules for achieving an enlarged field of view, e.g. panoramic image capture
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/95Computational photography systems, e.g. light-field imaging systems
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R2300/00Details of viewing arrangements using cameras and displays, specially adapted for use in a vehicle
    • B60R2300/10Details of viewing arrangements using cameras and displays, specially adapted for use in a vehicle characterised by the type of camera system used
    • B60R2300/107Details of viewing arrangements using cameras and displays, specially adapted for use in a vehicle characterised by the type of camera system used using stereoscopic cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Mechanical Engineering (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Transportation (AREA)
  • Human Computer Interaction (AREA)
  • Probability & Statistics with Applications (AREA)
  • Signal Processing (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Electromagnetism (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)

Description

(関連出願情報)
本出願は2018年8月10日に出願された仮出願番号62/717,055および2019年7月30日に出願された米国特許出願番号16/526,073に対する優先権を主張するものであり、その全体が夫々参照により本明細書に組み込まれる。
(技術分野)
本発明は、人工知能、機械学習およびコンピュータビジョンに関し、より詳細には、三次元場面の理解および場面のパラメトリック上面視表現に関する。
(関連技術の説明)
知的エージェントが針路を決め、3次元(3D)世界と対話するためには、視覚的な完了が必要とされ得る。都市の場面での運転、散乱した机上の物体を把持するロボットなどを含むが、これらに限定されないタスクは、見えない領域についての固有の推論に基づいて実行することができる。オクルージョン関係が解決された場面の上面図または鳥瞰図(BEV)表現は、そのようなタスクを実行する際に有用であり得る。この表現はエージェントおよび場面要素の緻密な記述を、意味的および幾何学的に一貫している関係で提供することができ、これは、人間の視覚化にとって直感的であり、自律的な決定にとって正確であり得る。
本原理の一態様によれば、場面表現のパラメトリックモデルを実施する方法が提供される。前記方法は、場面の斜視図に対応する少なくとも1つの画像に基づいて、場面の最初のマップを生成することを含む。前記方法は、前記場面の非パラメトリック上面視表現を含む。前記方法は、さらに、前記最初のマップに基づいて、場面要素表現を取得するためパラメトリックモデルを実施することを含む。前記場面要素表現は、1つ以上の前記場面の場面要素の説明を提供し、前記場面の推定された意味的な配置に対応する。前記方法は、さらに、前記少なくとも1つの画像に基づいて、3次元定位を実行することによって前記1つ以上の場面要素の1つ以上の予測位置を識別し、前記場面要素表現に前記1つ以上の夫々の予測位置で前記1つ以上の場面要素を配置することによって自律的なタスクを実行するオーバレイを取得することを含む。
本原理の他の態様によれば、場面表現のパラメトリックモデルを実施するためのシステムが提供される。前記システムは、プログラムコードを記憶するための記憶装置と、記憶装置に動作可能に結合された少なくとも1つのプロセッサ装置とを含む。前記少なくとも1つのプロセッサ装置は、場面の斜視図に対応する少なくとも1つの画像に基づいて、場面の最初のマップを生成するために前記記憶装置に記憶されたプログラムコードを実行するよう構成される。前記最初のマップは、さらに、前記最初のマップに基づいて、場面要素表現を取得するためパラメトリックモデルを実施するよう構成される。前記場面要素表現は、1つ以上の前記場面の場面要素の説明を提供し、前記場面の推定された意味的な配置に対応する。前記少なくとも1つのプロセッサ装置は、さらに、前記少なくとも1つの画像に基づいて、3次元定位を実行することによって前記1つ以上の場面要素の1つ以上の予測位置を識別し、前記場面要素表現に前記1つ以上の夫々の予測位置で前記1つ以上の場面要素を配置することによって自律的なタスクを実行するオーバレイを取得するよう構成される。
これらおよび他の特徴および利点は添付の図面に関連して読まれるべき、その例示的な実施形態の以下の詳細な説明から明らかになるであろう。
本開示は、以下の図面を参照して、好ましい実施形態の以下の説明において詳細を提供する。
本発明の一実施形態による、自律的なタスクの性能を改善するための場面表現のパラメトリックモデルを実施するシステムの高レベルの概観のブロック/フロー図である。 本発明の一実施形態による、自律的なタスクの性能を改善するための場面表現のパラメトリックモデルを実施するためのシステム/方法のブロック/フロー図である。 本発明の一実施形態による、図2のシステム/方法内で最初のマップを生成するためにオクルージョン推論を実施するためのシステム/方法のブロック/フロー図である。 本発明の一実施形態による、図2のシステム/方法内のパラメトリックモデルの各パラメータを予測するためにパラメトリックモデル予測を実施するためのシステム/方法のブロック/フロー図である。 本発明の一実施形態による、図2のシステム/方法内のアプリケーション内でオーバレイを実施するためのシステム/方法のブロック/フロー図である。 本発明の一実施形態による、図2のシステム/方法内のトレーニング構成要素を使用してトレーニングを実施するためのシステム/方法のブロック/フロー図である。 本発明の一実施形態による、自律的なタスクの性能を改善するための場面表現のパラメトリックモデルを実施するためのシステム/方法を示すブロック/フロー図である。 本発明の一実施形態による、コンピュータシステムを示すブロック/フロー図である。
本明細書で説明される実施形態は、場面のパラメトリック表現を計算するために、本明細書では最初のマップとも呼ばれる、最初、非パラメトリック、鳥瞰図(BEV)、または上面視表現またはマップを使用することによって、場面を記述するパラメトリックモデルを取得(例えば、推測または予測)することができる。パラメトリックモデルは特定の場面要素の明白な記述を提供することにより、非パラメトリックモデルよりも豊かにすることができ、それにより、その後の高レベルタスク内で知的エージェントによって実施されるモデルの能力を改善することができる。本明細書で説明される実施形態は、強力な画像ベースの特徴を使用することができ、単一の赤-緑-青(RBG)画像からパラメトリックモデルを取得することができ、または複数の画像(例えば、ビデオシーケンス)に拡張することができる。例えば、場面パラメータは単眼カメラのセットアップから、例えば、単一のRGB画像またはビデオシーケンスから効率的に推測することができる。これは、入力として最初のマップを取り、最初のマップに基づいてモデルのすべてのパラメータ(例えば、場面属性)を予測する畳み込みニューラルネットワーク(CNN)を適用することによって達成することができる。モデルのパラメータは鳥瞰図の場面の図解の概観を構築するための場面のすべての属性を説明することができ、これは、例えば、自由空間推定または経路計画などのタスクの性能を大幅に改善し、単純化することができる。これらの予測が与えられると、出力を精緻化し、(a)予測されたパラメータが実行可能であること、および(b)入力がビデオシーケンスである場合、パラメータが時間的に一貫していることを確実にするグラフィカルモデルを構築することができる。システムのニューラルネットワークの一部、ならびにグラフィカルモデルはシミュレートされたデータおよび/または注釈付けされたデータ(例えば、人間の注釈を含むデータ)を使用してトレーニングすることができる。
より具体的には、画像の入力セットが特徴表現を抽出するために畳み込みニューラルネットワーク(CNN)によって処理することができる。特徴表現が与えられると、意味分割は、場面中の前景オブジェクトを識別するために適用される。次に、前景オブジェクトに対応する特徴表現の領域をマスクアウトすることができ、他のCNNを適用してオクルージョン推論を実行することができ、前景オブジェクトの背後の領域の意味論および幾何学(例えば、深度)を予測することができる。オクルージョン推論および予測、ならびにカメラの固有の較正を使用して、意味論は上面視にマッピングすることができる。
例示的な実施形態では、運転場面(例えば、屋外運転場面)を説明するパラメトリックモデルを推測することができ、これを知的エージェントが使用して、自律的なタスク(例えば、自律的な運転タスク)を実行することができる。このような運転場面の実施例としては高速道路、複雑な交差点のある都市領域などが挙げられるが、これらに限定されない。画像捕捉装置(例えば、カメラ)を車両に搭載して、場面の斜視図(上面視ではない)を得ることができる。場面内の前景オブジェクトは自動車、歩行者、交通標識、柱などを含むができるが、これらに限定されない。モデルのパラメータは上述したように、例えば、自由空間推定または経路計画などのタスクを大幅に改善し単純化することができる、鳥瞰図における運転場面の図解の概観を構築するために必要な場面のすべての属性を説明する。このような場面属性は車線の数、側方道路の存在およびその距離、横断歩道の存在およびその距離、道路の両側の歩道の存在などを含むことができるが、これらに限定されない。したがって、運転シナリオの場面属性は、オープンストリートマップ(OSM)データを確実に抽出する必要がなく、屋外運転場面の単一のRGB画像から予測することができる。したがって、本明細書で説明する実施形態は、複雑な場面表現を実施する画像処理システムの能力を改善することができる。
ここで、同一の数字が同一または類似の要素を表し、最初に図1に表す図を詳細に参照すると、自律的なタスク性能を改善するために場面表現のパラメトリックモデルを実施する例示的なシステム100の高レベルの概観のブロック/フロー図を示すブロック/フロー図が提供される。
図示のように、システム100は、車両110を含む。この例示的な実施形態では、車両110は自動車として描かれている。しかしながら、車両110は、本明細書に記載される実施形態による任意の適切な車両であり得る。
さらに図示するように、画像捕捉装置120は、車両110上に配置される。一実施形態では、画像捕捉装置120はカメラ(例えば、単眼カメラのセットアップ)を含む。この例示的な実施形態に示されるように、画像捕捉装置120は、車両110の屋根に搭載される。しかしながら、画像捕捉装置120は本明細書に記載の実施形態によれば、車両110の上または内側の任意の適切な位置に配置することができる。
画像捕捉装置120は、場面130の斜視図に関連する静止画および/またはビデオシーケンスを取得するように構成される。例えば、画像捕捉装置120は、場面の赤緑青(RGB)画像を捕捉するように構成することができる。さらに、図1の場面130は空の道路を示しているが、場面130は本明細書に記載の実施形態による任意の適切な運転場面とすることができる。このような運転場面の例としては高速道路、複雑な交差点のある都市領域などが挙げられるが、これらに限定されない。さらに、場面130の前景場面オブジェクトまたは要素は、他の自動車、歩行者、交通標識、柱などを含むができるが、これらに限定されない。
以下でさらに詳細に説明するように、システム100は、場面130の斜視図から配置を理解することによって、場面130を自動的に「理解する」ために使用することができる。場面130を理解することは、多くの具体的なアプリケーションに適用することができる場面モデルのパラメータを推測することを含む。このようなアプリケーションの一例は死角推論であり、これは、運転者の注意を必要とする場面130の領域が塞がれた場合、運転者に警告を与えることができる。例えば、歩道を塞いでいるトラック、道路を横断する歩行者、非常に遅れて運転者に見える可能性があるなどの危険はシステム100によって自動的に推測することができ、柔らかい警告を起こして、運転者に潜在的な危険を警告することができる。他の例は大型車両が左折し、潜在的な対向車を塞ぐ状況である。運転者も左折したい場合、柔らかい警告を起こすことができる。
画像捕捉装置120は、場面130に関連する少なくとも1つの画像に基づいて生成される場面の最初の表現またはマップを生成するために使用することができる。より具体的には、最初のマップは、場面130の非パラメトリック上面視表現を含むことができる。次に、最初のマップを使用して、パラメトリックモデルを実施して、場面130の1つ以上の場面要素の説明を提供する場面要素表現を取得することができる。
パラメトリックモデルは場面要素の「命名」を可能にすることによって、場面表現に基づいて動作を実行するためのより高レベルのアプリケーションの能力を改善することができる。これらの要素に距離を割り当てることができ、そしてより高レベルのアプリケーションはこの情報を読み出すことができる。例えば、複雑な運転場面の場合、パラメトリックモデルは「側道」または「交差点の横断歩道」のような場面要素の命名を可能にすることができる。対照的に、非パラメトリック世界では上面視の画素がkメートル離れており、画素が、例えば「横断歩道」としてラベル付けされているということができるだけである。しかしながら、画素間の関係はまだ存在しないことがある。例えば、「道路」とラベル付けされた画素について、画素が主道路に属するかまたは側道に属するかは分からない。さらに、パラメトリックモデルは、シミュレータでトレーニングすることができ、上面視において場面の意味論を表現する必要があるだけであり、将来のタスクに必要とされる属性に容易に拡張することができる。
場面要素表現は、場面の推定された意味的な配置に対応することができる。1つ以上の場面要素の1つ以上の場面の予測位置は、少なくとも1つの画像に基づいて3次元定位を実行することによって識別することができる。次に、1つ以上の夫々の予測位置を有する1つ以上の場面要素を場面要素表現に配置することによって、オーバレイを取得することができる。オーバレイは、夫々が自律的なタスクに関連する1つ以上のアプリケーションを実行するために取得することができる。
図1の例示的な実施形態は車両の状況内で説明されるが、本明細書で説明される実施形態は自律的なタスクの実行において複雑な場面表現を実施することができる任意のシステムに適用することができる。
図2を参照すると、場面表現のパラメトリックモデルを実施するシステム/方法200を図示するブロック/フロー図が提供される。さらに詳細に説明するように、システム/方法200は、場面のパラメトリック表現を取得するためにシステム100内で実施することができる。
入力画像210のセットが取得される。入力画像210のセットは、ビデオシーケンスの1つ以上の単一画像および/または1つ以上のフレームを含むことができる。例えば、入力画像210のセットは、1つ以上の赤-緑-青(RGB)画像を含むことができる。
入力画像210のセットは、オクルージョン推論構成要素220によって受信することができる。オクルージョン推論構成要素220はオクルージョン推論を実行し、場面(例えば、自動車、歩行者、交通標識、柱)から識別された前景オブジェクトの背後の領域の意味論および幾何学(例えば、深度)を予測するように構成され、オクルージョン推論意味論および幾何学は、本明細書では最初のマップと呼ばれる最初の鳥瞰図(BEV)または上面視表現またはマップを生成するために使用することができる。オクルージョン推論構成要素220に関するさらなる詳細は、図3を参照して以下に説明される。
最初のマップは非パラメトリック表現であり、その後のより高いレベルのタスクに使用することをより困難にする。これらの困難に取り組むために、場面のパラメトリック表現を最初のマップから計算することができる。より具体的には、パラメトリックモデル予測構成要素230によって最初のマップを受信して、パラメトリックモデルの各パラメータを予測することができる。パラメトリックモデル予測構成要素230に関するさらなる詳細は、図4を参照して以下に説明される。
入力画像210のセットはまた、物体の3D定位(例えば、単眼3D定位)を行うために、3次元(3D)定位構成要素240によって受信することができる。入力画像210のセットが与えられると、3D定位構成要素240は、物体検出器を実施することができる。例えば、運転場面の例示的実施形態では、物体検出器は、車両、歩行者、信号機、交通標識などの交通関係者を検出することができる。本明細書に記載の実施形態による物体検出器によって任意の適切な物体検出方法を使用することができる。
ビデオシーケンスが提供される実施形態では、複数ターゲット物体追跡装置が実施され、時間と共に物体に識別を割り当てるよう実施される。次に、すべての物体の動きからの構造(SFM)に基礎付けられた3D定位を実施することができる。
単一画像が提供される実施態様において、画素単位の深度は、単眼深度推定モデルを使用して、単一画像だけから推定され得る。本明細書に記載される実施形態にしたがって、任意の適切な単眼深度推定モデルを使用して、画素単位の深度を推定することができる。その後、推定された画素単位の深度は、物体の寸法のカテゴリ毎の事前確率に依存することで、各物体3Dバウンディングボックス(物体検出器から)を3D界に持ち上げるために使用される。
パラメトリックモデル予測構成要素230および3D定位構成要素240からの出力は、オーバレイ構成要素250によって受信される。オーバレイ構成要素250は、(構成要素240から)3D界におけるそれらの予測位置を有する場面物体および要素を(構成要素230から)場面の推定された意味的な配置に置くことができる。
例えば、運転場面の例示的な実施形態では、交通関係者は、場面の推定された意味的な配置に置かれる。交通関係者の意味的な配置と3Dバウンディングボックスの両方は同じメートル法の空間にあるので、それらは重ね合わせることができる。さらに、場面配置はパラメトリック形式を有するので、各交通関係者には、その位置(例えば、「自動車1が車線3上を走行している」または「歩行者5が横断歩道2上を歩いている」)についてより有益な属性を割り当てることができる。これらの属性は、一組のアプリケーション260に役に立つ。アプリケーション260のセットに関するさらなる詳細は、図5を参照して以下に説明される。
システム/方法200は、トレーニング構成要素270をさらに含むことができる。トレーニング構成要素270は、オクルージョン推論構成要素220による最初のマップ出力に基づいて、パラメトリックモデル予測構成要素230のネットワークをトレーニングすることができる。モデルは、上面視で場面の意味論を表現するだけでよく、将来のタスクに必要な属性を容易に拡張することができるシミュレータを用いてトレーニングすることができる。トレーニング構成要素270に関するさらなる詳細は、図6を参照して以下に説明される。
図3を参照すると、最初のマップを生成するためにオクルージョン推論を実施するためのシステム/方法300を示すブロック/フロー図が提供されている。図示のように、最初の画像210のセットは図2を参照して上述したように、オクルージョン推論構成要素220によって受信される。
より具体的には、オクルージョン推論構成要素220は、特徴抽出構成要素310と、意味的な分割構成要素320と、特徴マスク構成要素330と、意味的なインペインティング構成要素340と、深度インペインティング構成要素350と、上面視(BEV)マップ構成要素360とを含むことができる。
特徴抽出構成要素310は畳み込みニューラルネットワーク(CNN)を使用して、入力画像210のセットの入力画像から1つ以上の特徴(例えば、1つ以上の空間的な特徴)を含む特徴表現を抽出することができる。入力画像(例えば、1/16)よりも低い解像度では、入力画像210のセットの入力画像の各画素がD次元特徴ベクトルによって表すことができる。任意の適切なCNNアーキテクチャは、入力画像から特徴表現を抽出するために特徴抽出構成要素310によっては使用される。適切なCNNアーキテクチャの例としてはResNet-101、ResNet-18、VGG-16などを含むが、これらに限定されない。
意味的な分割構成要素320は、特徴抽出構成要素310によって抽出された特徴に基づいて、入力画像の各画素の意味的なカテゴリを予測することができる。任意の適切な意味的な分割アーキテクチャは、意味的な分割構成要素320によって使用され、本明細書で説明する実施形態にしたがって入力画像の各画素について意味的なカテゴリを予測することができる。
特徴マスク構成要素330は、意味的な分割構成要素320の出力に基づいて、マスク化された特徴表現(例えば、マスク化された特徴ベクトル)を生成することができる。より具体的には、マスク化された特徴表現は、特徴ベクトルの例ではD次元特徴ベクトルをすべて0に設定することによって、前景オブジェクトとしてラベル付けされた「特徴」画素をマスクすることによって生成することができる。本明細書で使用されるように、前景オブジェクトは「平らな」オブジェクトでないカテゴリを指す。入力画像が運転場面である例示的な実施形態では「平らな」オブジェクトは、例えば、道路および歩道を含むことができ、「平らでない」オブジェクトは、例えば、車両および歩行者を含むことができる。特徴レベル上の前景オブジェクトをマスクすることは、画像レベル上の前景オブジェクトをマスクすることと比較して、オクルージョン推論速度を改善することができる(例えば、約2倍の速さ)。
意味的なインペインティング構成要素340は、入力画像のすべての画素(マスク化された画素を含む)について背景(または「平らな」)カテゴリを予測することができ、深度インペインティング構成要素350は、マスク化された特徴表現に基づいて、入力画像のすべての画素(マスク化された画素を含む)について深度値を予測することができる。したがって、マスク化された画素内のカテゴリは、特徴の状況情報を見ることによって、インペイントまたは幻覚を起こされ得る。
BEV構成要素350へのマップは構成要素340および350によって出力された予測に基づいて、また、一実施形態では固有のカメラ較正マトリクス上で、各画素(したがって、その意味的なラベル)を3次元(3D)にマッピングすることによって、最初の(BEV)マップを生成することができる。固有のカメラ較正マトリクスは、手動で行うことができる。実際の固有のカメラ較正が与えられる場合、上面視マップにおいて距離は正しいので、出力は計量的に修正すことができる。そうでなければ、関係は正しいが、絶対スケールは正しくない。何れにせよ、上面視マップは生成される。その後、上からの3D点群が観察され、高さ軸が落とされる。重なり合う画素は、それらの夫々の意味的な分割スコアにしたがって貯蔵(例えば、最大貯蔵)することができる。
最初のマップはサイズH×W×Cの配列を含むことができ、ここで、HおよびWは夫々、画素におけるマップの高さおよび幅を表す空間寸法であり、Cは、考慮されるカテゴリの数である。空間寸法は、実世界の座標(メートルなど)に関連している。例えば、幅30メートル、長さ60メートルの窓を考えることができ、これを128×256寸法配列にマッピングすることができる。
BEV構成要素350へのマップによって生成された最初のマップは図2を参照して上述され、図4および図6を参照して以下にさらに詳細に説明するように、パラメトリックモデル予測構成要素230およびトレーニング構成要素270によって受信される。
図4を参照すると、パラメトリックモデルの各パラメータを予測するためのパラメトリックモデル予測を実施するためのシステム/方法400を示すブロック/フロー図が提供される。示されるように、最初の(BEV)マップ405は図2を参照して上述したように、パラメトリックモデル予測構成要素220によって受信される。
より具体的には、パラメトリックモデル予測構成要素220は、場面属性予測構成要素410、グラフィカルモデリング構成要素420、および場面要素表現構成要素430を含むことができる。
場面属性予測構成要素410は、他のCNNを使用して、最初のマップ405に基づいて場面モデルの各場面属性またはパラメータを予測することができる。運転場面の例示的な実施形態では予測することができる場面属性またはパラメータの例は、主道路の車線の数、主道路の曲率、主道路から横道までの距離、主道路の横断歩道の存在などが含まれるが、これらに限定されない。パラメータのいくつかは離散的であってもよく、他は連続的であってもよい。CNNは、異なるタイプのパラメータを予測する小特徴抽出器およびいくつかのサブネットワークを含むことができる。CNNは図2を参照して上述され、図6を参照して以下にさらに説明されるように、トレーニング構成要素270を使用して、監視された方法でトレーニングすることができる。
グラフィカルモデル構成要素420は、場面属性またはパラメータのすべてについて予測された確率を入力として受信するグラフィカルモデルを実施することができる。グラフィカルモデルは、最後の場面表現の実現可能性を保証することができる。例えば、運転場面の例示的な実施形態では、グラフィカルモデルは、左または右に予測される横断歩道がある場合、交差点があることを保証することができる。基本的に、グラフィカルモデルは、不可能な場面配置を説明する場面パラメータの予測を防止する。さらに、グラフィカルモデルは、一対の属性予測に基づいて最後の精度を改善するために情報を活用することができる。グラフィカルモデルは場面表現の時間的な一貫性を保証するために、その後のフレームにわたって(時間的に)定義することもできる。グラフィカルモデルのパラメータは離散的な変数に変換することができ(例えば、連続パラメータを離散化することができる)、推論方法は、推論を取得するために適用することができる。例えば、本明細書で説明する実施形態によれば、任意の適切な推論方法を使用することができるが、推論方法は信念伝搬推論方法とすることができる。
場面要素表現構成要素430は、場面要素の最後の場面説明を提供する場面要素表現を生成する。例えば、運転場面の例示的な実施形態では、場面要素の場面説明は、道路、車線、横断歩道、歩道、交差点などの背景オブジェクトを含むことができる。場面要素表現は図2を参照して上述され、図5を参照して以下でさらに詳細に説明されるように、アプリケーション260のセットのアプリケーションのような、その後の高レベルアプリケーションの基礎として役に立つことができる。予測された場面属性は、例えば、道路/交差点のトポロジー、走行車線、歩道、および横断歩道を含み得る走行場面の図解の概観を構築するのに十分であり得ることに留意されたい。場面要素表現は図2を参照して上述したように、オーバレイ構成要素250によって受信される。
図5を参照すると、アプリケーション内でオーバレイを実施するシステム/方法500を示すブロック/フロー図が提供されている。示されるように、オーバレイ構成要素250は図2を参照して上述したように、アプリケーション260のセットのアプリケーションと対話する。
より具体的には、アプリケーション260のセットが、例えば、自由空間推定アプリケーション510、経路計画アプリケーション520、および挙動予測アプリケーション530を含むことができる。アプリケーション510から530は、図2および図4を参照して上述したパラメトリックモデル予測構成要素230によって生成された場面表現を活用することができる。
例えば、カメラからの車両の距離(例えば、図2を参照して上述した3D定位確認構成要素240を介して)や車線情報(例えば、図2および4を参照して上述したパラメトリックモデル予測構成要素230によって生成された場面要素表現を介して)などの、与えられた属性の運転場面の例示的実施形態では、自由空間推定アプリケーション510は、自由空間を計算することができる。他の例は経路計画であり、場面要素(例えば、交差点および横断歩道)のパラメトリック表現は改善された(例えば、より安全な)経路の生成を可能にすることができる。
図6を参照すると、図2を参照して上述したように、トレーニング構成要素270を使用してトレーニングを実施するためのシステム/方法600を示すブロック/フロー図が提供されている。
トレーニング構成要素270は、図2-3を参照して上述したオクルージョン推論構成要素220をトレーニングするために意味的な分割グラウンドトゥルースデータを使用することができる意味的な分割構成要素602を含む。より具体的には、意味的な分割構成要素602は、意味的な分割グラウンドトゥルースデータを使用して、意味的な分割構成要素320によって実行される意味的な分割、および/または図3を参照して上述した意味的なインペインティング構成要素340によって実行される意味的なインペインティングをトレーニングすることができる。意味的な分割および/または意味的なインペインティングは、本明細書で説明される実施形態による任意の適切なトレーニングプロトコルを使用してトレーニングすることができる。例えば、意味的な分割は、交差エントロピー損失関数を使用してトレーニングすることができる。意味的なインペインティングは意味的な分割と同じ交差エントロピー損失関数を使用してトレーニングすることができるが、塞がれた領域の意味が未知であるため、前景オブジェクトによって覆われる画素で利用可能なグラウンドトゥルースを有しない。前景オブジェクトをシミュレートするために(例えば、特徴マップのランダムパッチを0に設定することによって)任意のオクルーダを人工的に追加し、そして、グラウンドトゥルース知識を取得することによって、監視された損失を使用して、意味的インペインティングをトレーニングすることができる。
トレーニング構成要素270は、1つ以上の深度マップを活用することによって画像から深度予測を生成することができる深度予測構成要素604をさらに含む。1つ以上の深度マップは例えば、レーザスキャナおよび/またはステレオカメラセットアップによって提供され得る。深度予測はトレーニング、例えば、図3を参照して上述した深度インペインティング構成要素350によって実行される深度インペインティング、および/または図2を参照して上述した3D定位構成要素240によって実行される3D定位(例えば、単眼3D定位)に使用することができる。深度予測(例えば、単眼深度予測)トレーニングのため、平面回帰損失関数を使用することができる。例えば、最小絶対偏差損失関数(例えば、L1損失関数)および/または最小二乗誤差損失関数(例えば、L2損失関数)を使用することができる。深度インペインティングトレーニングは、意味的なインペインティングトレーニングを参照して上述したものと同様のトレーニングプロトコルを使用して実行することができる。
トレーニング構成要素270は、鳥瞰図(BEV)構成要素(「シミュレータ」)606内にシミュレータをさらに含むことができる。シミュレータ606は、ノードとしてモデル化するすべての所望の場面属性またはパラメータを有する生成グラフィカルモデルとして実施することができる。運転場面の状況におけるこれらのノードの例は、車線の数、自身の車線(例えば、自身の自動車が運転する車線)、交差点の存在および距離、歩道の存在などを含むが、これらに限定されない。代々のサンプリングは、モデルからパラメータまたは場面属性のサンプルを取得するためにシミュレータ606によって使用される。これらの属性は場面を(完全に)記述することができ、図4の場面属性予測構成要素410を使用して場面属性を予測するためにCNNをトレーニングするためのグランドトゥルースとして役に立つことができる。
場面パラメータが与えられると、シミュレータ606は、シミュレートされたBEVクリーンサンプル、BEVクリーン608の形態で、場面の意味を上面視で表現することもできる。BEVクリーン608は、シミュレータ606の表現機能の出力を説明することができる。BEVクリーン608は形状H×W×Cを有する3Dテンソルに対応することができ、ここで、HおよびWはマップの空間解像度を説明し、Cは、処理される意味カテゴリの数を指す。空間解像度は、典型的には実空間において夫々60メートルおよび30メートルに対応する256×128画素に設定される。運転場面の状況においてシミュレータによって処理されるカテゴリはC=4となるように、道路、歩道、車線境界および横断歩道を含むことができるが、これらに限定されない。しかしながら、カテゴリは、カテゴリ要件に応じて、代替実施形態において他のカテゴリに拡張することができる。
シミュレータ606はさらに、シミュレートされたグラウンドトゥルース属性610を生成する。シミュレートされたグラウンドトゥルース属性610は、シミュレータ606からサンプリングされ、BEVクリーン608を表現するために使用される、場面属性またはパラメータを含む。すなわち、シミュレートされたグラウンドトゥルース属性610は、BEVクリーン608の表現された画像に対応する。したがって、BEVクリーン608およびシミュレートされたグラウンドトゥルース属性610は、図2および図4のパラメトリックモデル予測構成要素230によって予測されるパラメトリックモデルなどの、パラメトリックモデルに対するシミュレートされたトレーニングデータを構成する。BEVクリーン608およびシミュレートされたグラウンドトゥルース属性610は、人間の注釈努力は必要ではなく、純粋にシミュレーションによって生成され得る。
場面属性予測ネットワークをトレーニングするためにシミュレートされたトレーニングデータ(例えば、BEVクリーン608およびグラウンドトゥルース属性610)を生成することに加えて、手動グラウンドトゥルース属性612をさらに取得することができる。手動グラウンドトゥルース属性612は「実際の」データ(例えば、入力画像および最初のマップ)に対する手動注釈を含む。このようにして、場面属性予測は、シミュレートされたデータ、実際のデータ、またはそれらの組み合わせからトレーニングされ得る。
トレーニング構成要素270は、監視損失構成要素614をさらに含むことができる。監視損失構成要素614は場面属性のタイプに応じて分類および回帰損失関数を課すことによって場面属性予測構成要素(例えば、図4の場面属性予測構成要素410)をトレーニングするために、BEVクリーン608およびシミュレートされたグランドトゥルース属性610を含むシミュレートされたトレーニングデータ、ならびに手動グランドトゥルース属性610および最初の(BEV)マップを含む実際のデータを使用することができる。
場面属性予測構成要素のトレーニング処理を説明するために、複製616-1および616-2を含むモデルの複製が示されている。複製616-1および616-2の一方は図3の上面視マップ(BEV)構成要素360によって出力されたBEVマップを含む実際のデータを見ており、複製616-1および616-2の他方は、BEVクリーン608を含むシミュレートされたデータを見ている。この例示的な例では、複製616-1は実際のデータを見ており、複製616-2はシミュレートされたデータを見ている。
監視損失構成要素614は、学習可能な重みを有するニューラルネットワークを含むことができる。複製616-1および616-2と元のモデルは、トレーニング処理中に更新することができる同じ重みを共有することができる。
上述のように、本明細書に記載される実施形態の目標は所与の入力画像について場面属性を予測することであり、これは、入力として、推定された意味的上面視またはBEVマップ(例えば、図3の上面視(BEV)構成要素360によって出力されるBEVマップ)を取得する。この実際のBEVマップはノイズであり、したがって、シミュレータ606がBEVクリーン608の形で提供する理想的なシミュレートされた出力とは異なるものとなり得る。
これに取り組むために、トレーニング構成要素270は、敵対する損失構成要素618をさらに含む。敵対する損失構成要素618は、複製616-1および616-2内のデータの内部特徴表現を整列させることによって、ドメイン適応を実行することができる。したがって、敵対する損失構成要素618は場面属性予測構成要素410の内部特徴に作用し、入力がシミュレートされているか実際のものであるかにかかわらず、内部特徴が分布において類似することを奨励する。
特徴表現を整列させる際の主な課題は任意の実際のサンプル(例えば、図3の上面図(BEV)構成要素360へのマップによって出力されるBEVマップ)と、任意のシミュレートされたサンプル(例えば、BEVクリーン608)との間の対応の欠落である。この課題に取り組むために、選別器として作用するニューラルネットワークを含む選別器ネットワークを含む敵対する損失関数が使用される。選別器ネットワークは実際のデータ(例えば、図3のマップ上面視(BEV)構成要素360によって出力されるBEVマップ)またはシミュレートされたデータ(例えば、BEVクリーン608)の何れかに対する場面属性予測構成要素410の内部表現を入力として取ることに留意されたい。選別器ネットワークは、実際のサンプルとシミュレートされたサンプルとを区別するようにトレーニングすることができる。すなわち、タスクは「実際の」(システム出力)と「偽りの」(シミュレータ)の2つのラベルの分類である。選別器ネットワークは、シミュレータ606からデータが入力として提供されても、実際のデータ(例えば、システム出力)に対するクラスのスコアを最大化する目的を設定することによって特徴表現(ドメイン適応)を整列させるための損失関数として作動することができる。したがって、目的はシミュレートされたデータ(例えば、BEVクリーン608)を実際のデータ(例えば、図3の上面視(BEV)へのマップ構成要素360によって出力されるBEVマップ)のように見せることによって選別器ネットワークを「騙す」ことである。
敵対する損失構成要素618によって実行されるトレーニング手順は人間の注釈を必要とせずに、シミュレートされたデータから場面パラメータ予測構成要素410をトレーニングするのに役に立つ。これにより、実際の雑音に似ている構造化された雑音を予測することができる。
図7を参照すると、自律的なタスクの性能を改善するための場面表現のパラメトリックモデルを実施するためのシステム/方法700を図示するブロック/フロー図が提供される。モデルのパラメータは場面の属性またはパラメータを説明することができ、これは、例えば、自由空間推定および経路計画のようなタスクを大幅に容易にすることができる、上面または鳥瞰図における場面の図解の概観を構築するために必要とされる。場面が運転場面である実施形態では、場面属性は車線の数、歩道の存在および歩道およびその距離、横断歩道の存在およびその距離、道路の何れかの側の歩道の存在などを含むことができるが、これらに限定されない。
ブロック710において、場面の斜視図に対応する少なくとも1つの画像が、画像捕捉装置を使用して取得される。一実施形態では、画像捕捉装置は、カメラ(例えば、単眼カメラセットアップ)を含む。画像捕捉装置は、静止画像および/またはビデオシーケンスを捕捉するように構成することができる。例えば、画像捕捉装置は、赤緑青(RGB)画像を捕捉するように構成される。画像捕捉装置は、例示的な実施形態では少なくとも1つの画像が運転場面の斜視図を含むように、車両上に配置または搭載することができる。
ブロック720において、少なくとも1つの画像に基づいて場面の最初のマップを生成することができる。最初のマップは、最初の鳥瞰図(BEV)または上面視非パラメトリック表現またはマップに対応する。非パラメトリック表現のために、最初のマップは、その後のより高いレベルのタスクに関して使用することがより困難である。
最初のマップを生成することは、オクルージョン推論を実行することを含むことができる。例えば、オクルージョン推論を実行することは、少なくとも1つの画像から特徴表現を抽出することを含むことができる。畳み込みニューラルネットワーク(CNN)は、少なくとも1つの画像から1つ以上の特徴(例えば、1つ以上の空間的な特徴)を含む特徴表現を抽出するために使用することができる。入力画像よりも低い解像度(例えば、1/16)では、少なくとも1つの画像の各画素がD次元特徴ベクトルによって表すことができる。任意の適切なCNNアーキテクチャは、少なくとも1つの画像から特徴表現を抽出するために使用することができる。適切なCNNアーキテクチャの実施例は、ResNet-101、ResNet-18、VGG-16などが挙げられるが、これらに限定されない。
オクルージョン推論を実行することは、特徴表現に基づいて、少なくとも1つの画像の複数の画素の各々について意味的なカテゴリを取得するために意味的な分割を実行することをさらに含むことができる。任意の適切な意味的な分割アーキテクチャを使用して、本明細書で説明する実施形態にしたがって、入力画像の各画素の意味的なカテゴリを予測することができる。
オクルージョン推論を実行することは、意味的な分割に基づいてマスク化された特徴表現を生成することをさらに含むことができる。マスク化された特徴表現を生成することは、場面において識別された1つ以上の前景オブジェクトに対応する1つ以上の領域をマスクアウトすることを含むことができる。より具体的には、マスク化された特徴表現は、特徴ベクトルの例ではD次元特徴ベクトルをすべて0に設定することによって、前景オブジェクトとしてラベル付けされた「特徴」画素をマスクすることによって生成することができる。本明細書で使用されるように、前景オブジェクトは「平らな」オブジェクトではないカテゴリを指す。入力画像が運転場面である例示的な実施形態では「平らな」オブジェクトは、例えば、道路および歩道を含むことができ、「平らでない」オブジェクトは、例えば、車両および歩行者を含むことができる。特徴レベル上の前景オブジェクトをマスクすることは、画像レベル上の前景オブジェクトをマスクすることと比較して、オクルージョン推論速度を改善することができる(例えば、約2倍の速さ)。
オクルージョン推論を実行することは、さらに、マスク化された特徴表現に基づいて、複数の画素のそれぞれについて、背景カテゴリおよび深度値を予測することを含むことができる。例えば、意味的なインペインティングは入力画像のすべての画素(マスク化された画素を含む)について背景(または「平らな」)カテゴリを予測することができ、深度インペインティング構成要素は、マスク化された特徴表現に基づいて、入力画像のすべての画素(マスク化された画素を含む)について深度値を予測することができる。したがって、マスク化された画素内のカテゴリは、特徴の状況情報を見ることによって、インペイントまたは幻覚を起こさせ得る。
オクルージョン推論を実行することは、さらに、複数の画素の各々を、背景カテゴリおよび深度値に基づいて3次元(3D)にマッピングして、最初のマップを生成することを含むことができる。複数の画素のそれぞれを3Dにマッピングすることは、画像捕捉装置(例えば、固有の較正マトリクス)の固有の較正を使用することを含むことができる。上からの3D点群が観察され、高さ軸が落とされる。重なり合う画素は、それらの夫々の意味的な分割スコアにしたがって貯蔵(例えば、最大貯蔵)することができる。最初のマップはサイズH×W×Cの配列を含むことができ、ここで、HおよびWは夫々、画素におけるマップの高さおよび幅を表す空間次元であり、Cは、考慮されるカテゴリの数である。空間次元は、実世界の座標(メートル単位など)に関連している。例えば、幅30メートル、長さ60メートルの窓を考えることができ、これを128×256次元配列にマッピングすることができる。
ブロック730において、最初のマップに基づいて場面要素表現を取得するために、パラメトリックモデルは実施される。場面要素表現を取得するためにパラメトリックモデルを実施することは、最初のマップから場面のパラメトリック表現を計算することを含むことができる。より具体的には、パラメータモデルの各パラメータは、最初のマップから予測することができる。パラメトリックモデルは、最初のマップの非パラメトリック表現の上述の困難に取り組む。
場面属性予測は最初のマップに基づいて場面モデルの各場面属性またはパラメータを予測するために、CNNを使用して実行することができる。運転場面の例示的な実施形態では予測することができる場面属性またはパラメータの例は、主道路上の車線の数、主道路の曲率、道路の左側までの距離、主道路の横断歩道の存在などが含まれるが、これらに限定されない。パラメータのいくつかは離散的であってもよく、他は連続的であってもよい。場面属性予測を実行するために使用されるCNNは、小さい特徴抽出器および異なるタイプのパラメータを予測するいくつかのサブネットワークを含むことができ、図6を参照して上述したように監視された方法でトレーニングすることができる。
場面要素表現を取得するためにパラメトリックモデルを実施することは、最初のマップから取得された1つ以上の場面パラメータの夫々に対応する確率に基づいて、場面要素表現の実現可能性を保証するためにグラフィカルモデルを実施することをさらに含むことができる。グラフィカルモデルは、入力として、場面属性またはパラメータのすべてについて予測された確率を受信することができる。例えば、運転場面の例示的な実施形態では、グラフィカルモデルは、左または右に予測される横断歩道がある場合、交差点があることを保証することができる。基本的に、グラフィカルモデルは、不可能な場面レイアウトを説明する場面パラメータの予測を防止する。さらに、グラフィカルモデルは、一対の属性予測に基づいて最終的な精度を改善するために情報を活用することができる。グラフィカルモデルは場面表現の時間的な一貫性を保証するために、その後のフレームにわたって(時間的に)定義することもできる。グラフィカルモデルのパラメータは離散的な変数に変換することができ(例えば、連続パラメータを離散化することができる)、推論方法は、推論を取得するために適用することができる。例えば、本明細書で説明する実施形態によれば、任意の適切な推論方法を使用することができるが、
信念伝搬を推論に使用することができる。
場面要素表現は、場面要素の最後の場面説明を提供する。例えば、運転場面の例示的な実施形態では、場面要素の場面説明は、道路、車線、横断歩道、歩道、交差点などの背景オブジェクトを含むことができる。場面要素表現は図2を参照して上述され、図5を参照して以下でさらに詳細に説明されるように、アプリケーション260のセットのアプリケーションのような、その後の高レベルアプリケーションの基礎として役に立つことができる。予測された場面属性は、例えば、道路/交差点のトポロジー、走行車線、歩道、および横断歩道を含み得る走行場面の図解の概観を構築するのに十分であり得ることに留意されたい。
ブロック740では、少なくとも1つの画像に基づいて3D定位を実行することによって、1つ以上の場面要素の1つ以上の予測位置が識別される。例えば、物体検出器は、場面内の物体を検出するために使用することができる。運転場面の例示的実施形態では、物体検出器は、車両、歩行者、交通信号、交通標識などの交通関係者を検出することができる。任意の適切な物体検出方法は、本明細書に記載の実施形態による物体検出器を使用することができる。
ビデオシーケンスが提供される実施形態では、複数ターゲット物体追跡装置が実施され、時間と共に物体に識別を割り当てるよう実施される。次に、すべての物体の動きからの構造(SFM)に基礎付けられた3D定位を実施することができる。
単一画像が提供される実施態様において、画素単位の深度は、単眼深度推定モデルを使用して、単一画像だけから推定され得る。本明細書に記載される実施形態にしたがって、任意の適切な単眼深度推定モデルを使用して、画素単位の深度を推定することができる。その後、推定された画素単位の深度は、カテゴリ毎の事前確率に依存することで、各物体3Dバウンディングボックス(物体検出器から)を3D界に持ち上げるために使用される。
ブロック750において、自律的なタスクを実行するためのオーバレイが、1つ以上の夫々の予測位置を有する1つ以上の場面要素を場面要素表現上に置くことによって取得される。
例えば、運転場面の例示的な実施形態では、交通関係者は、場面の推定された意味的な配置に置かれる。交通関係者の意味的な配置とバウンディングボックスの両方は同じメートル法の空間にあるので、それらは単に重ね合わせることができる。さらに、場面配置はパラメトリック形式を有するので、各TPに、それらの位置(例えば、「自動車1が車線3上を走行している」または「歩行者5が横断歩道2上を歩いている」)についてより有益な属性を割り当てることができる。これらの属性は、一組のアプリケーション260の運用に役に立つ。
ブロック760で、1つ以上のアプリケーションにオーバレイを適用することによって、自律的なタスクが実行される。1つ以上のアプリケーションは、自由空間、距離の計算のための経路計画、および挙動予測を計算するために1つ以上の自由空間推定を含みうる。例えば、運転場面の例示的実施形態では、自由空間推定は、例えば、カメラおよび車線からの車両の距離のような属性に基づいて計算することができ、自由空間推定アプリケーション510は、自由空間を計算することができる。経路計画において、場面要素(例えば、交差点および横断歩道)のパラメトリック表現は、改良された(例えば、より安全な)経路の生成を可能にすることができる。そのようなアプリケーションの他の実施例は、運転者の注意を必要とする場面の領域が塞がれた場合、運転者に警告を与える視覚推論である。例えば、歩道を塞いでいるトラック、道路を横断する歩行者、非常に遅れて運転者に見える可能性があるなどの危険は自動的に推測することができ、柔らかい警告を起こして、運転者に危険を警告することができる。他の例は大型車両が左折し、潜在的な対向車を塞ぐ状況である。運転者も左折したい場合、柔らかい警告を起こすことができる。
システム/方法700に関するさらなる詳細は、図1-6を参照して上述される。
本明細書に記載する実施形態は完全にハードウェアであってもよく、完全にソフトウェアであってもよく、またはハードウェアおよびソフトウェア要素の両方を含むものであってもよい。好ましい実施形態では、本発明がファームウェア、常駐ソフトウェア、マイクロコードなどを含むがこれらに限定されないソフトウェアで実施される。
実施形態は、コンピュータまたは任意の命令実行システムによって、またはそれに関連して使用するプログラムコードを提供する、コンピュータ使用可能またはコンピュータ読み取り可能媒体からアクセス可能なコンピュータプログラム製品を含むことができる。コンピュータ使用可能媒体またはコンピュータ可読媒体は、命令実行システム、装置、またはデバイスによって、またはそれに関連して使用するためのプログラムを格納、通信、伝搬、または搬送する任意の装置を含むことができる。媒体は、磁気、光学、電子、電磁気、赤外線、または半導体システム(または装置またはデバイス)、または伝搬媒体とすることができる。媒体は、半導体またはソリッドステートメモリ、磁気テープ、取り外し可能コンピュータディスケット、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、リジッド磁気ディスクおよび光ディスクなどのコンピュータ読み取り可能な記憶媒体を含むことができる。
各コンピュータプログラムは本明細書に記載する手順を実行するために、記憶媒体または装置がコンピュータによって読み取られるときに、コンピュータの動作を構成し制御するために、汎用または特殊目的のプログラム可能コンピュータによって読み取り可能な、機械読み取り可能な記憶媒体または装置(例えば、プログラムメモリまたは磁気ディスク)に実体的に記憶することができる。本発明のシステムはまた、コンピュータプログラムで構成された、コンピュータ読み取り可能な記憶媒体で具体化されるものと考えることができ、その場合、構成された記憶媒体は、コンピュータを特定の所定の方法で動作させて、本明細書に記載する機能を実行させる。
プログラムコードを記憶および/または実行するのに適したデータ処理システムは、システムバスを介してメモリ要素に直接的または間接的に結合された少なくとも1つのプロセッサを含んでもよい。メモリ要素は、プログラムコードの実際の実行中に採用されるローカルメモリ、バルク記憶装置、および実行中にバルク記憶装置からコードが検索される回数を減らすために少なくとも何らかのプログラムコードの一時記憶を提供するキャッシュメモリを含むことができる。入力/出力またはI/O装置(キーボード、ディスプレイ、ポインティング装置などを含むが、これらに限定されない)は直接的に、または介在するI/Oコントローラを介して、システムに結合され得る。
介在する専用ネットワークまたは公衆ネットワークを介して、データ処理システムを他のデータ処理システムあるいは遠隔プリンタまたは記憶装置に結合できるようにするために、ネットワークアダプタをシステムに結合することもできる。モデム、ケーブルモデム、およびイーサネットカードは、現在使用可能なネットワークアダプタのタイプの一例に過ぎない。
次に図8を参照すると、本発明の一実施形態による、サーバまたはネットワーク装置を表す例示的なコンピュータシステム800が示されている。コンピュータシステム800は、システムバス802を介して他の構成要素に動作可能に結合された少なくとも1つのプロセッサ(CPU)805を含む。キャッシュ806、読み出し専用メモリ(ROM)808、ランダムアクセスメモリ(RAM)810、入力/出力(I/O)アダプタ820、サウンドアダプタ830、ネットワークアダプタ890、ユーザインタフェースアダプタ850、およびディスプレイアダプタ860は、システムバス802に動作可能に結合される。
第1記憶装置822および第2記憶装置829は、I/Oアダプタ820によってシステムバス802に動作可能に結合される。記憶装置822および829はディスク記憶装置(例えば、磁気または光ディスク記憶装置)、ソリッドステート磁気装置などの何れかであってもよい。記憶装置822および829は、同じタイプの記憶装置であっても、異なるタイプの記憶装置であってもよい。
スピーカ832は、サウンドアダプタ830によって、システムバス802に動作可能に結合されてもよい。送受信器895は、ネットワークアダプタ890によってシステムバス802に動作可能に結合される。ディスプレイ装置862は、ディスプレイアダプタ860によってシステムバス802に動作可能に結合される。
第1ユーザ入力装置852、第2ユーザ入力装置859、および第3ユーザ入力装置856は、ユーザインタフェースアダプタ850によってシステムバス802に動作可能に結合される。ユーザ入力装置852、859、および856は、センサ、キーボード、マウス、キーパッド、ジョイスティック、画像キャプチャ装置、動き検出装置、電力測定装置、マイク、前述の装置のうちの少なくとも2つの機能を組み込んだ装置などのうちの任意のものとすることができる。もちろん、本発明の精神を維持しながら、他のタイプの入力装置を使用することもできる。ユーザ入力装置852、859、および856は、同じタイプのユーザ入力装置または異なるタイプのユーザ入力装置とすることができる。ユーザ入力装置852、859、および856は、システム800との間で情報を入出力するために使用される。
場面表現(SR)構成要素870は、システムバス802に動作可能に結合される。SR構成要素870は、上述の動作の1つまたは複数を実行するように構成される。SR構成要素870は、スタンドアロンの特殊目的のハードウェア装置として実装されることができ、または、記憶装置に記憶されたソフトウェアとして実装されることができる。SR構成要素870がソフトウェア実装される実施形態において、コンピュータシステム800の別の構成要素として示されるが、SR構成要素870は、例えば、第1記憶装置822および/または第2記憶装置829に格納される。あるいは、SR構成要素870は別の記憶装置(図示せず)に格納される。
もちろん、コンピュータシステム800は当業者によって容易に企図されるように、他の要素(図示せず)を含むこともでき、特定の要素を省略することもできる。例えば、当業者によって容易に理解されるように、他の様々な入力装置および/または出力装置は、その特定の実装に応じて、コンピュータシステム800に含まれる。例えば、様々なタイプの無線および/または有線の入力および/または出力装置を使用することができる。さらに、様々な構成の追加のプロセッサ、コントローラ、メモリなども、当業者には容易に理解されるように利用することができる。コンピュータシステム800のこれらおよび他の変形は本明細書で提供される本発明の教示を与えられれば、当業者によって容易に企図される。
以上の説明は、あらゆる点において、限定するものではなく例示的および典型的なものとして理解すべきであり、本明細書において開示されている本発明の範囲は、詳細な説明から決定されてはならず、そうではなく、特許法で許容されるすべての幅に応じて解釈される特許請求の範囲から決定されなければならない。本明細書において示され、かつ、説明された実施形態は、本発明の原理についての単なる例示的なものにすぎないこと、また、当業者は、本発明の範囲および精神から逸脱することなく、様々な修正を加えることができることを理解されたい。当業者は、本発明の範囲および精神から逸脱することなく、様々な他の特徴組合せを実現することが可能である。以上、本発明の態様について、特許法で要求される詳細および特異性と共に説明したが、特許請求され、特許証で保護されることが望ましいものは、添付の特許請求の範囲に説明されている。

Claims (17)

  1. 自律的なタスクの性能を改善するため、場面表現のパラメトリックモデルをコンピュータで実施する方法であって、
    場面の斜視図に対応する少なくとも1つの画像に基づいて(710)、前記場面の最初のマップを生成し(720)、前記最初のマップは、前記場面の非パラメトリック上面視表現を含み、
    前記最初のマップに基づいて、場面要素表現を取得するためパラメトリックモデルを実施し(730)、前記場面要素表現は1つ以上の前記場面の場面要素の説明を提供し、前記場面の推定された意味的な配置に対応し、
    前記少なくとも1つの画像に基づいて、3次元定位を実行することによって前記1つ以上の場面要素の1つ以上の予測位置を識別し(740)、
    前記場面要素表現に前記1つ以上の夫々の予測位置で前記1つ以上の場面要素を配置することによって自律的なタスクを実行するオーバレイを取得すること(750)と、
    を含み、
    前記最初のマップを生成することは、
    前記少なくとも1つの画像から1つ以上の特徴を含む特徴表現を抽出することと、
    前記特徴表現に基づいて、前記少なくとも1つの画像の複数の画素の夫々の意味的なカテゴリを取得するために、意味的な分割を使用することと、
    前記場面において識別された1つ以上の前景オブジェクトに対応する1つ以上の領域をマスクアウトすることを含む前記意味的な分割に基づいて、マスク化された特徴表現を生成することと、
    前記マスク化された特徴表現に基づいて、前記複数の画素の夫々の背景カテゴリと深度値とを予測することと、
    前記最初のマップを生成するため前記背景カテゴリと前記深度値とに基づいて前記複数の画素の夫々を3次元にマッピングすること、
    によってオクルージョン推論を実行することをさらに含む、方法。
  2. 画像捕捉装置を使用して前記少なくとも1つの画像を取得することをさらに含み、前記複数の画素の夫々を3次元にマッピングすることは、前記画像捕捉装置の固有の較正を使用することをさらに含む、請求項に記載の方法。
  3. 前記画像補足装置は、前記少なくとも1つの画像が運転場面の斜視図を含むように車両に取り付けられる、請求項に記載の方法。
  4. 前記場面要素表現を取得するために前記パラメトリックモデルを実施することは、前記最初のマップから得られた1つ以上の場面パラメータの夫々に対応する確率に基づいて前記場面要素表現の実現可能性を保証するためのグラフィカルなモデルを実施することをさらに含む、請求項1に記載の方法。
  5. 前記オーバレイを1つ以上のアプリケーションに適用することによって前記自律的なタスクを実行することをさらに含み、前記1つ以上のアプリケーションは、自由空間を計算する自由空間推定、距離計算の経路計画、および挙動予測のうちの1つ以上を含む、請求項1に記載の方法。
  6. 前記最初のマップに基づいて前記パラメトリックモデルをトレーニングすることをさらに含む、請求項1に記載の方法。
  7. コンピュータに自律的なタスクの性能を改善するため、場面表現のパラメトリックモデルを実施する方法を実行させるために、コンピュータによって実行可能なプログラム命令が具現化されたプログラム命令を有する非一時的なコンピュータ読み取り可能な記憶媒体を含むコンピュータプログラム製品であって、前記コンピュータによって実行される方法は、
    場面の斜視図に対応する少なくとも1つの画像(710)に基づいて、前記場面の最初のマップを生成し(720)、前記最初のマップは、前記場面の非パラメトリック上面視表現を含み、
    前記最初のマップに基づいて、場面要素表現を取得するためパラメトリックモデルを実施し(730)、前記場面要素表現は1つ以上の前記場面の場面要素の説明を提供し、前記場面の推定された意味的な配置に対応し、
    前記少なくとも1つの画像に基づいて、3次元定位を実行することによって前記1つ以上の場面要素の1つ以上の予測位置を識別し(740)、
    前記場面要素表現に前記1つ以上の夫々の予測位置で前記1つ以上の場面要素を配置することによって自律的なタスクを実行するオーバレイを取得すること(750)、
    を含み、
    前記最初のマップを生成することは、
    前記少なくとも1つの画像から1つ以上の特徴を含む特徴表現を抽出することと、
    前記特徴表現に基づいて、前記少なくとも1つの画像の複数の画素の夫々の意味的なカテゴリを取得するために、意味的な分割を使用することと、
    前記場面において識別された1つ以上の前景オブジェクトに対応する1つ以上の領域をマスクアウトすることを含む前記意味的な分割に基づいて、マスク化された特徴表現を生成することと、
    前記マスク化された特徴表現に基づいて、前記複数の画素の夫々の背景カテゴリと深度値とを予測することと、
    前記最初のマップを生成するため前記背景カテゴリと前記深度値とに基づいて前記複数の画素の夫々を3次元にマッピングすること、によってオクルージョン推論を実行することをさらに含む、コンピュータプログラム製品。
  8. 前記方法は、画像捕捉装置を使用して前記少なくとも1つの画像を取得することをさらに含み、前記複数の画素の夫々を3次元にマッピングすることは、前記画像捕捉装置の固有の較正を使用することをさらに含む、請求項に記載のコンピュータプログラム製品。
  9. 前記画像補足装置は、前記少なくとも1つの画像が運転場面の斜視図を含むように車両に取り付けられる、請求項に記載のコンピュータプログラム製品。
  10. 前記場面要素表現を取得するために前記パラメトリックモデルを実施することは、1つ以上の場面パラメータの夫々に対応する確率に基づいて前記場面要素表現の実現可能性を保証するためのグラフィカルなモデルを実施することをさらに含む、請求項に記載のコンピュータプログラム製品。
  11. 前記方法は、前記オーバレイを1つ以上のアプリケーションに適用することによって前記自律的なタスクを実行することをさらに含み、前記1つ以上のアプリケーションは、自由空間を計算する自由空間推定、距離計算の経路計画、および挙動予測のうちの1つ以上を含む、請求項に記載のコンピュータプログラム製品。
  12. 前記方法は、前記最初のマップに基づいて前記パラメトリックモデルをトレーニングすることをさらに含む、請求項に記載のコンピュータプログラム製品。
  13. 自律的なタスクの性能を改善するため、場面表現のパラメトリックモデルを実施するためのシステムであって、
    プログラムコードを記憶するための記憶装置(810)と、
    記憶装置に動作可能に結合され、前記記憶装置に記憶されたプログラムコードを実行するように構成された少なくとも1つのプロセッサ装置(805)と、を含み、
    前記プロセッサ装置は、
    場面の斜視図に対応する少なくとも1つの画像に基づいて、前記場面の最初のマップを生成し、前記最初のマップは、前記場面の非パラメトリック上面視表現を含み、
    前記最初のマップに基づいて、場面要素表現を取得するためパラメトリックモデルを実施し、前記場面要素表現は1つ以上の前記場面の場面要素の説明を提供し、前記場面の推定された意味的な配置に対応し、
    前記少なくとも1つの画像に基づいて、3次元定位を実行することによって前記1つ以上の場面要素の1つ以上の予測位置を識別し、
    前記場面要素表現に前記1つ以上の夫々の予測位置で前記1つ以上の場面要素を配置することによって自律的なタスクを実行するオーバレイを取得し、
    前記少なくとも1つのプロセッサ装置は、さらに、
    前記少なくとも1つの画像から1つ以上の特徴を含む特徴表現を抽出することと、
    前記特徴表現に基づいて、前記少なくとも1つの画像の複数の画素の夫々の意味的なカテゴリを取得するために、意味的な分割を使用することと、
    前記場面において識別された1つ以上の前景オブジェクトに対応する1つ以上の領域をマスクアウトすることを含む前記意味的な分割に基づいて、マスク化された特徴表現を生成することと、
    前記マスク化された特徴表現に基づいて、前記複数の画素の夫々の背景カテゴリと深度値とを予測することと、
    前記最初のマップを生成するため前記背景カテゴリと前記深度値とに基づいて前記複数の画素の夫々を前記3次元にマッピングすることと、
    によってオクルージョン推論を実行することにより前記最初のマップを生成するよう構成されている、システム。
  14. 画像捕捉装置をさらに含み、前記少なくとも1つのプロセッサ装置は、さらに、前記記憶装置に記憶されたプログラムコードを実行し、前記画像捕捉装置を使用して前記少なくとも1つの画像を取得するよう構成され、前記少なくとも1つのプロセッサ装置は、さらに、前記画像捕捉装置の固有の較正を使用することによって前記複数の画素の夫々を前記3次元にマッピングするよう構成されている、請求項13に記載のシステム。
  15. 前記画像補足装置は、前記少なくとも1つの画像が運転場面の斜視図を含むように車両に取り付けられる、請求項14に記載のシステム。
  16. 前記少なくとも1つのプロセッサ装置は、さらに、グラフィカルなモデルを実施することによって前記場面要素表現を取得するために前記パラメトリックモデルを実施するよう構成され、1つ以上の場面パラメータの夫々に対応する確率に基づいて前記場面要素表現の実現可能性を保証するよう構成されている、請求項13に記載のシステム。
  17. 前記少なくとも1つのプロセッサ装置は、さらに、前記記憶装置に記憶されたプログラムコードを実行し、前記オーバレイを1つ以上のアプリケーションに適用することによって前記自律的なタスクを実行するよう構成され、前記1つ以上のアプリケーションは、自由空間を計算する自由空間推定、距離計算の経路計画、および挙動予測のうちの1つ以上を含む、請求項13に記載のシステム。
JP2021520291A 2018-08-10 2019-08-02 場面のパラメトリック上面視表現 Active JP7148718B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201862717055P 2018-08-10 2018-08-10
US62/717,055 2018-08-10
US16/526,073 2019-07-30
US16/526,073 US11373067B2 (en) 2018-08-10 2019-07-30 Parametric top-view representation of scenes
PCT/US2019/044820 WO2020050934A2 (en) 2018-08-10 2019-08-02 Parametric top-view representation of scenes

Publications (2)

Publication Number Publication Date
JP2021528798A JP2021528798A (ja) 2021-10-21
JP7148718B2 true JP7148718B2 (ja) 2022-10-05

Family

ID=69407234

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021520291A Active JP7148718B2 (ja) 2018-08-10 2019-08-02 場面のパラメトリック上面視表現

Country Status (3)

Country Link
US (1) US11373067B2 (ja)
JP (1) JP7148718B2 (ja)
WO (1) WO2020050934A2 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111340864B (zh) * 2020-02-26 2023-12-12 浙江大华技术股份有限公司 基于单目估计的三维场景融合方法及装置
CN111476089B (zh) * 2020-03-04 2023-06-23 上海交通大学 一种图像中多模态信息融合的行人检测方法、系统及终端
US11615544B2 (en) 2020-09-15 2023-03-28 Toyota Research Institute, Inc. Systems and methods for end-to-end map building from a video sequence using neural camera models
US11494927B2 (en) 2020-09-15 2022-11-08 Toyota Research Institute, Inc. Systems and methods for self-supervised depth estimation
US11321862B2 (en) 2020-09-15 2022-05-03 Toyota Research Institute, Inc. Systems and methods for multi-camera modeling with neural camera networks
US11508080B2 (en) 2020-09-15 2022-11-22 Toyota Research Institute, Inc. Systems and methods for generic visual odometry using learned features via neural camera models
CN112132829A (zh) * 2020-10-23 2020-12-25 北京百度网讯科技有限公司 车辆信息的检测方法、装置、电子设备和存储介质
US20220147746A1 (en) * 2020-11-10 2022-05-12 Nec Laboratories America, Inc. End-to-end parametric road layout prediction with cheap supervision
CN117677972A (zh) * 2020-12-30 2024-03-08 御眼视觉技术有限公司 用于路段绘制的系统和方法
CN112785611B (zh) * 2021-01-29 2021-10-12 昆明理工大学 一种3d点云弱监督语义分割方法及系统
CN116250002A (zh) * 2021-08-05 2023-06-09 谷歌有限责任公司 具有软分层和深度感知的修复的单幅图像3d摄影
CN113570695B (zh) * 2021-09-27 2021-12-24 清华大学 一种图像生成方法、装置及电子设备
CN114581667B (zh) * 2022-03-04 2024-08-20 北京百度网讯科技有限公司 地图数据处理方法、装置、电子设备和存储介质
CN116030200B (zh) * 2023-03-27 2023-06-13 武汉零点视觉数字科技有限公司 一种基于视觉融合的场景重构方法与装置
CN116740669B (zh) * 2023-08-16 2023-11-14 之江实验室 多目图像检测方法、装置、计算机设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090087024A1 (en) 2007-09-27 2009-04-02 John Eric Eaton Context processor for video analysis system
JP2011253521A (ja) 2010-05-31 2011-12-15 Primesense Ltd 3次元場面の分析
US20160004916A1 (en) 2013-03-01 2016-01-07 Wenming Zheng Road Region Detection
US20160140400A1 (en) 2014-11-13 2016-05-19 Nec Laboratories America, Inc. Atomic scenes for scalable traffic scene recognition in monocular videos
JP2018509668A (ja) 2015-08-03 2018-04-05 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 道路の3次元モデルのモデリング方法、装置及び記憶媒体

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2760448C (en) * 2009-04-29 2017-04-11 Monsanto Technology Llc Biometric measurement systems and methods
DE102010042063B4 (de) * 2010-10-06 2021-10-28 Robert Bosch Gmbh Verfahren und Vorrichtung zum Bestimmen von aufbereiteten Bilddaten über ein Umfeld eines Fahrzeugs
KR101208647B1 (ko) * 2010-10-28 2012-12-06 재단법인대구경북과학기술원 도로상의 장애 물체 검출 방법 및 장치
KR101342124B1 (ko) * 2013-10-18 2013-12-19 주식회사 지티 영상을 이용한 전방 차량 인식 및 추적 시스템 및 이를 이용한 차량 인식 및 추적 방법
WO2016157499A1 (ja) * 2015-04-02 2016-10-06 株式会社日立製作所 画像処理装置、物体検知装置、画像処理方法
JP6910454B2 (ja) * 2016-10-26 2021-07-28 コンチネンタル オートモーティヴ ゲゼルシャフト ミット ベシュレンクテル ハフツングContinental Automotive GmbH 道路の合成トップビュー画像を生成するための方法およびシステム
US11513211B2 (en) * 2016-11-29 2022-11-29 Continental Automotive Gmbh Environment model using cross-sensor feature point referencing
CN108460815B (zh) * 2017-02-22 2022-06-17 腾讯科技(深圳)有限公司 地图道路要素编辑方法和装置
JP6565967B2 (ja) * 2017-05-12 2019-08-28 トヨタ自動車株式会社 路上障害物検出装置,方法,およびプログラム
CN110196056B (zh) * 2018-03-29 2023-12-05 文远知行有限公司 用于生成用于自动驾驶车辆导航和决策的道路地图的方法和导航装置
CN110428490B (zh) * 2018-04-28 2024-01-12 北京京东尚科信息技术有限公司 构建模型的方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090087024A1 (en) 2007-09-27 2009-04-02 John Eric Eaton Context processor for video analysis system
JP2011253521A (ja) 2010-05-31 2011-12-15 Primesense Ltd 3次元場面の分析
US20160004916A1 (en) 2013-03-01 2016-01-07 Wenming Zheng Road Region Detection
US20160140400A1 (en) 2014-11-13 2016-05-19 Nec Laboratories America, Inc. Atomic scenes for scalable traffic scene recognition in monocular videos
JP2018509668A (ja) 2015-08-03 2018-04-05 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 道路の3次元モデルのモデリング方法、装置及び記憶媒体

Also Published As

Publication number Publication date
US20200050900A1 (en) 2020-02-13
WO2020050934A3 (en) 2020-06-18
WO2020050934A2 (en) 2020-03-12
JP2021528798A (ja) 2021-10-21
US11373067B2 (en) 2022-06-28

Similar Documents

Publication Publication Date Title
JP7148718B2 (ja) 場面のパラメトリック上面視表現
US11797407B2 (en) Systems and methods for generating synthetic sensor data via machine learning
US11734885B2 (en) Systems and methods for generating synthetic light detection and ranging data via machine learning
US12032067B2 (en) System and method for identifying travel way features for autonomous vehicle motion control
WO2023207437A1 (zh) 一种基于动态轨迹流的场景流数字孪生方法及系统
JP7281015B2 (ja) 複雑な道路シーンのパラメトリックな上面図表現
Huang et al. Survey of state-of-art autonomous driving technologies with deep learning
KR20220054358A (ko) 점유 예측 뉴럴 네트워크들
JP2021089724A (ja) 構造的制約及び物理的制約を伴う3d自動ラベル付け
US20210049415A1 (en) Behaviour Models for Autonomous Vehicle Simulators
CN114945952A (zh) 使用神经网络从相机图像和已知深度数据生成深度
CN114929543A (zh) 预测周围因素的加塞概率
CN112800822A (zh) 利用结构约束和物理约束进行3d自动标记
Liu et al. Deep transfer learning for intelligent vehicle perception: A survey
CN117372991A (zh) 基于多视角多模态融合的自动驾驶方法及系统
CN116300928A (zh) 针对车辆的数据处理方法和数据处理模型的训练方法
Yogamani et al. FisheyeBEVSeg: Surround View Fisheye Cameras based Bird's-Eye View Segmentation for Autonomous Driving
Bharadwaj et al. Lane, Car, Traffic Sign and Collision Detection in Simulated Environment Using GTA-V
KR102231775B1 (ko) 차선 변경 가능 여부의 알림을 제공하는 방법 및 시스템
US20230406360A1 (en) Trajectory prediction using efficient attention neural networks
Bhatia et al. Road Image Segmentation for Autonomous Car
Guo et al. A semantic graph of traffic scenes for intelligent vehicle systems
김유진 Ego-motion Compensated Pedestrian Trajectory Prediction with Visual Context for Urban Autonomous Driving
Jensen Deep Learning Approaches for Autonomous Vehicle Localization and Mapping
WO2024155850A1 (en) Systems and methods for performing autonomous navigation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201223

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220301

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220517

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220906

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220922

R150 Certificate of patent or registration of utility model

Ref document number: 7148718

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350