JP7148718B2

JP7148718B2 - 場面のパラメトリック上面視表現

Info

Publication number: JP7148718B2
Application number: JP2021520291A
Authority: JP
Inventors: サミュエルシュルター、; ジヤンワン、; ブユリウ、; マンモハンチャンドラカー、
Original assignee: NEC Laboratories America Inc
Current assignee: NEC Laboratories America Inc
Priority date: 2018-08-10
Filing date: 2019-08-02
Publication date: 2022-10-05
Anticipated expiration: 2039-08-02
Also published as: US20200050900A1; WO2020050934A3; WO2020050934A2; JP2021528798A; US11373067B2

Description

（関連出願情報）
本出願は２０１８年８月１０日に出願された仮出願番号６２／７１７，０５５および２０１９年７月３０日に出願された米国特許出願番号１６／５２６，０７３に対する優先権を主張するものであり、その全体が夫々参照により本明細書に組み込まれる。

（技術分野）
本発明は、人工知能、機械学習およびコンピュータビジョンに関し、より詳細には、三次元場面の理解および場面のパラメトリック上面視表現に関する。

（関連技術の説明）
知的エージェントが針路を決め、３次元（３Ｄ）世界と対話するためには、視覚的な完了が必要とされ得る。都市の場面での運転、散乱した机上の物体を把持するロボットなどを含むが、これらに限定されないタスクは、見えない領域についての固有の推論に基づいて実行することができる。オクルージョン関係が解決された場面の上面図または鳥瞰図（ＢＥＶ）表現は、そのようなタスクを実行する際に有用であり得る。この表現はエージェントおよび場面要素の緻密な記述を、意味的および幾何学的に一貫している関係で提供することができ、これは、人間の視覚化にとって直感的であり、自律的な決定にとって正確であり得る。

本原理の一態様によれば、場面表現のパラメトリックモデルを実施する方法が提供される。前記方法は、場面の斜視図に対応する少なくとも１つの画像に基づいて、場面の最初のマップを生成することを含む。前記方法は、前記場面の非パラメトリック上面視表現を含む。前記方法は、さらに、前記最初のマップに基づいて、場面要素表現を取得するためパラメトリックモデルを実施することを含む。前記場面要素表現は、１つ以上の前記場面の場面要素の説明を提供し、前記場面の推定された意味的な配置に対応する。前記方法は、さらに、前記少なくとも１つの画像に基づいて、３次元定位を実行することによって前記１つ以上の場面要素の１つ以上の予測位置を識別し、前記場面要素表現に前記１つ以上の夫々の予測位置で前記１つ以上の場面要素を配置することによって自律的なタスクを実行するオーバレイを取得することを含む。

本原理の他の態様によれば、場面表現のパラメトリックモデルを実施するためのシステムが提供される。前記システムは、プログラムコードを記憶するための記憶装置と、記憶装置に動作可能に結合された少なくとも１つのプロセッサ装置とを含む。前記少なくとも１つのプロセッサ装置は、場面の斜視図に対応する少なくとも１つの画像に基づいて、場面の最初のマップを生成するために前記記憶装置に記憶されたプログラムコードを実行するよう構成される。前記最初のマップは、さらに、前記最初のマップに基づいて、場面要素表現を取得するためパラメトリックモデルを実施するよう構成される。前記場面要素表現は、１つ以上の前記場面の場面要素の説明を提供し、前記場面の推定された意味的な配置に対応する。前記少なくとも１つのプロセッサ装置は、さらに、前記少なくとも１つの画像に基づいて、３次元定位を実行することによって前記１つ以上の場面要素の１つ以上の予測位置を識別し、前記場面要素表現に前記１つ以上の夫々の予測位置で前記１つ以上の場面要素を配置することによって自律的なタスクを実行するオーバレイを取得するよう構成される。

これらおよび他の特徴および利点は添付の図面に関連して読まれるべき、その例示的な実施形態の以下の詳細な説明から明らかになるであろう。

本開示は、以下の図面を参照して、好ましい実施形態の以下の説明において詳細を提供する。
本発明の一実施形態による、自律的なタスクの性能を改善するための場面表現のパラメトリックモデルを実施するシステムの高レベルの概観のブロック／フロー図である。本発明の一実施形態による、自律的なタスクの性能を改善するための場面表現のパラメトリックモデルを実施するためのシステム／方法のブロック／フロー図である。本発明の一実施形態による、図２のシステム／方法内で最初のマップを生成するためにオクルージョン推論を実施するためのシステム／方法のブロック／フロー図である。本発明の一実施形態による、図２のシステム／方法内のパラメトリックモデルの各パラメータを予測するためにパラメトリックモデル予測を実施するためのシステム／方法のブロック／フロー図である。本発明の一実施形態による、図２のシステム／方法内のアプリケーション内でオーバレイを実施するためのシステム／方法のブロック／フロー図である。本発明の一実施形態による、図２のシステム／方法内のトレーニング構成要素を使用してトレーニングを実施するためのシステム／方法のブロック／フロー図である。本発明の一実施形態による、自律的なタスクの性能を改善するための場面表現のパラメトリックモデルを実施するためのシステム／方法を示すブロック／フロー図である。本発明の一実施形態による、コンピュータシステムを示すブロック／フロー図である。

本明細書で説明される実施形態は、場面のパラメトリック表現を計算するために、本明細書では最初のマップとも呼ばれる、最初、非パラメトリック、鳥瞰図（ＢＥＶ）、または上面視表現またはマップを使用することによって、場面を記述するパラメトリックモデルを取得（例えば、推測または予測）することができる。パラメトリックモデルは特定の場面要素の明白な記述を提供することにより、非パラメトリックモデルよりも豊かにすることができ、それにより、その後の高レベルタスク内で知的エージェントによって実施されるモデルの能力を改善することができる。本明細書で説明される実施形態は、強力な画像ベースの特徴を使用することができ、単一の赤－緑－青（ＲＢＧ）画像からパラメトリックモデルを取得することができ、または複数の画像（例えば、ビデオシーケンス）に拡張することができる。例えば、場面パラメータは単眼カメラのセットアップから、例えば、単一のＲＧＢ画像またはビデオシーケンスから効率的に推測することができる。これは、入力として最初のマップを取り、最初のマップに基づいてモデルのすべてのパラメータ（例えば、場面属性）を予測する畳み込みニューラルネットワーク（ＣＮＮ）を適用することによって達成することができる。モデルのパラメータは鳥瞰図の場面の図解の概観を構築するための場面のすべての属性を説明することができ、これは、例えば、自由空間推定または経路計画などのタスクの性能を大幅に改善し、単純化することができる。これらの予測が与えられると、出力を精緻化し、（ａ）予測されたパラメータが実行可能であること、および（ｂ）入力がビデオシーケンスである場合、パラメータが時間的に一貫していることを確実にするグラフィカルモデルを構築することができる。システムのニューラルネットワークの一部、ならびにグラフィカルモデルはシミュレートされたデータおよび／または注釈付けされたデータ（例えば、人間の注釈を含むデータ）を使用してトレーニングすることができる。

より具体的には、画像の入力セットが特徴表現を抽出するために畳み込みニューラルネットワーク（ＣＮＮ）によって処理することができる。特徴表現が与えられると、意味分割は、場面中の前景オブジェクトを識別するために適用される。次に、前景オブジェクトに対応する特徴表現の領域をマスクアウトすることができ、他のＣＮＮを適用してオクルージョン推論を実行することができ、前景オブジェクトの背後の領域の意味論および幾何学（例えば、深度）を予測することができる。オクルージョン推論および予測、ならびにカメラの固有の較正を使用して、意味論は上面視にマッピングすることができる。

例示的な実施形態では、運転場面（例えば、屋外運転場面）を説明するパラメトリックモデルを推測することができ、これを知的エージェントが使用して、自律的なタスク（例えば、自律的な運転タスク）を実行することができる。このような運転場面の実施例としては高速道路、複雑な交差点のある都市領域などが挙げられるが、これらに限定されない。画像捕捉装置（例えば、カメラ）を車両に搭載して、場面の斜視図（上面視ではない）を得ることができる。場面内の前景オブジェクトは自動車、歩行者、交通標識、柱などを含むができるが、これらに限定されない。モデルのパラメータは上述したように、例えば、自由空間推定または経路計画などのタスクを大幅に改善し単純化することができる、鳥瞰図における運転場面の図解の概観を構築するために必要な場面のすべての属性を説明する。このような場面属性は車線の数、側方道路の存在およびその距離、横断歩道の存在およびその距離、道路の両側の歩道の存在などを含むことができるが、これらに限定されない。したがって、運転シナリオの場面属性は、オープンストリートマップ（ＯＳＭ）データを確実に抽出する必要がなく、屋外運転場面の単一のＲＧＢ画像から予測することができる。したがって、本明細書で説明する実施形態は、複雑な場面表現を実施する画像処理システムの能力を改善することができる。

ここで、同一の数字が同一または類似の要素を表し、最初に図１に表す図を詳細に参照すると、自律的なタスク性能を改善するために場面表現のパラメトリックモデルを実施する例示的なシステム１００の高レベルの概観のブロック／フロー図を示すブロック／フロー図が提供される。

図示のように、システム１００は、車両１１０を含む。この例示的な実施形態では、車両１１０は自動車として描かれている。しかしながら、車両１１０は、本明細書に記載される実施形態による任意の適切な車両であり得る。

さらに図示するように、画像捕捉装置１２０は、車両１１０上に配置される。一実施形態では、画像捕捉装置１２０はカメラ（例えば、単眼カメラのセットアップ）を含む。この例示的な実施形態に示されるように、画像捕捉装置１２０は、車両１１０の屋根に搭載される。しかしながら、画像捕捉装置１２０は本明細書に記載の実施形態によれば、車両１１０の上または内側の任意の適切な位置に配置することができる。

画像捕捉装置１２０は、場面１３０の斜視図に関連する静止画および／またはビデオシーケンスを取得するように構成される。例えば、画像捕捉装置１２０は、場面の赤緑青（ＲＧＢ）画像を捕捉するように構成することができる。さらに、図１の場面１３０は空の道路を示しているが、場面１３０は本明細書に記載の実施形態による任意の適切な運転場面とすることができる。このような運転場面の例としては高速道路、複雑な交差点のある都市領域などが挙げられるが、これらに限定されない。さらに、場面１３０の前景場面オブジェクトまたは要素は、他の自動車、歩行者、交通標識、柱などを含むができるが、これらに限定されない。

以下でさらに詳細に説明するように、システム１００は、場面１３０の斜視図から配置を理解することによって、場面１３０を自動的に「理解する」ために使用することができる。場面１３０を理解することは、多くの具体的なアプリケーションに適用することができる場面モデルのパラメータを推測することを含む。このようなアプリケーションの一例は死角推論であり、これは、運転者の注意を必要とする場面１３０の領域が塞がれた場合、運転者に警告を与えることができる。例えば、歩道を塞いでいるトラック、道路を横断する歩行者、非常に遅れて運転者に見える可能性があるなどの危険はシステム１００によって自動的に推測することができ、柔らかい警告を起こして、運転者に潜在的な危険を警告することができる。他の例は大型車両が左折し、潜在的な対向車を塞ぐ状況である。運転者も左折したい場合、柔らかい警告を起こすことができる。

画像捕捉装置１２０は、場面１３０に関連する少なくとも１つの画像に基づいて生成される場面の最初の表現またはマップを生成するために使用することができる。より具体的には、最初のマップは、場面１３０の非パラメトリック上面視表現を含むことができる。次に、最初のマップを使用して、パラメトリックモデルを実施して、場面１３０の１つ以上の場面要素の説明を提供する場面要素表現を取得することができる。

パラメトリックモデルは場面要素の「命名」を可能にすることによって、場面表現に基づいて動作を実行するためのより高レベルのアプリケーションの能力を改善することができる。これらの要素に距離を割り当てることができ、そしてより高レベルのアプリケーションはこの情報を読み出すことができる。例えば、複雑な運転場面の場合、パラメトリックモデルは「側道」または「交差点の横断歩道」のような場面要素の命名を可能にすることができる。対照的に、非パラメトリック世界では上面視の画素がｋメートル離れており、画素が、例えば「横断歩道」としてラベル付けされているということができるだけである。しかしながら、画素間の関係はまだ存在しないことがある。例えば、「道路」とラベル付けされた画素について、画素が主道路に属するかまたは側道に属するかは分からない。さらに、パラメトリックモデルは、シミュレータでトレーニングすることができ、上面視において場面の意味論を表現する必要があるだけであり、将来のタスクに必要とされる属性に容易に拡張することができる。

場面要素表現は、場面の推定された意味的な配置に対応することができる。１つ以上の場面要素の１つ以上の場面の予測位置は、少なくとも１つの画像に基づいて３次元定位を実行することによって識別することができる。次に、１つ以上の夫々の予測位置を有する１つ以上の場面要素を場面要素表現に配置することによって、オーバレイを取得することができる。オーバレイは、夫々が自律的なタスクに関連する１つ以上のアプリケーションを実行するために取得することができる。

図１の例示的な実施形態は車両の状況内で説明されるが、本明細書で説明される実施形態は自律的なタスクの実行において複雑な場面表現を実施することができる任意のシステムに適用することができる。

図２を参照すると、場面表現のパラメトリックモデルを実施するシステム／方法２００を図示するブロック／フロー図が提供される。さらに詳細に説明するように、システム／方法２００は、場面のパラメトリック表現を取得するためにシステム１００内で実施することができる。

入力画像２１０のセットが取得される。入力画像２１０のセットは、ビデオシーケンスの１つ以上の単一画像および／または１つ以上のフレームを含むことができる。例えば、入力画像２１０のセットは、１つ以上の赤－緑－青（ＲＧＢ）画像を含むことができる。

入力画像２１０のセットは、オクルージョン推論構成要素２２０によって受信することができる。オクルージョン推論構成要素２２０はオクルージョン推論を実行し、場面（例えば、自動車、歩行者、交通標識、柱）から識別された前景オブジェクトの背後の領域の意味論および幾何学（例えば、深度）を予測するように構成され、オクルージョン推論意味論および幾何学は、本明細書では最初のマップと呼ばれる最初の鳥瞰図（ＢＥＶ）または上面視表現またはマップを生成するために使用することができる。オクルージョン推論構成要素２２０に関するさらなる詳細は、図３を参照して以下に説明される。

最初のマップは非パラメトリック表現であり、その後のより高いレベルのタスクに使用することをより困難にする。これらの困難に取り組むために、場面のパラメトリック表現を最初のマップから計算することができる。より具体的には、パラメトリックモデル予測構成要素２３０によって最初のマップを受信して、パラメトリックモデルの各パラメータを予測することができる。パラメトリックモデル予測構成要素２３０に関するさらなる詳細は、図４を参照して以下に説明される。

入力画像２１０のセットはまた、物体の３Ｄ定位（例えば、単眼３Ｄ定位）を行うために、３次元（３Ｄ）定位構成要素２４０によって受信することができる。入力画像２１０のセットが与えられると、３Ｄ定位構成要素２４０は、物体検出器を実施することができる。例えば、運転場面の例示的実施形態では、物体検出器は、車両、歩行者、信号機、交通標識などの交通関係者を検出することができる。本明細書に記載の実施形態による物体検出器によって任意の適切な物体検出方法を使用することができる。

ビデオシーケンスが提供される実施形態では、複数ターゲット物体追跡装置が実施され、時間と共に物体に識別を割り当てるよう実施される。次に、すべての物体の動きからの構造（ＳＦＭ）に基礎付けられた３Ｄ定位を実施することができる。

単一画像が提供される実施態様において、画素単位の深度は、単眼深度推定モデルを使用して、単一画像だけから推定され得る。本明細書に記載される実施形態にしたがって、任意の適切な単眼深度推定モデルを使用して、画素単位の深度を推定することができる。その後、推定された画素単位の深度は、物体の寸法のカテゴリ毎の事前確率に依存することで、各物体３Ｄバウンディングボックス（物体検出器から）を３Ｄ界に持ち上げるために使用される。

パラメトリックモデル予測構成要素２３０および３Ｄ定位構成要素２４０からの出力は、オーバレイ構成要素２５０によって受信される。オーバレイ構成要素２５０は、（構成要素２４０から）３Ｄ界におけるそれらの予測位置を有する場面物体および要素を（構成要素２３０から）場面の推定された意味的な配置に置くことができる。

例えば、運転場面の例示的な実施形態では、交通関係者は、場面の推定された意味的な配置に置かれる。交通関係者の意味的な配置と３Ｄバウンディングボックスの両方は同じメートル法の空間にあるので、それらは重ね合わせることができる。さらに、場面配置はパラメトリック形式を有するので、各交通関係者には、その位置（例えば、「自動車１が車線３上を走行している」または「歩行者５が横断歩道２上を歩いている」）についてより有益な属性を割り当てることができる。これらの属性は、一組のアプリケーション２６０に役に立つ。アプリケーション２６０のセットに関するさらなる詳細は、図５を参照して以下に説明される。

システム／方法２００は、トレーニング構成要素２７０をさらに含むことができる。トレーニング構成要素２７０は、オクルージョン推論構成要素２２０による最初のマップ出力に基づいて、パラメトリックモデル予測構成要素２３０のネットワークをトレーニングすることができる。モデルは、上面視で場面の意味論を表現するだけでよく、将来のタスクに必要な属性を容易に拡張することができるシミュレータを用いてトレーニングすることができる。トレーニング構成要素２７０に関するさらなる詳細は、図６を参照して以下に説明される。

図３を参照すると、最初のマップを生成するためにオクルージョン推論を実施するためのシステム／方法３００を示すブロック／フロー図が提供されている。図示のように、最初の画像２１０のセットは図２を参照して上述したように、オクルージョン推論構成要素２２０によって受信される。

より具体的には、オクルージョン推論構成要素２２０は、特徴抽出構成要素３１０と、意味的な分割構成要素３２０と、特徴マスク構成要素３３０と、意味的なインペインティング構成要素３４０と、深度インペインティング構成要素３５０と、上面視（ＢＥＶ）マップ構成要素３６０とを含むことができる。

特徴抽出構成要素３１０は畳み込みニューラルネットワーク（ＣＮＮ）を使用して、入力画像２１０のセットの入力画像から１つ以上の特徴（例えば、１つ以上の空間的な特徴）を含む特徴表現を抽出することができる。入力画像（例えば、１／１６）よりも低い解像度では、入力画像２１０のセットの入力画像の各画素がＤ次元特徴ベクトルによって表すことができる。任意の適切なＣＮＮアーキテクチャは、入力画像から特徴表現を抽出するために特徴抽出構成要素３１０によっては使用される。適切なＣＮＮアーキテクチャの例としてはＲｅｓＮｅｔ－１０１、ＲｅｓＮｅｔ－１８、ＶＧＧ－１６などを含むが、これらに限定されない。

意味的な分割構成要素３２０は、特徴抽出構成要素３１０によって抽出された特徴に基づいて、入力画像の各画素の意味的なカテゴリを予測することができる。任意の適切な意味的な分割アーキテクチャは、意味的な分割構成要素３２０によって使用され、本明細書で説明する実施形態にしたがって入力画像の各画素について意味的なカテゴリを予測することができる。

特徴マスク構成要素３３０は、意味的な分割構成要素３２０の出力に基づいて、マスク化された特徴表現（例えば、マスク化された特徴ベクトル）を生成することができる。より具体的には、マスク化された特徴表現は、特徴ベクトルの例ではＤ次元特徴ベクトルをすべて０に設定することによって、前景オブジェクトとしてラベル付けされた「特徴」画素をマスクすることによって生成することができる。本明細書で使用されるように、前景オブジェクトは「平らな」オブジェクトでないカテゴリを指す。入力画像が運転場面である例示的な実施形態では「平らな」オブジェクトは、例えば、道路および歩道を含むことができ、「平らでない」オブジェクトは、例えば、車両および歩行者を含むことができる。特徴レベル上の前景オブジェクトをマスクすることは、画像レベル上の前景オブジェクトをマスクすることと比較して、オクルージョン推論速度を改善することができる（例えば、約２倍の速さ）。

意味的なインペインティング構成要素３４０は、入力画像のすべての画素（マスク化された画素を含む）について背景（または「平らな」）カテゴリを予測することができ、深度インペインティング構成要素３５０は、マスク化された特徴表現に基づいて、入力画像のすべての画素（マスク化された画素を含む）について深度値を予測することができる。したがって、マスク化された画素内のカテゴリは、特徴の状況情報を見ることによって、インペイントまたは幻覚を起こされ得る。

ＢＥＶ構成要素３５０へのマップは構成要素３４０および３５０によって出力された予測に基づいて、また、一実施形態では固有のカメラ較正マトリクス上で、各画素（したがって、その意味的なラベル）を３次元（３Ｄ）にマッピングすることによって、最初の（ＢＥＶ）マップを生成することができる。固有のカメラ較正マトリクスは、手動で行うことができる。実際の固有のカメラ較正が与えられる場合、上面視マップにおいて距離は正しいので、出力は計量的に修正すことができる。そうでなければ、関係は正しいが、絶対スケールは正しくない。何れにせよ、上面視マップは生成される。その後、上からの３Ｄ点群が観察され、高さ軸が落とされる。重なり合う画素は、それらの夫々の意味的な分割スコアにしたがって貯蔵（例えば、最大貯蔵）することができる。

最初のマップはサイズＨ×Ｗ×Ｃの配列を含むことができ、ここで、ＨおよびＷは夫々、画素におけるマップの高さおよび幅を表す空間寸法であり、Ｃは、考慮されるカテゴリの数である。空間寸法は、実世界の座標（メートルなど）に関連している。例えば、幅３０メートル、長さ６０メートルの窓を考えることができ、これを１２８×２５６寸法配列にマッピングすることができる。

ＢＥＶ構成要素３５０へのマップによって生成された最初のマップは図２を参照して上述され、図４および図６を参照して以下にさらに詳細に説明するように、パラメトリックモデル予測構成要素２３０およびトレーニング構成要素２７０によって受信される。

図４を参照すると、パラメトリックモデルの各パラメータを予測するためのパラメトリックモデル予測を実施するためのシステム／方法４００を示すブロック／フロー図が提供される。示されるように、最初の（ＢＥＶ）マップ４０５は図２を参照して上述したように、パラメトリックモデル予測構成要素２２０によって受信される。

より具体的には、パラメトリックモデル予測構成要素２２０は、場面属性予測構成要素４１０、グラフィカルモデリング構成要素４２０、および場面要素表現構成要素４３０を含むことができる。

場面属性予測構成要素４１０は、他のＣＮＮを使用して、最初のマップ４０５に基づいて場面モデルの各場面属性またはパラメータを予測することができる。運転場面の例示的な実施形態では予測することができる場面属性またはパラメータの例は、主道路の車線の数、主道路の曲率、主道路から横道までの距離、主道路の横断歩道の存在などが含まれるが、これらに限定されない。パラメータのいくつかは離散的であってもよく、他は連続的であってもよい。ＣＮＮは、異なるタイプのパラメータを予測する小特徴抽出器およびいくつかのサブネットワークを含むことができる。ＣＮＮは図２を参照して上述され、図６を参照して以下にさらに説明されるように、トレーニング構成要素２７０を使用して、監視された方法でトレーニングすることができる。

グラフィカルモデル構成要素４２０は、場面属性またはパラメータのすべてについて予測された確率を入力として受信するグラフィカルモデルを実施することができる。グラフィカルモデルは、最後の場面表現の実現可能性を保証することができる。例えば、運転場面の例示的な実施形態では、グラフィカルモデルは、左または右に予測される横断歩道がある場合、交差点があることを保証することができる。基本的に、グラフィカルモデルは、不可能な場面配置を説明する場面パラメータの予測を防止する。さらに、グラフィカルモデルは、一対の属性予測に基づいて最後の精度を改善するために情報を活用することができる。グラフィカルモデルは場面表現の時間的な一貫性を保証するために、その後のフレームにわたって（時間的に）定義することもできる。グラフィカルモデルのパラメータは離散的な変数に変換することができ（例えば、連続パラメータを離散化することができる）、推論方法は、推論を取得するために適用することができる。例えば、本明細書で説明する実施形態によれば、任意の適切な推論方法を使用することができるが、推論方法は信念伝搬推論方法とすることができる。

場面要素表現構成要素４３０は、場面要素の最後の場面説明を提供する場面要素表現を生成する。例えば、運転場面の例示的な実施形態では、場面要素の場面説明は、道路、車線、横断歩道、歩道、交差点などの背景オブジェクトを含むことができる。場面要素表現は図２を参照して上述され、図５を参照して以下でさらに詳細に説明されるように、アプリケーション２６０のセットのアプリケーションのような、その後の高レベルアプリケーションの基礎として役に立つことができる。予測された場面属性は、例えば、道路／交差点のトポロジー、走行車線、歩道、および横断歩道を含み得る走行場面の図解の概観を構築するのに十分であり得ることに留意されたい。場面要素表現は図２を参照して上述したように、オーバレイ構成要素２５０によって受信される。

図５を参照すると、アプリケーション内でオーバレイを実施するシステム／方法５００を示すブロック／フロー図が提供されている。示されるように、オーバレイ構成要素２５０は図２を参照して上述したように、アプリケーション２６０のセットのアプリケーションと対話する。

より具体的には、アプリケーション２６０のセットが、例えば、自由空間推定アプリケーション５１０、経路計画アプリケーション５２０、および挙動予測アプリケーション５３０を含むことができる。アプリケーション５１０から５３０は、図２および図４を参照して上述したパラメトリックモデル予測構成要素２３０によって生成された場面表現を活用することができる。

例えば、カメラからの車両の距離（例えば、図２を参照して上述した３Ｄ定位確認構成要素２４０を介して）や車線情報（例えば、図２および４を参照して上述したパラメトリックモデル予測構成要素２３０によって生成された場面要素表現を介して）などの、与えられた属性の運転場面の例示的実施形態では、自由空間推定アプリケーション５１０は、自由空間を計算することができる。他の例は経路計画であり、場面要素（例えば、交差点および横断歩道）のパラメトリック表現は改善された（例えば、より安全な）経路の生成を可能にすることができる。

図６を参照すると、図２を参照して上述したように、トレーニング構成要素２７０を使用してトレーニングを実施するためのシステム／方法６００を示すブロック／フロー図が提供されている。

トレーニング構成要素２７０は、図２－３を参照して上述したオクルージョン推論構成要素２２０をトレーニングするために意味的な分割グラウンドトゥルースデータを使用することができる意味的な分割構成要素６０２を含む。より具体的には、意味的な分割構成要素６０２は、意味的な分割グラウンドトゥルースデータを使用して、意味的な分割構成要素３２０によって実行される意味的な分割、および／または図３を参照して上述した意味的なインペインティング構成要素３４０によって実行される意味的なインペインティングをトレーニングすることができる。意味的な分割および／または意味的なインペインティングは、本明細書で説明される実施形態による任意の適切なトレーニングプロトコルを使用してトレーニングすることができる。例えば、意味的な分割は、交差エントロピー損失関数を使用してトレーニングすることができる。意味的なインペインティングは意味的な分割と同じ交差エントロピー損失関数を使用してトレーニングすることができるが、塞がれた領域の意味が未知であるため、前景オブジェクトによって覆われる画素で利用可能なグラウンドトゥルースを有しない。前景オブジェクトをシミュレートするために（例えば、特徴マップのランダムパッチを０に設定することによって）任意のオクルーダを人工的に追加し、そして、グラウンドトゥルース知識を取得することによって、監視された損失を使用して、意味的インペインティングをトレーニングすることができる。

トレーニング構成要素２７０は、１つ以上の深度マップを活用することによって画像から深度予測を生成することができる深度予測構成要素６０４をさらに含む。１つ以上の深度マップは例えば、レーザスキャナおよび／またはステレオカメラセットアップによって提供され得る。深度予測はトレーニング、例えば、図３を参照して上述した深度インペインティング構成要素３５０によって実行される深度インペインティング、および／または図２を参照して上述した３Ｄ定位構成要素２４０によって実行される３Ｄ定位（例えば、単眼３Ｄ定位）に使用することができる。深度予測（例えば、単眼深度予測）トレーニングのため、平面回帰損失関数を使用することができる。例えば、最小絶対偏差損失関数（例えば、Ｌ１損失関数）および／または最小二乗誤差損失関数（例えば、Ｌ２損失関数）を使用することができる。深度インペインティングトレーニングは、意味的なインペインティングトレーニングを参照して上述したものと同様のトレーニングプロトコルを使用して実行することができる。

トレーニング構成要素２７０は、鳥瞰図（ＢＥＶ）構成要素（「シミュレータ」）６０６内にシミュレータをさらに含むことができる。シミュレータ６０６は、ノードとしてモデル化するすべての所望の場面属性またはパラメータを有する生成グラフィカルモデルとして実施することができる。運転場面の状況におけるこれらのノードの例は、車線の数、自身の車線（例えば、自身の自動車が運転する車線）、交差点の存在および距離、歩道の存在などを含むが、これらに限定されない。代々のサンプリングは、モデルからパラメータまたは場面属性のサンプルを取得するためにシミュレータ６０６によって使用される。これらの属性は場面を（完全に）記述することができ、図４の場面属性予測構成要素４１０を使用して場面属性を予測するためにＣＮＮをトレーニングするためのグランドトゥルースとして役に立つことができる。

場面パラメータが与えられると、シミュレータ６０６は、シミュレートされたＢＥＶクリーンサンプル、ＢＥＶクリーン６０８の形態で、場面の意味を上面視で表現することもできる。ＢＥＶクリーン６０８は、シミュレータ６０６の表現機能の出力を説明することができる。ＢＥＶクリーン６０８は形状Ｈ×Ｗ×Ｃを有する３Ｄテンソルに対応することができ、ここで、ＨおよびＷはマップの空間解像度を説明し、Ｃは、処理される意味カテゴリの数を指す。空間解像度は、典型的には実空間において夫々６０メートルおよび３０メートルに対応する２５６×１２８画素に設定される。運転場面の状況においてシミュレータによって処理されるカテゴリはＣ＝４となるように、道路、歩道、車線境界および横断歩道を含むことができるが、これらに限定されない。しかしながら、カテゴリは、カテゴリ要件に応じて、代替実施形態において他のカテゴリに拡張することができる。

シミュレータ６０６はさらに、シミュレートされたグラウンドトゥルース属性６１０を生成する。シミュレートされたグラウンドトゥルース属性６１０は、シミュレータ６０６からサンプリングされ、ＢＥＶクリーン６０８を表現するために使用される、場面属性またはパラメータを含む。すなわち、シミュレートされたグラウンドトゥルース属性６１０は、ＢＥＶクリーン６０８の表現された画像に対応する。したがって、ＢＥＶクリーン６０８およびシミュレートされたグラウンドトゥルース属性６１０は、図２および図４のパラメトリックモデル予測構成要素２３０によって予測されるパラメトリックモデルなどの、パラメトリックモデルに対するシミュレートされたトレーニングデータを構成する。ＢＥＶクリーン６０８およびシミュレートされたグラウンドトゥルース属性６１０は、人間の注釈努力は必要ではなく、純粋にシミュレーションによって生成され得る。

場面属性予測ネットワークをトレーニングするためにシミュレートされたトレーニングデータ（例えば、ＢＥＶクリーン６０８およびグラウンドトゥルース属性６１０）を生成することに加えて、手動グラウンドトゥルース属性６１２をさらに取得することができる。手動グラウンドトゥルース属性６１２は「実際の」データ（例えば、入力画像および最初のマップ）に対する手動注釈を含む。このようにして、場面属性予測は、シミュレートされたデータ、実際のデータ、またはそれらの組み合わせからトレーニングされ得る。

トレーニング構成要素２７０は、監視損失構成要素６１４をさらに含むことができる。監視損失構成要素６１４は場面属性のタイプに応じて分類および回帰損失関数を課すことによって場面属性予測構成要素（例えば、図４の場面属性予測構成要素４１０）をトレーニングするために、ＢＥＶクリーン６０８およびシミュレートされたグランドトゥルース属性６１０を含むシミュレートされたトレーニングデータ、ならびに手動グランドトゥルース属性６１０および最初の（ＢＥＶ）マップを含む実際のデータを使用することができる。

場面属性予測構成要素のトレーニング処理を説明するために、複製６１６－１および６１６－２を含むモデルの複製が示されている。複製６１６－１および６１６－２の一方は図３の上面視マップ（ＢＥＶ）構成要素３６０によって出力されたＢＥＶマップを含む実際のデータを見ており、複製６１６－１および６１６－２の他方は、ＢＥＶクリーン６０８を含むシミュレートされたデータを見ている。この例示的な例では、複製６１６－１は実際のデータを見ており、複製６１６－２はシミュレートされたデータを見ている。

監視損失構成要素６１４は、学習可能な重みを有するニューラルネットワークを含むことができる。複製６１６－１および６１６－２と元のモデルは、トレーニング処理中に更新することができる同じ重みを共有することができる。

上述のように、本明細書に記載される実施形態の目標は所与の入力画像について場面属性を予測することであり、これは、入力として、推定された意味的上面視またはＢＥＶマップ（例えば、図３の上面視（ＢＥＶ）構成要素３６０によって出力されるＢＥＶマップ）を取得する。この実際のＢＥＶマップはノイズであり、したがって、シミュレータ６０６がＢＥＶクリーン６０８の形で提供する理想的なシミュレートされた出力とは異なるものとなり得る。

これに取り組むために、トレーニング構成要素２７０は、敵対する損失構成要素６１８をさらに含む。敵対する損失構成要素６１８は、複製６１６－１および６１６－２内のデータの内部特徴表現を整列させることによって、ドメイン適応を実行することができる。したがって、敵対する損失構成要素６１８は場面属性予測構成要素４１０の内部特徴に作用し、入力がシミュレートされているか実際のものであるかにかかわらず、内部特徴が分布において類似することを奨励する。

特徴表現を整列させる際の主な課題は任意の実際のサンプル（例えば、図３の上面図（ＢＥＶ）構成要素３６０へのマップによって出力されるＢＥＶマップ）と、任意のシミュレートされたサンプル（例えば、ＢＥＶクリーン６０８）との間の対応の欠落である。この課題に取り組むために、選別器として作用するニューラルネットワークを含む選別器ネットワークを含む敵対する損失関数が使用される。選別器ネットワークは実際のデータ（例えば、図３のマップ上面視（ＢＥＶ）構成要素３６０によって出力されるＢＥＶマップ）またはシミュレートされたデータ（例えば、ＢＥＶクリーン６０８）の何れかに対する場面属性予測構成要素４１０の内部表現を入力として取ることに留意されたい。選別器ネットワークは、実際のサンプルとシミュレートされたサンプルとを区別するようにトレーニングすることができる。すなわち、タスクは「実際の」（システム出力）と「偽りの」（シミュレータ）の２つのラベルの分類である。選別器ネットワークは、シミュレータ６０６からデータが入力として提供されても、実際のデータ（例えば、システム出力）に対するクラスのスコアを最大化する目的を設定することによって特徴表現（ドメイン適応）を整列させるための損失関数として作動することができる。したがって、目的はシミュレートされたデータ（例えば、ＢＥＶクリーン６０８）を実際のデータ（例えば、図３の上面視（ＢＥＶ）へのマップ構成要素３６０によって出力されるＢＥＶマップ）のように見せることによって選別器ネットワークを「騙す」ことである。

敵対する損失構成要素６１８によって実行されるトレーニング手順は人間の注釈を必要とせずに、シミュレートされたデータから場面パラメータ予測構成要素４１０をトレーニングするのに役に立つ。これにより、実際の雑音に似ている構造化された雑音を予測することができる。

図７を参照すると、自律的なタスクの性能を改善するための場面表現のパラメトリックモデルを実施するためのシステム／方法７００を図示するブロック／フロー図が提供される。モデルのパラメータは場面の属性またはパラメータを説明することができ、これは、例えば、自由空間推定および経路計画のようなタスクを大幅に容易にすることができる、上面または鳥瞰図における場面の図解の概観を構築するために必要とされる。場面が運転場面である実施形態では、場面属性は車線の数、歩道の存在および歩道およびその距離、横断歩道の存在およびその距離、道路の何れかの側の歩道の存在などを含むことができるが、これらに限定されない。

ブロック７１０において、場面の斜視図に対応する少なくとも１つの画像が、画像捕捉装置を使用して取得される。一実施形態では、画像捕捉装置は、カメラ（例えば、単眼カメラセットアップ）を含む。画像捕捉装置は、静止画像および／またはビデオシーケンスを捕捉するように構成することができる。例えば、画像捕捉装置は、赤緑青（ＲＧＢ）画像を捕捉するように構成される。画像捕捉装置は、例示的な実施形態では少なくとも１つの画像が運転場面の斜視図を含むように、車両上に配置または搭載することができる。

ブロック７２０において、少なくとも１つの画像に基づいて場面の最初のマップを生成することができる。最初のマップは、最初の鳥瞰図（ＢＥＶ）または上面視非パラメトリック表現またはマップに対応する。非パラメトリック表現のために、最初のマップは、その後のより高いレベルのタスクに関して使用することがより困難である。

最初のマップを生成することは、オクルージョン推論を実行することを含むことができる。例えば、オクルージョン推論を実行することは、少なくとも１つの画像から特徴表現を抽出することを含むことができる。畳み込みニューラルネットワーク（ＣＮＮ）は、少なくとも１つの画像から１つ以上の特徴（例えば、１つ以上の空間的な特徴）を含む特徴表現を抽出するために使用することができる。入力画像よりも低い解像度（例えば、１／１６）では、少なくとも１つの画像の各画素がＤ次元特徴ベクトルによって表すことができる。任意の適切なＣＮＮアーキテクチャは、少なくとも１つの画像から特徴表現を抽出するために使用することができる。適切なＣＮＮアーキテクチャの実施例は、ＲｅｓＮｅｔ－１０１、ＲｅｓＮｅｔ－１８、ＶＧＧ－１６などが挙げられるが、これらに限定されない。

オクルージョン推論を実行することは、特徴表現に基づいて、少なくとも１つの画像の複数の画素の各々について意味的なカテゴリを取得するために意味的な分割を実行することをさらに含むことができる。任意の適切な意味的な分割アーキテクチャを使用して、本明細書で説明する実施形態にしたがって、入力画像の各画素の意味的なカテゴリを予測することができる。

オクルージョン推論を実行することは、意味的な分割に基づいてマスク化された特徴表現を生成することをさらに含むことができる。マスク化された特徴表現を生成することは、場面において識別された１つ以上の前景オブジェクトに対応する１つ以上の領域をマスクアウトすることを含むことができる。より具体的には、マスク化された特徴表現は、特徴ベクトルの例ではＤ次元特徴ベクトルをすべて０に設定することによって、前景オブジェクトとしてラベル付けされた「特徴」画素をマスクすることによって生成することができる。本明細書で使用されるように、前景オブジェクトは「平らな」オブジェクトではないカテゴリを指す。入力画像が運転場面である例示的な実施形態では「平らな」オブジェクトは、例えば、道路および歩道を含むことができ、「平らでない」オブジェクトは、例えば、車両および歩行者を含むことができる。特徴レベル上の前景オブジェクトをマスクすることは、画像レベル上の前景オブジェクトをマスクすることと比較して、オクルージョン推論速度を改善することができる（例えば、約２倍の速さ）。

オクルージョン推論を実行することは、さらに、マスク化された特徴表現に基づいて、複数の画素のそれぞれについて、背景カテゴリおよび深度値を予測することを含むことができる。例えば、意味的なインペインティングは入力画像のすべての画素（マスク化された画素を含む）について背景（または「平らな」）カテゴリを予測することができ、深度インペインティング構成要素は、マスク化された特徴表現に基づいて、入力画像のすべての画素（マスク化された画素を含む）について深度値を予測することができる。したがって、マスク化された画素内のカテゴリは、特徴の状況情報を見ることによって、インペイントまたは幻覚を起こさせ得る。

オクルージョン推論を実行することは、さらに、複数の画素の各々を、背景カテゴリおよび深度値に基づいて３次元（３Ｄ）にマッピングして、最初のマップを生成することを含むことができる。複数の画素のそれぞれを３Ｄにマッピングすることは、画像捕捉装置（例えば、固有の較正マトリクス）の固有の較正を使用することを含むことができる。上からの３Ｄ点群が観察され、高さ軸が落とされる。重なり合う画素は、それらの夫々の意味的な分割スコアにしたがって貯蔵（例えば、最大貯蔵）することができる。最初のマップはサイズＨ×Ｗ×Ｃの配列を含むことができ、ここで、ＨおよびＷは夫々、画素におけるマップの高さおよび幅を表す空間次元であり、Ｃは、考慮されるカテゴリの数である。空間次元は、実世界の座標（メートル単位など）に関連している。例えば、幅３０メートル、長さ６０メートルの窓を考えることができ、これを１２８×２５６次元配列にマッピングすることができる。

ブロック７３０において、最初のマップに基づいて場面要素表現を取得するために、パラメトリックモデルは実施される。場面要素表現を取得するためにパラメトリックモデルを実施することは、最初のマップから場面のパラメトリック表現を計算することを含むことができる。より具体的には、パラメータモデルの各パラメータは、最初のマップから予測することができる。パラメトリックモデルは、最初のマップの非パラメトリック表現の上述の困難に取り組む。

場面属性予測は最初のマップに基づいて場面モデルの各場面属性またはパラメータを予測するために、ＣＮＮを使用して実行することができる。運転場面の例示的な実施形態では予測することができる場面属性またはパラメータの例は、主道路上の車線の数、主道路の曲率、道路の左側までの距離、主道路の横断歩道の存在などが含まれるが、これらに限定されない。パラメータのいくつかは離散的であってもよく、他は連続的であってもよい。場面属性予測を実行するために使用されるＣＮＮは、小さい特徴抽出器および異なるタイプのパラメータを予測するいくつかのサブネットワークを含むことができ、図６を参照して上述したように監視された方法でトレーニングすることができる。

場面要素表現を取得するためにパラメトリックモデルを実施することは、最初のマップから取得された１つ以上の場面パラメータの夫々に対応する確率に基づいて、場面要素表現の実現可能性を保証するためにグラフィカルモデルを実施することをさらに含むことができる。グラフィカルモデルは、入力として、場面属性またはパラメータのすべてについて予測された確率を受信することができる。例えば、運転場面の例示的な実施形態では、グラフィカルモデルは、左または右に予測される横断歩道がある場合、交差点があることを保証することができる。基本的に、グラフィカルモデルは、不可能な場面レイアウトを説明する場面パラメータの予測を防止する。さらに、グラフィカルモデルは、一対の属性予測に基づいて最終的な精度を改善するために情報を活用することができる。グラフィカルモデルは場面表現の時間的な一貫性を保証するために、その後のフレームにわたって（時間的に）定義することもできる。グラフィカルモデルのパラメータは離散的な変数に変換することができ（例えば、連続パラメータを離散化することができる）、推論方法は、推論を取得するために適用することができる。例えば、本明細書で説明する実施形態によれば、任意の適切な推論方法を使用することができるが、
信念伝搬を推論に使用することができる。

場面要素表現は、場面要素の最後の場面説明を提供する。例えば、運転場面の例示的な実施形態では、場面要素の場面説明は、道路、車線、横断歩道、歩道、交差点などの背景オブジェクトを含むことができる。場面要素表現は図２を参照して上述され、図５を参照して以下でさらに詳細に説明されるように、アプリケーション２６０のセットのアプリケーションのような、その後の高レベルアプリケーションの基礎として役に立つことができる。予測された場面属性は、例えば、道路／交差点のトポロジー、走行車線、歩道、および横断歩道を含み得る走行場面の図解の概観を構築するのに十分であり得ることに留意されたい。

ブロック７４０では、少なくとも１つの画像に基づいて３Ｄ定位を実行することによって、１つ以上の場面要素の１つ以上の予測位置が識別される。例えば、物体検出器は、場面内の物体を検出するために使用することができる。運転場面の例示的実施形態では、物体検出器は、車両、歩行者、交通信号、交通標識などの交通関係者を検出することができる。任意の適切な物体検出方法は、本明細書に記載の実施形態による物体検出器を使用することができる。

単一画像が提供される実施態様において、画素単位の深度は、単眼深度推定モデルを使用して、単一画像だけから推定され得る。本明細書に記載される実施形態にしたがって、任意の適切な単眼深度推定モデルを使用して、画素単位の深度を推定することができる。その後、推定された画素単位の深度は、カテゴリ毎の事前確率に依存することで、各物体３Ｄバウンディングボックス（物体検出器から）を３Ｄ界に持ち上げるために使用される。

ブロック７５０において、自律的なタスクを実行するためのオーバレイが、１つ以上の夫々の予測位置を有する１つ以上の場面要素を場面要素表現上に置くことによって取得される。

例えば、運転場面の例示的な実施形態では、交通関係者は、場面の推定された意味的な配置に置かれる。交通関係者の意味的な配置とバウンディングボックスの両方は同じメートル法の空間にあるので、それらは単に重ね合わせることができる。さらに、場面配置はパラメトリック形式を有するので、各ＴＰに、それらの位置（例えば、「自動車１が車線３上を走行している」または「歩行者５が横断歩道２上を歩いている」）についてより有益な属性を割り当てることができる。これらの属性は、一組のアプリケーション２６０の運用に役に立つ。

ブロック７６０で、１つ以上のアプリケーションにオーバレイを適用することによって、自律的なタスクが実行される。１つ以上のアプリケーションは、自由空間、距離の計算のための経路計画、および挙動予測を計算するために１つ以上の自由空間推定を含みうる。例えば、運転場面の例示的実施形態では、自由空間推定は、例えば、カメラおよび車線からの車両の距離のような属性に基づいて計算することができ、自由空間推定アプリケーション５１０は、自由空間を計算することができる。経路計画において、場面要素（例えば、交差点および横断歩道）のパラメトリック表現は、改良された（例えば、より安全な）経路の生成を可能にすることができる。そのようなアプリケーションの他の実施例は、運転者の注意を必要とする場面の領域が塞がれた場合、運転者に警告を与える視覚推論である。例えば、歩道を塞いでいるトラック、道路を横断する歩行者、非常に遅れて運転者に見える可能性があるなどの危険は自動的に推測することができ、柔らかい警告を起こして、運転者に危険を警告することができる。他の例は大型車両が左折し、潜在的な対向車を塞ぐ状況である。運転者も左折したい場合、柔らかい警告を起こすことができる。

システム／方法７００に関するさらなる詳細は、図１－６を参照して上述される。

本明細書に記載する実施形態は完全にハードウェアであってもよく、完全にソフトウェアであってもよく、またはハードウェアおよびソフトウェア要素の両方を含むものであってもよい。好ましい実施形態では、本発明がファームウェア、常駐ソフトウェア、マイクロコードなどを含むがこれらに限定されないソフトウェアで実施される。

実施形態は、コンピュータまたは任意の命令実行システムによって、またはそれに関連して使用するプログラムコードを提供する、コンピュータ使用可能またはコンピュータ読み取り可能媒体からアクセス可能なコンピュータプログラム製品を含むことができる。コンピュータ使用可能媒体またはコンピュータ可読媒体は、命令実行システム、装置、またはデバイスによって、またはそれに関連して使用するためのプログラムを格納、通信、伝搬、または搬送する任意の装置を含むことができる。媒体は、磁気、光学、電子、電磁気、赤外線、または半導体システム（または装置またはデバイス）、または伝搬媒体とすることができる。媒体は、半導体またはソリッドステートメモリ、磁気テープ、取り外し可能コンピュータディスケット、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、リジッド磁気ディスクおよび光ディスクなどのコンピュータ読み取り可能な記憶媒体を含むことができる。

各コンピュータプログラムは本明細書に記載する手順を実行するために、記憶媒体または装置がコンピュータによって読み取られるときに、コンピュータの動作を構成し制御するために、汎用または特殊目的のプログラム可能コンピュータによって読み取り可能な、機械読み取り可能な記憶媒体または装置（例えば、プログラムメモリまたは磁気ディスク）に実体的に記憶することができる。本発明のシステムはまた、コンピュータプログラムで構成された、コンピュータ読み取り可能な記憶媒体で具体化されるものと考えることができ、その場合、構成された記憶媒体は、コンピュータを特定の所定の方法で動作させて、本明細書に記載する機能を実行させる。

プログラムコードを記憶および／または実行するのに適したデータ処理システムは、システムバスを介してメモリ要素に直接的または間接的に結合された少なくとも１つのプロセッサを含んでもよい。メモリ要素は、プログラムコードの実際の実行中に採用されるローカルメモリ、バルク記憶装置、および実行中にバルク記憶装置からコードが検索される回数を減らすために少なくとも何らかのプログラムコードの一時記憶を提供するキャッシュメモリを含むことができる。入力／出力またはＩ／Ｏ装置（キーボード、ディスプレイ、ポインティング装置などを含むが、これらに限定されない）は直接的に、または介在するＩ／Ｏコントローラを介して、システムに結合され得る。

介在する専用ネットワークまたは公衆ネットワークを介して、データ処理システムを他のデータ処理システムあるいは遠隔プリンタまたは記憶装置に結合できるようにするために、ネットワークアダプタをシステムに結合することもできる。モデム、ケーブルモデム、およびイーサネットカードは、現在使用可能なネットワークアダプタのタイプの一例に過ぎない。

次に図８を参照すると、本発明の一実施形態による、サーバまたはネットワーク装置を表す例示的なコンピュータシステム８００が示されている。コンピュータシステム８００は、システムバス８０２を介して他の構成要素に動作可能に結合された少なくとも１つのプロセッサ（ＣＰＵ）８０５を含む。キャッシュ８０６、読み出し専用メモリ（ＲＯＭ）８０８、ランダムアクセスメモリ（ＲＡＭ）８１０、入力／出力（Ｉ／Ｏ）アダプタ８２０、サウンドアダプタ８３０、ネットワークアダプタ８９０、ユーザインタフェースアダプタ８５０、およびディスプレイアダプタ８６０は、システムバス８０２に動作可能に結合される。

第１記憶装置８２２および第２記憶装置８２９は、Ｉ／Ｏアダプタ８２０によってシステムバス８０２に動作可能に結合される。記憶装置８２２および８２９はディスク記憶装置（例えば、磁気または光ディスク記憶装置）、ソリッドステート磁気装置などの何れかであってもよい。記憶装置８２２および８２９は、同じタイプの記憶装置であっても、異なるタイプの記憶装置であってもよい。

スピーカ８３２は、サウンドアダプタ８３０によって、システムバス８０２に動作可能に結合されてもよい。送受信器８９５は、ネットワークアダプタ８９０によってシステムバス８０２に動作可能に結合される。ディスプレイ装置８６２は、ディスプレイアダプタ８６０によってシステムバス８０２に動作可能に結合される。

第１ユーザ入力装置８５２、第２ユーザ入力装置８５９、および第３ユーザ入力装置８５６は、ユーザインタフェースアダプタ８５０によってシステムバス８０２に動作可能に結合される。ユーザ入力装置８５２、８５９、および８５６は、センサ、キーボード、マウス、キーパッド、ジョイスティック、画像キャプチャ装置、動き検出装置、電力測定装置、マイク、前述の装置のうちの少なくとも２つの機能を組み込んだ装置などのうちの任意のものとすることができる。もちろん、本発明の精神を維持しながら、他のタイプの入力装置を使用することもできる。ユーザ入力装置８５２、８５９、および８５６は、同じタイプのユーザ入力装置または異なるタイプのユーザ入力装置とすることができる。ユーザ入力装置８５２、８５９、および８５６は、システム８００との間で情報を入出力するために使用される。

場面表現（ＳＲ）構成要素８７０は、システムバス８０２に動作可能に結合される。ＳＲ構成要素８７０は、上述の動作の１つまたは複数を実行するように構成される。ＳＲ構成要素８７０は、スタンドアロンの特殊目的のハードウェア装置として実装されることができ、または、記憶装置に記憶されたソフトウェアとして実装されることができる。ＳＲ構成要素８７０がソフトウェア実装される実施形態において、コンピュータシステム８００の別の構成要素として示されるが、ＳＲ構成要素８７０は、例えば、第１記憶装置８２２および／または第２記憶装置８２９に格納される。あるいは、ＳＲ構成要素８７０は別の記憶装置（図示せず）に格納される。

もちろん、コンピュータシステム８００は当業者によって容易に企図されるように、他の要素（図示せず）を含むこともでき、特定の要素を省略することもできる。例えば、当業者によって容易に理解されるように、他の様々な入力装置および／または出力装置は、その特定の実装に応じて、コンピュータシステム８００に含まれる。例えば、様々なタイプの無線および／または有線の入力および／または出力装置を使用することができる。さらに、様々な構成の追加のプロセッサ、コントローラ、メモリなども、当業者には容易に理解されるように利用することができる。コンピュータシステム８００のこれらおよび他の変形は本明細書で提供される本発明の教示を与えられれば、当業者によって容易に企図される。

以上の説明は、あらゆる点において、限定するものではなく例示的および典型的なものとして理解すべきであり、本明細書において開示されている本発明の範囲は、詳細な説明から決定されてはならず、そうではなく、特許法で許容されるすべての幅に応じて解釈される特許請求の範囲から決定されなければならない。本明細書において示され、かつ、説明された実施形態は、本発明の原理についての単なる例示的なものにすぎないこと、また、当業者は、本発明の範囲および精神から逸脱することなく、様々な修正を加えることができることを理解されたい。当業者は、本発明の範囲および精神から逸脱することなく、様々な他の特徴組合せを実現することが可能である。以上、本発明の態様について、特許法で要求される詳細および特異性と共に説明したが、特許請求され、特許証で保護されることが望ましいものは、添付の特許請求の範囲に説明されている。

Claims

自律的なタスクの性能を改善するため、場面表現のパラメトリックモデルをコンピュータで実施する方法であって、
場面の斜視図に対応する少なくとも１つの画像に基づいて（７１０）、前記場面の最初のマップを生成し（７２０）、前記最初のマップは、前記場面の非パラメトリック上面視表現を含み、
前記最初のマップに基づいて、場面要素表現を取得するためパラメトリックモデルを実施し（７３０）、前記場面要素表現は１つ以上の前記場面の場面要素の説明を提供し、前記場面の推定された意味的な配置に対応し、
前記少なくとも１つの画像に基づいて、３次元定位を実行することによって前記１つ以上の場面要素の１つ以上の予測位置を識別し（７４０）、
前記場面要素表現に前記１つ以上の夫々の予測位置で前記１つ以上の場面要素を配置することによって自律的なタスクを実行するオーバレイを取得すること（７５０）と、
を含み、
前記最初のマップを生成することは、
前記少なくとも１つの画像から１つ以上の特徴を含む特徴表現を抽出することと、
前記特徴表現に基づいて、前記少なくとも１つの画像の複数の画素の夫々の意味的なカテゴリを取得するために、意味的な分割を使用することと、
前記場面において識別された１つ以上の前景オブジェクトに対応する１つ以上の領域をマスクアウトすることを含む前記意味的な分割に基づいて、マスク化された特徴表現を生成することと、
前記マスク化された特徴表現に基づいて、前記複数の画素の夫々の背景カテゴリと深度値とを予測することと、
前記最初のマップを生成するため前記背景カテゴリと前記深度値とに基づいて前記複数の画素の夫々を３次元にマッピングすること、
によってオクルージョン推論を実行することをさらに含む、方法。
画像捕捉装置を使用して前記少なくとも１つの画像を取得することをさらに含み、前記複数の画素の夫々を３次元にマッピングすることは、前記画像捕捉装置の固有の較正を使用することをさらに含む、請求項１に記載の方法。
前記画像補足装置は、前記少なくとも１つの画像が運転場面の斜視図を含むように車両に取り付けられる、請求項２に記載の方法。
前記場面要素表現を取得するために前記パラメトリックモデルを実施することは、前記最初のマップから得られた１つ以上の場面パラメータの夫々に対応する確率に基づいて前記場面要素表現の実現可能性を保証するためのグラフィカルなモデルを実施することをさらに含む、請求項１に記載の方法。
前記オーバレイを１つ以上のアプリケーションに適用することによって前記自律的なタスクを実行することをさらに含み、前記１つ以上のアプリケーションは、自由空間を計算する自由空間推定、距離計算の経路計画、および挙動予測のうちの１つ以上を含む、請求項１に記載の方法。
前記最初のマップに基づいて前記パラメトリックモデルをトレーニングすることをさらに含む、請求項１に記載の方法。
コンピュータに自律的なタスクの性能を改善するため、場面表現のパラメトリックモデルを実施する方法を実行させるために、コンピュータによって実行可能なプログラム命令が具現化されたプログラム命令を有する非一時的なコンピュータ読み取り可能な記憶媒体を含むコンピュータプログラム製品であって、前記コンピュータによって実行される方法は、
場面の斜視図に対応する少なくとも１つの画像（７１０）に基づいて、前記場面の最初のマップを生成し（７２０）、前記最初のマップは、前記場面の非パラメトリック上面視表現を含み、
前記最初のマップに基づいて、場面要素表現を取得するためパラメトリックモデルを実施し（７３０）、前記場面要素表現は１つ以上の前記場面の場面要素の説明を提供し、前記場面の推定された意味的な配置に対応し、
前記少なくとも１つの画像に基づいて、３次元定位を実行することによって前記１つ以上の場面要素の１つ以上の予測位置を識別し（７４０）、
前記場面要素表現に前記１つ以上の夫々の予測位置で前記１つ以上の場面要素を配置することによって自律的なタスクを実行するオーバレイを取得すること（７５０）、
を含み、
前記最初のマップを生成することは、
前記少なくとも１つの画像から１つ以上の特徴を含む特徴表現を抽出することと、
前記特徴表現に基づいて、前記少なくとも１つの画像の複数の画素の夫々の意味的なカテゴリを取得するために、意味的な分割を使用することと、
前記場面において識別された１つ以上の前景オブジェクトに対応する１つ以上の領域をマスクアウトすることを含む前記意味的な分割に基づいて、マスク化された特徴表現を生成することと、
前記マスク化された特徴表現に基づいて、前記複数の画素の夫々の背景カテゴリと深度値とを予測することと、
前記最初のマップを生成するため前記背景カテゴリと前記深度値とに基づいて前記複数の画素の夫々を３次元にマッピングすること、によってオクルージョン推論を実行することをさらに含む、コンピュータプログラム製品。
前記方法は、画像捕捉装置を使用して前記少なくとも１つの画像を取得することをさらに含み、前記複数の画素の夫々を３次元にマッピングすることは、前記画像捕捉装置の固有の較正を使用することをさらに含む、請求項７に記載のコンピュータプログラム製品。
前記画像補足装置は、前記少なくとも１つの画像が運転場面の斜視図を含むように車両に取り付けられる、請求項８に記載のコンピュータプログラム製品。
前記場面要素表現を取得するために前記パラメトリックモデルを実施することは、１つ以上の場面パラメータの夫々に対応する確率に基づいて前記場面要素表現の実現可能性を保証するためのグラフィカルなモデルを実施することをさらに含む、請求項７に記載のコンピュータプログラム製品。
前記方法は、前記オーバレイを１つ以上のアプリケーションに適用することによって前記自律的なタスクを実行することをさらに含み、前記１つ以上のアプリケーションは、自由空間を計算する自由空間推定、距離計算の経路計画、および挙動予測のうちの１つ以上を含む、請求項７に記載のコンピュータプログラム製品。
前記方法は、前記最初のマップに基づいて前記パラメトリックモデルをトレーニングすることをさらに含む、請求項７に記載のコンピュータプログラム製品。
自律的なタスクの性能を改善するため、場面表現のパラメトリックモデルを実施するためのシステムであって、
プログラムコードを記憶するための記憶装置（８１０）と、
記憶装置に動作可能に結合され、前記記憶装置に記憶されたプログラムコードを実行するように構成された少なくとも１つのプロセッサ装置（８０５）と、を含み、
前記プロセッサ装置は、
場面の斜視図に対応する少なくとも１つの画像に基づいて、前記場面の最初のマップを生成し、前記最初のマップは、前記場面の非パラメトリック上面視表現を含み、
前記最初のマップに基づいて、場面要素表現を取得するためパラメトリックモデルを実施し、前記場面要素表現は１つ以上の前記場面の場面要素の説明を提供し、前記場面の推定された意味的な配置に対応し、
前記少なくとも１つの画像に基づいて、３次元定位を実行することによって前記１つ以上の場面要素の１つ以上の予測位置を識別し、
前記場面要素表現に前記１つ以上の夫々の予測位置で前記１つ以上の場面要素を配置することによって自律的なタスクを実行するオーバレイを取得し、
前記少なくとも１つのプロセッサ装置は、さらに、
前記少なくとも１つの画像から１つ以上の特徴を含む特徴表現を抽出することと、
前記特徴表現に基づいて、前記少なくとも１つの画像の複数の画素の夫々の意味的なカテゴリを取得するために、意味的な分割を使用することと、
前記場面において識別された１つ以上の前景オブジェクトに対応する１つ以上の領域をマスクアウトすることを含む前記意味的な分割に基づいて、マスク化された特徴表現を生成することと、
前記マスク化された特徴表現に基づいて、前記複数の画素の夫々の背景カテゴリと深度値とを予測することと、
前記最初のマップを生成するため前記背景カテゴリと前記深度値とに基づいて前記複数の画素の夫々を前記３次元にマッピングすることと、
によってオクルージョン推論を実行することにより前記最初のマップを生成するよう構成されている、システム。
画像捕捉装置をさらに含み、前記少なくとも１つのプロセッサ装置は、さらに、前記記憶装置に記憶されたプログラムコードを実行し、前記画像捕捉装置を使用して前記少なくとも１つの画像を取得するよう構成され、前記少なくとも１つのプロセッサ装置は、さらに、前記画像捕捉装置の固有の較正を使用することによって前記複数の画素の夫々を前記３次元にマッピングするよう構成されている、請求項１３に記載のシステム。
前記画像補足装置は、前記少なくとも１つの画像が運転場面の斜視図を含むように車両に取り付けられる、請求項１４に記載のシステム。
前記少なくとも１つのプロセッサ装置は、さらに、グラフィカルなモデルを実施することによって前記場面要素表現を取得するために前記パラメトリックモデルを実施するよう構成され、１つ以上の場面パラメータの夫々に対応する確率に基づいて前記場面要素表現の実現可能性を保証するよう構成されている、請求項１３に記載のシステム。
前記少なくとも１つのプロセッサ装置は、さらに、前記記憶装置に記憶されたプログラムコードを実行し、前記オーバレイを１つ以上のアプリケーションに適用することによって前記自律的なタスクを実行するよう構成され、前記１つ以上のアプリケーションは、自由空間を計算する自由空間推定、距離計算の経路計画、および挙動予測のうちの１つ以上を含む、請求項１３に記載のシステム。