JP2022142789A

JP2022142789A - 単眼深度推定およびオブジェクト検出のためのネットワークアーキテクチャ

Info

Publication number: JP2022142789A
Application number: JP2022041807A
Authority: JP
Inventors: パークデニス; Park Dennis; エイ．アンブラスラレシュ; A Ambrus Rares; ギジリーニビトー; Guizilini Vitor; リジエ; Jie Li; デイビッドガイドンエイドリアン; David Gaidon Adrien
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2021-03-16
Filing date: 2022-03-16
Publication date: 2022-09-30
Also published as: US11798288B2; JP2022142784A; US12020489B2; US12008818B2; US20220301202A1; JP2022142790A; JP2022142787A; US20220300746A1; US12067785B2; US20220301203A1; US20220300768A1

Abstract

【課題】共通のネットワークアーキテクチャを用いた深度推定およびオブジェクト検出を実施するシステム及び方法を提供すること。【解決手段】一実施形態において、本方法は、組合せ型ネットワークのバックボーンを用いて、入力画像から多重スケールで特徴マップを生成することを含む。本方法は、組合せ型ネットワークのトップダウン経路を用いて特徴マップをデコードして多重スケールで特徴を提供することを含む。本方法は、組合せ型ネットワークのヘッドを用いて、入力画像中に描かれたシーンについての特徴から深度マップを、そして入力画像内のオブジェクトを識別する境界ボックスを生成することを含む。【選択図】図３

Description

本明細書中に記載の主題は、概して、深度を予測しオブジェクトを検出するためのシステムおよび方法、そしてより詳細には深度予測およびオブジェクト検出を行なう独特のネットワークアーキテクチャに関する。

自律的に動作するかまたは周囲環境についての情報を提供するさまざまなデバイスが、多くの場合、周囲環境の障害物および付加的なアスペクトの知覚を容易にするセンサを使用する。高い精度で１シーンの構造を再構築する能力は、そのシーンの理解およびナビゲーションにとって重要である。一例として、ロボットデバイスは、周囲環境の認識度を発達させてその環境を通ってナビゲートし危険を回避するために、センサからの情報を使用する。詳細には、ロボットデバイスは、このデバイスがナビゲート可能な領域と潜在的な危険を区別できるように、知覚した情報を使用して環境の３Ｄ構造を決定する。さまざまな態様において、これには、距離を知覚することおよび離散的オブジェクトを検出することが含まれ得る。

１つのアプローチにおいては、ロボットデバイスは、周囲環境の画像を捕捉し、そこから距離および他のアスペクトを推定できるようにするため単眼カメラを利用することができる。このアプローチでは、高価な光検出および測距（ＬｉＤＡＲ）センサの使用を回避することができるが、結果としての推定値は、シーンをナビゲートするのに必要であり得る精度レベルを常に提供するわけではない。その上、このアプローチにはさらに、多数の異なる機械学習モデルが必要である可能性があり、これらのモデルの訓練は、訓練データの取得のむずかしさに起因して、困難なタスクを意味し得る。

一実施形態において、例示的システムおよび方法は、組合せ型ネットワークを活用する単眼画像からの深度推定およびオブジェクト検出に対する改良されたアプローチに関係する。先に指摘したように、深度推定およびオブジェクト検出を行なうために多数の別個のネットワークを実装することは、資源集約的である。その上、これらのネットワークを独立して訓練するプロセスは同様に、多くの場合取得が困難であるラベル付けされたグラウンドトルースデータを使用することのあるオブジェクト検出ネットワークにとって特に困難なものであり得る。

したがって、一配設においては、オブジェクト検出についてのネットワークの訓練を改善するために深度推定ネットワークの訓練における単純性を活用しながら、単一のネットワーク内に両方の機能を統合する組合せ型ネットワークが開示される。例えば、組合せ型ネットワークは、入力として単眼画像を受容し異なるスケールで特徴マップを生成して画像内に表わされた特徴をエンコードする共通のバックボーンから形成される。特徴マップは、一配設においては特徴内の特徴マップをデコードするように機能するトップダウン経路にフィードされ、これには同様に、特徴の生成をさらに増強するためにバックボーンとの側方接続も関与し得る。したがって、このとき、オブジェクト検出のための境界ボックスを生成するため、そして最高の解像度では同様に入力画像のための深度マップを生成するためにも、別個のスケール間で共用ヘッドが使用される。

いずれの場合においても、バックボーンおよびトップダウン経路は概して、深度推定とオブジェクト検出という異なるタスク間で共用される特徴ピラミッドネットワークを形成する。したがって、オブジェクト検出および深度推定のための別個のインスタンスにおいて組合せ型ネットワークを訓練する代りに、深度推定についての初期訓練を行なって、バックボーンおよびトップダウン経路を訓練することができる。その後、組合せ型ネットワークは、拡張性が比較的低いものであり得る訓練データを用いてオブジェクト検出について訓練する。したがって、深度推定についての予備訓練は、オブジェクト検出についての訓練が、別の場合では必要になると思われるほど集約的なタスクとならずより少ないラベル付き訓練画像しか使用しないような形で組合せ型ネットワークを初期化し、こうして訓練のためにこのようなデータを取得する困難さは削減される。このようにして、組合せ型ネットワークは、より訓練が簡単な単純化されたアーキテクチャを使用して両方のタスクのための機能全体を改善する。

一実施形態においては、深度システムが開示されている。深度システムは、１つ以上のプロセッサと、この１つ以上のプロセッサに対し通信可能に結合されたメモリを含む。該メモリは、１つ以上のプロセッサによって実行された時点で１つ以上のプロセッサに、組合せ型ネットワークのバックボーンを用いて、入力画像から多重スケールで特徴マップを生成させる命令を含むネットワークモジュールを記憶する。ネットワークモジュールは、組合せ型ネットワークのトップダウン経路を用いて特徴マップをデコードして多重スケールで特徴を提供する命令を含む。ネットワークモジュールは、組合せ型ネットワークのヘッドを用いて、入力画像の中に描かれたシーンについての特徴から深度マップを、そして入力画像内のオブジェクトを識別する境界ボックスを生成するための命令を含む。

一実施形態においては、１つ以上のプロセッサによって実行された時点で１つ以上のプロセッサに様々な機能を行なわせる命令を含む非一時的コンピュータ可読媒体が開示されている。命令には、組合せ型ネットワークのバックボーンを用いて、入力画像から多重スケールで特徴マップを生成するための命令が含まれる。命令には、組合せ型ネットワークのトップダウン経路を用いて特徴マップをデコードして多重スケールで特徴を提供する命令が含まれる。命令には、組合せ型ネットワークのヘッドを用いて、入力画像の中に描かれたシーンについての特徴から深度マップを、そして入力画像内のオブジェクトを識別する境界ボックスを生成する命令が含まれる。

一実施形態においては、方法が開示されている。該方法は、組合せ型ネットワークのバックボーンを用いて、入力画像から多重スケールで特徴マップを生成することを含む。該方法は、組合せ型ネットワークのトップダウン経路を用いて特徴マップをデコードして多重スケールで特徴を提供することを含む。該方法は、組合せ型ネットワークのヘッドを用いて、入力画像の中に描かれたシーンについての特徴から深度マップを、そして入力画像内のオブジェクトを識別する境界ボックスを生成することを含む。

明細書中に組込まれその一部を構成する添付図面は、本開示のさまざまなシステム、方法および他の実施形態を例示する。図中の例示された要素境界（例えばボックス、ボックス群または他の形状）は、境界の一実施形態を表わしているということが認識される。いくつかの実施形態においては、１つの要素が多数の要素として設計されてよく、または多数の要素が１つの要素として設計されてもよい。いくつかの実施形態においては、別の要素の内部コンポーネントとして示されている要素を、外部コンポーネントとして実装することが可能であり、その逆も同様である。さらに、要素は、原寸に比例して描かれていない場合がある。

本明細書中で開示されているシステムおよび方法を内部で実装できる車両の一実施形態を例示する図である。組合せ型ネットワークを用いたオブジェクト検出のための深度推定値および境界ボックスを提供することと結び付けられた深度システムの一実施形態を例示する図である。組合せ型ネットワークのためのアーキテクチャの一配設を例示する図である。深度マップを生成し画像内のオブジェクトを検出する一実施形態と結び付けられた流れ図を例示する図である。組合せ型ネットワークを訓練する一実施形態と結び付けられた流れ図を例示する図である。

組合せ型ネットワークを活用する単眼画像からの深度推定およびオブジェクト検出に対する改良型アプローチと結び付けられたシステム、方法および他の実施形態が開示されている。先に指摘したように、深度推定およびオブジェクト検出を行なうために多数の別個のネットワークを実装することは、資源集約的である。その上、これらのネットワークを独立して訓練するプロセスは同様に、多くの場合取得が困難であるラベル付けされたグラウンドトルースデータを使用することのあるオブジェクト検出ネットワークにとって特に困難なものであり得る。

したがって、一配設においては、オブジェクト検出についてのネットワークの訓練を改善するために深度推定ネットワークの訓練における単純性を活用しながら、単一のネットワーク内に両方の機能を統合する組合せ型ネットワークが開示される。例えば、組合せ型ネットワークは、入力として単眼画像を受容し異なるスケールで特徴マップを生成して画像内に表わされた特徴をエンコードする共通のバックボーンから形成される。特徴マップは、一配設においては特徴内の特徴マップをデコードするように機能するトップダウン経路にフィードされ、これには同様に、特徴の生成をさらに増強するためにバックボーンとの側方接続も関与し得る。したがって、このとき、オブジェクト検出のための境界ボックスを生成するため、そして最高の解像度では同様に入力画像のための深度マップを生成するためにも、別個のスケールの間で共用ヘッドが使用される。

図１を参照すると、車両１００の一例が示されている。本明細書中で使用される「車両」とは、あらゆる形態の動力式輸送手段である。１つ以上の実装において、車両１００は自動車である。本明細書中では自動車に関連して配設が説明されているものの、実施形態は自動車に限定されないということが理解される。いくつかの実装において、車両１００は、例えば周囲の状況を観察してそこからの決定を提供し、こうして本明細書中で論述されている機能性からの恩恵を享受するあらゆるロボットデバイスまたは別のデバイス（例えば監視デバイス(surveillance device)）であってよい。さらなる実施形態においては、車両１００は、原動デバイスの代わりに、静的に組付けられたデバイス、埋込まれたデバイスまたは、深度およびシーンについてのオブジェクト情報を導出するために単眼画像を使用する別のデバイスであり得る。

いずれの場合でも、車両１００は同様に、さまざまな要素を含む。さまざまな実施形態において、車両１００が図１中に示された要素の全てを有する必要は無い可能性がある。車両１００は、図１に示されたさまざまな要素の任意の組合せを有し得る。さらに、車両１００は、図１に示された要素に対する追加の要素を有することができる。いくつかの配設において、車両１００は、図１に示された要素の１つ以上が無い状態で実装され得る。さまざまな要素が、車両１００の内部に位置設定されているものとして例示されているものの、これらの要素の１つ以上を車両１００の外部に位置設定することも可能であるということが理解される。さらに、図示された要素は、物理的に大きな距離だけ離隔され、遠隔サービス（例えばクラウドコンピューティングサービス、サービス型ソフトウェア（ＳａａＳ）など）として提供されてよい。

車両１００の考えられる要素のいくつかは、図１に示されており、後続の図と共に説明される。しかしながら、図１中の要素の多くの説明が、この説明の簡潔性を目的として、図２～５の論述の後で提供される。さらに、例示の平易さおよび明瞭さのために、必要に応じて、対応するまたは類似の要素を表示するために異なる図の間で参照番号が反復されている。さらに、論述では、本明細書中に記載の実施形態を徹底的に理解できるように、多くの具体的詳細の概要が述べられている。しかしながら、当業者であれば、本明細書中に記載されている実施形態がこれらの要素のさまざまな組合せを用いて実践可能である、ということを理解するものである。

いずれの場合でも、車両１００は、多数の情報源を利用できる新規のネットワークアーキテクチャを用いて深度推定（すなわち深度マップ）を生成するために機能する深度システム１７０を含む。その上、スタンドアロンのコンポーネントとして描かれているものの、１つ以上の実施形態において、深度システム１７０は、自律運転モジュール１６０、カメラ１２６、または車両１００の別のコンポーネントと統合されている。さらに、先に指摘したように、深度システム１７０の１つ以上のコンポーネントが、車両１００から遠隔のクラウドベースの要素であり得る。指摘された機能および方法は、図のさらなる論述によって、さらに明らかなものとなる。

図２を参照すると、深度システム１７０の一実施形態がさらに例示されている。深度システム１７０はプロセッサ１１０を含むものとして示されている。したがって、プロセッサ１１０は深度システム１７０の一部であり得るか、または深度システム１７０はデータバスまたは別の通信経路を通して、プロセッサ１１０にアクセスすることができる。１つ以上の実施形態において、プロセッサ１１０は、ネットワークモジュール２２０と結び付けられた機能を実装するように構成されている特定用途向け集積回路（ＡＳＩＣ）である。概して、プロセッサ１１０は、本明細書中に記載のさまざまな機能を行なう能力を有するマイクロプロセッサなどの電子プロセッサである。一実施形態において、深度システム１７０は、ネットワークモジュール２２０および／または深度情報の生成を支援するように機能し得る他のモジュールを記憶するメモリ２１０を含む。メモリ２１０は、ランダムアクセスメモリ（ＲＡＭ）、読取り専用メモリ（ＲＯＭ）、ハードディスクドライブ、フラッシュメモリまたはネットワークモジュール２２０を記憶するための他の好適なメモリである。ネットワークモジュール２２０は例えば、プロセッサ１１０によって実行された時点で、プロセッサ１１０に、本明細書中で開示されたさまざまな機能を行なわせるコンピュータ可読命令である。さらなる配設において、ネットワークモジュール２２０は、論理、集積回路または、内部に統合された命令を含む指摘された機能を行なうための別のデバイスである。

さらに、一実施形態において、深度システム１７０は、データストア２３０を含む。データストア２３０は、一実施形態において、メモリ２１０または別のデータストア中に記憶された電子データ構造であり、記憶されたデータを分析し、記憶されたデータを提供し、記憶されたデータを組織することなどのためにプロセッサ１１０によって実行され得るルーチンと共に構成されているものである。したがって、一実施形態において、データストア２３０は、さまざまな機能を実行する上でネットワークモジュール２２０によって使用されるデータを記憶する。例えば、図２に描かれているように、データストア２３０は、画像２４０、組合せ型ネットワークであるモデル２５０、深度マップ２６０および境界ボックス２７０を、例えばネットワークモジュール２２０によって使用および／または生成される他の情報と共に含んでいる。

画像２４０は、例えば、カメラ１２６または別の撮像デバイスからの単眼画像である。単眼画像は概して、複数のフレームで構成されている１つ以上の単眼ビデオから導出されるが、画像２４０を静止画像カメラから導出することも同様に可能である。本明細書中に記載されているように、単眼画像は例えば、さらなるモダリティを一切伴わない光三原色（ＲＧＢ）画像であり、かつ周囲環境の少なくとも一部分の車両１００を中心とする視野（ＦＯＶ）を包含する、カメラ１２６または別の撮像デバイスからの画像である。すなわち、単眼画像２４０は、一つのアプローチにおいては、周囲環境のサブ領域に限定される。こうして、画像２４０は、前向き方向（すなわち走行方向）６０、９０、１２０度ＦＯＶ、後方／側方向きＦＯＶ、またはカメラ１２６の撮像特性（例えばレンズのひずみ、ＦＯＶなど）によって定義される他のサブ領域であり得る。さまざまな態様において、カメラ１２６は、ピンホールカメラ、魚眼カメラ、反射屈折カメラ、または、特定の深度モダリティを伴わない画像を取得する別の形態のカメラである。

個別の単眼画像はそれ自体、カメラ１２６またはソースである別の撮像デバイスと結び付けられた撮像標準（例えばコーデック）にしたがってエンコードされたＦＯＶの視覚データを含む。概して、ソースカメラ（例えばカメラ１２６）およびビデオ規格の特性が、単眼画像のフォーマットを定義する。したがって、特定の特性は異なる実装に応じて変動し得るものの、概して、画像は、定義された解像度（すなわち画素単位の高さおよび幅）およびフォーマットを有する。したがって、例えば、単眼画像は、ＲＧＢ可視光画像である。さらなる態様においては、単眼画像は、対応する赤外線カメラと結び付けられた赤外線画像、白黒画像、または所望され得る通りの別の好適なフォーマットであり得る。深度システム１７０がどのフォーマットを実装しようとも、画像は、深度を標示するいかなる明示的な追加のモダリティも、深度導出の元となる別のカメラからのいかなる明示的な対応する画像も（すなわちいかなるステレオカメラ対も）存在しないという点において、単眼画像である。追加の深度チャネルを提供するために並んで組付けられた別個のカメラからの左右の画像を統合し得るステレオ画像とは対照的に、単眼画像は、ステレオ画像を画素毎に比較することで導出される視差マップなどの明示的な深度情報を含んでいない。その代り、単眼画像は、モデル２５０による深度マップ２６０の導出元である、内部に描かれた要素のサイズと射影の関係において深度情報を暗黙に提供する。

さらに、１つ以上の配設において、そのデータストア２３０はさらに、画像２４０に対応する訓練データを含む。一般的態様として、画像２４０および訓練データは単数形で論述されているものの、さまざまな配設においてデータストア２３０は、モデル２５０の訓練を支援するために多数の画像および対応する訓練データを含む。その上、実際の使用中、システム１７０は、画像２４０を個別に取得し処理することができる。いずれの場合においても、画像２４０と結び付けられた訓練データは、一実施形態において、グラウンドトルース深度データ、グラウンドトルース境界ボックス、クラスラベルなどを含む。当然のことながら、さらなる実装において、例えば深度システム１７０が、深度についてのモデル２５０の訓練に対する自己教師あり(self-supervised)アプローチを実装する場合などに、訓練データの１つ以上のアスペクトを省略することができる。深度についての自己教師あり訓練の場合には、訓練データは、グラウンドトルース深度データを含まなくてもよく、代りにストラクチャ・フロム・モーション（ＳｆＭ）の使用を通した決定を支援するための同じシーンのビデオからの画像シーケンスを含む。

モデル２５０は、深度、オブジェクト検出および分類についての推論を裏付けする組合せ型ネットワークである。一つの構成において、モデル２５０は、単一段階である完全に畳み込み型のネットワークである。さらに、モデル２５０は、画像２４０からの特徴マップをエンコードするためのボトムアップバックボーン、特徴マップをデコードするトップダウン経路および共用ヘッドを含む特徴ピラミッドネットワーク（ＦＰＮ）として言及され得る。いくつかの実装において同様に特徴ピラミッドとしても言及されているトップダウン経路は、別個の層間の直列接続に加えてバックボーンとの異なるスケールでの側方接続を含む。したがって、トップダウン経路は、最高の解像度で出力される深度マップ２６０を除いて、異なるスケール（例えば境界ボックス、中心性など）での結果を出力する。

モデル２５０についてのアーキテクチャのさらなる説明として、図３を考慮されたい。図３に示されているように、モデル２５０は、入力である画像２４０のスケールを反復的に縮小する一連の畳み込み層を含むバックボーン３００を含む。ボトムアップ経路としても言及され得るバックボーン３００は、多数の異なるスケールでの特徴マップを含む、特徴階層を計算するモデル２５０のフィードフォワード計算である。さらなる態様において、バックボーン３００は、追加のコンポーネント、例えばプーリング層などを含み得る。トップダウン経路３１０は、１つのアプローチにおいて、一連の逆畳み込み層を用いて、空間的により粗い特徴マップをアップサンプリングすることによって、より高い解像度の特徴を幻覚化する。トップダウン経路３１０は、図示されているように、改良型アップサンプリングのために原初の入力２４０のより少ないサンプリングされたインスタンスを提供するべく、バックボーン３００との側方接続を介して特徴を増強する。

側方接続は、バックボーン３００およびトップダウン経路３１０からの同じ空間サイズの特徴マップをマージし、バックボーン３００からの特徴マップがトップダウン経路３１０の先行層からの特徴マップよりも少ない回数だけサブサンプリングされることから、これにより、より精確な位置特定が提供されることになる。深度システム１７０は、別個のマップを組合わせるために要素様の付加を使用し得る。ヘッド３２０は、トップダウン経路３１０の別個の出力スケールの間で共用されるが、別個のスケールでの推論を強調するために多数の異なるヘッドとして示されている。すなわち、ヘッド３２０は、トップダウン経路３１０の別個の出力間で共用される単一の構造である。

例示されているように、ヘッド３２０は、クラスコンポーネント３３０、２次元コンポーネント３４０および３次元コンポーネント３５０などの多数の異なる構造を含む。クラスコンポーネント３３０は、モデル２５０が訓練される一定数のクラスに対応するＣ次元のベクトルを生成する。クラスコンポーネント３３０は、オブジェクトについてのクラス決定を生成するためのマルチクラス分類子または複数の二項分類子を含み得る。

２Ｄコンポーネント３４０は、画像２４０のフレームの２Ｄ空間内でオブジェクトを識別するために機能する。１つのアプローチでは、２Ｄコンポーネント３４０は、画像２４０のフレームからの識別として２Ｄ境界ボックスを生成する畳み込みネットワークである。２Ｄコンポーネント３４０は、２Ｄおよび３Ｄオブジェクト検出間の一貫性を提供するために機能することができる。

ヘッド３２０は、さらに、カメライントリンシクスを用いて３Ｄ点クラウドへと変換される高密度の画素単位深度を予測するための疑似ＬｉＤＡＲ３Ｄ検出器として作用する深度コンポーネント３６０を含む。３Ｄコンポーネント３５０は、点クラウドを入力画像２４０と連結させて、深度マップ２６０として３Ｄ座標と共に画素色値を包含する６次元テンソルを生成する。３Ｄコンポーネント３５０はさらに、境界ボックス２７０を生成する３Ｄ検出ネットワーク３７０によって処理される、２Ｄコンポーネント３４０由来の提案領域を受諾する。

図２に戻ると、ネットワークモジュール２２０は、概して、別個のコンポーネントとしてモデル２５０を実装する。さまざまな態様において、ネットワークモジュール２２０は、モデル２５０を適用するための命令を含み、モデル２５０は、ネットワークモジュール２２０と統合され得る。概して、ネットワークモジュール２２０は、画像２４０を含むセンサデータを処理するためにモデル２５０を制御し、訓練するときには、結び付けられた訓練データを用いて、訓練損失を生成してモデル２５０を更新する。

いずれの場合でも、深度システム１７０は、一実施形態において、深度マップ２６０、境界ボックス２７０およびさらなる情報（例えば２Ｄ境界ボックス、分類など）を生成するためにモデル２５０を利用する。概して、深度マップ２６０は、疑似ＬｉＤＡＲ深度データまたは高密度深度データとして言及され得る画像２４０についての深度の画素単位の予測である。すなわち、モデル２５０は、画像２４０の形で描かれた異なるアスペクトについての深度の推定値を提供する。当然のことながら、当該アプローチにおいて、モデル２５０はさらに、単一モデル２５０からの分類などの、他の情報に加えて２Ｄおよび３Ｄ境界ボックス２７０の形でのオブジェクト検出を提供するため、深度マップ２６０を超えたところからの情報を統合する。

一実施形態においては、ネットワークモジュール２２０が概して、深度マップ２６０を生成するようにモデル２５０を制御するべくさまざまなアクションを実行するためにプロセッサ１１０を制御するように機能する命令を含む、ということを認識しなければならない。ネットワークモジュール２２０は、１つ以上のアプローチにおいて、例えばカメラ１２６を制御することにより画像２４０を取得するか、またはデータバス、または電子メモリ、または別の利用可能な電子ソースから画像２４０を取得する。当然のことながら、モデル２５０を訓練するインスタンスにおいて、ネットワークモジュール２２０はさらに、電子メモリまたは別の好適なデータストアから訓練データ（例えばグラウンドトルース深度、オブジェクト境界ボックス、クラス情報など）を取得することができる。

ネットワークモジュール２２０は当初、モデル２５０のバックボーンを入力画像２４０に適用して、多数の異なるスケール（すなわち特徴階層）で特徴マップを生成する。したがって、ネットワークモジュール２２０は、例えば、異なるスケールの特徴を抽象化する（例えば犬対トラックなどの大きな特徴対より小さな特徴）異なるスケールを各々が有している多数の特徴マップを生成している。モデル２５０は次に、２つの異なる接続を用いて、トップダウン経路３１０に対して特徴マップをフィードする。第１の接続は、バックボーン３００の最終層からの直列接続であり、一方、第２の接続は、時として、異なるスケールの特徴マップを提供するスキップ接続としても言及される側方接続である。このようにして、ネットワークモジュール２２０は、デコーディングを容易にするため、トップダウン経路３１０内へ多数の特徴レベルを促進する。

ネットワークモジュール２２０は、モデル２５０の共用ヘッド３３０に対して特徴またはより詳細な生成済み特徴マップを提供するために、トップダウン経路３１０を用いてデコーディングを行なう。共用ヘッド３２０は、入力画像内に描かれたシーンについての特徴から深度マップ２６０を、そして入力画像２４０内のオブジェクトを識別する境界ボックス２７０を生成する。先に例示した通り、共用ヘッド３２０は、異なる機能と結び付けられた多数の異なる経路を含む。例えば、ヘッド３２０は、３Ｄオブジェクト検出、２Ｄオブジェクト検出、深度推定および分類を行なう多数のサブヘッドを含む。ネットワークモジュール２２０は、トップダウン経路３１０からの特徴に作用するべく、別個のヘッド３２０を制御する。したがって、ネットワークモジュール２２０は、他のスケールについて深度を生成することなく最高解像度の特徴マップに作用するべく深度コンポーネント３６０をさらに制御しながら、トップダウン経路３１０からの出力として提供された異なる深度スケールを反復的に処理するためにヘッド３２０を制御することができる。

概して、モデル２５０のフレームワークは、バックボーン３００およびトップダウン経路３１０などの多数の異なるコンポーネントの間で多くのアスペクトを共用する。ヘッド３２０の特定のセクションは全て、バックボーン３００とトップダウン経路３１０を使用し、一方ヘッド３２０のコンポーネントは、異なる出力の生成を促進するための別個の個別コンポーネントを含む。モデル２５０のかなりの部分を共用することにより、深度システム１７０は、モデル２５０を初期化し特定の別個のタスクと結び付けられたより少ないグラウンドトルースデータを使用してモデル２５０内の収束を達成する目的で、深度推定などの資源依存性が比較的低いタスクについてモデル２５０を訓練することができる。

したがって、一態様においては、ネットワークモジュール２２０は、２段階訓練プロセスを実装する。第１段階において、ネットワークモジュール２２０は、多くの反復にわたる深度推定（すなわち深度マップ２６０）から導出された損失を用いて、モデル２５０を訓練する。訓練の第１段階は、教師あり(supervised)訓練パイプライン内のグラウンドトルース深度を使用することができ、ストラクチャ・フロム・モーション（ＳｆＭ）解析を容易にするために移動するプラットフォーム上で撮られたビデオからの一連の画像を使用する自己教師あり単眼アプローチを通した固有のグラウンドトルースに依存することができ、あるいは、組合せ型訓練パイプライン（例えば、自己教師ありアプローチの固有の深度情報と組合わせて疎な深度データを活用する半教師あり(semi-supervised)のもの）に依存することもできる。

いずれの場合でも、第１段階の訓練のソースとして深度コンポーネント３６０を使用することによって、深度システム１７０は、オブジェクト検出および分類のために過剰な量のグラウンドトルース訓練データを使用することに伴う問題点を回避する。追加のタスクについてのグラウンドトルースデータは概して、データ生成に不随するコストおよび労力のため深度訓練データに比べて取得が困難であることから、このような形での訓練は、多数の異なるタスクについてモデル２５０を精確に訓練する能力を著しく改善する。したがって、ネットワークモジュール２２０は、第１段階中に追加のサブヘッド３３０および３４０を無作為に初期化し、深度ヘッド３６０についての訓練データにしたがって、深度損失を導出することができる。ネットワークモジュール２２０は、このとき、第１段階における深度損失を用いてモデル２５０を訓練するよう、バックボーン３００およびトップダウン経路３１０を適応させることができる。

ネットワークモジュール２２０はこのとき第２の訓練段階を用いて、追加のタスクについて追加のサブヘッド３３０、３４０およびヘッド３５０の３Ｄ検出を改良することができる。したがって、一態様において、ネットワークモジュール２２０は、第２段階で特定のタスクのためのグラウンドトルースデータを使用して、モデル２５０の訓練をさらに改良する。しかしながら、モデル２５０はすでに初期化されており、したがって、そうでなければ使用されると思われるものよりも著しく少ない異なるタスク用の訓練データを用いて、異なるタスクのための精確な推定値に収束するものと期待される、ということを指摘しておかなければならない。したがって、オブジェクト検出、分類および深度タスクの間でモデル２５０の大部分を共用することによって、深度推定タスクについての訓練が簡単であることによってオブジェクト検出および分類タスクについてのモデル２５０のパフォーマンスは改善される。

深度予測、オブジェクト検出およびオブジェクト分類の合同学習という追加の態様については、図４に関連して論述される。図４は、組合せ型ネットワークを使用した深度マップ、境界ボックスおよび分類の生成に結び付けられた方法４００の流れ図を例示する。方法４００については、図１～２の深度システム１７０の観点から見て論述される。方法４００は深度システム１７０と組合わせて論述されているものの、該方法４００が深度システム１７０の内部で実装されることに限定されず、むしろ該方法４００を実装し得るシステムの一例であるということを認識すべきである。

４１０において、ネットワークモジュール２２０は、画像２４０を取得する。概して、画像２４０は、少なくとも単眼カメラからの単眼画像または車両１００または深度システム１７０が情報を解析する対象である別のデバイスの周囲環境のビデオで構成されている。したがって、先に指摘したように、深度システム１７０は、車両１００または別のデバイスと統合されてよく、あるいは代替的に、広域ネットワーク（ＷＡＮ）などの通信経路を介して画像２４０を受信すること、そして、画像２４０を解析するべく遠隔で機能することができる。いずれの場合でも、深度システム１７０は、単一画像２４０を処理して、同じモデル２５０を用いて多数の異なる決定を導出することができる。

４２０において、ネットワークモジュール２２０は、モデル２５０のバックボーン３００を用いて、入力画像から多重スケールで特徴マップを生成する。したがって、ネットワークモジュール２２０は、１つのアプローチにおいて、５つの異なるスケールで特徴マップを生成するためにモデル２５０を使用する。モデル２５０は、畳み込み層を使用して、概して異なるスケールでの特徴の存在を標示する特徴マップへと入力画像２４０を処理する。この特徴階層は、オブジェクト、深度などを識別するためにモデル２５０が処理することのできるエンコードされた形態での画像２４０内に描かれたアスペクトの表現を提供する。したがって、特徴マップは、入力画像２４０の特徴をエンコードして、深度マップ２６０および境界ボックス２７０を生成するための共用の基準を提供する。

４３０において、ネットワークモジュール２２０は、バックボーン３００とトップダウン経路３１０の間の側方接続を用いて、トップダウン経路３１０内からの先行するレベルの出力に加えて特徴マップの多重スケールを提供する。したがって、モデル２５０の一部分が、画像２４０を特徴マップへと反復的に処理しその後連続するスケールで連続する反復にしたがって特徴マップを処理するために機能する一方で、ネットワークモジュール２２０は同様に、側方接続を用いてバックボーン３００からトップダウン経路３１０へ中間特徴マップを提供する。側方接続を介して提供される特徴マップは、それ程多くの回数サブサンプリングされていないことから、こうして、より高い解像度でのアップサンプリングが容易になる。

４４０において、ネットワークモジュール２２０は、モデル２５０のトップダウン経路を用いて、特徴マップをデコードして、多重スケールで特徴を提供する。先に指摘した通り、トップダウン経路３１０は、側方接続を介してバックボーンから残留特徴マップも受信しながら、先行層からの処理済み特徴マップを受信する。いずれの場合でも、デコーディングには概して、入力をアップサンプリングするための逆畳み込み層の適用が含まれる。

４５０において、ネットワークモジュール２２０は、モデル２５０の共用ヘッドを用いて、入力画像２４０内に描かれたシーンについての特徴から深度マップ２６０を、そして入力画像２４０内のオブジェクトを識別する境界ボックス２７０を生成する。さらなる態様において、モデル２５０は同様に、識別されたオブジェクトについての２Ｄ境界ボックスおよび分類を生成する。ネットワークモジュール２２０は、多重スケールでトップダウン経路の別個の層の間でヘッドを使用して、多重スケールで境界ボックス２７０を、そして多重スケールのうちの１つで深度マップ２６０を生成する。ヘッド３２０には、３Ｄオブジェクト検出、２Ｄオブジェクト検出、深度推定、および分類を行なう多数のサブヘッドが含まれる。したがって、ネットワークモジュール２２０は、単一モデル２５０を用いて多数の異なる決定を出力するためにモデル２５０を使用することができる。

４６０において、ネットワークモジュール２２０は、深度マップ２６０と境界ボックス２７０を提供する。一つのアプローチにおいて、ネットワークモジュール２２０は、深度マップ２６０および境界ボックス２７０にしたがって車両１００のナビゲーション（例えば計画および制御）を行なわせるために、自律運転モジュール１６０などの車両１００の支援システムに対して深度マップ２６０を提供する。したがって、ネットワークモジュール２２０は、車両１００が環境を安全にナビゲーションできるように経路計画および他の機能を容易にする目的で、車両１００の周囲環境の知覚を支援するためにモデル２５０を使用することができる。

図５は、組合せ型ネットワークアーキテクチャの訓練と結び付けられた方法５００の流れ図を例示する。方法５００は、図１～２の深度システム１７０の観点から論述される。方法５００は、深度システム１７０と組合せて論述されるものの、該方法５００が深度システム１７０内で実装されることに限定されず、むしろ、方法５００を実装し得るシステムの一例である、ということを認識すべきである。

５１０において、ネットワークモジュール２２０は、モデル２５０を訓練するための訓練データを取得する。１つのアプローチにおいて、訓練データは、２段階の訓練のためのデータを含む。したがって、訓練データは、モデル２５０の深度ヘッドについての訓練を行なうための情報を含むことができる。この訓練データは、自己教師あり訓練を支援するためにシーンのビデオからの一連の連続するフレームを含むことができる。さらなるアプローチにおいては、自己教師あり訓練データは、グラウンドトルースデータに対する必要性をなおも最小限に抑えながら計量的に精確なスケールの学習を支援するために疎なグラウンドトルース深度データで補完され得る。さらなるアプローチでは、深度訓練は、ＬｉＤＡＲ、ステレオ画像対などから導出された明示的なグラウンドトルース深度データに依存し得る。

その上、第２段階のための訓練データは概して、オブジェクト検出および分類の追加タスクを支援するラベル付きグラウンドトルースデータを含む。オブジェクト分類グラウンドトルースデータは、２Ｄおよび３Ｄの両方の境界ボックスを含むことができ、一方分類データは、モデル２５０が訓練されるクラスの数についてのクラスラベルを含む。先に概要説明した通り、追加のタスク用の訓練データの数量は、あらかじめタスク全てについて個別の訓練を行う場合とは対照的に、深度推定についてモデル２５０を最初に訓練するプロセスを通して著しく削減される。

５２０において、ネットワークモジュール２２０は、第１段階で、深度推定と結び付けられた計算された損失値についてモデル２５０を訓練する。指摘された通り、深度訓練は、利用可能な訓練データに応じて教師ありであっても非教師ありであってもよい。いずれの場合でも、ネットワークモジュール２２０は、深度推定タスクについて、訓練データ内の多数の単眼画像全体にわたりモデル２５０を訓練する。この第１段階の間、ネットワークモジュール２２０は、概して深度マップ２６０および結び付けられた訓練データにしたがって深度損失を導出しながら、他のヘッド（すなわち分類および２Ｄ境界ボックス推定）を無作為に初期化することができる。

５３０において、ネットワークモジュール２２０は、第２段階で、検出損失を計算するため境界ボックスおよびグラウンドトルースデータを使用することにより、モデル２５０を訓練する。さらなる態様では、ネットワークモジュール２２０は同様に、２Ｄおよび３Ｄ境界ボックスに加えて分類についてモデル２５０を訓練する。いずれの場合でも、ネットワークモジュール２２０は、モデル２５０の共用コンポーネントを初期化する訓練前段階として深度推定を活用する目的で初期深度推定訓練の後、他の全てのタスクの訓練を行ない、これにより、ロバスト性がより低いデータセットについての他のタスクのための訓練を加速する。

５４０において、ネットワークモジュール２２０はモデル２５０を提供する。ネットワークモジュール２２０がモデル２５０を訓練した後、モデル２５０は、多数の異なるタスクのための決定を提供できる単一のネットワークアーキテクチャを表わす。その結果として、モデル２５０は、同じく訓練を単純化しながら、多数の別個のタスクを単一のアーキテクチャへと簡素化する。したがって、モデル２５０は、共通の要素（例えばバックボーン３００およびトップダウン経路３１０）の共用を通してより効率の良いものとなる。このようにして、深度システム１７０は、深度、オブジェクト検出および分類の決定を改善する。

本明細書中で開示されているシステムおよび方法が中で動作し得る例示的環境として、ここで図１について完全に詳述する。いくつかの事例において、車両１００は、自律モード、１つ以上の半自律動作モードおよび／または手動モードの間で選択的に切換えるように構成されている。このような切換えは、現在公知のまたは将来開発される好適な形で実装可能である。「手動モード」は、車両のナビゲーションおよび／または操作の全てまたは大部分が、ユーザ（例えば人間のドライバ）から受けた入力にしたがって行なわれることを意味する。１つ以上の配設において、車両１００は、手動モードのみで動作するように構成されている従来の車両であり得る。

１つ以上の実施形態において、車両１００は自律型車両である。本明細書中で使用される「自律型車両」とは、自律モードで動作する車両を意味する。「自律モード」とは、人間のドライバからの入力が最小限であるかまたは全く無い状態で、車両１００を制御するために１つ以上の計算システムを使用して走行ルートに沿って車両１００をナビゲートおよび／または操作することを意味する。１つ以上の実施形態において、車両１００は、高度に自動化されているか、または完全に自動化されている。一実施形態において、車両１００は、１つ以上の計算システムが走行ルートに沿った車両のナビゲーションおよび／または操作の一部分を行ない、車両のオペレータ（すなわちドライバ）が、走行ルートに沿った車両１００のナビゲーションおよび／または操作の一部分を行なうために車両に入力を提供する、１つ以上の半自律動作モードを伴って構成されている。

車両１００は、１つ以上のプロセッサ１１０を含むことができる。１つ以上の配設において、プロセッサ１１０は、車両１００の主プロセッサであり得る。例えば、プロセッサ１１０は、電子制御ユニット（ＥＣＵ）であり得る。車両１００は、１つ以上のタイプのデータを記憶するための１つ以上のデータストア１１５を含むことができる。データストア１１５は、揮発性および／または不揮発性メモリを含むことができる。好適なデータストア１１５の例としては、ＲＡＭ（ランダムアクセスメモリ）、フラッシュメモリ、ＲＯＭ（読取り専用メモリ）、ＰＲＯＭ（プログラマブル読取り専用メモリ）、ＥＰＲＯＭ（消去可能なプログラマブル読取り専用メモリ）、ＥＥＰＲＯＭ（電気的消去可能なプログラマブル読取り専用メモリ）、レジスタ、磁気ディスク、光ディスク、ハードドライブまたは他の任意の好適な記憶媒体、またはその任意の組合せを含むことができる。データストア１１５は、プロセッサ１１０の１つのコンポーネントであり得、あるいはデータストア１１５はプロセッサ１１０に対し作動的に接続されてそれにより使用され得る。本明細書全体を通して使用される「作動的に接続された」なる用語は、直接的な物理的接触の無い接続を含めた、直接的または間接的接続を含むことができる。

１つ以上の配設において、１つ以上のデータストア１１５は、マップデータ１１６を含むことができる。マップデータ１１６は、１つ以上の地理的地域のマップを含み得る。いくつかの事例において、マップデータ１１６は、１つ以上の地理的地域内の道路、交通管制装置、路面標識、構造、特徴および／またはランドマークについての情報またはデータを含み得る。マップデータ１１６は、任意の好適な形態であり得る。いくつかの事例において、マップデータ１１６は、一地域の航空写真を含み得る。いくつかの事例において、マップデータ１１６は、３６０度の地上写真を含めた、一地域の地上写真であり得る。マップデータ１１６は、マップデータ１１６内に含まれた１つ以上のアイテムについてのおよび／またはマップデータ１１６内に含まれた他のアイテムに関する測定値、寸法、距離および／または情報を含むことができる。マップデータ１１６は、道路の幾何形状についての情報を伴うデジタルマップを含むことができる。マップデータ１１６は、高品質のおよび／または高精細のものであり得る。

１つ以上の配設において、マップデータ１１６は、１つ以上の地形図１１７を含み得る。地形図１１７は、１つ以上の地理的地域の地面、地形、道路、表面および／または他の特徴についての情報を含むことができる。地形図１１７は、１つ以上の地理的地域内の標高データを含み得る。マップデータ１１６は、高品質および／または高精細のものであり得る。地形図１１７は、舗装道路、未舗装道路、陸地および地表を画定する他の物を含み得る１つ以上の地表を定義し得る。

１つ以上の配設において、マップデータ１１６は、１つ以上の静止障害物マップ１１８を含むことができる。静止障害物マップ１１８は、１つ以上の地理的地域内に位置設定された１つ以上の静止障害物についての情報を含むことができる。「静止障害物」は、一定の期間にわたりその位置が変わらないかまたは実質的に変わらずかつ／または一定の期間にわたりそのサイズが変わらないかまたは実質的に変わらない物理的オブジェクトである。静止障害物の例としては、木、建物、縁石、フェンス、ガードレール、中央分離帯、電柱、塑像、モニュメント、看板、ベンチ、調度品、郵便箱、大きな岩、丘が含まれる。静止障害物は、地表面より上に延在するオブジェクトであり得る。静止障害物マップ１１８に含まれる１つ以上の静止障害物は、場所データ、サイズデータ、寸法データ、材料データおよび／またはそれに結び付けられた他のデータを有することができる。静止障害物マップ１１８は、１つ以上の静止障害物についての測定値、寸法、距離および／または情報を含むことができる。静止障害物マップ１１８は、高品質および／または高精細のものであり得る。静止障害物マップ１１８は、マッピングされた地域内の変化を反映するように更新され得る。

１つ以上のデータストア１１５は、センサデータ１１９を含み得る。これに関連して、「センサデータ」は、車両１００に具備されたセンサについての能力および他の情報を含めた、このようなセンサについてのあらゆる情報を意味する。以下で説明されるように、車両１００はセンサシステム１２０を含むことができる。センサデータ１１９は、センサシステム１２０の１つ以上のセンサに関係し得る。一例として、１つ以上の配設において、センサデータ１１９は、センサシステム１２０の１つ以上のＬＩＤＡＲセンサ１２４についての情報を含むことができる。

いくつかの事例において、マップデータ１１６および／またはセンサデータ１１９の少なくとも一部分は、車両１００に搭載された１つ以上のデータストア１１５内に位置設定され得る。代替的に、または付加的に、マップデータ１１６および／またはセンサデータ１１９の少なくとも一部分を、車両１００から遠隔に位置設定された１つ以上のデータストア１１５内に位置設定することができる。

以上で指摘したように、車両１００は、センサシステム１２０を含むことができる。センサシステム１２０は、１つ以上のセンサを含み得る。「センサ」とは、何かを検出および／または検知できるあらゆるデバイス、コンポーネントおよび／またはシステムを意味する。１つ以上のセンサは、実時間で検出および／または検知するように構成され得る。本明細書中で使用される「実時間」なる用語は、特定のプロセスまたは決定を行なうのに充分に即時であるものとしてユーザまたはシステムが検知する、またはプロセッサがいくつかの外部プロセスに遅れずについていけるようにする処理応答性レベルを意味する。

センサシステム１２０が複数のセンサを含んでいる配設において、センサは互いに独立して作動し得る。代替的には、センサの２つ以上が互いに組合わさって作動することができる。このような場合には、２つ以上のセンサはセンサネットワークを形成し得る。センサシステム１２０および／または１つ以上のセンサは、プロセッサ１１０、データストア１１５および／または車両１００の別の要素（図１に示された要素のいずれかを含む）に対して作動的に接続され得る。センサシステム１２０は、車両１００の外部環境の少なくとも一部分（例えば近傍の車両）のデータを取得することができる。

センサシステム１２０は、任意の好適なタイプのセンサを含むことができる。本明細書中では、異なるタイプのセンサのさまざまな例が記載される。しかしながら、実施形態は、記載された特定のセンサに限定されない、ということが理解される。センサシステム１２０は、１つ以上の車両センサ１２１を含むことができる。車両センサ１２１は、車両１００自体についての情報を検出、決定および／または検知できる。１つ以上の配設において、車両センサ１２１は、例えば慣性加速度に基づいて、車両１００の位置および配向の変化を検出および／または検知するように構成され得る。１つ以上の配設において、車両センサ１２１は、１つ以上の加速度計、１つ以上のジャイロスコープ、慣性測定ユニット（ＩＭＵ）、推測航法システム、全地球的航法衛星システム（ＧＮＳＳ）、全地球測位システム（ＧＰＳ）、ナビゲーションシステム１４７および／または他の好適なセンサを含むことができる。車両センサ１２１は、車両１００の１つ以上の特性を検出および／または検知するように構成され得る。１つ以上の配設において、車両センサ１２１は、車両１００の現在速度を決定するための速度計を含み得る。

代替的に、または付加的に、センサシステム１２０は、運転環境データを取得および／または検知するように構成された１つ以上の環境センサ１２２を含むことができる。「運転環境データ」には、自律型車両が中に位置設定されている外部環境またはその１つ以上の部分についてのデータまたは情報が含まれる。例えば、１つ以上の環境センサ１２２は、車両１００の外部環境の少なくとも一部分の中の障害物、および／またはこのような障害物についての情報／データを検出、定量化および／または検知するように構成され得る。このような障害物は、不動のオブジェクトおよび／または動的オブジェクトであり得る。１つ以上の環境センサ１２２は、車両１００の外部環境内の他の物、例えば車線マーカー、看板、交通信号灯、交通標識、車線ライン、横断歩道、車両１００に近接した縁石、オフロードオブジェクトなどを検出、測定、定量化および／または検知するように構成され得る。

本明細書には、センサシステム１２０のセンサのさまざまな例が記載されている。例示的センサは、１つ以上の環境センサ１２２および／または１つ以上の車両センサ１２１の一部であり得る。しかしながら、実施形態は、記載されている特定のセンサに限定されないことが理解される。

一例として、１つ以上の配設において、センサシステム１２０は、１つ以上のレーダセンサ１２３、１つ以上のＬＩＤＡＲセンサ１２４、１つ以上のソーナセンサ１２５および／または１つ以上のカメラ１２６を含むことができる。１つ以上の配設において、１つ以上のカメラ１２６は、高ダイナミックレンジ（ＨＤＲ）カメラまたは赤外線（ＩＲ）カメラであり得る。

車両１００は、入力システム１３０を含むことができる。「入力システム」には、情報／データを機械に入力できるようにするあらゆるデバイス、コンポーネント、システム、要素、または配設またはそれらの群が含まれる。入力システム１３０は、車両の乗員（例えばドライバまたは同乗者）からの入力を受信することができる。車両１００は、出力システム１３５を含み得る。「出力システム」には、車両の乗員（例えば人物、車両の乗員）に対して情報／データを提示できるようにするあらゆるデバイス、コンポーネントまたは配設、またはそれらの群が含まれる。

車両１００は、１つ以上の車両システム１４０を含むことができる。１つ以上の車両システム１４０のさまざまな例が、図１に示されている。しかしながら、車両１００は、より多くの、より少ない、または異なる車両システムを含むことができる。特定の車両システムが別個に定義されているものの、これらのシステムまたはその部分の各々またはいずれかを、車両１００の内部でハードウェアおよび／またはソフトウェアを介して他の形で組合わせるかまたは分離してもよい、ということを認識すべきである。車両１００は、推進システム１４１、制動システム１４２、ステアリングシステム１４３、スロットルシステム１４４、トランスミッションシステム１４５、信号システム１４６および／またはナビゲーションシステム１４７を含むことができる。これらのシステムの各々は、現在公知のまたは将来開発される１つ以上のデバイス、コンポーネントおよび／またはそれらの組合せを含むことができる。

ナビゲーションシステム１４７は、車両１００の地理的場所を決定しかつ／または車両１００のための走行ルートを決定するように構成された、現在公知のまたは将来開発される１つ以上のデバイス、アプリケーションおよび／またはそれらの組合せを含むことができる。ナビゲーションシステム１４７は、車両１００の走行ルートを決定するための１つ以上のマッピングアプリケーションを含むことができる。ナビゲーションシステム１４７は、全地球測位システム、局地測位システムまたは地理位置情報システムを含むことができる。

プロセッサ１１０、深度システム１７０および／または自律運転モジュール１６０は、さまざまな車両システム１４０および／またはその個別のコンポーネントと通信するために作動的に接続（すなわち通信可能に結合）され得る。例えば、図１に戻ると、プロセッサ１１０および／または自律運転モジュール１６０は、車両１００の運動、速度、操作、進路、方向などを制御する目的で、さまざまな車両システム１４０からの情報を送信および／または受信するように通信状態にあり得る。プロセッサ１１０、深度システム１７０および／または自律運転モジュール１６０は、これらの車両システム１４０のいくつかまたは全てを制御することができ、したがって、部分的または完全に自律型である。

プロセッサ１１０、深度システム１７０および／または自律運転モジュール１６０は、さまざまな車両システム１４０および／またはその個別のコンポーネントと通信するために作動的に接続され得る。例えば、図１に戻ると、プロセッサ１１０、深度システム１７０および／または自律運転モジュール１６０は、車両１００の運動、速度、操作、進路、方向などを制御する目的で、さまざまな車両システム１４０からの情報を送信および／または受信するように通信状態にあり得る。プロセッサ１１０、深度システム１７０および／または自律運転モジュール１６０は、これらの車両システム１４０のいくつかまたは全てを制御することができる。

プロセッサ１１０、深度システム１７０および／または自律運転モジュール１６０は、車両システム１４０および／またはそのコンポーネントの１つ以上を制御することによって、車両１００のナビゲーションおよび／または操作を制御するように動作可能であり得る。例えば、自律モードで動作している場合、プロセッサ１１０、深度システム１７０および／または自律運転モジュール１６０は、車両１００の方向および／または速度を制御することができる。プロセッサ１１０、深度システム１７０および／または自律運転モジュール１６０は、車両１００に加速させる（例えばエンジンに対し提供される燃料供給を増大させることによる）、減速させる（例えばエンジンに対する燃料供給を減少させることおよび／またはブレーキをかけることによる）、および／または方向転換させる（例えば２つの前輪を回転させることによる）ことができる。本明細書中で使用される「～させる（ｃａｕｓｅまたはｃａｕｓｉｎｇ）」は、直接的にまたは間接的に、１つの事象またはアクションが発生するかまたはこのような事象またはアクションが発生し得る状態にあるようにする、強制する、余儀なくさせる、指図する、指令する、命令する、および／または可能にすることを意味している。

車両１００は、１つ以上のアクチュエータ１５０を含むことができる。アクチュエータ１５０は、プロセッサ１１０および／または自律運転モジュール１６０からの信号または他の出力の受信に対する応答性を有するように車両システム１４０またはそのコンポーネントの１つ以上を修正、調整および／または改変するために動作可能であるあらゆる要素または要素の組合せであり得る。任意の好適なアクチュエータを使用することができる。例えば、１つ以上のアクチュエータ１５０には、幾つかの可能性を挙げると、モータ、空気圧式アクチュエータ、油圧式ピストン、継電器、ソレノイド、および／または圧電アクチュエータが含まれ得る。

車両１００は、１つ以上のモジュールを含むことができ、そのうちの少なくともいくつかが本明細書中に記載されている。モジュールは、プロセッサ１１０によって実行された時点で、本明細書中に記載のさまざまなプロセスの１つ以上を実装するコンピュータ可読プログラムコードとして実装され得る。モジュールの１つ以上は、プロセッサ１１０の１つのコンポーネントであり得、あるいは、モジュールの１つ以上を、プロセッサ１１０が作動的に接続されている他の処理システム上で実行することおよび／またはこれらの他のシステムの間で分散させることが可能である。モジュールは、１つ以上のプロセッサ１１０により実行可能な命令（例えばプログラム論理）を含むことができる。代替的にまたは付加的に、１つ以上のデータストア１１５が、このような命令を格納していてよい。

１つ以上の配設において、本明細書中に記載のモジュールの１つ以上は、人工または計算知能要素、例えばニューラルネットワーク、ファジー論理または他の機械学習アルゴリズムを含むことができる。さらに、１つ以上の配設において、モジュールの１つ以上は、本明細書中に記載のモジュールのうちの複数のものの間で分散され得る。１つ以上の配設において、本明細書中に記載のモジュールの２つ以上を単一のモジュールの形に組合わせることができる。

車両１００は１つ以上の自律運転モジュール１６０を含むことができる。自律運転モジュール１６０は、センサシステム１２０および／または車両１００および車両１００の外部環境に関する情報を捕捉する能力を有する任意の他のタイプのシステムからデータを受信するように構成され得る。１つ以上の配設において、自律運転モジュール１６０は、このようなデータを用いて１つ以上の運転シーンモデルを生成することができる。自律運転モジュール１６０は、車両１００の位置および速度を決定することができる。自律運転モジュール１６０は、障害物、障害物または、交通標識、樹木、低木、隣接車両、歩行者などを含めた他の環境特徴の場所を決定することができる。

自律運転モジュール１６０は、車両１００の位置および配向を推定するために、プロセッサ１１０および／または本明細書中に記載のモジュールの１つ以上によって使用されるための車両１００の外部環境内の障害物についての場所情報、複数の衛星からの信号に基づくグローバル座標内の車両の位置、または、車両１００の現在の状態を決定するかまたはマップの作成またはマップデータとの関係における車両１００の位置の決定において使用するための環境との関係における車両１００の位置を決定するために使用可能と思われる任意の他のデータ、および／または信号を受信および／または決定するように構成され得る。

自律運転モジュール１６０は、独立してまたは深度システム１７０と組合わせた形で、センサシステム１２０が取得したデータ、運転シーンモデルおよび／または他の任意の好適なソースからのデータに基づいて、走行経路、車両１００のための現在の自律運転操作、将来の自律運転操作、および／または現在の自律運転操作に対する修正を決定するように構成され得る。「運転操作」とは、車両の動きに影響を及ぼす１つ以上のアクションを意味する。運転操作の例としては、幾つかの可能性を挙げると、加速、減速、制動、方向転換、車両１００の横方向移動、走行車線の変更、走行車線内への合流および／または逆進が含まれる。自律運転モジュール１６０は、決定された運転操作を実装するように構成され得る。自律運転モジュール１６０は、直接的にまたは間接的にこのような自律運転操作を実装させることができる。本明細書中で使用される「～させる（ｃａｕｓｅまたはｃａｕｓｉｎｇ）」は、直接的にまたは間接的に、１つの事象またはアクションが発生するかまたはこのような事象またはアクションが発生し得る状態にあるようにする、指令する、命令する、および／または可能にすることを意味している。自律運転モジュール１６０は、さまざまな車両機能を実行しかつ／または、車両１００またはその１つ以上のシステム（例えば車両システム１４０の１つ以上）にデータを伝送する、これらからデータを受信する、これらと対話するおよび／またはこれらを制御するように構成され得る。

本明細書中では、詳細にわたる実施形態が開示されている。しかしながら、開示された実施形態は単なる例として意図されたものであることを理解しなければならない。したがって、本明細書中で開示されている具体的な構造的および機能的詳細は、限定的なものとしてではなく、単にクレームの根拠として、およびほぼあらゆる適切に詳述された構造において本明細書中の態様をさまざまな形で利用するように当業者に教示するための代表的な原則として解釈されるべきものである。さらに、本明細書中で使用されている用語および言い回しは、限定的であるように意図されておらず、むしろ考えられる実装の理解可能な描写を提供するように意図されたものである。さまざまな実施形態が図１～５に示されているが、実施形態は、例示された構造または利用分野に限定されない。

図中の流れ図およびブロック図は、さまざまな実施形態にしたがったシステム、方法およびコンピュータプログラムプロダクツの考えられる実装のアーキテクチャ、機能性および動作を例示している。この点において、流れ図またはブロック図中の各ブロックは、規定された論理的機能を実装するための１つ以上の実行可能な命令を含む、モジュール、セグメントまたはコードの一部分を表わし得る。同様に、いくつかの代替的な実装においては、ブロック内に記された機能が図中に記された順序から外れて発生し得る、ということも指摘しておくべきである。例えば、連続して示されている２つのブロックを、実際には、実質的に同時に実行してもよく、あるいは、時として、関与する機能性に応じてブロックを逆の順序で実行してもよい。

以上で説明したシステム、コンポーネントおよび／またはプロセスは、ハードウェア、またはハードウェアとソフトウェアの組合せの形で実現可能であり、１つの処理システム内に集中した形で、または異なる要素が複数の相互接続された処理システムを横断して展開されている分散した形で実現され得る。本明細書中に記載の方法を実施するために適応されたあらゆる種類の処理システムまたは別の装置が好適である。ハードウェアとソフトウェアの典型的な組合せは、ロードされ実行された場合に、本明細書中に記載の方法を実施するような形で処理システムを制御するコンピュータ使用可能プログラムコードを伴う処理システムであり得る。システム、コンポーネントおよび／またはプロセスは同様に、本明細書中に記載の方法およびプロセスを行なうように機械により実行可能な命令プログラムを有形に具現する、機械可読コンピュータプログラムプロダクトまたは他のデータプログラム記憶デバイスなどのコンピュータ可読記憶装置の中に埋込まれ得る。これらの要素は同様に、本明細書中に記載の方法の実装を可能にする全ての特徴を含み、かつ処理システム内にロードされた時点でこれらの方法を実施することのできるアプリケーションプロダクトの中に埋込まれ得る。

さらに、本明細書中に記載の配設は、例えば上に記憶された状態で実施されているコンピュータ可読プログラムコードを有する１つ以上のコンピュータ可読媒体中に埋込まれたコンピュータプログラムプロダクトの形をとり得る。１つ以上のコンピュータ可読媒体の任意の組合せを利用してよい。コンピュータ可読媒体は、コンピュータ可読信号媒体またはコンピュータ可読記憶媒体であり得る。「コンピュータ可読記憶媒体」なる言い回しは、非一時的記憶媒体を意味する。コンピュータ可読記憶媒体は例えば、ただし非限定的に、電子、磁気、光学、電磁、赤外線または半導体システム、装置またはデバイス、またはそれらの任意の好適な組合せであり得る。コンピュータ可読記憶媒体のさらに具体的な例（非網羅的リスト）には、以下のものが含まれると考えられる：ポータブルコンピュータディスケット、ハードディスクドライブ（ＨＤＤ）、ソリッドステートドライブ（ＳＳＤ）、読取り専用メモリ（ＲＯＭ）、消去可能なプログラマブル読取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、ポータブルコンパクトディスク読取り専用メモリ（ＣＤ－ＲＯＭ）、デジタル多目的ディスク（ＤＶＤ）、光学記憶デバイス、磁気記憶デバイス、または以上のものの任意の好適な組合せ。本書に関連して、コンピュータ可読記憶媒体は、命令実行システム、装置またはデバイスによって、またはこれと接続して使用されるためのプログラムを格納または記憶することのできるあらゆる有形媒体であってよい。

概して、本明細書中で使用されるモジュールには、特定のタスクを行なうかまたは特定のデータタイプを実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などが含まれる。さらなる態様においては、メモリが概して、指摘されたモジュールを記憶する。モジュールと結び付けられるメモリは、プロセッサの内部に埋込まれたバッファまたはキャッシュ、ＲＡＭ、ＲＯＭ、フラッシュメモリまたは別の好適な電子記憶媒体であり得る。さらなる態様において、本開示が想定するモジュールは、特定用途向け集積回路（ＡＳＩＣ）、システムオンチップ（ＳｏＣ）のハードウェアコンポーネントとして、プログラマブル論理アレイ（ＰＬＡ）として、または開示された機能を行なうために定義された構成セット（例えば命令）と共に埋込まれる別の好適なハードウェアコンポーネントとして実装される。

無線、有線、光ファイバ、ケーブル、ＲＦなど、または以上のものの任意の好適な組合せを非限定的に含む任意の適切な媒体を用いて、コンピュータ可読媒体上に具現されたプログラムコードを伝送することができる。本配設の態様のために動作を行なうためのコンピュータプログラムコードは、Ｊａｖａ（登録商標）、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋などのオブジェクト指向プログラミング言語および “C”プログラミング言語または類似のプログラミング言語などの従来の手続き型プログラミング言語を含めた１つ以上のプログラミング言語の任意の組合せで書かれてよい。プログラムコードは、全体がユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、スタンドアローンソフトウェアパッケージとして、一部ユーザのコンピュータ上、一部遠隔コンピュータ上で、あるいは全体が遠隔のコンピュータまたはサーバ上で、実行可能である。後者のシナリオでは、遠隔コンピュータは、ローカルエリアネットワーク（ＬＡＮ）または広域ネットワーク（ＷＡＮ）を含めたあらゆるタイプのネットワークを通して、ユーザのコンピュータに接続され得るか、または、（例えばインタネットサービスプロバイダを用いてインタネットを通して）外部のコンピュータに対する接続を行なってもよい。

本明細書中で使用される「ａ」および「ａｎ」なる用語は、１または２以上として定義される。本明細書中で使用される「複数（ｐｌｕｒａｌｉｔｙ）」なる用語は、２または３以上として定義される。本明細書中で使用される「別の（ａｎｏｔｈｅｎ）」なる用語は、少なくとも２つ目以降として定義される。本明細書中で使用される「含む（ｉｎｃｌｕｄｉｎｇ）」および／または「有する（ｈａｖｉｎｇ）」なる用語は、含む（ｃｏｍｐｒｉｓｉｎｇ）として定義される（すなわちオープンランゲージ）。本明細書中で使用される「～と～のうちの少なくとも１つ（ａｔｌｅａｓｔｏｎｅｏｆ～ａｎｄ～）は、結び付けられた列挙項目のうちの１つ以上の項目のありとあらゆる可能な組合せを意味しそれを包含する。一例として、「Ａ、ＢおよびＣのうちの少なくとも１つ（ａｔｌａｅｓｔｏｎｅｏｆＡ、ＢａｎｄＣ）」なる言い回しは、Ａのみ、Ｂのみ、Ｃのみ、またはその任意の組合せ（例えばＡＢ、ＡＣ、ＢＣまたはＡＢＣ）を含む。

本明細書中の態様は、その精神または本質的な属性から逸脱することなく、他の形態で具現可能である。したがって、その範囲を示すものとしては、以上の明細書ではなくむしろ以下のクレームを参照すべきである。

Claims

深度システムであって、
１つ以上のプロセッサと、
前記１つ以上のプロセッサに対して通信可能に結合されたメモリであって、前記１つ以上のプロセッサによって実行された時点で前記１つ以上のプロセッサに、
組合せ型ネットワークのバックボーンを用いて、入力画像から多重スケールで特徴マップを生成させ、
前記組合せ型ネットワークのトップダウン経路を用いて特徴マップをデコードして前記多重スケールで特徴を提供させ、
前記組合せ型ネットワークのヘッドを用いて、前記入力画像の中に描かれたシーンについての特徴から深度マップを、そして前記入力画像内のオブジェクトを識別する境界ボックスを生成させる、
命令を含むネットワークモジュールを記憶しているメモリと、
を含む、深度システム。
前記ネットワークモジュールは、第１の段階において、前記深度マップから導出された教師あり深度損失を使用することによって、前記組合せ型ネットワークを訓練するための命令を含む、請求項１に記載の深度システム。
前記ネットワークモジュールは、第２の段階において、検出損失を計算するために前記境界ボックスおよびグラウンドトルースデータを使用することによって、前記組合せ型ネットワークを訓練するための命令を含む、請求項２に記載の深度システム。
前記ネットワークモジュールは、前記バックボーンと前記トップダウン経路の間の側方接続を用いて、前記トップダウン経路内部から先行レベルの出力に加えて前記特徴マップの前記多重スケールを提供するための命令を含む、デコード命令を含む、請求項１に記載の深度システム。
前記ネットワークモジュールは、特徴階層として前記多重スケールで前記特徴マップを生成するための命令を含む、前記特徴マップを生成する命令を含み、
前記ネットワークモジュールは、前記深度マップおよび前記境界ボックスを生成するための共通の基準を提供するべく前記入力画像の特徴をエンコードするために前記特徴マップを生成するための命令を含んでいる、
請求項１に記載の深度システム。
前記ネットワークモジュールは、前記多重スケールで前記境界ボックスを生成し、前記多重スケールのうちの１つで前記深度マップを生成するべく、前記多重スケールで前記トップダウン経路の別個の層中の前記ヘッドを使用するための命令を含む、前記深度マップおよび前記境界ボックスを生成するための命令を含む、請求項１に記載の深度システム。
前記ヘッドは、３Ｄオブジェクト検出、２Ｄオブジェクト検出、深度推定および分類を行なう多数のサブヘッドを含む、請求項１に記載の深度システム。
前記入力画像はＲＧＢの単眼画像である、請求項１に記載の深度システム。
１つ以上のプロセッサによって実行された時点で前記１つ以上のプロセッサに、
組合せ型ネットワークのバックボーンを用いて、入力画像から多重スケールで特徴マップを生成させ、
前記組合せ型ネットワークのトップダウン経路を用いて特徴マップをデコードして前記多重スケールで特徴を提供させ、
前記組合せ型ネットワークのヘッドを用いて、前記入力画像の中に描かれたシーンについての特徴から深度マップを、そして前記入力画像内のオブジェクトを識別する境界ボックスを生成させる、
命令を含む、非一時的コンピュータ可読媒体。
前記命令は、第１の段階において、前記深度マップから導出された教師あり深度損失を使用することによって前記組合せ型ネットワークを訓練するための命令を含む、請求項９に記載の非一時的コンピュータ可読媒体。
前記命令は、第２の段階において、検出損失を計算するために前記境界ボックスおよびグラウンドトルースデータを使用することによって、前記組合せ型ネットワークを訓練するための命令を含む、請求項１０に記載の非一時的コンピュータ可読媒体。
デコード命令は、前記バックボーンと前記トップダウン経路の間の側方接続を用いて、前記トップダウン経路内部から先行レベルの出力に加えて前記特徴マップの前記多重スケールを提供するための命令を含む、請求項９に記載の非一時的コンピュータ可読媒体。
前記特徴マップを生成する命令は、特徴階層として前記多重スケールで前記特徴マップを生成するための命令を含み、
特徴マップを生成するための命令は、前記深度マップおよび前記境界ボックスを生成するための共通の基準を提供するべく前記入力画像の特徴をエンコードする、
請求項９に記載の非一時的コンピュータ可読媒体。
組合せ型ネットワークのバックボーンを用いて、入力画像から多重スケールで特徴マップを生成することと、
前記組合せ型ネットワークのトップダウン経路を用いて特徴マップをデコードして前記多重スケールで特徴を提供することと、
前記組合せ型ネットワークのヘッドを用いて、前記入力画像の中に描かれたシーンについての特徴から深度マップを、そして前記入力画像内のオブジェクトを識別する境界ボックスを生成することと、
を含む、方法。
第１の段階において、前記深度マップから導出された教師あり深度損失を使用することによって前記組合せ型ネットワークを訓練すること、
をさらに含む、請求項１４に記載の方法。
第２の段階において、検出損失を計算するために前記境界ボックスおよびグラウンドトルースデータを使用することによって、前記組合せ型ネットワークを訓練すること、
をさらに含む、請求項１５に記載の方法。
デコードすることが、前記バックボーンと前記トップダウン経路の間の側方接続を用いて、前記トップダウン経路内部から先行レベルの出力に加えて前記特徴マップの前記多重スケールを提供することを含む、請求項１４に記載の方法。
前記特徴マップを生成することは、特徴階層として前記多重スケールで前記特徴マップを生成すること含み、
前記特徴マップを生成することは、前記深度マップおよび前記境界ボックスを生成するための共通の基準を提供するべく前記入力画像の特徴をエンコードする、
請求項１４に記載の方法。
前記深度マップおよび前記境界ボックスを生成することは、前記多重スケールで前記境界ボックスを、そして前記多重スケールのうちの１つで前記深度マップを生成するべく前記多重スケールで前記トップダウン経路の別個の層の中の前記ヘッドを使用することを含む、請求項１４に記載の方法。
前記深度マップおよび前記境界ボックスにしたがってデバイスのナビゲーションをひき起こすために前記深度マップおよび前記境界ボックスを提供すること、
をさらに含み、
前記ヘッドは、３Ｄオブジェクト検出、２Ｄオブジェクト検出、深度推定および分類を行なう多数のサブヘッドを含み、前記入力画像はＲＧＢの単眼画像である、請求項１４に記載の方法。