JP2022142790A

JP2022142790A - マルチタスクネットワークのための評価プロセス

Info

Publication number: JP2022142790A
Application number: JP2022041832A
Authority: JP
Inventors: エイ．アンブラスラレシュ; A Ambrus Rares; パークデニス; Park Dennis; ギジリーニビトー; Guizilini Vitor; リジエ; Jie Li; デイビッドガイドンエイドリアン; David Gaidon Adrien
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2021-03-16
Filing date: 2022-03-16
Publication date: 2022-09-30
Also published as: JP2022142789A; US11798288B2; US20220301203A1; JP2022142784A; US20220300746A1; US20220301202A1; US20220300768A1; JP2022142787A

Abstract

【課題】深度推定値およびオブジェクト検出の精度に関連して知覚ネットワークを評価するシステム及び方法を提供すること。
【解決手段】一実施形態において、本方法は、画像内で識別されたオブジェクトの境界ボックスにしたがって画像に結び付けられたレンジデータをセグメント化してマスクデータを生成することを含む。該方法には、深度推定値を深度マップと相関させる評価マスクにしたがって、前記マスクデータを深度マップ内の対応する深度推定値と比較することが含まれる。該方法は、深度マップおよび境界ボックスを生成したネットワークを査定するために比較することを定量化する測定基準を提供すること含む。
【選択図】図５

Description

本明細書中に記載の主題は、概して、ネットワークを評価するためのシステムおよび方法に関し、より詳細には、際立ったアスペクトの評価に集中するために、識別されたオブジェクトの境界ボックスと結び付けられた評価マスクを使用することに関する。

自律的に動作するかまたは周囲環境についてのアスペクトを知覚するために他の形で機能するさまざまなデバイスが、多くの場合、周囲環境の障害物および付加的なアスペクトの知覚を容易にするセンサを使用する。高い精度で１シーンの構造を再構築する能力は、そのシーンの認識度およびナビゲーションにとって重要である。一例として、ロボットデバイスは、周囲環境の認識度を発達させてナビゲート中の危険を回避するために、センサからの情報を使用する。詳細には、ロボットデバイスは、このデバイスがナビゲート可能な領域と潜在的な危険を区別できるように、知覚した情報を使用して環境の３Ｄ構造を決定する。さまざまな態様において、これには、距離を知覚することおよび離散的オブジェクトを検出することが含まれ得、これは概して、利用可能なセンサデータを離散的観察事実へと精確に処理することに依存している。

１つのアプローチにおいては、ロボットデバイスは、例えば離散的オブジェクトの識別など、周囲環境の画像を捕捉し、そこから距離および他のアスペクトを推定できるようにするため単眼カメラを利用することができる。このアプローチでは、多数の観察事実（例えば距離およびオブジェクト検出）を提供するために、単一の組合せ型機械学習モデルが使用され得る。しかしながら、このようなモデルを精確に評価することは、著しく困難であり得る。すなわち、単一タスクモデルを査定するための標準的測定基準は、このような測定基準が概して、組合されたアスペクト（例えば識別されたオブジェクトの深度推定値）ではなく、個別のタスクに集中していることから、マルチタスクネットワークにおける改善を正確に識別しない可能性がある。したがって、既存のアプローチは、どのマルチタスクモデルが実装に最も好適であるかを精確に識別しない可能性がある。

一実施形態において、例示的システムおよび方法は、際立った特徴に分析を集中させるために評価マスクを使用する組合せ型ネットワークの評価に対する改良型のアプローチに関する。先に指摘したように、深度推定およびオブジェクト検出を行なうために多数の別個のネットワークを実装することは、資源集約的である。さらにマルチタスクネットワークの事例においては、このようなネットワークを精確に評価することは、標準的アプローチがマルチタスクネットワークの複雑性にうまく適合していないことに起因して、さらに困難である。

したがって、１つの配設においては、評価システムが、ネットワークをより良く区別する目的でネットワーク構造および異なる訓練アプローチと結び付けられた改善を識別するために組合せ型ネットワークの形態にさらに良好に対応する改良型測定基準を生成するように機能する。したがって、一つの配設において、評価システムは最初に、例えば単眼ＲＧＢ画像である画像を取得する。さらに、評価システムは、ＬｉＤＡＲリターンの形でのレンジデータなどの、画像と結び付けられたグラウンドトルースデータを取得する。評価システムは次に、評価中のネットワークからの出力を生成するかまたは、画像と結び付けられたネットワークからの既存の出力を使用することができる。いずれの場合でも、評価システムは、改善された測定基準の生成を容易にする評価マスクを生成するためにレンジデータを使用する。

例えば、評価システムは、画像内のオブジェクトを識別する境界ボックスにしたがってレンジデータをセグメント化し、これはグラウンドトルースデータの一部としても提供され得る。その結果が評価マスクであり、評価システムはこれを次に、ネットワークからの深度データと共に画像内に投影することができる。したがって、結果として得られた評価マスクは、画像全体ではなくむしろ画像内のオブジェクトと相関するグラウンドトルースレンジデータを含む。同様にして、評価システムは、境界ボックスを用いて深度マップをマスキングするかまたは、比較のため対応する点を有する深度マップ内の点を決定するために直接評価マスクを使用することができる。いずれの場合でも、評価システムは、評価マスクを深度データの結び付けられた部分と比較して測定基準を導出する。測定基準は、深度推定およびオブジェクト検出の両方に関連してネットワークの精度を単一の値で特徴付けする。比較自体には概して、各オブジェクトベースでかまたは評価マスク内の全ての点を横断する深度に対して評価マスクを比較することが関与し、これが平均化される。さらに、より良い結果を提供するためにデータセット内の複数の出力を横断してこれを行なうことも可能である。このようにして、導出された測定基準は、さほど極立っていない領域を含む出力の全部域を横断した評価ではなく、深度推定と３Ｄ検出性能をより良く相関させる極めて重要な部域上でのネットワークの出力の評価を提供する。

一実施形態においては、評価システムが開示される。評価システムは、１つ以上のプロセッサと、この１つ以上のプロセッサに対して通信可能に結合されたメモリとを含む。このメモリは、１つ以上のプロセッサによって実行された時点で１つ以上のプロセッサに、画像内で識別されたオブジェクトの境界ボックスにしたがって画像と結び付けられたレンジデータをセグメント化してマスクデータを生成させる命令を含むネットワークモジュールを記憶する。ネットワークモジュールは、深度推定値を深度マップと相関させる評価マスクにしたがって、マスクデータを深度マップ内の対応する深度推定値と比較する命令を含む。ネットワークモジュールは、深度マップおよび境界ボックスを生成したネットワークを査定するために比較することを定量化する測定基準を提供するための命令を含む。

一実施形態においては、１つ以上のプロセッサによって実行された時点で１つ以上のプロセッサに、さまざまな機能を行なわせる命令を含む非一時的コンピュータ可読媒体が開示されている。命令は、画像内で識別されたオブジェクトの境界ボックスにしたがって画像に結び付けられたレンジデータをセグメント化してマスクデータを生成するための命令を含む。命令は、深度推定値を深度マップと相関させる評価マスクにしたがって、マスクデータを深度マップ内の対応する深度推定値と比較するための命令を含む。命令は、深度マップおよび境界ボックスを生成したネットワークを査定するために比較することを定量化する測定基準を提供するための命令を含む。

一実施形態においては、方法が開示されている。該方法は、画像内で識別されたオブジェクトの境界ボックスにしたがって画像に結び付けられたレンジデータをセグメント化してマスクデータを生成することを含む。方法は、深度推定値を深度マップと相関させる評価マスクにしたがって、マスクデータを深度マップ内の対応する深度推定値と比較することを含む。方法は、深度マップおよび境界ボックスを生成したネットワークを査定するために比較することを定量化する測定基準を提供することを含む。

明細書中に組込まれその一部を構成する添付図面は、本開示のさまざまなシステム、方法および他の実施形態を例示する。図中の例示された要素境界（例えばボックス、ボックス群または他の形状）は、境界の一実施形態を表わしているということが認識される。いくつかの実施形態においては、１つの要素が多数の要素として設計されてよく、または多数の要素が１つの要素として設計されてもよい。いくつかの実施形態においては、別の要素の内部コンポーネントとして示されている要素を、外部コンポーネントとして実装することが可能であり、その逆も同様である。さらに、要素は、原寸に比例して描かれていない場合がある。

本明細書中で開示されているシステムおよび方法を内部で実装できる車両の一実施形態を例示する図である。組合せ型ネットワークについての測定基準の生成と結び付けられた評価システムの一実施形態を例示する図である。オブジェクト識別のための境界ボックスを含む画像の一例を示す図である。図３の画像と結び付けられたレンジデータの例示的表現を示す図である。評価マスクの一例を示す図である。画像および対応する評価マスクの一例を示す図である。グラウンドトルースレンジデータと結び付けられた画像および対応する評価マスクの別の例を示す図である。評価マスクを用いて組合せ型ネットワークを評価する一実施形態に結び付けられた流れ図を例示する図である。

際立った特徴に分析を集中させるために評価マスクを使用する組合せ型ネットワークの評価に対する改良型のアプローチに結び付けられたシステム、方法および他の実施形態が開示されている。先に指摘したように、深度推定およびオブジェクト検出を行なうために多数の別個のネットワークを実装することは、資源集約的なことである。さらにマルチタスクネットワークの事例においては、このようなネットワークを精確に評価することは、標準的アプローチがマルチタスクネットワークの複雑性にうまく適合していないことに起因して、さらに困難である。

したがって、１つの配設においては、評価システムが、ネットワークをより良く区別する目的でネットワーク構造および異なる訓練レジメンと結び付けられた改善を識別するために組合せ型ネットワークの形態にさらに良好に対応する改良型測定基準を生成するように機能する。したがって、一つの配設において、評価システムは最初に、例えば単眼ＲＧＢ画像である画像を取得する。さらに、評価システムは、ＬｉＤＡＲリターンの形でのレンジデータなどの、画像と結び付けられたグラウンドトルースデータを取得する。評価システムは次に、評価中のネットワークからの出力を生成するかまたは、画像と結び付けられた既存の出力を使用することができる。いずれの場合でも、評価システムは、改善された測定基準の生成を容易にする評価マスクを生成するためにレンジデータを使用する。

例えば、評価システムは、画像内のオブジェクトを識別する境界ボックスにしたがってレンジデータをセグメント化する。その結果が評価マスクであり、評価システムは、ネットワークからの深度データと共に画像内にセグメント化されたデータを投影することによってこの評価マスクを形成する。したがって、結果として得られた評価マスクは、画像全体ではなくむしろ画像内のオブジェクトと相関するグラウンドトルースレンジデータを含む。同様にして、評価システムは、境界ボックスを用いて深度マップをマスキングするかまたは、比較のため対応する点を有する深度マップ内の点を決定するために直接評価マスクを使用することができる。いずれの場合でも、評価システムは、評価マスクを深度データの結び付けられた部分と比較して測定基準を導出する。測定基準は、深度推定およびオブジェクト検出の両方に関連してネットワークの精度を単一の値で特徴付けする。比較自体には概して、各オブジェクトベースでかまたは評価マスク内の全ての点を横断する深度に対して評価マスクを比較することが関与し、これが平均化される。さらに、より良い結果を提供するためにデータセット内の複数の出力を横断してこれを行なうことも可能である。このようにして、導出された測定基準は、（例えば建物および路面などの）さほど極立っていない領域を含む出力の全部域を横断した評価ではなく、深度推定と３Ｄ検出性能をより良く相関させる極めて重要な部域上でのネットワークの出力の評価を提供する。

図１を参照すると、車両１００の一例が示されている。本明細書中で使用される「車両」とは、あらゆる形態の動力式輸送手段である。１つ以上の実装において、車両１００は自動車である。本明細書中では自動車に関連して配設が説明されているものの、実施形態は自動車に限定されないということが理解される。いくつかの実装において、車両１００は、例えば周囲の状況を観察してそこからの決定を提供し、こうして本明細書中で論述されている機能性からの恩恵を享受するあらゆるロボットデバイスまたは別のデバイス（例えば監視デバイス）であってよい。さらなる実施形態においては、車両１００は、原動デバイスの代わりに、静的に組付けられたデバイス、埋込まれたデバイスまたは、深度およびシーンについてのオブジェクト情報を導出するために単眼画像を使用する別のデバイスであり得る。

いずれの場合でも、車両１００は同様に、さまざまな要素を含む。さまざまな実施形態において、車両１００が図１中に示された要素の全てを有する必要は無い可能性がある。車両１００は、図１に示されたさまざまな要素の任意の組合せを有し得る。さらに、車両１００は、図１に示された要素に対する追加の要素を有することができる。いくつかの配設において、車両１００は、図１に示された要素の１つ以上が無い状態で実装され得る。さまざまな要素が、車両１００の内部に位置設定されているものとして例示されているものの、これらの要素の１つ以上を車両１００の外部に位置設定することも可能であるということが理解される。さらに、図示された要素は、物理的に大きな距離だけ離隔され、遠隔サービス（例えばクラウドコンピューティングサービス、サービス型ソフトウェア（ＳａａＳ）など）として提供されてよい。

車両１００の考えられる要素のいくつかは、図１に示されており、後続の図と共に説明される。しかしながら、図１中の要素の多くの説明が、この説明の簡潔性を目的として、図２～８の論述の後で提供される。さらに、例示の平易さおよび明瞭さのために、必要に応じて、対応するまたは類似の要素を表示するために異なる図の間で参照番号が反復されている。さらに、論述では、本明細書中に記載の実施形態を徹底的に理解できるように、多くの具体的詳細の概要が述べられている。しかしながら、当業者であれば、本明細書中に記載されている実施形態がこれらの要素のさまざまな組合せを用いて実践可能である、ということを理解するものである。

いずれの場合でも、車両１００は、機械学習モデルを評価するために機能する評価システム１７０を含む。その上、スタンドアロンのコンポーネントとして描かれているものの、１つ以上の実施形態において、評価システム１７０は、自律運転モジュール１６０、カメラ１２６、または車両１００の別のコンポーネントと統合されている。さらに、先に指摘したように、評価システム１７０の１つ以上のコンポーネントが、車両１００から遠隔のクラウドベースの要素であり得る。例えば、少なくとも1つの配設において、評価システム１７０は、車両１００とは別個であり、評価時点で車両１００に対し、選択されたネットワークを提供する。指摘された機能および方法は、図のさらなる論述によって、さらに明らかなものとなる。

図２を参照すると、評価システム１７０の一実施形態がさらに例示されている。評価システム１７０はプロセッサ１１０を含むものとして示されている。したがって、プロセッサ１１０は評価システム１７０の一部であり得るか、または評価システム１７０はデータバスまたは別の通信経路を通して、プロセッサ１１０にアクセスすることができる。１つ以上の実施形態において、プロセッサ１１０は、ネットワークモジュール２２０と結び付けられた機能を実装するように構成されている特定用途向け集積回路（ＡＳＩＣ）である。概して、プロセッサ１１０は、本明細書中に記載のさまざまな機能を行なう能力を有するマイクロプロセッサなどの電子プロセッサである。一実施形態において、評価システム１７０は、ネットワークモジュール２２０および／または深度情報の生成を支援するように機能し得る他のモジュールを記憶するメモリ２１０を含む。メモリ２１０は、ランダムアクセスメモリ（ＲＡＭ）、読取り専用メモリ（ＲＯＭ）、ハードディスクドライブ、フラッシュメモリまたはネットワークモジュール２２０を記憶するための他の好適なメモリである。ネットワークモジュール２２０は例えば、プロセッサ１１０によって実行された時点で、プロセッサ１１０に、本明細書中で開示されたさまざまな機能を行なわせるコンピュータ可読命令である。さらなる配設において、ネットワークモジュール２２０は、論理、集積回路または、内部に統合された命令を含む指摘された機能を行なうための別のデバイスである。

さらに、一実施形態において、評価システム１７０は、データストア２３０を含む。データストア２３０は、一配設において、メモリ２１０または別のデータストア中に記憶された電子データ構造であり、記憶されたデータを分析し、記憶されたデータを提供し、記憶されたデータを組織することなどのためにプロセッサ１１０によって実行され得るルーチンと共に構成されているものである。したがって、一実施形態において、データストア２３０は、さまざまな機能を実行する上でネットワークモジュール２２０によって使用されるデータを記憶する。例えば、図２に描かれているように、データストア２３０は、画像２４０、少なくとも１つのアプローチにおいて、少なくとも深度推定およびオブジェクト検出を行なうマルチタスクネットワークであるネットワーク２５０および評価データ２６０を、例えばネットワークモジュール２２０によって使用および／または生成される他の情報と共に含んでいる。評価システム１７０は、さまざまな要素を含むものとして例示されているものの、例示された要素の１つ以上はさまざまな実装においてデータストア２３０の内部に含まれない可能性があるということを認識すべきである。例えば、評価システム１７０は１つのアプローチにおいて、ネットワーク２５０を含まない場合があり、代りに、評価のためにネットワーク２５０の出力を取得することができる。いずれの場合でも、評価システム１７０は、ネットワークモジュール２２０の機能を支援するためにデータストア２３０内にさまざまなデータ要素を記憶する。

引き続き、強調されたデータ要素に関して言うと、画像２４０は、例えば、カメラ１２６または別の撮像デバイスからの単眼画像である。単眼画像は概して、複数のフレームで構成されている１つ以上の単眼ビデオから導出されるが、画像２４０を静止画像カメラから導出することも同様に可能である。本明細書中に記載されているように、単眼画像は例えば、さらなるモダリティを一切伴わない光三原色（ＲＧＢ）画像であり、かつ周囲環境の少なくとも一部分の車両１００を中心とする視野（ＦＯＶ）を包含する、カメラ１２６または別の撮像デバイスからの画像である。すなわち、単眼画像２４０は、一つのアプローチにおいては、周囲環境のサブ領域に限定される。こうして、画像２４０は、前向き方向（すなわち走行方向）６０、９０、１２０度ＦＯＶ、後方／側方向きＦＯＶ、またはカメラ１２６の撮像特性（例えばレンズのひずみ、ＦＯＶなど）によって定義される他のサブ領域であり得る。さまざまな態様において、カメラ１２６は、ピンホールカメラ、魚眼カメラ、反射屈折カメラ、または、特定の深度モダリティを伴わない画像を取得する別の形態のカメラである。

個別の単眼画像はそれ自体、カメラ１２６またはソースである別の撮像デバイスと結び付けられた撮像標準（例えばコーデック）にしたがってエンコードされたＦＯＶの視覚データを含む。概して、ソースカメラ（例えばカメラ１２６）およびビデオ規格の特性が、単眼画像のフォーマットを定義する。したがって、特定の特性は異なる実装に応じて変動し得るものの、概して、画像は、定義された解像度（すなわち画素単位の高さおよび幅）およびフォーマットを有する。したがって、例えば、単眼画像２４０は、ＲＧＢ可視光画像である。さらなる態様においては、単眼画像２４０は、対応する赤外線カメラと結び付けられた赤外線画像、白黒画像、または所望され得る通りの別の好適なフォーマットであり得る。評価システム１７０がどのフォーマットを実装しようとも、画像２４０は、深度を標示するいかなる明示的な追加のモダリティも、深度導出の元となる別のカメラからのいかなる明示的な対応する画像も（すなわちいかなるステレオカメラ対も）存在しないという点において、単眼画像である。追加の深度チャネルを提供するために並んで組付けられた別個のカメラからの左右の画像を統合し得るステレオ画像とは対照的に、単眼画像２４０は、ステレオ画像を画素毎に比較することで導出される視差マップなどの明示的な深度情報を含んでいない。その代り、単眼画像２４０は、ネットワーク２５０による出力の導出元である、内部に描かれた要素のサイズと射影の関係において深度情報を黙示的に提供する。

さらに、１つ以上の配設において、データストア２３０はさらに、画像２４０に対応する評価データ２６０を含む。一般的態様として、画像２４０および評価データ２６０は単数形で論述されているものの、さまざまな配設においてデータストア２３０は、ネットワーク２５０の評価を支援するために多数の画像および対応する評価データを含む。画像２４０と結び付けられた評価データ２６０には、一実施形態においてグラウンドトルース深度データ、グラウンドトルース境界ボックスおよび、深度マップと少なくとも１つの配設ではオブジェクト検出のための生成済み境界ボックスとを含むネットワーク２５０の出力が含まれる。当然のことながら、さらなる実装においては、評価データ２６０の１つ以上の態様を省略することができる。

評価システム１７０がアクセスできるネットワークの一例として、ネットワーク２５０を考慮されたい。ネットワーク２５０は、一配設において、深度、オブジェクト検出そして１つ以上のアプローチではオブジェクト分類などの追加のアスペクトについての推論を裏付けるマルチタスクネットワークである。１つの構成において、ネットワーク２５０は、単一段階である完全に畳み込み型のネットワークである。さらに、ネットワーク２５０は、画像２４０からの特徴マップをエンコードするためのボトムアップバックボーン、特徴マップをデコードするトップダウン経路および共用ヘッドを含む特徴ピラミッドネットワーク（ＦＰＮ）として言及され得る。いくつかの実装において同様に特徴ピラミッドとしても言及されているトップダウン経路は、別個の層間の直列接続に加えてバックボーンとの異なるスケールでの側方接続を含む。したがって、トップダウン経路は、最高の解像度で出力される深度マップを除いて、異なるスケール（例えば境界ボックス）での結果を出力する。ヘッドは、トップダウン経路の別個の出力スケールの間で供用される。一実施形態において、ヘッドは、クラスコンポーネント、２次元コンポーネントおよび３次元コンポーネントなどの多数の異なる構造を含む。

クラスコンポーネントは、それについてネットワーク２５０が訓練される一定数のクラスに対応するＣ次元のベクトルを生成する。クラスコンポーネントは、オブジェクトについてのクラス決定を生成するためのマルチクラス分類子または複数の二項分類子を含み得る。２Ｄコンポーネントは、画像２４０のフレームの２Ｄ空間内でオブジェクトを識別するために機能する。１つのアプローチでは、２Ｄコンポーネントは、画像２４０のフレームからの識別として２Ｄ境界ボックスを生成する畳み込みネットワークである。２Ｄコンポーネントは、２Ｄおよび３Ｄオブジェクト検出間の一貫性を提供するために機能することができる。ヘッドは、さらに、カメライントリンシクスを用いて３Ｄ点クラウドへと変換される高密度の画素単位深度を予測するための疑似ＬｉＤＡＲ３Ｄ検出器として作用する深度コンポーネントを含むことができる。３Ｄコンポーネントは、点クラウドを入力画像２４０と連結させて、深度マップとして３Ｄ座標と共に画素色値を包含する６次元テンソルを生成する。３Ｄコンポーネントはさらに、オブジェクトを検出するための境界ボックスを生成する３Ｄ検出ネットワークによって処理される、２Ｄコンポーネント由来の提案領域を受諾する。ネットワーク２５０の概略的に説明した配設は、単に、評価システム１７０が査定し得るマルチタスクネットワークの１つの実装にすぎず、評価システム１７０が査定できる全てのネットワークの包含的な言明であるように意図されていないということを認識すべきである。概して、評価システム１７０が行うアプローチは、評価システム１７０の動作対象である出力を生成する任意の機械学習アルゴリズムに適用可能である。

図２に戻ると、ネットワークモジュール２２０は、ネットワーク２５０を実装することができる。さまざまな態様において、ネットワークモジュール２２０は、ネットワーク２５０を適用するための命令を含み、ネットワーク２５０は、ネットワークモジュール２２０と統合され得る。概して、ネットワークモジュール２２０は、画像２４０を含む画像２４０を処理するためにネットワーク２５０を制御し、訓練するときには、結び付けられた訓練データを用いて、訓練損失を生成してネットワーク２５０を更新する。

いずれの場合でも、評価システム１７０は、一実施形態において、深度マップ、境界ボックスおよびさらなる情報（例えば２Ｄ境界ボックス、分類など）を生成するためにネットワーク２５０を利用する。本明細書中で論述されているように、ネットワーク２５０の評価は、深度マップおよび境界ボックスに焦点を当てている。概して、深度マップは、疑似ＬｉＤＡＲ深度データまたは高密度深度データとして言及され得る画像２４０についての深度の画素単位の予測である。すなわち、ネットワーク２５０は、画像２４０の形で描かれた異なるアスペクトについての深度の推定値を提供する。当然のことながら、マルチタスク機能性の当該アプローチにおいて、ネットワーク２５０はさらに、２Ｄおよび３Ｄ境界ボックスの形でのオブジェクト検出を提供するため、深度マップを超えたところからの情報を統合する。

ネットワークモジュール２２０は、評価データ２６０および画像２４０を含めた情報を最初に取得することによってネットワーク２５０を評価する。一配設において、評価データ２６０は、ネットワーク２５０により生成された深度マップおよび境界ボックスを含む。したがって、ネットワークモジュール２２０は最初に、例えばグラウンドトルース境界ボックスにしたがって画像２４０と結び付けられたグラウンドトルースレンジデータをセグメント化して、マスクデータを生成する。すなわち、ネットワークモジュール２２０は、マスクとしてグラウンドトルース境界ボックスを使用して、レンジデータから関連するセクションをセグメント化する。したがって、境界ボックス内に入るレンジデータの点は、マスクデータとして保持され、一方、他の点は破棄される。このようにして、ネットワークモジュール２２０は、データ内のより一般化された点を回避しながらネットワーク２５０の主要な機能に関連しているアスペクトに評価を集中させることができる。

マスクデータを用いて、ネットワークモジュール２２０は、画像２４０内にマスクデータを投影して、評価マスクを生成する。グラウンドトルースデータの境界ボックスは、別個の２Ｄまたは３Ｄオブジェクト検出器によって生成され得、あるいはさらなるアプローチにおいては手作業でラベル付けして訓練を容易にすることが可能である。したがって、さまざまな実装において、境界ボックスは画像２４０の画像空間の内部にあり得、こうして、ネットワークモジュール２２０は、レンジデータを画像２４０内に投影して、レンジデータのセグメント化の前にＲＧＢ－Ｄ画像を形成することができる。すなわち、代替的配設においては、レンジデータと境界ボックスの間の対応性を識別するために、レンジデータは、最初に画像２４０内に投影され、その後、画像空間内に存在する境界ボックスとの対応性にしたがってセグメント化され得る。どのアプローチを行なうにせよ、レンジデータをセグメント化することで結果として得られた評価マスクは、評価システム１７０による評価に集中するように機能する。

一例として、評価データおよびマスクデータに対応する画像２４０の一例を示す図３～５を考慮する。図３は、画像３００のための代表的なボックスとして境界ボックス３１０、３２０および３３０を含む画像３００を示す。画像３００は、画像２４０の一例であり、一方境界ボックス３１０～３３０は評価データ２６０を代表するものである。さらに、境界ボックス３１０～３３０に関して、画像３００が、付番されていないさらなる境界ボックスを含み、したがって境界ボックス３１０～３３０は論述を目的として強調されている、という点に留意されたい。その上、境界ボックス３１０～３３０が、車両という単一のクラスを包含し、木、建物などのさらなるオブジェクトを識別しないという点に留意されたい。概して、境界ボックスは、ネットワーク２５０の訓練対象である１組のクラスと符合する。したがって、境界ボックスに対応する識別されたオブジェクトは、画像２４０内のオブジェクトのサブセットを表わし得るが、概して、ネットワーク２５０が具体的に識別するように構造化されている対象である画像２４０の際立ったアスペクトである。

図４に目を向けると、図３の画像３００と符合するレンジデータ４００が例示されている。レンジデータ４００はＬｉＤＡＲデータである。図示されているように、画像３００と符合する境界ボックス３１０～３３０が図４で表現されており、境界ボックスと結び付けられたデータ点がさらに識別されている。すなわち、レンジデータ４００のサブセットが境界ボックス３１０～３３０およびさらなる境界ボックスと符合し、この場合、このサブセットは、オブジェクトに対応するものよりも著しく大量の情報を表わしている。したがって、評価システム１７０は、図５に示されているようなマスクデータ５００を生成するために境界ボックスにしたがってレンジデータ４００をセグメント化する。したがって、図５は、画像３００の極立ったアスペクトと符合するレンジデータ４００の一部分を表わす。

したがって、評価システム１７０は、１つの配設において、マスクデータ５００を画像３００内に投影して評価マスクを生成する。評価マスクの例は、図６～７に関連してさらに示される。図６は、画像６００および対応する評価マスク６１０を例示し、一方図７は、画像７００および対応する評価マスク７１０を例示する。例を見れば分かるように、評価マスク６１０および７１０は、境界ボックス内に識別されたオブジェクトと結び付けられたレンジデータからの点を含む。そうでなければ、評価システム１７０は、境界ボックス内に入らない残りの点を破棄する。このようにして、評価システム１７０は、その後、シーン内部の関連するオブジェクトに対する比較のために使用されるデータに集中する。

図２に戻ると、ネットワークモジュール２２０はさらに、評価マスクにしたがって深度マップ内の対応する深度推定値とマスクデータとを比較するための命令を含む。したがって、ネットワークモジュール２２０はさらに、評価マスクを用いて画像２４０内にネットワーク２５０からの深度推定値を投影することができ、あるいは単純に、評価マスクを深度推定値に対し比較する。概して、評価マスクを深度推定値と比較するプロセスには、各オブジェクトベースかまたは評価マスクの全ての点を横断して点毎に行なわれ得る比較の値の平均化が関与する。例えば、比較することには、評価マスクからの点と深度推定値からの点の間の差分を生成することが関与する。ネットワークモジュール２２０は、このとき、オブジェクトを横断した、または評価マスクからの、評価されつつある点全体を横断した差分を平均化して、測定基準を生成することができる。

測定基準は、深度マップの生成および評価マスクを用いたオブジェクトの識別におけるネットワーク２５０の精度を特徴付けして、画像２４０のシーン内のオブジェクトに測定基準を集中させる。このようにして、測定基準は、他のモデルに比べたネットワーク２５０の改善を識別する。指摘された改善は、ネットワーク２５０の訓練および／または他のモデルと比較したアーキテクチャ全体の中の差異における改善に基づくものであり得る。いずれの場合でも、このようにして測定基準を生成することによって、マルチタスクモデルの査定が改善されることになる。

ネットワークモジュール２２０は、ひとたび測定基準を生成すると、ネットワーク２５０の査定を定量化するための測定基準を提供する。一配設において、ネットワークモジュール２２０は、ネットワーク２５０を含む複数の異なる機械学習モデルのための測定基準を生成する。したがって、ネットワークモジュール２２０は、測定基準にしたがってモデルをスコアリングし、次に所望のスコアを有するモデルの１つを選択し得る。その結果、例えば、モデルを車両１００に対して通信しその後続いて、選択されたモデルを用いて機械知覚タスク、例えば指摘された深度推定およびオブジェクト検出を行なうことによって、選択されたモデルを車両１００の内部に実装することができる。このアプローチにより、評価システム１７０は、モデルが精確に評価されて、指摘されたタスクにとって最も高い性能を示すモデルの実装を容易にすることを保証することができる。

マルチタスクネットワークの評価という追加の態様について、図８に関連して論述される。図８は、評価マスクを使用したマルチタスクネットワークの査定に結び付けられた方法８００の流れ図を例示する。方法８００については、図１～２の評価システム１７０の観点から見て論述される。方法８００は評価システム１７０と組合わせて論述されているものの、該方法８００が評価システム１７０の内部で実装されることに限定されず、むしろ該方法８００を実装し得るシステムの一例であるということを認識すべきである。

８１０において、ネットワークモジュール２２０は、画像２４０および評価データ２６０を取得する。先に説明されているように、画像２４０は、少なくとも単眼カメラからの単眼画像または車両１００または評価システム１７０が情報を解析する対象である別のデバイスの周囲環境のビデオで構成されている。したがって、先に指摘したように、評価システム１７０は、車両１００または別のデバイスと統合されてよく、あるいは代替的に、広域ネットワーク（ＷＡＮ）などの通信経路を介して画像２４０を受信すること、そして、画像２４０を解析するべく遠隔で機能することができる。その上、評価データ２６０は、少なくとも画像２４０と符合するグラウンドトルースデータ、例えばＬｉＤＡＲリターンの形をしたレンジデータ、および少なくとも１つの配設においては２Ｄまたは３Ｄ境界ボックスを含む。２Ｄ境界ボックスは、別個の検出モデルにより生成され得るか、または手作業で注釈付けされ得る。いずれの場合でも、評価データ２６０はグラウンドトルースデータを含み、さらに、画像２４０のための対応する深度推定値を含む深度マップなどの、評価対象であるネットワーク２５０の出力を含み得る。

８２０において、ネットワークモジュール２２０は、画像２４０および／またはレンジデータの中で識別されたオブジェクトの境界ボックスにしたがってレンジデータをセグメント化してマスクデータを生成する。システム１７０は、画像２４０の解析、レンジデータおよび／または手作業での注釈付けから生成された境界ボックスを活用することができるということを認識すべきである。いずれの場合でも、２Ｄまたは３Ｄであり得る境界ボックスは、レンジデータおよび画像２６０の両方と結び付けられたシーン内のオブジェクトの場所と符合しこれを識別する。ネットワークモジュール２２０は、１つのアプローチにおいて、境界ボックス内に入るレンジデータからの点を選択する一方で、レンジデータ内の残りの点を破棄することによりレンジデータをセグメント化する。セグメント化の結果、ネットワークモジュール２２０は、画像２４０によって描かれたシーン内に存在するオブジェクトと符合するレンジデータ内の関連する点に解析を集中させる。

８３０において、ネットワークモジュール２２０は、マスクデータを用いて評価マスクを生成する。すなわち、１つのアプローチにおいて、ネットワークモジュール２２０は画像２４０内にマスクデータを投影して評価マスクを形成する。評価マスクは単に、画像２４０内の識別されたオブジェクトと符合するＬｉＤＡＲリターンの点クラウドからの１組のグラウンドトルースデータ点であるにすぎない。オブジェクトは、選択されたクラスのオブジェクト、例えば車両または特定のタスク（例えば自律運転）に関連する他のオブジェクトであり得る。

８４０において、ネットワークモジュール２２０は、深度推定値をマスクデータと相関させる評価マスクにしたがって、マスクデータを深度マップ内の対応する深度推定値と比較する。概して、ネットワークモジュール２２０は、マスクデータの値を深度推定値と比較して、点毎の比較を生成する。比較の値は、絶対値として提供され得、８５０で論述される通り、共に平均化されて測定基準を形成することができる。

８５０において、ネットワークモジュール２２０は、比較にしたがって測定基準を生成する。測定基準は、深度マップおよび境界ボックスの生成におけるネットワーク２５０の精度を特徴付けするということを認識すべきである。したがって、ネットワークモジュール２２０は、比較の値を平均化し、平均を組合わせて測定基準を生成する。ネットワークモジュール２２０は、各オブジェクトベースでのまたは画像２４０全体を横断した平均を生成することができる。いずれの場合でも、ネットワークモジュール２２０は、どのモデルが組合せ型タスク上で優れた性能を示すかを後で決定するための共通の比較点を測定基準が提供するような形で、他のモデルに比べたネットワーク２５０内改善を識別するための測定基準を生成する。

８６０において、ネットワークモジュール２２０は測定基準を提供する。１つのアプローチにおいて、ネットワークモジュール２２０は、モジュール１６０に利用可能なモデル間での選択を行なわせるために、自律運転モジュール１６０などの車両１００の支援システムに対して測定基準を提供する。したがって、ネットワークモジュール２２０は、モジュール１６０が、組合せ型タスクを行なうのに最も好適であるモデルを使用していることを保証することによって、車両１００のナビゲーションを支援するために測定基準を使用することができる。さらなる態様においては、評価システム１７０は、ネットワーク２５０を含めた複数の異なるモデルのための測定基準にしたがって、モデルを別個に選択することができる。このような場合、評価システム１７０は、車両１００および／または深度およびオブジェクトの識別の機械知覚を行なう他の車両に対して通信経路（例えば無線通信リンク）を介して選択されたモデルを分散させることができる。このようにして、評価システム１７０は、モデルを精確に査定し、他のアプローチによっては観察不可能であり得る改善を識別することができる。

本明細書中で開示されているシステムおよび方法が中で動作し得る例示的環境として、ここで図１について完全に詳述する。いくつかの事例において、車両１００は、自律モード、１つ以上の半自律動作モードおよび／または手動モードの間で選択的に切換えるように構成されている。このような切換えは、現在公知のまたは将来開発される好適な形で実装可能である。「手動モード」は、車両のナビゲーションおよび／または操作の全てまたは大部分が、ユーザ（例えば人間のドライバ）から受けた入力にしたがって行なわれることを意味する。１つ以上の配設において、車両１００は、手動モードのみで動作するように構成されている従来の車両であり得る。

１つ以上の実施形態において、車両１００は自律型車両である。本明細書中で使用される「自律型車両」とは、自律モードで動作する車両を意味する。「自律モード」とは、人間のドライバからの入力が最小限であるかまたは全く無い状態で、車両１００を制御するために１つ以上の計算システムを使用して走行ルートに沿って車両１００をナビゲートおよび／または操作することを意味する。１つ以上の実施形態において、車両１００は、高度に自動化されているか、または完全に自動化されている。一実施形態において、車両１００は、１つ以上の計算システムが走行ルートに沿った車両のナビゲーションおよび／または操作の一部分を行ない、車両のオペレータ（すなわちドライバ）が、走行ルートに沿った車両１００のナビゲーションおよび／または操作の一部分を行なうために車両に入力を提供する、１つ以上の半自律動作モードを伴って構成されている。

車両１００は、１つ以上のプロセッサ１１０を含むことができる。１つ以上の配設において、プロセッサ１１０は、車両１００の主プロセッサであり得る。例えば、プロセッサ１１０は、電子制御ユニット（ＥＣＵ）であり得る。車両１００は、１つ以上のタイプのデータを記憶するための１つ以上のデータストア１１５を含むことができる。データストア１１５は、揮発性および／または不揮発性メモリを含むことができる。好適なデータストア１１５の例としては、ＲＡＭ（ランダムアクセスメモリ）、フラッシュメモリ、ＲＯＭ（読取り専用メモリ）、ＰＲＯＭ（プログラマブル読取り専用メモリ）、ＥＰＲＯＭ（消去可能なプログラマブル読取り専用メモリ）、ＥＥＰＲＯＭ（電気的消去可能なプログラマブル読取り専用メモリ）、レジスタ、磁気ディスク、光ディスク、ハードドライブまたは他の任意の好適な記憶媒体、またはその任意の組合せを含むことができる。データストア１１５は、プロセッサ１１０の１つのコンポーネントであり得、あるいはデータストア１１５はプロセッサ１１０に対し作動的に接続されてそれにより使用され得る。本明細書全体を通して使用される「作動的に接続された」なる用語は、直接的な物理的接触の無い接続を含めた、直接的または間接的接続を含むことができる。

１つ以上の配設において、１つ以上のデータストア１１５は、マップデータ１１６を含むことができる。マップデータ１１６は、１つ以上の地理的地域のマップを含み得る。いくつかの事例において、マップデータ１１６は、１つ以上の地理的地域内の道路、交通管制装置、路面標識、構造、特徴および／またはランドマークについての情報またはデータを含み得る。マップデータ１１６は、任意の好適な形態であり得る。いくつかの事例において、マップデータ１１６は、一地域の航空写真を含み得る。いくつかの事例において、マップデータ１１６は、３６０度の地上写真を含めた、一地域の地上写真であり得る。マップデータ１１６は、マップデータ１１６内に含まれた１つ以上のアイテムについてのおよび／またはマップデータ１１６内に含まれた他のアイテムに関する測定値、寸法、距離および／または情報を含むことができる。マップデータ１１６は、道路の幾何形状についての情報を伴うデジタルマップを含むことができる。マップデータ１１６は、高品質のおよび／または高精細のものであり得る。

１つ以上の配設において、マップデータ１１６は、１つ以上の地形図１１７を含み得る。地形図１１７は、１つ以上の地理的地域の地面、地形、道路、表面および／または他の特徴についての情報を含むことができる。地形図１１７は、１つ以上の地理的地域内の標高データを含み得る。マップデータ１１６は、高品質および／または高精細のものであり得る。地形図１１７は、舗装道路、未舗装道路、陸地および地表を画定する他の物を含み得る１つ以上の地表を定義し得る。

１つ以上の配設において、マップデータ１１６は、１つ以上の静止障害物マップ１１８を含むことができる。静止障害物マップ１１８は、１つ以上の地理的地域内に位置設定された１つ以上の静止障害物についての情報を含むことができる。「静止障害物」は、一定の期間にわたりその位置が変わらないかまたは実質的に変わらずかつ／または一定の期間にわたりそのサイズが変わらないかまたは実質的に変わらない物理的オブジェクトである。静止障害物の例としては、木、建物、縁石、フェンス、ガードレール、中央分離帯、電柱、塑像、モニュメント、看板、ベンチ、調度品、郵便箱、大きな岩、丘が含まれる。静止障害物は、地表面より上に延在するオブジェクトであり得る。静止障害物マップ１１８に含まれる１つ以上の静止障害物は、場所データ、サイズデータ、寸法データ、材料データおよび／またはそれに結び付けられた他のデータを有することができる。静止障害物マップ１１８は、１つ以上の静止障害物についての測定値、寸法、距離および／または情報を含むことができる。静止障害物マップ１１８は、高品質および／または高精細のものであり得る。静止障害物マップ１１８は、マッピングされた地域内の変化を反映するように更新され得る。

１つ以上のデータストア１１５は、センサデータ１１９を含み得る。これに関連して、「センサデータ」は、車両１００に具備されたセンサについての能力および他の情報を含めた、このようなセンサについてのあらゆる情報を意味する。以下で説明されるように、車両１００はセンサシステム１２０を含むことができる。センサデータ１１９は、センサシステム１２０の１つ以上のセンサに関係し得る。一例として、１つ以上の配設において、センサデータ１１９は、センサシステム１２０の１つ以上のＬＩＤＡＲセンサ１２４についての情報を含むことができる。

いくつかの事例において、マップデータ１１６および／またはセンサデータ１１９の少なくとも一部分は、車両１００に搭載された１つ以上のデータストア１１５内に位置設定され得る。代替的に、または付加的に、マップデータ１１６および／またはセンサデータ１１９の少なくとも一部分を、車両１００から遠隔に位置設定された１つ以上のデータストア１１５内に位置設定することができる。

以上で指摘したように、車両１００は、センサシステム１２０を含むことができる。センサシステム１２０は、１つ以上のセンサを含み得る。「センサ」とは、何かを検出および／または検知できるあらゆるデバイス、コンポーネントおよび／またはシステムを意味する。１つ以上のセンサは、実時間で検出および／または検知するように構成され得る。本明細書中で使用される「実時間」なる用語は、特定のプロセスまたは決定を行なうのに充分に即時であるものとしてユーザまたはシステムが検知する、またはプロセッサがいくつかの外部プロセスに遅れずについていけるようにする処理応答性レベルを意味する。

センサシステム１２０が複数のセンサを含んでいる配設において、センサは互いに独立して作動し得る。代替的には、センサの２つ以上が互いに組合わさって作動することができる。このような場合には、２つ以上のセンサはセンサネットワークを形成し得る。センサシステム１２０および／または１つ以上のセンサは、プロセッサ１１０、データストア１１５および／または車両１００の別の要素（図１に示された要素のいずれかを含む）に対して作動的に接続され得る。センサシステム１２０は、車両１００の外部環境の少なくとも一部分（例えば近傍の車両）のデータを取得することができる。

センサシステム１２０は、任意の好適なタイプのセンサを含むことができる。本明細書中では、異なるタイプのセンサのさまざまな例が記載される。しかしながら、実施形態は、記載された特定のセンサに限定されない、ということが理解される。センサシステム１２０は、１つ以上の車両センサ１２１を含むことができる。車両センサ１２１は、車両１００自体についての情報を検出、決定および／または検知できる。１つ以上の配設において、車両センサ１２１は、例えば慣性加速度に基づいて、車両１００の位置および配向の変化を検出および／または検知するように構成され得る。１つ以上の配設において、車両センサ１２１は、１つ以上の加速度計、１つ以上のジャイロスコープ、慣性測定ユニット（ＩＭＵ）、推測航法システム、全地球的航法衛星システム（ＧＮＳＳ）、全地球測位システム（ＧＰＳ）、ナビゲーションシステム１４７および／または他の好適なセンサを含むことができる。車両センサ１２１は、車両１００の１つ以上の特性を検出および／または検知するように構成され得る。１つ以上の配設において、車両センサ１２１は、車両１００の現在速度を決定するための速度計を含み得る。

代替的に、または付加的に、センサシステム１２０は、運転環境データを取得および／または検知するように構成された１つ以上の環境センサ１２２を含むことができる。「運転環境データ」には、自律型車両が中に位置設定されている外部環境またはその１つ以上の部分についてのデータまたは情報が含まれる。例えば、１つ以上の環境センサ１２２は、車両１００の外部環境の少なくとも一部分の中の障害物、および／またはこのような障害物についての情報／データを検出、定量化および／または検知するように構成され得る。このような障害物は、不動のオブジェクトおよび／または動的オブジェクトであり得る。１つ以上の環境センサ１２２は、車両１００の外部環境内の他の物、例えば車線マーカー、看板、交通信号灯、交通標識、車線ライン、横断歩道、車両１００に近接した縁石、オフロードオブジェクトなどを検出、測定、定量化および／または検知するように構成され得る。

本明細書には、センサシステム１２０のセンサのさまざまな例が記載されている。例示的センサは、１つ以上の環境センサ１２２および／または１つ以上の車両センサ１２１の一部であり得る。しかしながら、実施形態は、記載されている特定のセンサに限定されないことが理解される。

一例として、１つ以上の配設において、センサシステム１２０は、１つ以上のレーダセンサ１２３、１つ以上のＬＩＤＡＲセンサ１２４、１つ以上のソーナセンサ１２５および／または１つ以上のカメラ１２６を含むことができる。１つ以上の配設において、１つ以上のカメラ１２６は、高ダイナミックレンジ（ＨＤＲ）カメラまたは赤外線（ＩＲ）カメラであり得る。

車両１００は、入力システム１３０を含むことができる。「入力システム」には、情報／データを機械に入力できるようにするあらゆるデバイス、コンポーネント、システム、要素、または配設またはそれらの群が含まれる。入力システム１３０は、車両の乗員（例えばドライバまたは同乗者）からの入力を受信することができる。車両１００は、出力システム１３５を含み得る。「出力システム」には、車両の乗員（例えば人物、車両の乗員）に対して情報／データを提示できるようにするあらゆるデバイス、コンポーネントまたは配設、またはそれらの群が含まれる。

車両１００は、１つ以上の車両システム１４０を含むことができる。１つ以上の車両システム１４０のさまざまな例が、図１に示されている。しかしながら、車両１００は、より多くの、より少ない、または異なる車両システムを含むことができる。特定の車両システムが別個に定義されているものの、これらのシステムまたはその部分の各々またはいずれかを、車両１００の内部でハードウェアおよび／またはソフトウェアを介して他の形で組合わせるかまたは分離してもよい、ということを認識すべきである。車両１００は、推進システム１４１、制動システム１４２、ステアリングシステム１４３、スロットルシステム１４４、トランスミッションシステム１４５、信号システム１４６および／またはナビゲーションシステム１４７を含むことができる。これらのシステムの各々は、現在公知のまたは将来開発される１つ以上のデバイス、コンポーネントおよび／またはそれらの組合せを含むことができる。

ナビゲーションシステム１４７は、車両１００の地理的場所を決定しかつ／または車両１００のための走行ルートを決定するように構成された、現在公知のまたは将来開発される１つ以上のデバイス、アプリケーションおよび／またはそれらの組合せを含むことができる。ナビゲーションシステム１４７は、車両１００の走行ルートを決定するための１つ以上のマッピングアプリケーションを含むことができる。ナビゲーションシステム１４７は、全地球測位システム、局地測位システムまたは地理位置情報システムを含むことができる。

プロセッサ１１０、評価システム１７０および／または自律運転モジュール１６０は、さまざまな車両システム１４０および／またはその個別のコンポーネントと通信するために作動的に接続され得る。例えば、図１に戻ると、プロセッサ１１０および／または自律運転モジュール１６０は、車両１００の運動、速度、操作、進路、方向などを制御する目的で、さまざまな車両システム１４０からの情報を送信および／または受信するように通信状態にあり得る。プロセッサ１１０、評価システム１７０および／または自律運転モジュール１６０は、これらの車両システム１４０のいくつかまたは全てを制御することができ、したがって、部分的または完全に自律型である。

プロセッサ１１０、評価システム１７０および／または自律運転モジュール１６０は、さまざまな車両システム１４０および／またはその個別のコンポーネントと通信するために作動的に接続され得る。例えば、図１に戻ると、プロセッサ１１０、評価システム１７０および／または自律運転モジュール１６０は、車両１００の運動、速度、操作、進路、方向などを制御する目的で、さまざまな車両システム１４０からの情報を送信および／または受信するように通信状態にあり得る。プロセッサ１１０、評価システム１７０および／または自律運転モジュール１６０は、これらの車両システム１４０のいくつかまたは全てを制御することができる。

プロセッサ１１０、評価システム１７０および／または自律運転モジュール１６０は、車両システム１４０および／またはそのコンポーネントの１つ以上を制御することによって、車両１００のナビゲーションおよび／または操作を制御するように動作可能であり得る。例えば、自律モードで動作している場合、プロセッサ１１０、評価システム１７０および／または自律運転モジュール１６０は、車両１００の方向および／または速度を制御することができる。プロセッサ１１０、評価システム１７０および／または自律運転モジュール１６０は、車両１００に加速させる（例えばエンジンに対し提供される燃料供給を増大させることによる）、減速させる（例えばエンジンに対する燃料供給を減少させることおよび／またはブレーキをかけることによる）、および／または方向転換させる（例えば２つの前輪を回転させることによる）ことができる。本明細書中で使用される「～させる（ｃａｕｓｅまたはｃａｕｓｉｎｇ）」は、直接的にまたは間接的に、１つの事象またはアクションが発生するかまたはこのような事象またはアクションが発生し得る状態にあるようにする、強制する、余儀なくさせる、指図する、指令する、命令する、および／または可能にすることを意味している。

車両１００は、１つ以上のアクチュエータ１５０を含むことができる。アクチュエータ１５０は、プロセッサ１１０および／または自律運転モジュール１６０からの信号または他の出力の受信に対する応答性を有するように車両システム１４０またはそのコンポーネントの１つ以上を修正、調整および／または改変するために動作可能であるあらゆる要素または要素の組合せであり得る。任意の好適なアクチュエータを使用することができる。例えば、１つ以上のアクチュエータ１５０には、幾つかの可能性を挙げると、モータ、空気圧式アクチュエータ、油圧式ピストン、継電器、ソレノイド、および／または圧電アクチュエータが含まれ得る。

車両１００は、１つ以上のモジュールを含むことができ、そのうちの少なくともいくつかが本明細書中に記載されている。モジュールは、プロセッサ１１０によって実行された時点で、本明細書中に記載のさまざまなプロセスの１つ以上を実装するコンピュータ可読プログラムコードとして実装され得る。モジュールの１つ以上は、プロセッサ１１０の１つのコンポーネントであり得、あるいは、モジュールの１つ以上を、プロセッサ１１０が作動的に接続されている他の処理システム上で実行することおよび／またはこれらの他のシステムの間で分散させることが可能である。モジュールは、１つ以上のプロセッサ１１０により実行可能な命令（例えばプログラム論理）を含むことができる。代替的にまたは付加的に、１つ以上のデータストア１１５が、このような命令を格納していてよい。

１つ以上の配設において、本明細書中に記載のモジュールの１つ以上は、人工または計算知能要素、例えばニューラルネットワーク、ファジー論理または他の機械学習アルゴリズムを含むことができる。さらに、１つ以上の配設において、モジュールの１つ以上は、本明細書中に記載のモジュールのうちの複数のものの間で分散され得る。１つ以上の配設において、本明細書中に記載のモジュールの２つ以上を単一のモジュールの形に組合わせることができる。

車両１００は１つ以上の自律運転モジュール１６０を含むことができる。自律運転モジュール１６０は、センサシステム１２０および／または車両１００および車両１００の外部環境に関する情報を捕捉する能力を有する任意の他のタイプのシステムからデータを受信するように構成され得る。１つ以上の配設において、自律運転モジュール１６０は、このようなデータを用いて１つ以上の運転シーンモデルを生成することができる。自律運転モジュール１６０は、車両１００の位置および速度を決定することができる。自律運転モジュール１６０は、障害物、障害物または、交通標識、樹木、低木、隣接車両、歩行者などを含めた他の環境特徴の場所を決定することができる。

自律運転モジュール１６０は、車両１００の位置および配向を推定するために、プロセッサ１１０および／または本明細書中に記載のモジュールの１つ以上によって使用されるための車両１００の外部環境内の障害物についての場所情報、複数の衛星からの信号に基づくグローバル座標内の車両の位置、または、車両１００の現在の状態を決定するかまたはマップの作成またはマップデータとの関係における車両１００の位置の決定において使用するための環境との関係における車両１００の位置を決定するために使用可能と思われる任意の他のデータ、および／または信号を受信および／または決定するように構成され得る。

自律運転モジュール１６０は、独立してまたは評価システム１７０と組合わせた形で、センサシステム１２０が取得したデータ、運転シーンモデルおよび／または他の任意の好適なソースからのデータに基づいて、走行経路、車両１００のための現在の自律運転操作、将来の自律運転操作、および／または現在の自律運転操作に対する修正を決定するように構成され得る。「運転操作」とは、車両の動きに影響を及ぼす１つ以上のアクションを意味する。運転操作の例としては、幾つかの可能性を挙げると、加速、減速、制動、方向転換、車両１００の横方向移動、走行車線の変更、走行車線内への合流および／または逆進が含まれる。自律運転モジュール１６０は、決定された運転操作を実装するように構成され得る。自律運転モジュール１６０は、直接的にまたは間接的にこのような自律運転操作を実装させることができる。本明細書中で使用される「～させる（ｃａｕｓｅまたはｃａｕｓｉｎｇ）」は、直接的にまたは間接的に、１つの事象またはアクションが発生するかまたはこのような事象またはアクションが発生し得る状態にあるようにする、指令する、命令する、および／または可能にすることを意味している。自律運転モジュール１６０は、さまざまな車両機能を実行しかつ／または、車両１００またはその１つ以上のシステム（例えば車両システム１４０の１つ以上）にデータを伝送する、これらからデータを受信する、これらと対話するおよび／またはこれらを制御するように構成され得る。

本明細書中では、詳細にわたる実施形態が開示されている。しかしながら、開示された実施形態は単なる例として意図されたものであることを理解しなければならない。したがって、本明細書中で開示されている具体的な構造的および機能的詳細は、限定的なものとしてではなく、単にクレームの根拠として、およびほぼあらゆる適切に詳述された構造において本明細書中の態様をさまざまな形で利用するように当業者に教示するための代表的な原則として解釈されるべきものである。さらに、本明細書中で使用されている用語および言い回しは、限定的であるように意図されておらず、むしろ考えられる実装の理解可能な描写を提供するように意図されたものである。さまざまな実施形態が図１～８に示されているが、実施形態は、例示された構造または利用分野に限定されない。

図中の流れ図およびブロック図は、さまざまな実施形態にしたがったシステム、方法およびコンピュータプログラムプロダクツの考えられる実装のアーキテクチャ、機能性および動作を例示している。この点において、流れ図またはブロック図中の各ブロックは、規定された論理的機能を実装するための１つ以上の実行可能な命令を含む、モジュール、セグメントまたはコードの一部分を表わし得る。同様に、いくつかの代替的な実装においては、ブロック内に記された機能が図中に記された順序から外れて発生し得る、ということも指摘しておくべきである。例えば、連続して示されている２つのブロックを、実際には、実質的に同時に実行してもよく、あるいは、時として、関与する機能性に応じてブロックを逆の順序で実行してもよい。

以上で説明したシステム、コンポーネントおよび／またはプロセスは、ハードウェア、またはハードウェアとソフトウェアの組合せの形で実現可能であり、１つの処理システム内に集中した形で、または異なる要素が複数の相互接続された処理システムを横断して展開されている分散した形で実現され得る。本明細書中に記載の方法を実施するために適応されたあらゆる種類の処理システムまたは別の装置が好適である。ハードウェアとソフトウェアの典型的な組合せは、ロードされ実行された場合に、本明細書中に記載の方法を実施するような形で処理システムを制御するコンピュータ使用可能プログラムコードを伴う処理システムであり得る。システム、コンポーネントおよび／またはプロセスは同様に、本明細書中に記載の方法およびプロセスを行なうように機械により実行可能な命令プログラムを有形に具現する、機械可読コンピュータプログラムプロダクトまたは他のデータプログラム記憶デバイスなどのコンピュータ可読記憶装置の中に埋込まれ得る。これらの要素は同様に、本明細書中に記載の方法の実装を可能にする全ての特徴を含み、かつ処理システム内にロードされた時点でこれらの方法を実施することのできるアプリケーションプロダクトの中に埋込まれ得る。

さらに、本明細書中に記載の配設は、例えば上に記憶された状態で実施されているコンピュータ可読プログラムコードを有する１つ以上のコンピュータ可読媒体中に埋込まれたコンピュータプログラムプロダクトの形をとり得る。１つ以上のコンピュータ可読媒体の任意の組合せを利用してよい。コンピュータ可読媒体は、コンピュータ可読信号媒体またはコンピュータ可読記憶媒体であり得る。「コンピュータ可読記憶媒体」なる言い回しは、非一時的記憶媒体を意味する。コンピュータ可読記憶媒体は例えば、ただし非限定的に、電子、磁気、光学、電磁、赤外線または半導体システム、装置またはデバイス、またはそれらの任意の好適な組合せであり得る。コンピュータ可読記憶媒体のさらに具体的な例（非網羅的リスト）には、以下のものが含まれると考えられる：ポータブルコンピュータディスケット、ハードディスクドライブ（ＨＤＤ）、ソリッドステートドライブ（ＳＳＤ）、読取り専用メモリ（ＲＯＭ）、消去可能なプログラマブル読取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、ポータブルコンパクトディスク読取り専用メモリ（ＣＤ－ＲＯＭ）、デジタル多目的ディスク（ＤＶＤ）、光学記憶デバイス、磁気記憶デバイス、または以上のものの任意の好適な組合せ。本書に関連して、コンピュータ可読記憶媒体は、命令実行システム、装置またはデバイスによって、またはこれと接続して使用されるためのプログラムを格納または記憶することのできるあらゆる有形媒体であってよい。

概して、本明細書中で使用されるモジュールには、特定のタスクを行なうかまたは特定のデータタイプを実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などが含まれる。さらなる態様においては、メモリが概して、指摘されたモジュールを記憶する。モジュールと結び付けられるメモリは、プロセッサの内部に埋込まれたバッファまたはキャッシュ、ＲＡＭ、ＲＯＭ、フラッシュメモリまたは別の好適な電子記憶媒体であり得る。さらなる態様において、本開示が想定するモジュールは、特定用途向け集積回路（ＡＳＩＣ）、システムオンチップ（ＳｏＣ）のハードウェアコンポーネントとして、プログラマブル論理アレイ（ＰＬＡ）として、または開示された機能を行なうために定義された構成セット（例えば命令）と共に埋込まれる別の好適なハードウェアコンポーネントとして実装される。

無線、有線、光ファイバ、ケーブル、ＲＦなど、または以上のものの任意の好適な組合せを非限定的に含む任意の適切な媒体を用いて、コンピュータ可読媒体上に具現されたプログラムコードを伝送することができる。本配設の態様のために動作を行なうためのコンピュータプログラムコードは、Ｊａｖａ（登録商標）、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋などのオブジェクト指向プログラミング言語および非一時的コンピュータ記憶媒体プログラミング言語、または類似のプログラミング言語などの従来の手続き型プログラミング言語を含めた１つ以上のプログラミング言語の任意の組合せで書かれてよい。プログラムコードは、全体がユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、スタンドアローンソフトウェアパッケージとして、一部ユーザのコンピュータ上、一部遠隔コンピュータ上で、あるいは全体が遠隔のコンピュータまたはサーバ上で、実行可能である。後者のシナリオでは、遠隔コンピュータは、ローカルエリアネットワーク（ＬＡＮ）または広域ネットワーク（ＷＡＮ）を含めたあらゆるタイプのネットワークを通して、ユーザのコンピュータに接続され得るか、または、（例えばインタネットサービスプロバイダを用いてインタネットを通して）外部のコンピュータに対する接続を行なってもよい。

本明細書中で使用される「ａ」および「ａｎ」なる用語は、１または２以上として定義される。本明細書中で使用される「複数（ｐｌｕｒａｌｉｔｙ）」なる用語は、２または３以上として定義される。本明細書中で使用される「別の（ａｎｏｔｈｅｎ）」なる用語は、少なくとも２つ目以降として定義される。本明細書中で使用される「含む（ｉｎｃｌｕｄｉｎｇ）」および／または「有する（ｈａｖｉｎｇ）」なる用語は、含む（ｃｏｍｐｒｉｓｉｎｇ）として定義される（すなわちオープンランゲージ）。本明細書中で使用される「～と～のうちの少なくとも１つ（ａｔｌｅａｓｔｏｎｅｏｆ～ａｎｄ～）は、結び付けられた列挙項目のうちの１つ以上の項目のありとあらゆる可能な組合せを意味しそれを包含する。一例として、「Ａ、ＢおよびＣのうちの少なくとも１つ（ａｔｌａｅｓｔｏｎｅｏｆＡ、ＢａｎｄＣ）」なる言い回しは、Ａのみ、Ｂのみ、Ｃのみ、またはその任意の組合せ（例えばＡＢ、ＡＣ、ＢＣまたはＡＢＣ）を含む。

本明細書中の態様は、その精神または本質的な属性から逸脱することなく、他の形態で具現可能である。したがって、その範囲を示すものとしては、以上の明細書ではなくむしろ以下のクレームを参照すべきである。

Claims

評価システムにおいて、
１つ以上のプロセッサに対して通信可能に結合されたメモリであって、前記１つ以上のプロセッサによって実行された時点で前記１つ以上のプロセッサに、
画像およびレンジデータのうちの少なくとも１つの中で識別されたオブジェクトの境界ボックスにしたがってレンジデータをセグメント化してマスクデータを生成させ、
深度推定値を深度マップと相関させる評価マスクにしたがって、前記マスクデータを深度マップ内の対応する深度推定値と比較させ、
前記深度マップを生成したネットワークを査定するために前記比較させることを定量化する測定基準を提供させる、
命令を含むネットワークモジュール、
を記憶するメモリ、
を含む、評価システム。
前記ネットワークモジュールは、前記マスクデータを前記画像に投影して前記評価マスクを生成するための命令を含む前記マスクデータを比較するための命令を含む、請求項１に記載の評価システム。
前記ネットワークモジュールは、前記境界ボックス内に入る前記レンジデータからの点を選択する一方で、前記レンジデータ内の残りの点を破棄するための命令を含む前記マスクデータを生成するために前記レンジデータをセグメント化するための命令を含む、請求項１に記載の評価システム。
前記ネットワークモジュールは、前記境界ボックスの生成および該境界ボックスにより識別されたオブジェクトについての深度マップの生成における前記ネットワークの精度を特徴付けするために前記マスクデータと前記深度推定値を比較することにしたがって、前記測定基準を生成するための命令を含む、請求項１に記載の評価システム。
前記ネットワークモジュールは、各オブジェクトベースの値の平均化および前記評価マスクの全ての点を横断した点毎の値の平均化のうちの少なくとも１つを行なうための命令を含む前記マスクデータと前記深度推定値を比較するための命令を含む、請求項４に記載の評価システム。
前記ネットワークモジュールは、複数のモデルについての追加測定基準を提供し、周囲環境の機械による知覚を容易にするべくデバイス内部での活動化のための測定基準および追加の測定基準にしたがってモデルの１つを選択するための命令を含む前記測定基準を提供するための命令を含む、請求項１に記載の評価システム。
前記ネットワークは、少なくとも深度推定およびオブジェクト検出を含めた多数のタスクを行なうための機械学習モデルであり、測定基準が、デバイス内部での機械による知覚のための選択を容易にするべく他のモデルに比べた前記ネットワークの改善を識別する、請求項１に記載の評価システム。
前記レンジデータは、ＬｉＤＡＲデータである、請求項１に記載の評価システム。
１つ以上のプロセッサによって実行された時点で前記１つ以上のプロセッサに、
画像およびレンジデータのうちの少なくとも１つの中で識別されたオブジェクトの境界ボックスにしたがってレンジデータをセグメント化してマスクデータを生成させ、
深度推定値を深度マップと相関させる評価マスクにしたがって、前記マスクデータを深度マップ内の対応する深度推定値と比較させ、
前記深度マップを生成したネットワークを査定するために前記比較させることを定量化する測定基準を提供させる、
命令を含む、非一時的コンピュータ可読媒体。
前記マスクデータを比較するための命令は、前記マスクデータを前記画像に投影して前記評価マスクを生成するための命令を含む、請求項９に記載の非一時的コンピュータ可読媒体。
前記マスクデータを生成するために前記レンジデータをセグメント化するための命令は、前記境界ボックス内に入る前記レンジデータからの点を選択する一方で、前記レンジデータ内の残りの点を破棄するための命令を含む、請求項９に記載の非一時的コンピュータ可読媒体。
前記命令は、前記境界ボックスの生成および該境界ボックスにより識別されたオブジェクトについての深度マップの生成における前記ネットワークの精度を特徴付けするために前記マスクデータと前記深度推定値を比較することにしたがって、前記測定基準を生成するための命令を含む、請求項９に記載の非一時的コンピュータ可読媒体。
前記マスクデータと前記深度推定値を比較するための命令は、各オブジェクトベースの値の平均化および前記評価マスクの全ての点を横断した点毎の値の平均化のうちの少なくとも１つを行なうための命令を含む、請求項１２に記載の非一時的コンピュータ可読媒体。
画像およびレンジデータのうちの少なくとも１つの中で識別されたオブジェクトの境界ボックスにしたがってレンジデータをセグメント化してマスクデータを生成することと、
深度推定値を深度マップと相関させる評価マスクにしたがって、前記マスクデータを深度マップ内の対応する深度推定値と比較することと、
前記深度マップを生成したネットワークを査定するために前記比較することを定量化する測定基準を提供することと、
を含む、方法。
前記マスクデータを比較することは、前記マスクデータを前記画像に投影して前記評価マスクを生成することを含む、請求項１４に記載の方法。
前記レンジデータはＬｉＤＡＲデータであり、前記マスクデータを生成するために前記レンジデータをセグメント化することが、前記境界ボックス内に入る前記レンジデータからの点を選択する一方で、前記レンジデータ内の残りの点を破棄することを含む、請求項１４に記載の方法。
前記深度マップおよび前記境界ボックスの生成における前記ネットワークの精度を特徴付けするために比較することにしたがって、前記測定基準を生成することをさらに含む、請求項１４に記載の方法。
前記マスクデータを前記深度推定値と比較することは、各オブジェクトベースでの前記比較の値の平均化および前記評価マスクの全ての点を横断した点毎の値の平均化のうちの少なくとも１つを含む、請求項１７に記載の方法。
前記測定基準を提供することは、複数のモデルについての追加測定基準を提供することと、周囲環境の機械による知覚を容易にするべくデバイス内部での活動化のための測定基準および追加の測定基準にしたがってモデルの１つを選択することとを含む、請求項１４に記載の方法。
前記ネットワークは、少なくとも深度推定およびオブジェクト検出を含めた多数のタスクを行なうための機械学習モデルであり、測定基準が、デバイス内部での機械による知覚のための選択を容易にするべく訓練にしたがって、他のモデルに比べた前記ネットワークの改善を識別する、請求項１４に記載の方法。