JP2024506433A

JP2024506433A - 機械学習モデルのための中間入力

Info

Publication number: JP2024506433A
Application number: JP2023518719A
Authority: JP
Inventors: パリークサミール
Original assignee: ズークスインコーポレイテッド
Priority date: 2020-12-30
Filing date: 2021-12-07
Publication date: 2024-02-14
Also published as: CN116261747A; EP4272186A1; WO2022146622A1

Abstract

環境内のオブジェクトの分類確率を決定する技術が本明細書で論じられる。技術には、マルチチャネルデータを使用して、トップダウンの視点などの視点から環境に関連付けられるセンサデータを分析することが含まれ得る。この視点から、技術は、マルチチャネル入力データ及び追加の特徴データのチャネルを決定することができる。空間特徴に対応するチャネルはマルチチャネル入力データに含まれ、非空間特徴に対応するデータは追加特徴データに含まれる。マルチチャネル入力データは、機械学習（ＭＬ）モデルの第１の部分に入力することができ、追加特徴データは、ＭＬモデルの第１の部分からの中間出力データと連結されて、後続処理と分類確率の決定のためにＭＬモデルの第２の部分に入力することができる。また、技術は、環境を表す多解像度ボクセル空間上で実行され得る。

Description

関連出願に対する相互参照
本特許出願は、2020年12月30日に出願された米国実用特許出願第17/137,873号及び2020年12月30日に出願された米国実用特許出願第17/137,947号の優先権を主張する。出願番号17/137,873及び17/137,947は、参照により本明細書に組み込まれる。

自律車両は、センサを使用して、環境内のオブジェクトを表すデータをキャプチャし得る。技術は、そのようなオブジェクトの分類を決定するために使用することができる。現在の技術は、多くの場合、大量の入力データを処理することを伴い、これはリソース制約のある環境で課題を提示し得る。

詳細な説明は、添付図面を参照して説明される。図面において、参照番号の左端の数字は、その参照番号が最初に出現する図面を識別する。異なる図面における同一の参照番号の使用は、類似または同一の構成要素または特徴を示す。

図１は、環境のセンサデータを受信し、入力データを機械学習（ＭＬ）モデルの第１の部分に入力し、中間入力データをＭＬモデルの第２の部分に入力し、ＭＬモデルの第１及び第２の部分からの出力データに基づいて環境内のオブジェクトの分類確率を決定する例示的なプロセスのフロー図である。図２Ａは、多解像度（multi-resolution）ボクセル空間及びボクセル空間に関連付けられたマルチチャネル画像データの例を示す。図２Ｂは、異なる解像度でレンダリングされ得る環境の様々な範囲を処理するための例示的な処理パイプラインを示す。図３Ａは、ＭＬモデルを用いてマルチチャネル画像データを処理するためのシステムの例示的なアーキテクチャを示す。図３Ｂは、ＭＬモデルの第１の部分を介してマルチチャネル画像データを処理し、ＭＬモデルの第２の部分を介して中間入力データを処理し、その結果を連結してデータをさらに処理するためのシステムの例示的なアーキテクチャを示す。図４は、本明細書で説明される技術を実装するための例示的なシステムのブロック図である。図５は、機械学習（ＭＬ）モデルの第１の部分に入力データを入力し、中間入力データをＭＬモデルの第２の部分に入力し、ＭＬモデルの第１及び第２の部分からの出力データに基づいて環境内のオブジェクトの分類確率を決定する例示的なプロセスである。図６は、第１の入力データを第１のＭＬモデルに入力し、第２の入力データを第２のＭＬモデルに入力し、第１のＭＬモデルからオブジェクトに関連付けられた第１の分類を受信し、第２のＭＬモデルからオブジェクトに関連付けられた第２の分類を受信し、第１の分類または第２の分類に基づいて自律車両を制御する例示的なプロセスである。

センサデータを処理して環境内のオブジェクトに関連付けられた分類を決定する技術が本明細書で説明される。例えば、技術は、センサデータに基づいて、環境を表す環境データを生成することを含み得る。例えば、そのような環境データは、環境のトップダウンビューを表し得るマルチチャネル画像データとして表すことができる。センサデータは、いくつかの例では、１つまたは複数のオブジェクト（例えば、歩行者、車両、自転車など）が存在し得る環境に関連付けられたデータを含み得る。センサデータ（またはセンサデータに基づくデータ）は、オブジェクトに関連付けられた空間属性（例えば、マップ情報、占有層など）及び／またはオブジェクトに関連付けられた非空間属性（例えば、速度、加速度、車両ライトなど）を表す特徴データを含み得る。本明細書に記載の技術は、センサデータを受信すること、センサデータ（またはセンサデータに基づくデータ）を「トップダウンビュー」からマルチチャネル画像データとして表示すること、入力データに表されるオブジェクトに関連付けられた特徴データを決定すること、入力データを機械学習（ＭＬ）モデルの第１の部分に入力すること、ＭＬモデルの第１の部分から受信した中間出力データを特徴データと連結することに基づいて中間入力データを決定すること、中間入力データをＭＬモデルの第２の部分に入力すること、及びＭＬモデルの第２の部分から受信した出力データに基づいてオブジェクトに関連付けられた分類確率を決定することを含み得るが、これらに限定されない。

追加的または代替的に、例えば、パイプラインの第１の部分で画像データの層（layer）の第１のサブセットを入力し、パイプラインの第２の部分で画像データの層の第２のサブセットを入力することによって、機械学習処理パイプラインでマルチチャネル画像データを処理するためのプロセスなど、本明細書に記載の技術は、マルチチャネル画像データとして環境のレンダリングの数に対応して、並列に数回実行され得る。

例えば、環境の第１の部分は、第１の範囲（例えば、５０ｍ×５０ｍ）に関連付けられた第１のマルチチャネル画像データ（例えば、トップダウンのマルチチャネル画像データ）としてレンダリングされ得る。環境の第２の部分（例えば、１００ｍ×１００ｍの領域）は、第２の範囲に関連付けられた第２のマルチチャネル画像データとしてレンダリングされ得る。環境の第３の部分（例えば、２００ｍ×２００ｍ）は、第３のマルチチャネル画像としてレンダリングされ得る。環境の任意の数の領域は、マルチチャネル画像データとして表すことができる。いくつかの例では、マルチチャネル画像データは、環境の少なくとも部分的に重複する部分を表すことができる。いくつかの例では、異なるマルチチャネル画像データは、共通点を中心にすることができる。いくつかの例では、入力データの各々は、同じ「解像度（resolution）」に関連付けることができる。

入力データは、異なる機械学習モデルに並行して入力され、「ピクセル」または入力データによって表されるオブジェクトの分類情報を決定することができる。環境の重複部分に関連付けられた出力を集約して、複数の入力データに表されるオブジェクトの分類を決定することができる。分類確率は、他の構成要素に渡されてもよく、推論の生成、車両の軌道の決定などに利用されてもよい。

マルチチャネル画像データによって表される環境の異なる範囲のそれぞれについての処理パイプラインのこの分離は、単一のパイプラインで全ての異なる範囲を処理する際に生じ得る処理制約を回避する。いくつかの例では、画像データによって表される範囲を拡大し、同じ解像度を使用すると、範囲の増加に比例して処理及び空間要件が増加する。例えば、第１の解像度（例えば、ピクセルあたり約１０ｃｍ）で第１の範囲（例えば、５０ｍ×５０ｍ）に関連付けられた第１のマルチチャネル画像データは、範囲が増加している間に実質的に同様の数のピクセルが処理されているため、第２の解像度（例えば、ピクセルあたり約４０ｃｍ）で第２の範囲（例えば、１００ｍ×１００ｍ）に関連付けられた第２のマルチチャネル画像データと実質的に類似した速度でレンダリングされ、処理され得る。より大きな第２の範囲は、より短い第１の範囲よりも粗い解像度を有するが、第１の範囲は、処理のためにより細かい解像度ピクセルを必要とする車両の近くのオブジェクトを識別するために許容可能な解像度を提供し得、より正確な分類結果をもたらす。加えて、並列で実行されるように別個の処理パイプラインを構成し、次いで結果として生じるデータを集約することは、レンダリング及び／または処理時間をさらに改善し得る。

上述のように、センサデータは、環境の様々な部分に関連付けられたマルチチャネル画像データとして表され得る。特徴データは、環境の領域について決定され得る。例えば、特徴データは、複数の空間特徴及び非空間特徴を含み得る。いくつかの例では、空間特徴は、環境のマップ情報（例えば、車線標識、横断歩道、信号機の位置、建物の位置など）、環境内のオブジェクトの境界ボックス、環境内のオブジェクトのサイズなどを含み得るが、これらに限定されない。追加的または代替的に、非空間特徴は、環境内のオブジェクトの速度、環境内のオブジェクトの加速度、環境内のオブジェクトのライトに関連付けられた照明状態、オブジェクトの動作クラス（例えば、攻撃的、通常など）などを含み得るが、これらに限定されない。いくつかの例では、環境に関連付けられた１つまたは複数の特徴は、マルチチャネル画像データ（例えば、マルチチャネル入力画像）の層として符号化されるか、またはそうでなければ格納され得る。したがって、データは、機械学習モデルへの入力のために効率的に表現され得る。

例えば、機械学習モデルは、トップダウンマルチチャネル入力画像の形式のデータを受け入れ得る。特に、モデルは、環境のＸ及びＹ離散化の数に等しいサイズの画像の形式のデータを受け入れ、画像は、環境の異なる空間特徴を表す多数のチャネルを有する。

いくつかの例では、マルチチャネル入力データは、画像データの１つまたは複数の層を含み得る。例えば、マルチチャネル画像データは、第１の特徴データに関連付けられた第１の２次元層（例えば、第１のチャネル）と、第２の特徴データに関連付けられた第２の２次元層（例えば、第２のチャネル）とを含むことができる。追加的または代替的に、多次元画像データは、単一の特徴を表す特徴データに関連付けられた第１のチャネル及び第２のチャネルなどの２次元層のグループを含むことができる。

いくつかの例では、多次元画像データは、セマンティック情報の複数のクラスに関連付けられた層を含むことができるが、いくつかの例では、特定の分類に関連付けられたデータは、マルチチャネル画像データから省略することができる。

いくつかの例では、様々なセンサデータがマルチチャネル画像データに関連付けられ得る。例えば、いくつかの例では、マルチチャネル画像データは、ライダデータ、レーダデータ、飛行時間データ、または任意の他の深度データを表し得る。

いくつかの例では、本明細書で論じられる技術は、自律車両などの車両のコンテキストで実装され得る。自律車両は、車両が環境を横断するときにセンサデータをキャプチャし、マルチチャネル画像データを決定し得る。

上述のように、技術は、環境に関連付けられたデータ、単一解像度マルチチャネル画像データ、及び／または多解像度マルチチャネル画像データに基づいて動作（operation）を実行することを含み得る。マルチチャネル画像データによって表されるセンサデータの第１の部分、及びセンサデータの第２の部分から決定される特徴データ（部分は少なくとも部分的に重複し得る）を用いて、動作は、マルチチャネル画像データをデータを処理し、中間出力データを受信するために、マルチチャネル画像データをＭＬモデルの第１の部分に入力することを含み得る。いくつかの例では、マルチチャネル画像データは、環境のトップダウンビューを表し得る。追加的または代替的に、マルチチャネル画像データは、環境内の空間特徴及び／またはオブジェクトを表し得る。いくつかの例では、中間出力データは、マルチチャネル画像データから抽出されたセンサデータに関連付けられた高密度特徴（dense feature）を表し得る。追加的または代替的に、動作は、中間出力データ及び特徴データに基づいて中間入力データを決定し、中間入力データをＭＬモデルの第２の部分に入力して、中間入力データを処理し、出力データを受信することを含み得る。いくつかの例では、出力データは、マルチチャネル画像データによって表される環境内のオブジェクトごとに複数のロジット（logit）（例えば、０または負の無限大から１または無限大までの確率値を表す関数）を表し得る。追加的または代替的に、動作は、出力データに基づいてオブジェクトの１つまたは複数の分類確率を決定することをさらに含み得る。

本明細書で論じられる入力データ及び出力データのいずれかは、例えば、テンソル（例えば、数値、スカラー、配列、ベクトル、２次元配列、行列など）などの特徴データを記憶することができる任意のデータ構造によって表され得ることに留意されたい。

いくつかの例では、第１のレンダラは、マルチチャネル入力データを生成するように構成され得、マルチチャネル入力データは、Ｎチャネルを含むマルチチャネル画像データとして構成され得、Ｎは、センサデータに関連付けられたいくつかの特徴に対応する任意の整数であり得る。次いで、マルチチャネル画像データのＮチャネルは、特徴データに基づいてチャネルの２つのサブセットに分割され得る。例えば、Ｎチャネルは、第１のＡチャネル及び第２のＢチャネルに分割されてもよく、ここで、Ａは、例えば、特徴データによって表される空間特徴などのいくつかの一次特徴（primary feature）に対応する任意の整数であってもよく、Ｂは、環境内のエンティティごとに、例えば、特徴データによって表される非空間特徴などのいくつかの二次特徴（secondary feature）に対応する任意の整数であってもよい。次いで、マルチチャネル画像データのＮチャネルは、ＭＬモデルの異なる点において、及びＭＬモデルの異なる部分によってシステムによって処理され得る。例えば、第１のＡチャネルを含む入力データは、ＭＬモデルの第１の部分に入力されてもよく、第１のＡチャネルを表すデータは、環境内のオブジェクト（またはエンティティ）に対応するピクセルに関連付けられた全ての特徴が集約されて、所与のオブジェクトに関する全ての特徴を表すように変換されてもよい。これらのＡチャネルは、オブジェクトごとの特徴として表されると、次いで、処理パイプラインの後半のエンティティごとに特徴データによって表される非空間特徴を含むＢチャネルと組み合わされ得る。

Ｎチャネル入力画像データのＡチャネルとＢチャネルとの間のこの分離は、実行のためのより低い電力コスト要件の結果として、最初のＡチャネルのみが、より小さなフットプリントで、パイプラインの高密度バックボーン部分に入力されるため、ＭＬ分類パイプラインのより速い実行をもたらす。加えて、密集したニューラルネットワークを用いてマルチチャネル入力データに含まれる全てのものを空間的に処理すると、チャネル数に対応する重みの比例した増加がもたらされるため、密集したネットワークに入力されるチャネルの数をＮチャネルから第１のＡチャネル（ＡはＮのサブセットである）に減らすことは、チャネル数の減少に比例して、推論時間の大幅な短縮をもたらし得る。

いくつかの例では、ＭＬモデルの第１の部分は、例えば、畳み込みニューラルネットワーク（ＣＮＮ）などのニューラルネットワークのバックボーンまたは特徴抽出コンポーネントとして構成され得る。例示的なバックボーンとしては、限定するものではないが、ＲｅｓＮｅｔ１０１、ＲｅｓＮｅｔ５２などが挙げられ得る。ＭＬモデルの第１の部分は、第１のＡチャネルを含むマルチチャネル画像データを処理し、マルチチャネル画像データに対応する中間出力データを決定し得る。例えば、中間出力データは、第１のＡチャネルに関連付けられた特徴の高密度表現（または値の集合）を含み得る。いくつかの例では、特徴の高密度表現は、マルチチャネル画像データに表されるピクセルに関連付けられた特徴ベクトルを含み得る。

いくつかの例では、スパースレンダラとして構成された第２のレンダラは、例えば、非空間特徴を表す第２のＢチャネルなどの特定の特徴に対応するセンサデータに基づいて追加の特徴データを生成するように構成され得る。追加の特徴データは、センサデータによって表されるオブジェクトごとに複数の特徴を含み得る。いくつかの例では、追加の特徴データは、オブジェクトに関連付けられた特徴ベクトルとして構成され得る。

いくつかの例では、中間入力データは、中間出力データと追加の特徴データとをオブジェクトごとに連結することに基づいて決定され得る。例えば、単一チャネル画像を利用して、中間出力データをマスクし、１つまたは複数のオブジェクトを検出し、及び／またはマルチチャネル画像データ内の１つまたは複数のオブジェクトの中心位置などの特定の位置に対応する１つまたは複数のグラフィック参照（graphical reference）を決定し得る。いくつかの例では、第１のレンダラは、画像に含まれるオブジェクトの中心（または各オブジェクトのそれぞれの中心）の表示を含む単一チャネル画像を生成し得る。単一チャネル画像はまた、環境内のオブジェクトに関連付けられた占有の表示を含み得る。例えば、単一チャネル画像は、中間出力データに対してオブジェクトの対応する位置に対応する占有及び／またはグラフィック参照の表示を提供するために、中間出力データと整列されるか、またはそうでなければ中間出力データをマスクすることができる。中間出力データ内に占有の表示がない場合は、対応する特徴ベクトルが無視され得、中間出力データ内に占有の表示がある場合は、対応する特徴ベクトルが収集され得る。単一のオブジェクトに対応する収集された特徴ベクトルは、オブジェクトに関連付けられた単一の特徴ベクトルを決定するために集約され得、単一の特徴ベクトルは、マルチチャネル画像データ内のオブジェクトの対応する位置に対応するグラフィック参照で表され得る。さらに、グラフィック参照で表される特徴ベクトルは、中間入力データを決定するために、オブジェクトごとの追加の特徴と連結され得る（すなわち、オブジェクトに関連付けられた特徴ベクトルをオブジェクトに関連付けられた追加の特徴ベクトルと連結する）。

中間入力データは、ＭＬモデルの第２の部分に入力され得る。いくつかの例では、ＭＬモデルの第２の部分は、例えば、ディープニューラルネットワーク（ＤＮＮ）などの高密度ニューラルネットワークとして構成され得る。中間入力データは、環境内のオブジェクトごとに、ＭＬモデルの第２の部分を通過してもよく、これは、中間入力データを処理し、環境内のオブジェクトごとに複数のロジット（例えば、０または負の無限大から１または無限大までの確率値を表す関数）を表す出力データを決定し得る。

いくつかの例では、環境内のオブジェクトの１つまたは複数の分類確率は、出力データに基づいて決定され得る。例えば、ロジットは、オブジェクトタイプ分類（例えば、車両、歩行者、自転車など）、オブジェクト挙動分類（例えば、断定的、通常、回避的、攻撃的など）、オブジェクト視線分類（例えば、気を散らした歩行者、警告歩行者など）、オブジェクト軌道分類（例えば、道路上、歩道上に残っている、ジェイウォーキングなど）、車線変更分類（例えば、私の車線に車線を変更する）、及び／または緊急車両分類など、オブジェクトに関連付けられた複数の分類に関連付けられた複数の確率を示し得るが、これらに限定されない。これらの分類確率は単なる例であり、技術はこれらの特定の例に限定されない。

本明細書で論じられる技術は、自律車両のコンピューティングデバイスなどのコンピューティングデバイスの機能を、いくつかの方法で改善し得る。例えば、マルチ解像度マルチチャネル画像データ内の複数のレベルを使用することは、車両の近くのデータの高解像度管理及び車両から遠く離れたデータの低解像度管理を容易にする。そのようなレベルは、例えば、単一の高解像度レベルに関連付けられた入力データと比較した場合に、センサデータを格納するためのメモリの量を大幅に減少させ得る。いくつかの例では、複雑な空間データ及びセマンティックデータは、マルチチャネル画像データ内で視覚的に表現され得、データの効率的な評価及び処理を可能にする。本明細書に記載の技術はまた、トップダウン予測の遅延を減少させ得る。理解され得るように、増加した範囲でトップダウン予測の遅延を減らすことは、特に車両及び自律車両のコンテキストにおいて、安全性の結果を改善し得る。本明細書に記載の技術はまた、オブジェクトを検出及び分類する処理時間を短縮し、さらにさらなる範囲でオブジェクトを検出及び分類することによって、安全性の結果を改善し得る。理解できるように、車両及び自動運転車のコンテキストでは、オブジェクトの決定及び検出が迅速かつ正確に行われなければならない状況が発生する可能性がある。さらに、より大きな範囲でのオブジェクトの決定及び検出も迅速かつ正確に行わなければならない状況が生じ得る。それ故に、本明細書で説明される技術は、安全性の結果を改善することと同様に、コンピューティングデバイスの機能を改善することが可能である。

本明細書で説明される技術は、複数の方法で実装され得る。例示的な実装は、下記の図面を参照して以下で提供される。自律車両のコンテキストにおいて説明されるが、本明細書で説明される方法、装置、及びシステムは、多様なシステム（例えば、センサシステム、またはロボティックプラットホーム）に適用されてよく、自律車両に限定されない。一例では、そのようなシステムが様々な動作を実行することが安全であるかどうかの表示を提供し得る運転者制御車両で、同様の技術が利用され得る。別の例では、本技術は、製造アセンブリラインコンテキスト、航空測量コンテキスト、または航海コンテキストで利用することができる。さらに、本明細書で説明される技法は、実データ（例えばセンサを使用してキャプチャされた）、シミュレートされたデータ（例えばシミュレータによって生成された）、またはその２つの任意の組合せで使用し得る。

図１は、環境のセンサデータを受信し、入力データを機械学習（ＭＬ）モデルの第１の部分に入力し、中間入力データをＭＬモデルの第２の部分に入力し、ＭＬモデルの第１及び第２の部分からの出力データに基づいて環境内のオブジェクトの分類確率を決定する例示的なプロセスの絵のフロー図である。

動作１０２において、プロセスは、車両（例えば、自律車両）の知覚システムに関連して動作するセンサによって、環境のセンサデータ及びセンサデータに関連付けられたセマンティック情報を受信することを含み得る。センサデータのコンテキストで説明されているが、動作１０２は、深度コンポーネントを含む任意の３次元データまたはデータを受信することを含むことができる。セマンティック情報は、例えば、１つ以上のセマンティック分類、ラベル、またはセグメンテーション情報を含むことができる。いくつかの例では、動作１０２は、知覚システムに関連して動作する複数のセンサから複数のセンサデータセットを受信することを含むことができる。いくつかの例では、動作１０２は、２つ以上のセンサからの（及び／または一定期間にわたる）データを単一のライダデータセット（「メタスピン」とも称される）に結合または融合することを含むことができる。場合によっては、動作１０２は、ある期間にわたってなど、処理のためにセンサデータの一部を抽出することを含むことができる。いくつかの例では、動作１０２は、レーダデータ（または他のセンサデータ）を受信し、レーダデータをセンサデータに関連付けて、環境のより詳細な表現（representation）を生成することを含むことができる。

上述のように、センサデータ（例えば、センサデータセット）は、セマンティック情報に関連付けることができる。センサデータを決定し、セマンティック情報と関連付けるためのそのような技術の例は、例えば、「センサデータセグメンテーション」と題され、２０１７年１１月２１日に出願された米国特許出願第１５／８２０，２４５号において論じられており、これは、その全体が参照により本明細書に組み込まれる。

セマンティック情報は、分類及び／または軌道計画のために環境内の静的及び／または動的オブジェクトに関連付けられ得る。地面、静的オブジェクト、及び／または動的オブジェクトに対応する環境の一部は、そのようなセマンティック情報で識別及びラベル付けすることができる。いくつかの例では、データは、セマンティック情報に少なくとも部分的に基づいてセグメント化され得る。いくつかの例では、動的オブジェクトのリストを追跡システムに提供して、各動的オブジェクトの経時的な軌道を追跡及び／または予測することができる。いくつかの例では、静的オブジェクトのリスト及び／または地面の識別をプランナシステムに提供して、駆動可能な表面を横断し、本明細書で識別される静的オブジェクトを回避するか、またはそうでなければ考慮に入れる車両の軌道を生成することができる。

例１０４は、環境のセンサデータ１０８をキャプチャする車両１０６を示す。いくつかの例では、センサデータ１０８は、ライダデータ、レーダデータ、ソナーデータ、飛行時間データまたは他の深度データを含み得る。例えば、動作１０２は、画像データをキャプチャし、キャプチャされた画像データに基づいて深度データを生成することを含み得る。

動作１１０において、プロセスは、環境のトップダウンビューを表すマルチチャネル画像データ１１４（例えば、２次元入力グリッド）を決定することを含み得る。いくつかの例では、マルチチャネル画像データ１１４は、センサデータに基づいて決定され得る。

前述のように、いくつかの例では、動作１１０は、環境の様々な部分に基づいて、マルチチャネル画像データ１１４（例えば、２次元入力グリッド）を決定することを含み得る。マルチチャネル画像データ１１４の各領域または部分は、環境の領域（または他の次元）に関連付けられた２次元表現の領域として決定され得る。いくつかの例では、マルチチャネル画像データ１１４の各領域は、環境の領域に関連付けられた２次元表現のセルであり得る。２次元入力グリッドの各領域は、５０ｃｍ×５０ｃｍ領域に関連付けられ得、特徴データを含み得る。各領域は、１つ以上の隣接（例えば、ネイバー）領域に関連付けられ得る（例えば、隣接して配置され得る）。

マルチチャネル画像データ１１４の例は、例１１２に示される。例えば、例１１２は、第１のチャネル１１６及び第２のチャネル１１８を含む。いくつかの例では、第１のチャネル１１６は、境界ボックス、位置、範囲（例えば、長さ及び幅）、及び／または環境内のオブジェクト１２０の存在の任意の他の表示を表し得る。いくつかの例では、第２のチャネル１１８は、オブジェクトに関連付けられた空間特徴１２２（例えば、マップ情報、占有層など）を含む特徴データを表し得る。

マルチチャネル画像データは、複数の領域を含み得る。各領域は、２次元表現の領域として決定されてもよく、環境の領域に関連付けられてもよい。例えば、領域は、領域に関連付けられた２次元情報に変換されている環境に関連付けられた３次元情報に基づいて、環境の領域に関連付けられ得る。

各領域は特徴データを含み得る。例えば、限定されないが、特徴データは、（列に関連付けられたセンサデータのために）複数の空間特徴１２２及び非空間特徴を含むことができる。いくつかの例では、空間特徴１２２は、環境のマップ情報（例えば、車線標識、横断歩道、信号機の位置、建物の位置など）、環境内のオブジェクトの境界ボックス、環境内のオブジェクトのサイズなどを含み得るが、これらに限定されない。追加的または代替的に、非空間特徴は、環境内のオブジェクトの速度、環境内のオブジェクトの加速度、環境内のオブジェクトのライトに関連付けられた照明状態、オブジェクトの動作クラス（例えば、攻撃的、通常など）などを含み得るが、これらに限定されない。いくつかの例では、センサデータ及び／または３次元ボクセル空間に関連付けられた１つまたは複数の特徴は、マルチチャネル入力画像の層として符号化されるか、またはそうでなければ格納され得る。従って、データは、機械学習モデルへの入力のために効率的に表現され得る。

いくつかの例では、第１のレンダラは、マルチチャネル入力データを生成するように構成され得、マルチチャネル入力データは、Ｎチャネルを含むマルチチャネル画像データ１１４として構成され得、Ｎは、センサデータに関連付けられたいくつかの特徴に対応する任意の整数であり得る。マルチチャネル画像データ１１４のＮチャネルは、特徴データに基づいてチャネルの２つのサブセットに分割され得る。例えば、Ｎチャネルは、第１のＡチャネル及び第２のＢチャネルに分割されてもよく、ここで、Ａは、例えば、特徴データによって表される空間特徴の数に対応する任意の整数であってもよく、Ｂは、特徴データによって表される非空間特徴の数に対応する任意の整数であってもよい。マルチチャネル画像データ１１４のＮチャネルは、ＭＬモデルの異なる点において、及びＭＬモデルの異なる部分によってシステムによって処理され得る。例えば、第１のＡチャネルを含む入力データは、ＭＬモデルの第１の部分に入力され得る。

理解できるように、動作１１０は、本明細書で説明されるように、マルチチャネル画像（複数可）を生成または決定することを含み得る。マルチチャネル画像の生成または決定の例は、「トップダウンシーンにおける軌道予測」と題され、２０１８年１０月４日に出願された米国特許出願第１６／１５１，６０７号に関連して説明される。米国特許出願第１６／１５１，６０７号は、その全体が参照によって本明細書に組み込まれている。

動作１２４は、マルチチャネル画像データ１１４（例えば、トップダウンまたは別のビュー）を、例えば、畳み込みニューラルネットワーク（ＣＮＮ）などのニューラルネットワークのバックボーンまたは特徴抽出コンポーネントとして構成されたＭＬモデルの第１の部分１２６に入力することを含み得る。例示的なバックボーンとしては、限定するものではないが、ＲｅｓＮｅｔ１０１、ＲｅｓＮｅｔ５２などが挙げられ得る。ＭＬモデルの第１の部分１２６は、第１のＡチャネルを含むマルチチャネル画像データを処理し、マルチチャネル画像データ１１４に対応する中間出力データを決定し得る。

動作１２８は、ＭＬモデルの第２の部分に入力される中間入力データを決定することを含み得る。いくつかの例では、中間入力データを決定することは、環境内のオブジェクトごとに中間出力データ及び追加の特徴データを連結することに基づいてもよい。

いくつかの例では、動作１２８は、例えば、非空間特徴を表す第２のＢチャネルなどの特定の特徴に対応するセンサデータに基づいて追加の特徴データを生成するように構成され得る、スパースレンダラなどの第２のレンダラを利用することを含み得る。

中間入力データの例を例１３０に示す。いくつかの例では、例１３０は、中間出力データ１３４及び追加の特徴データ１３６（または特徴）に基づいて決定された中間入力データ１３２を含み得る。

いくつかの例では、中間出力データ１３４は、第１のＡチャネルに関連付けられた特徴の高密度表現（または値の集合）を含み得る。いくつかの例では、特徴の高密度表現は、マルチチャネル画像データ１１４に表されるピクセルに関連付けられた特徴ベクトルを含み得る。

いくつかの例では、追加の特徴データ１３６は、非空間特徴などの特定の特徴に対応するセンサデータ１０８に基づいてもよい。追加の特徴データ１３６は、センサデータ１０８によって表されるオブジェクトごとに複数の特徴を含み得る。いくつかの例では、追加の特徴データ１３６は、オブジェクト１２０に関連付けられた特徴ベクトルとして構成され得る。

いくつかの例では、中間入力データ１３２は、中間出力データ１３４と追加の特徴データ１３６とをオブジェクトごとに連結することに基づいて決定され得る。例えば、単一チャネル画像を利用して、中間出力データ１３４にマスクし、１つまたは複数のオブジェクトを検出し得る。いくつかの例では、第１のレンダラは、画像に含まれるオブジェクトの中心（または各オブジェクトのそれぞれの中心）の表示を含む単一チャネル画像を生成し得る。単一チャネル画像はまた、環境内のオブジェクト１２０に関連付けられた占有の表示を含み得る。例えば、単一チャネル画像は、中間出力データ１３４と整列されるか、さもなければ、中間出力データ１３４とマスクされて、中間出力データ１３４に対する占有率の表示を提供し得る。中間出力データ１３４内に占有の表示がない場合は、対応する特徴ベクトルが無視され得、中間出力データ１３４内に占有の表示がある場合は、対応する特徴ベクトルが収集され得る。単一のオブジェクトに対応する収集された特徴ベクトルは、オブジェクト１２０に関連付けられた単一の特徴ベクトルを決定するために集約され得、単一の特徴ベクトルは、オブジェクトの中心で表され得る。

さらに、例えば、オブジェクト１２０の中心などの、グラフィック参照で表される特徴ベクトルは、中間入力データ１３２を決定するために、オブジェクトごとの追加の特徴と連結され得る（すなわち、オブジェクトに関連付けられた特徴ベクトルをオブジェクトに関連付けられた追加の特徴ベクトルと連結する）。

動作１３８は、中間入力データ１３２を、例えば、ディープニューラルネットワーク（ＤＮＮ）などの高密度ニューラルネットワークとして構成されたＭＬモデルの第２の部分１４０に入力することを含み得る。中間入力データ１３２は、環境内のオブジェクトごとに、ＭＬモデルの第２の部分を通過してもよく、これは、中間入力データ１３２を処理し、環境内のオブジェクトごとに複数のロジット（例えば、０または負の無限大から１または無限大までの確率値を表す関数）を表す出力データを決定し得る。

動作１４２は、ＭＬモデルの第２の部分１４０から出力データを受信することを含み得る。出力データの例を例１４４に示す。いくつかの例では、例１４４は、環境内のオブジェクトごとに複数のロジット１４８（例えば、０または負の無限大から１または無限大までの確率値を表す関数）を表す出力データ１４６を含み得る。

動作１５０は、オブジェクトの１つまたは複数の分類確率を決定することを含み得る。いくつかの例では、１つまたは複数の分類確率を決定することは、出力データ１４６によって表されるオブジェクトごとのロジット１４８に少なくとも部分的に基づいてもよい。

分類確率の例を例１５２に示す。いくつかの例では、例１５２は、環境内のオブジェクト１２０の分類確率１５４を含み得る。前述のように、分類確率１５４は、出力データ１４６によって表されるオブジェクトごとのロジット１４８に少なくとも部分的に基づいてもよい。

例えば、オブジェクトごとのロジット１４８は、限定されるわけではないが、オブジェクトタイプ分類（例えば、車両、歩行者、自転車など）、オブジェクト挙動分類（例えば、断定的、通常、回避的、攻撃的など）、オブジェクト視線分類（例えば、気を散らした歩行者、警告歩行者など）、オブジェクト軌道分類（例えば、道路上、歩道上に残っている、ジェイウォーキングなど）、車線変更分類（例えば、私の車線に車線を変更する）、及び／または緊急車両分類など、オブジェクト１２０に関連付けられた複数の分類に関連付けられた複数の確率として決定された１つまたは複数の分類確率１５４を示し得る。

追加的に、または代替的に、動作１５０において、プロセスは、分類確率１５４を処理することに少なくとも部分的に基づいて車両１０６を制御することを含み得る。いくつかの例では、動作１５０は、車両１０６によって実行され得る。いくつかの例では、動作１５０は、環境内で車両１０６をナビゲートするために、車両１０６の１つまたは複数のシステムのための経路、軌道、及び／または制御信号を生成することを含み得る。

図２は、多解像度ボクセル空間２０２及びボクセル空間に関連付けられたマルチチャネル画像データの例２００を示す。いくつかの例では、多解像度ボクセル空間２０２は、図１に関して前述した例示的なボクセル空間に対応し得る。

多解像度ボクセル空間２０２は、３次元（例えば、ｘ、ｙ、ｚ）で示され、第１のレベル２０４、第２のレベル２０６、及び第３のレベル２０８を含む。

２次元表現（例えば、第１のレベル２０４のｘ－ｙ態様を示す）は、第１のレベル２１０として示される。

２次元表現（例えば、第２のレベル２０６のｘ－ｙ態様を示す）は、第２のレベル２１２として示される。

２次元表現（例えば、第３のレベル２０８のｘ－ｙ態様を示す）は、第３のレベル２１４として示される。

例２１６は、車両２１８に対して並置されたレベル２１０、２１２、及び２１４（またはレベル２０４、２０６、及び２０８）を示す。すなわち、ボクセルレベル２１０、２１２、及び２１４は、車両２１８に近接する環境の一部に対応することができる。

例２１６によって見ることができるように、多解像度ボクセル空間のいくつかの部分は、１つのレベル、２つのレベル、３つのレベル、または任意の数のレベルに関連付けることができる。例えば、ポイント２２０は、第１のレベル２１０に関連付けることができる。ポイント２２２は、第１のレベル２１０及び第２のレベル２１２に関連付けることができる。すなわち、ポイント２２２は、第１のレベル２１０に関連付けられた第１のボクセル及び第２のレベル２１２に関連付けられた第２のボクセルで表すことができ、第１のボクセル及び第２のボクセルは、少なくとも部分的に重複する。ポイント２２４は、第１のレベル２１０、第２のレベル２１２、及び第３のレベル２１４に関連付けることができる。すなわち、ポイント２２４は、第１のレベル２１０に関連付けられた第１のボクセル、第２のレベル２１２に関連付けられた第２のボクセル、及び第３のレベル２１４に関連付けられた第３のボクセルで表されることが可能であり、第１のボクセル、第２のボクセル、及び第３のボクセルは、少なくとも部分的に重複する。

追加的または代替的に、レベル２１０、２１２、及び２１４のそれぞれは、対応するレベルの解像度のために構成された、図１に関して上述したプロセス１００に従って処理するためのＭＬモデルの第１の部分１２６への入力のために、レベル２１０、２１２、及び２１４のそれぞれのトップダウンビューを表すマルチチャネル画像データなどの対応するマルチチャネル画像データを決定するために利用され得る。いくつかの例では、レベル２１０、２１２、及び２１４にそれぞれ対応するマルチチャネル入力画像のそれぞれは、並列に、または多解像度ボクセル空間２０２に含まれるボクセル空間の数に対応する任意の数のレベルで処理され得、出力データは、オブジェクトの分類確率を決定するために集約され得る。例えば、最も粗い解像度レベル２１０のトップダウンビューを表すマルチチャネル画像データに対応するエンティティごとのロジットは、第１の及び最も遠い範囲を拡大して記憶されてもよい。さらに、中間解像度レベル２１２のトップダウンビューを表すマルチチャネル画像データに対応するエンティティごとのロジットは、第２の及び中間範囲を拡大して記憶されてもよく、最も粗い解像度レベル２１０のトップダウンビューを表すマルチチャネル画像データに対応するエンティティごとのロジットの一部を第２の及び中間範囲に上書きしてもよい。さらに、最高級解像度レベル２１４のトップダウンビューを表すマルチチャネル画像データに対応するエンティティごとのロジットは、第３の及び最短範囲に拡大して記憶してもよく、中間解像度レベル２１２のトップダウンビューを表すマルチチャネル画像データ及び／または最も粗い解像度レベル２１０のトップダウンビューを表すマルチチャネル画像データに対応するエンティティごとのロジットの一部を、第３の最短範囲まで上書きしてもよい。

いくつかの例では、動作は、他のボクセル及び／またはボクセルレベルとは独立して、各ボクセル内にデータを蓄積することを含むことができる。すなわち、センサデータは、ボクセル空間内で生のセンサデータ（例えば、データポイントに関連付けられた個々の値）として表されてもよく、またはデータの統計的蓄積として表されてもよい。例えば、センサデータは、処理されたデータを含む個々のボクセル、そのようなデータポイントの数、平均強度、個々のボクセルに関連付けられたセンサデータの平均ｘ値、個々のボクセルに関連付けられたセンサデータの平均ｙ値、個々のボクセルに関連付けられたセンサデータの平均ｚ値、及び／またはボクセルに関連付けられたセンサデータに基づいた共分散行列を用いて、ボクセル空間に蓄積され得る。センサデータは、あるレベルのボクセルが別のレベルのボクセルと少なくとも部分的に重複する場合でも、各ボクセルについて独立して蓄積することができる。

追加的または代替的に、センサデータは、環境の様々な部分に関連付けられたマルチチャネル画像データとして表され得る。特徴データは、環境の領域について決定され得る。

前述のように、センサデータは、ボクセル空間に蓄積されてもよく、及び／または環境の様々な部分に関連付けられてもよく、個々のボクセル及び／または部分は、例えば、（列に関連付けられたセンサデータのために）複数の空間特徴２２８及び非空間特徴２３０などの特徴データ２２６を表す特徴データを含む。いくつかの例では、空間特徴２２８は、環境のマップ情報（例えば、車線標識、横断歩道、信号機の位置、建物の位置など）、環境内のオブジェクトの境界ボックス、環境内のオブジェクトのサイズなどを含み得るが、これらに限定されない。追加的または代替的に、非空間特徴２３０は、環境内のオブジェクトの速度、環境内のオブジェクトの加速度、環境内のオブジェクトのライトに関連付けられた照明状態、オブジェクトの動作クラス（例えば、攻撃的、通常など）などを含み得るが、これらに限定されない。いくつかの例では、センサデータ及び／または３次元ボクセル空間に関連付けられた１つまたは複数の特徴２２６は、マルチチャネル入力画像の層として符号化されるか、またはそうでなければ格納され得る。従って、データは、図１に関して説明されるようなＭＬモデルの第１の部分１２６などの機械学習モデルへの入力のために効率的に表現され得る。

いくつかの例では、レンダラは、Ｎチャネルを含むマルチチャネル入力データを生成するように構成され、Ｎは、センサデータに関連付けられた特徴２２６の数に対応する任意の整数であり得る。マルチチャネル画像データのＮチャネルは、特徴データ２２６に基づいてチャネルの２つのサブセットに分割され得る。例えば、Ｎチャネルは、第１のＡチャネル及び第２のＢチャネルに分割されてもよく、ここで、環境内のエンティティごとに、Ａは、例えば、特徴データ２２６によって表される空間特徴２２８の数に対応する任意の整数であってもよく、Ｂは、特徴データ２２６によって表される非空間特徴２３０の数に対応する任意の整数であってもよい。マルチチャネル画像データのＮチャネルは、ＭＬモデルの異なる点において、及びＭＬモデルの異なる部分によってシステムによって処理され得る。例えば、第１のＡチャネルを含む入力データは、ＭＬモデルの第１の部分に入力されてもよく、第１のＡチャネルを表すデータは、環境内のオブジェクト（またはエンティティ）に対応するピクセルに関連付けられた全ての特徴が集約されて、所与のオブジェクトに関する全ての特徴２２６を表すように変換されてもよい。これらのＡチャネルは、オブジェクトごとの特徴として表されると、処理パイプラインの後半のエンティティごとに特徴データによって表される非空間特徴１３０を含むＢチャネルと組み合わされ得る。

Ｎチャネル入力画像データのＡチャネルとＢチャネルとの間のこの分離は、実行のためのより低い電力コスト要件の結果として、最初のＡチャネルのみが、より小さなフットプリントで、パイプラインの高密度バックボーン部分に入力されるため、ＭＬ分類パイプラインのより速い実行をもたらす。加えて、高密度ニューラルネットワークを用いてマルチチャネル入力データに含まれる全てのものを空間的に処理すると、チャネル数に対応する重みの比例した増加がもたらされるため、高密度ネットワークに入力されるチャネルの数をＮチャネルから第１のＡチャネル（ＡはＮのサブセットである）に減らすことは、チャネル数の減少に比例して、推論時間の大幅な短縮をもたらし得る。

図２Ｂは、異なる解像度でレンダリングされ得る環境の様々な範囲を処理するための例示的な処理パイプライン２４０、２５０及び２６０を示す。いくつかの例では、入力ブロブ２４４、２５４、及び２６４は、図１に関して以前に説明されたマルチチャネル画像データ１１４に対応し得る。いくつかの例では、処理パイプライン２４０、２５０及び２６０は、図１に関して前述したプロセス１００に対応する技術を実装し得る。

前述のように、本明細書で説明される技術は、マルチチャネル画像データとして環境のレンダラの数に対応して、並行して複数回実行され得る。例えば、第１の範囲のブロブレンダラ２４２は、環境の第１の部分を表す第１のマルチチャネル入力ブロブ２４４を、第１の範囲（例えば、５０ｍ×５０ｍ）に関連付けられたマルチチャネル画像データ（例えば、トップダウンマルチチャネル画像データ）としてレンダリングし得る。追加的または代替的に、第２の範囲のブロブレンダラ２５２は、環境の第２の部分を表す第２のマルチチャネル入力ブロブ２５４を、第２の範囲（例えば、１００ｍ×１００ｍ）に関連付けられたマルチチャネル画像データ（例えば、トップダウンマルチチャネル画像データ）としてレンダリングし得る。追加的または代替的に、第３の範囲のブロブレンダラ２６２は、環境の第３の部分を表す第３のマルチチャネル入力ブロブ２６４を、第３の範囲（例えば、２００ｍ×２００ｍ）に関連付けられたマルチチャネル画像データ（例えば、トップダウンマルチチャネル画像データ）としてレンダリングし得る。

いくつかの例では、マルチチャネル入力ブロブ２４４、２５４、及び２６４は、環境の少なくとも部分的に重複する部分を表すことができる。いくつかの例では、異なるマルチチャネル入力ブロブ２４４、２５４、及び２６４は、共通点を中心とすることができる。入力ブロブ２４４、２５４、及び２６４は、様々な範囲に構成された異なる機械学習モデル２４６、２５６、及び２６６に並列して入力され、入力ブロブ２４４、２５４、及び２６４によって表される「ピクセル」またはオブジェクトの分類情報を決定することができる。環境の重複部分に関連付けられた出力を集約して、複数の入力ブロブ２４４、２５４、及び２６４に表されるオブジェクトの分類を決定することができる。

第１の例示的な処理パイプライン２４０では、第１のマルチチャネル入力ブロブ２４４は、第１の最短範囲に関連付けられた環境の一部を表すマルチチャネル入力ブロブ２４４を処理するように構成された第１の範囲のＭＬモデル２４６に入力され得る。第１の範囲のＭＬモデル２４６は、環境の第１の範囲２４８内のエンティティについて、複数のロジット（例えば、０または負の無限大から１または無限大までの確率値を表す関数）を表す出力データを決定し得る。

第２の例示的な処理パイプライン２５０では、第２のマルチチャネル入力ブロブ２５４は、第２の中間範囲に関連付けられた環境の一部を表すマルチチャネル入力ブロブ２５４を処理するように構成された第２の範囲のＭＬモデル２５６に入力され得る。第２の範囲のＭＬモデル２５６は、環境の第２の範囲２５８内のエンティティについて、複数のロジット（例えば、０または負の無限大から１または無限大までの確率値を表す関数）を表す出力データを決定し得る。追加的に、または代替的に、第２の範囲のＭＬモデル２５６は、第２の範囲内及び第１の範囲の外のエンティティのロジット２５８を表す出力データを決定し得る。

第３の例示的な処理パイプライン２６０では、第３のマルチチャネル入力ブロブ２６４は、第３の最長の範囲に関連付けられた環境の一部を表すマルチチャネル入力ブロブ２６４を処理するように構成された第３の範囲ＭＬモデル２６６に入力され得る。第３の範囲ＭＬモデル２６６は、環境の第３の範囲２６８内のエンティティについて、複数のロジット（例えば、０または負の無限大から１または無限大までの確率値を表す関数）を表す出力データを決定し得る。追加的に、または代替的に、第３の範囲ＭＬモデル２６６は、第３の範囲内及び第２の範囲２６８の外のエンティティのロジットを表す出力データを決定し得る。

いくつかの例では、ＭＬモデル２４６、２５６、及び２６６によってそれぞれ決定される様々な範囲２４８、２５８、及び２６８内のエンティティのロジットを表す出力データは、環境内のオブジェクトの分類確率を決定するために集約され得る。例えば、第３の範囲２６８内のエンティティのロジットは、集約のために最初に収集され得る。第２の範囲２５８内のエンティティのロジットは、２番目に収集されてもよく、第３の範囲２６８内のエンティティのロジットの一部を中心点から第２の範囲まで上書きしてもよい。第１の範囲２４８内のエンティティのロジットは、３番目に収集されてもよく、第３の範囲２６８内のエンティティごとのロジットの一部及び／または第２の範囲２５８内のエンティティごとのロジットの一部を、中心点から第１の範囲まで上書きしてもよい。

したがって、出力データは、第１の範囲内のエンティティのロジット２４８、第２の範囲内及び第１の範囲外のエンティティのロジット２５８、並びに第３の範囲内及び第２の範囲外のエンティティのロジット２６８を表し得る。いくつかの例では、異なる解像度でレンダリングされ得る環境の様々な範囲におけるオブジェクトの１つまたは複数の分類確率は、出力データに基づいて決定され得る。例えば、ロジットは、限定されるわけではないが、オブジェクトタイプ分類（例えば、車両、歩行者、自転車など）、オブジェクト挙動分類（例えば、断定的、通常、回避的、攻撃的など）、オブジェクト視線分類（例えば、気を散らした歩行者、警告歩行者など）、オブジェクト軌道分類（例えば、道路上、歩道上に残っている、ジェイウォーキングなど）、車線変更分類（例えば、私の車線に車線を変更する）、及び／または緊急車両分類など、オブジェクトに関連付けられた複数の分類に関連付けられた複数の確率を示し得る。これらの分類確率は単なる例であり、技術はこれらの特定の例に限定されない。

マルチチャネル画像データによって表される環境の異なる範囲のそれぞれについての処理パイプラインのこの分離は、単一のパイプラインで全ての異なる範囲を処理する際に生じ得る処理制約を回避する。いくつかの例では、画像データによって表される範囲を拡大し、同じ解像度を使用すると、範囲の増加に比例して処理及び空間要件が増加する。例えば、第１の解像度（例えば、ピクセルあたり約１０ｃｍ）で第１の範囲（例えば、５０ｍ×５０ｍ）に関連付けられた第１のマルチチャネル画像データは、範囲が増加している間に実質的に同様の数のピクセルが処理されているため、第２の解像度（例えば、ピクセルあたり約４０ｃｍ）で第２の範囲（例えば、１００ｍ×１００ｍ）に関連付けられた第２のマルチチャネル画像データと実質的に類似した速度でレンダリングされ、処理され得る。より大きな第２の範囲は、より短い第１の範囲よりも粗い解像度を有するが、第１の範囲は、処理のためにより細かい解像度ピクセルを必要とする車両の近くのオブジェクトを識別するために許容可能な解像度を提供し得、より正確な分類結果をもたらす。加えて、並列で実行されるように別個の処理パイプラインを構成し、結果として生じるデータを集約することは、レンダリング及び／または処理時間をさらに改善し得る。

図３Ａは、ＭＬモデルを用いてマルチチャネル画像データを処理するシステムの例示的なアーキテクチャ３００を示す。

示されるように、マルチチャネル画像データなどのバックボーン入力特徴３０２は、ニューラルネットワークのバックボーン３０４または特徴抽出コンポーネントに入力され得る。バックボーン３０４は、バックボーン３０４の構成に応じて、バックボーン入力特徴３０２が高密度バックボーン特徴３０６に変換され得るように、様々な方法で構成され得る。いくつかの例では、高密度バックボーン特徴３０６は、マルチチャネル画像データの層に関連付けられた特徴の高密度表現（または値の集合）を含み得る。いくつかの例では、特徴の高密度表現は、バックボーン入力特徴３０２に表されるピクセルに関連付けられた特徴ベクトルを含み得る。

バックボーン入力特徴３０２に表されるそれぞれのピクセルに関連付けられた特徴ベクトルを含む高密度バックボーン特徴３０６は、単一のエンティティに対応するピクセルの特徴ベクトルの全てを集約してエンティティに関連付けられた単一の特徴ベクトルを決定し得るアグリゲーション３０８コンポーネントを通過し得る。エンティティに関連付けられた特徴ベクトルはさらに処理され、環境内のエンティティごとに複数のロジット（例えば、０または負の無限大から１または無限大までの確率値を表す関数）を決定し得る。

図３Ｂは、ＭＬモデルの第１の部分を介してマルチチャネル画像データを処理し、ＭＬモデルの第２の部分を介して中間入力データを処理し、その結果を連結してデータをさらに処理するためのシステムの例示的なアーキテクチャ３２０を示す。

示されるように、マルチチャネル画像データなどのバックボーン入力特徴３０２は、ニューラルネットワークのバックボーン３０４または特徴抽出コンポーネントに入力され得る。いくつかの例では、マルチチャネル画像データは、Ｎチャネルを含み得、Ｎは、センサデータに関連付けられた特徴の数に対応する任意の整数であり得る。次いで、マルチチャネル画像データのＮチャネルは、特徴データに基づいてチャネルの２つのサブセットに分割され得る。例えば、Ｎチャネルは、第１のＡチャネル及び第２のＢチャネルに分割されてもよく、ここで、Ａは、例えば、特徴データによって表される空間特徴の数に対応する任意の整数であってもよく、Ｂは、特徴データによって表される非空間特徴の数に対応する任意の整数であってもよい。

上述したように、バックボーン３０４は、バックボーン３０４の構成に応じて、バックボーン入力特徴３０２が高密度バックボーン特徴３０６に変換され得るように、様々な方法で構成され得る。いくつかの例では、高密度バックボーン特徴３０６は、マルチチャネル画像データの第１のＡチャネルに関連付けられた特徴の高密度表現（または値の集合）を含み得る。いくつかの例では、特徴の高密度表現は、マルチチャネル画像データに表されるピクセルに関連付けられた特徴ベクトルを含み得る。

高密度バックボーン特徴３０６は、エンティティ（オブジェクト）ごとの特徴マップ３２４を決定するためにマスキング動作３２２を受け得る。いくつかの例では、単一チャネル画像を利用して、高密度バックボーン特徴にマスクし、１つまたは複数のエンティティを検出し得る。いくつかの例では、レンダラは、画像に含まれるエンティティの中心（または各エンティティのそれぞれの中心）の表示を含む単一チャネル画像を生成し得る。単一チャネル画像はまた、環境内のオブジェクトに関連付けられた占有の表示を含み得る。例えば、単一チャネル画像は、高密度バックボーン特徴３０６と整列されるか、またはそうでなければマスクされて、高密度バックボーン特徴３０６に対する占有の表示を提供し得る。高密度バックボーン特徴３０６内に占有の表示がない場合は、対応する特徴ベクトルは無視され得、高密度バックボーン特徴３０６内に占有の表示がある場合は、対応する特徴ベクトルが収集され得る。単一のエンティティに対応する収集された特徴ベクトルは、エンティティに関連付けられた単一の特徴ベクトルを決定するために集約され得、単一の特徴ベクトルは、エンティティの中心で表され得る。エンティティごとの全ての特徴ベクトルは、エンティティごとの特徴マップ３２４に含まれ得る。

いくつかの例では、スパースレンダラ３２６は、例えば、非空間特徴を表す第２のＢチャネルなどの特定の特徴に対応するセンサデータに基づいて、エンティティごとの追加の特徴３２８を表す追加の特徴データを生成するように構成され得る。エンティティごとの追加の特徴３２８は、センサデータによって表されるエンティティごとの複数の特徴を含み得る。いくつかの例では、エンティティごとの追加の特徴は、エンティティに関連付けられた特徴ベクトルとして構成され得る。

いくつかの例では、特徴ごとの連結動作が実行され得る。例えば、例えば、エンティティごとの特徴マップ３２４に含まれるエンティティの中心など、マルチチャネル画像データ内のオブジェクトの位置に対応するグラフィック参照で表される各特徴ベクトルは、エンティティごとの追加の特徴３２８と連結され得（すなわち、エンティティに関連付けられた特徴ベクトルをエンティティに関連付けられた追加の特徴ベクトルと連結する）、エンティティごとの特徴連結データ３３０を決定する。エンティティごとの特徴連結データ３３０は、例えば、エンティティごとのディープニューラルネットワーク（ＤＮＮ）などの高密度ニューラルネットワークに入力され得る。エンティティごとの特徴連結データ３３０は、エンティティ３３２ごとに密集したネットワークを通過され得、エンティティごとの特徴連結データ３３０を処理して、環境に含まれるエンティティ３１０ごとの複数のロジットを決定し得る。

図４は、本明細書で説明される技術を実装するための例示的なシステム４００のブロック図である。少なくとも１つの例では、システム４００は、車両４０２を含むことができる。図示された例示的なシステム４００において、車両４０２は、自律走行車両であるが、車両４０２は、任意の他のタイプの車両であることが可能である。

車両４０２は、米国運輸省道路交通安全局によって発行されたレベル５分類に従って動作するよう構成された自律走行車両などの無人運転車両とするこができ、これは、運転者（または乗員）が車両をいつでも制御することを期待されることなく、全行程の全ての安全上重要な機能を実行することが可能な車両を説明している。そのような例では、車両４０２は、全ての駐車機能を含む、行程の開始から完了までの全ての機能を制御するよう構成されることができるため、運転者並びに／またはステアリングホイール、アクセルペダル、及び／もしくはブレーキペダルのような車両４０２を駆動するための制御を含まなくてよい。これは単なる例であり、本明細書で説明されるシステム及び方法は、運転者によって常に手動で制御される必要がある車両から部分的または完全に自律的に制御される車両までの範囲を含む、任意の地面、空中、または水上車両へ組み込まれてもよい。

車両４０２は、１つまたは複数のコンピューティングデバイス４０４、１つまたは複数のセンサシステム４０６、１つまたは複数のエミッタ４０８、１つまたは複数の通信接続４１０（通信デバイス及び／またはモデムとも称される）、少なくとも１つの直接接続４１２（例えば、データを交換する及び／または電力を提供するために車両４０２と物理的に結合するための）、及び１つまたは複数の駆動システム４１４を含み得る。１つまたは複数のセンサシステム４０６は、環境に関連付けられたセンサデータをキャプチャするように構成され得る。

１つまたは複数のセンサシステム４０６は、飛行時間センサ、位置センサ（例えば、ＧＰＳ、コンパスなど）、慣性センサ（例えば、慣性測定装置（ＩＭＵ）、加速度計、磁力計、ジャイロスコープなど）、ライダセンサ、レーダセンサ、ソナーセンサ、赤外線センサ、カメラ（例えば、ＲＧＢ、ＩＲ、明暗度、深度など）、マイクロホンセンサ、環境センサ（例えば、温度センサ、湿度センサ、光センサ、圧力センサなど）、超音波トランスデューサ、ホイールエンコーダなどを含むことができる。１つまたは複数のセンサシステム４０６は、これら、または他のタイプのセンサのそれぞれの複数のインスタンスを含み得る。例えば、飛行時間センサは、車両４０２の角、前部、後部、側面、及び／または上部に配置される個々の飛行時間センサを含むことが可能である。別の例として、カメラセンサは、車両４０２の外部及び／または内部についての様々な位置に配置される複数のカメラを含んでよい。１つまたは複数のセンサシステム４０６は、コンピューティングデバイス４０４に入力を提供し得る。

車両４０２はまた、光及び／または音を発するエミッタ４０８を含むことができる。この例における１つまたは複数のエミッタ４０８は、内部オーディオ及び視覚エミッタを含み、車両４０２の乗員と通信する。限定ではない例として、内部エミッタは、スピーカー、照明、標識、ディスプレイスクリーン、タッチスクリーン、触覚エミッタ（例えば、振動及び／または力フィードバック）、機械的アクチュエータ（例えば、シートベルトテンショナー、シートポジショナー、ヘッドレストポジショナーなど）などを含み得る。この例における１つまたは複数のエミッタ４０８はまた、外部エミッタを含む。限定ではない例として、この例における外部エミッタは、走行の方向または車両動作の他のインジケータ（例えば、インジケータライト、サイン、光アレイなど）を信号で送るための光、及びそのうちの１つ以上が音響ビームステアリング技術を備え得る、歩行者または他の近くの車両と音声で通信するための１つ以上のオーディオエミッタ（例えば、スピーカー、スピーカーアレイ、ホーンなど）を含む。

車両４０２はまた、車両４０２と、１つ以上の他のローカルまたはリモートコンピューティングデバイス（例えば、リモート遠隔操作コンピューティングデバイス）またはリモートサービスとの間の通信を可能にする１つ以上の通信接続４１０を含むことができる。例えば、１つ以上の通信接続４１０は、車両４０２上の他のローカルコンピューティングデバイス及び／または１つ以上の駆動システム４１４との通信を容易にし得る。また、１つ以上の通信接続４１０は、車両４０２が他の近隣のコンピューティングデバイス（例えば、他の近隣の車両、交通信号など）と通信することを可能にし得る。

１つ以上の通信接続４１０は、コンピューティングデバイス４０４を別のコンピューティングデバイスまたは１つ以上の外部ネットワーク４４０（例えば、インターネット）に接続するための物理及び／または論理インターフェースを含むことができる。例えば、１つ以上の通信接続４１０は、ＩＥＥＥ８０２．１１規格によって定義された周波数を介するようなＷｉ－Ｆｉ（登録商標）ベースの通信、Ｂｌｕｅｔｏｏｔｈ（登録商標）などの短距離無線周波数、セルラー通信（例えば、２Ｇ、３Ｇ、４Ｇ、４ＧＬＴＥ、５Ｇなど）、衛星通信、専用狭域通信（ＤＳＲＣ）、またはそれぞれのコンピューティングデバイスが他のコンピューティングデバイスとインターフェースすることを可能にする任意の適切な有線または無線通信プロトコルを可能にすることができる。

少なくとも１つの例では、車両４０２は、１つまたは複数の駆動システム４１４を含むことができる。ある例において、車両４０２は、単一の駆動システム４１４を有してよい。少なくとも１つの例では、車両４０２が複数の駆動システム４１４を有する場合、個々の駆動システム４１４は、車両４０２の反対側の端部（例えば、前部及び後部など）に配置されてもよい。少なくとも１つの例では、駆動システム４１４は、駆動システム４１４及び／または車両４０２の周囲の状態を検出するための１つ以上のセンサシステム４０６を含むことができる。限定ではない例として、センサシステム４０６は、駆動システムのホイールの回転を感知するための１つまたは複数のホイールエンコーダ（例えば、ロータリーエンコーダ）、駆動システムの方向及び加速度を測定するための慣性センサ（例えば、慣性測定ユニット、加速度計、ジャイロスコープ、磁力計など）、カメラまたは他の画像センサ、運転システムの周囲のオブジェクトを音響的に検出するための超音波センサ、ライダセンサ、レーダセンサなどを含む場合がある。ホイールエンコーダなどのいくつかのセンサは、駆動システム４１４に固有のものであってよい。場合によっては、駆動システム４１４上のセンサシステム４０６は、車両４０２の対応するシステム（例えば、センサシステム４０６）と重複してよく、またはそれを補足してもよい。

駆動システム４１４は、高電圧バッテリ、車両を推進するモータ、バッテリからの直流を他の車両システムで使用する交流に変換するインバータ、ステアリングモータ及びステアリングラック（電動とすることができる）を含むステアリングシステム、油圧または電気アクチュエータを含むブレーキシステム、油圧及び／または空気圧コンポーネントを含むサスペンションシステム、トラクションの損失を軽減し制御を維持するブレーキ力分散用の安定性制御システム、ＨＶＡＣシステム、照明（例えば、車両の外周を照らすヘッドライト／テールライトなどの照明）、及び１つまたは複数の他のシステム（例えば、冷却システム、安全システム、車載充電システム、ＤＣ／ＤＣコンバータ、高電圧ジャンクション、高電圧ケーブル、充電システム、充電ポートなどの他の電気的コンポーネント）を含む多くの車両システムを含み得る。さらに、駆動システム４１４は、センサシステム４０６からデータを受信して前処理をすることができ、様々な車両システムの動作を制御する駆動システムコントローラを含んでよい。いくつかの例では、駆動システムコントローラは、１つ以上のプロセッサと、１つ以上のプロセッサと通信可能に結合されたメモリとを含むことができる。メモリは、駆動システム４１４の様々な機能を実行するための１つまたは複数のコンポーネントを格納し得る。さらに、駆動システム４１４はまた、それぞれの駆動システムによる、１つ以上の他のローカルまたはリモートコンピューティングデバイスとの通信を可能にする１つ以上の通信接続部を含む。

コンピューティングデバイス４０４は、１つまたは複数のプロセッサ４１６と、１つまたは複数のプロセッサ４１６と通信可能に結合されたメモリ４１８とを含み得る。例示される例では、コンピューティングデバイス４０４のメモリ４１８は、位置決めコンポーネント４２０、ボクセル空間コンポーネント４２４、撮像コンポーネント４２６を含む知覚コンポーネント４２２、予測コンポーネント４３２、計画コンポーネント４３４、マップコンポーネント４３６、及び１つまたは複数のシステムコントローラ４３８を格納する。例示のためにメモリ４１８に存在するように示されているが、位置決めコンポーネント４２０、知覚コンポーネント４２２、ボクセル空間コンポーネント４２４、撮像コンポーネント４２６、マスクコンポーネント４２８、特徴コンポーネント４３０、予測コンポーネント４３２、計画コンポーネント４３４、マップコンポーネント４３６、及び１つまたは複数のシステムコントローラ４３８は、追加的または代替的に、コンピューティングデバイス４０４（例えば、車両４０２の異なるコンポーネントに格納されている）にアクセス可能であり、及び／または車両４０２にアクセス可能である（例えば、リモートで格納されている）ことが企図される。

コンピューティングデバイス４０４のメモリ４１８において、位置決めコンポーネント４２０は、センサシステム４０６からデータを受信して車両４０２の位置を決定する機能を含むことができる。例えば、位置決めコンポーネント４２０は、環境の３次元マップを含み、及び／または要求／受信でき、マップ内の自律走行車両の位置を継続的に決定することができる。いくつかの例では、位置決めコンポーネント４２０は、ＳＬＡＭ（simultaneous localization and mapping）またはＣＬＡＭＳ（calibration, localization and mapping, simultaneously）を使用し、飛行時間データ、画像データ、ライダデータ、レーダデータ、ソナーデータ、ＩＭＵデータ、ＧＰＳデータ、ホイールエンコーダデータ、またはそれらの任意の組み合わせなどを受信して、自律走行車両の位置を正確に決定することができる。いくつかの例において、本明細書で説明されるように、位置決めコンポーネント４２０は、車両４０２の様々なコンポーネントにデータを提供し、軌道を生成するために自律走行車両の初期位置を決定することができる。

知覚コンポーネント４２２は、オブジェクトの検出、セグメンテーション、及び／または分類を実行するための機能を含むことができる。いくつかの例では、知覚コンポーネント４２２は、車両４０２に近接するエンティティの存在及び／またはエンティティタイプ（例えば、自動車、歩行者、自転車運転者、建物、樹木、路面、縁石、歩道、未知のものなど）としてのエンティティの分類を示す処理されたセンサデータを提供することができる。追加の及び／または代替の例示において、知覚コンポーネント４２２は、検出されたエンティティ及び／またはエンティティが位置する環境に関連付けられる１つまたは複数の特徴を示す処理されたセンサデータを提供してよい。いくつかの例では、エンティティに関連付けられた特性は、ｘ位置（グローバル位置）、ｙ位置（グローバル位置）、ｚ位置（グローバル位置）、方向、エンティティタイプ（例えば、分類など）、エンティティの速度、エンティティの範囲（サイズ）などを含むことができるが、これらに限定されない。環境に関連付けられた特性は、環境内の別のエンティティの存在、環境内の別のエンティティの状態、時刻、曜日、季節、気象条件、暗闇／光の表示などを含み得るが、これらに限定されない。

上述のように、知覚コンポーネント４２２は、知覚アルゴリズムを使用して、センサデータに基づいて環境内のオブジェクトに関連付けられた知覚ベースの境界ボックスを決定することができる。例えば、知覚コンポーネント４２２は、画像データを受信し、画像データを分類して、オブジェクトが画像データ内に表されることを判定することができる。次いで、知覚コンポーネント４２２は、検出アルゴリズムを使用して、２次元境界ボックス及び／またはオブジェクトに関連付けられた知覚ベースの３次元境界ボックスを生成することができる。知覚コンポーネント４２２はさらに、オブジェクトに関連付けられた３次元境界ボックスを生成することができる。上述したように、３次元境界ボックスは、オブジェクトに関連付けられた位置、向き、ポーズ、及び／またはサイズ（例えば、長さ、幅、高さなど）などの追加情報を提供することができる。

知覚コンポーネント４２２は、知覚コンポーネント４２２によって生成された知覚データを格納する機能を含むことができる。いくつかの例では、知覚コンポーネント４２２は、オブジェクトタイプとして分類されたオブジェクトに対応するトラックを決定することができる。例示のみを目的として、センサシステム４０６を使用する知覚コンポーネント４２２は、環境の１つまたは複数の画像をキャプチャすることができる。センサシステム４０６は、歩行者などのオブジェクトを含む環境の画像をキャプチャすることができる。歩行者は、時間Ｔにおいて第１の位置に、時間Ｔ＋ｔにおいて第２の位置にいることができる（例えば、時間Ｔの後の時間ｔの期間中の移動）。換言すれば、歩行者は、この期間中に第１の位置から第２の位置まで移動することができる。そのような移動は、例えば、オブジェクトに関連付けられた格納された知覚データとしてログに記録され得る。

いくつかの例では、格納された知覚データは、車両によってキャプチャされた融合知覚データを含むことができる。融合知覚データは、画像センサ、ライダセンサ、レーダセンサ、飛行時間センサ、ソナーセンサ、グローバルポジショニングシステムセンサ、内部センサ及び／またはこれらの任意の組み合わせなどのセンサシステム４０６からのセンサデータの融合または他の組み合わせを含むことができる。格納された知覚データは、追加的または代替的に、センサデータに表されるオブジェクト（例えば、歩行者、車両、建物、路面など）のセマンティック分類を含む分類データを含むことができる。格納された知覚データは、追加的または代替的に、環境を通して動的オブジェクトとして分類されるオブジェクトの動きに対応するトラックデータ（位置、方向、センサ特徴など）を含むことができる。トラックデータは、経時的に複数の異なるオブジェクトの複数のトラックを含むことができる。このトラックデータは、オブジェクトが止まっている（例えば、静止している）または移動している（例えば、歩行、走行など）時に、特定のタイプのオブジェクト（例えば、歩行者、動物など）の画像を識別するためにマイニングされることができる。この例では、コンピューティングデバイスは、歩行者に対応するトラックを決定する。

ボクセル空間コンポーネント４２４は、センサデータを受信し、センサデータを多解像度ボクセル空間として１つ以上のボクセル空間に関連付ける機能を含むことができ、いくつかの例では、ボクセル空間は３次元を含む。いくつかの例では、ボクセル空間コンポーネント４２４は、センサデータを統計的に蓄積し、センサが個々のボクセルに関連付けられているときにセンサを処理する機能を含み得る。他の例では、ボクセル空間コンポーネント４２４は、センサデータを生のセンサデータ（例えば、データポイントに関連付けられた個々の＜ｘ、ｙ、ｚ、範囲、時間＞値）としてボクセル空間に関連付ける機能を含み得る。

撮像コンポーネント４２６は、多解像度ボクセル空間のトップダウン表現（または任意のビューからの表現）を決定する機能を含み得る。追加的または代替的に、撮像コンポーネント４２６は、ＭＬモデルの第１の部分に入力するための多解像度マルチチャネル画像データを決定する機能を含み得る。例えば、撮像コンポーネント４２６は、図２Ｂに関して前述したように、様々なＭＬモデル２４６、２５６、及び２６６にそれぞれ入力するためにマルチチャネル入力ブロブ２４４、２５４、及び２６４をレンダリングする機能を含み得る。追加的または代替的に、撮像コンポーネントは、ＭＬモデルの様々な部分で入力のための様々な入力データをレンダリングするように構成され得る。

マスクコンポーネント４２８は、環境の画像に含まれるオブジェクトの中心（または各オブジェクトのそれぞれの中心）の表示を含む単一チャネル画像を生成する機能を含み得る。追加的に、または代替的に、マスクコンポーネント４２８は、例えば、１つまたは複数の特徴ベクトルを含むマルチチャネル画像データなどのいくつかの入力データをマスクして、入力データに対する占有の表示を提供する機能を含み得る。

特徴コンポーネント４３０は、環境を表す画像のピクセルに対応する特徴ベクトルを集約する機能を含み得る。例えば、１つまたは複数のピクセルは、オブジェクトに関連付けられ、オブジェクトに関連付けられた１つまたは複数のピクセルに対応する特徴ベクトルは、オブジェクトに関連付けられた単一の特徴ベクトルを決定するために集約され得る。追加的または代替的に、特徴コンポーネント４３０は、オブジェクトに関連付けられた特徴ベクトルを、オブジェクトごとに１つまたは複数の追加の特徴を表す追加の特徴ベクトルと連結して、ＭＬモデルの第２の部分に入力される中間入力データを決定する機能を含み得る。

予測コンポーネント４３２は、環境内の１つまたは複数のオブジェクトの可能な位置の予測確率を表す１つまたは複数の確率マップを生成することができる。例えば、予測コンポーネント４３２は、車両４０２からの閾値距離内の車両、歩行者、動物などに関する１つまたは複数の確率マップを生成することができる。いくつかの例では、予測コンポーネント４３２は、オブジェクトのトラックを測定し、観測された及び予測された挙動に基づいて、オブジェクトについての、離散化された予測確率マップ、ヒートマップ、確率分布、離散化された確率分布、及び／または軌道を生成することができる。いくつかの例では、１つまたは複数の確率マップは、環境内の１つまたは複数のオブジェクトの意図を表すことができる。

計画コンポーネント４３４は、環境を横断するために車両４０２が進む経路を決定することができる。例えば、計画コンポーネント４３４は、様々なルート及び経路並びに様々なレベルの詳細を決定することができる。いくつかの例では、計画コンポーネント４３４は、第１の位置（例えば、現在の位置）から第２の位置（例えば、ターゲット位置）へ走行するルートを決定することができる。この説明のために、ルートは２つの位置の間を走行するための一連のウェイポイントであってよい。非限定的な例として、ウェイポイントは、道路、交差点、全地球測位システム（ＧＰＳ）座標などを含む。さらに、計画コンポーネント４３４は、第１の位置から第２の位置までルートの少なくとも一部に沿って自律走行車両を誘導するための命令を生成することができる。少なくとも１つの例において、計画コンポーネント４３４は、一連のウェイポイントにおける第１のウェイポイントから一連のウェイポイントにおける第２のウェイポイントにどのように自律走行車両を誘導するかを決定し得る。いくつかの例では、命令は経路または経路の一部であることができる。いくつかの例では、複数の経路は、後退地平線技術（receding horizon technique）に従って、実質的に同時に（例えば、技術的な許容範囲内で）生成されることができる。最も高い信頼水準を有する後退地平線データにおける複数の経路のうちの単一の経路を、車両を操作するために選択し得る。

他の例では、計画コンポーネント４３４は、代替的に、または追加的に、知覚コンポーネント４２２及び／または予測コンポーネント４３２からのデータを使用して、車両４０２が環境を横断するために進む経路を決定することができる。例えば、計画コンポーネント４３４は、環境に関連付けられたオブジェクトに関する知覚コンポーネント４２２及び／または予測コンポーネント４３２からデータを受信することができる。このデータを使用して、計画コンポーネント４３４は、環境内のオブジェクトを回避するために、第１の位置（例えば、現在の位置）から第２の位置（例えば、ターゲット位置）まで移動する経路を決定することができる。少なくともいくつかの例では、そのような計画コンポーネント４３４は、そのような衝突のない経路がないと判定し、車両４０２を全ての衝突を回避する及び／またはそうでなければ損傷を軽減する安全な停止へ導く経路を提供し得る。

メモリ４１８は、環境内をナビゲートするために車両４０２によって使用され得る１つまたは複数のマップ４３６をさらに含むことができる。説明の目的のために、マップは、これらに限定されることでないが、（交差点のような）トポロジー、通り、山脈、道路、地形、及び一般的な環境などの環境についての情報を提供することが可能な２次元、３次元またはＮ次元でモデル化された任意の数のデータ構造であってよい。ある例において、マップは、共分散データ（例えば、多解像度ボクセル空間に表された）テクスチャ情報（例えば、色情報（例えば、ＲＧＢ色情報、Ｌａｂ色情報、ＨＳＶ／ＨＳＬ色情報）など）、強度情報（例えば、ＬＩＤＡＲ情報、レーダ情報など）、空間情報（例えば、メッシュ上に投影された画像データ、個々の「サーフェル」（例えば、個別の色及び／または強度に関連付けられるポリゴン））、反射性情報（例えば、鏡面性情報、再帰反射性情報、ＢＲＤＦ情報、ＢＳＳＲＤＦ情報など）を含んでよいが、これらには限定されない。ある例において、マップは、環境の３次元メッシュを含んでよい。いくつかの例において、本明細書で説明するように、マップの個々のタイルが環境の個別の部分を表すようにマップをタイル形式で格納でき、必要に応じて作業メモリにロードする場合がある。少なくとも１つの例において、１つまたは複数のマップ４３６は、少なくとも１つのマップ（例えば、画像及び／またはメッシュ）を含んでよい。いくつかの例では、車両４０２は、マップ４３６に少なくとも部分的に基づいて制御されることができる。すなわち、マップ４３６は、位置決めコンポーネント４２０、知覚コンポーネント４２２（及びサブコンポーネント）、予測コンポーネント４３２、及び／または計画コンポーネント４３４と関連して使用されて、車両４０２の位置を決定し、環境内のオブジェクトを識別し、オブジェクト及び／または車両４０２に関連付けられた予測確率を生成し、及び／または環境内をナビゲートするために経路及び／または軌道を生成することができる。

少なくとも１つの例では、コンピューティングデバイス４０４は、１つまたは複数のシステムコントローラ４３８を含むことができ、これは、車両４０２のステアリング、推進、ブレーキ、安全、エミッタ、通信及び他のシステムを制御するように構成され得る。システムコントローラ４３８は、駆動システム４１４の対応するシステム及び／または車両４０２の他のコンポーネントと通信し、及び／または制御することができ、これらは、計画コンポーネント４３４から提供される経路に従って動作するように構成され得る。

車両４０２は、ネットワーク４４０を介してコンピューティングデバイス４４２に接続することができ、１つまたは複数のプロセッサ４４４及び１つまたは複数のプロセッサ４４４と通信可能に結合されたメモリ４４６を含み得る。少なくとも１つの例では、１つまたは複数のプロセッサ４４４は、プロセッサ４１６に類似してもよく、メモリ４４６は、メモリ４１８に類似してもよい。図示の例では、コンピューティングデバイス４４２のメモリ４４６は、遠隔操作コンポーネント４４８及び／またはモデルコンポーネント４５０を格納する。少なくとも１つの例では、モデルコンポーネント４５０は、経験的テスト及び／またはシミュレーションの後、本明細書で論じられるように、知覚コンポーネント４２２によって使用されるＭＬモデルを生成し得る。例示的な目的のためにメモリ４４６に存在するように示されているが、遠隔操作コンポーネント４４８及びモデルコンポーネント４５０は、追加的に、または代替的に、コンピューティングデバイス４４２にアクセス可能であり得る（例えば、コンピューティングデバイス４４２の異なるコンポーネントに格納され、及び／またはコンピューティングデバイス４４２にアクセス可能であり得る（例えば、リモートに格納される）ことが企図される。

モデルコンポーネント４５０は、本明細書で論じられるように、マルチチャネル画像データのセグメンテーション情報、分類情報などを決定するためのモデルを生成する機能を含み得る。

コンピューティングデバイス４０４のプロセッサ４１６及びコンピューティングデバイス４４２のプロセッサ４４４は、本明細書で説明されるように、データを処理して動作を行うための命令を実行できる任意の適切なプロセッサであってよい。限定ではない例として、プロセッサ４１６及び４４４は、１つまたは複数の中央処理装置（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）、または、電子データを処理して、その電子データをレジスタ及び／またはメモリに格納され得る他の電子データへと変換する任意の他のデバイスまたはデバイスの一部を含んでよい。いくつかの例では、集積回路（例えば、ＡＳＩＣなど）、ゲートアレイ（例えば、ＦＰＧＡなど）、及び他のハードウェアデバイスはまた、それらが符号化された命令を実行するように構成される限り、プロセッサとみなされてよい。

コンピューティングデバイス４０４のメモリ４１８及びコンピューティングデバイス４４２のメモリ４４６は、非一時的コンピュータ可読媒体の例である。メモリ４１８及び４４６は、オペレーティングシステム及び１つまたは複数のソフトウェアアプリケーション、命令、プログラム、及び／またはデータを格納して、本明細書で記載される方法及び様々なシステムに起因する機能を実装することができる。様々な実装において、メモリ４１８及び４４６は、スタティックランダムアクセスメモリ（ＳＲＡＭ）、シンクロナスダイナミックＲＡＭ（ＳＤＲＡＭ）、不揮発性／フラッシュタイプメモリ、または情報を格納可能な任意の他のタイプのメモリのような適切なメモリ技術を用いて実装されてよい。本明細書で記載されるアーキテクチャ、システム、及び個々のエレメントは、多くの他の論理的、プログラム的、及び物理的なコンポーネントを含んでよく、それらのうちの添付図面に示されるものは、単に本明細書での説明に関連する例示に過ぎない。

ある例示において、本明細書で説明されるコンポーネントの一部または全ての態様は、任意のモデル、アルゴリズム、及び／または機械学習アルゴリズムを含んでよい。例えば、いくつかの例では、メモリ４１８及び４４６内のコンポーネントは、ニューラルネットワークとして実装され得る。

本明細書で記載されるように、例示的なニューラルネットワークは、入力データを一連の接続されたレイヤに渡して出力を生成するアルゴリズムである。ニューラルネットワークにおけるそれぞれのレイヤはまた、別のニューラルネットワークを含んでよく、または（畳み込みか否かには関係なく）任意の数のレイヤを含んでもよい。本開示の文脈において理解されるように、ニューラルネットワークは、機械学習を利用してよく、これは、学習したパラメータに基づいて出力が生成されるようなアルゴリズムの広範囲のクラスを指してもよい。

ニューラルネットワークのコンテキストで説明されるものの、任意のタイプの機械学習は、本開示と整合するように用いられてよい。例えば、機械学習または機械学習アルゴリズムは、回帰アルゴリズム（例えば、通常最小二乗回帰（ＯＬＳＲ）、線形回帰、ロジスティック回帰、段階的回帰、多変量適応回帰スプライン（ＭＡＲＳ）、局所的に推定される散布図の平滑化（ＬＯＥＳＳ）、インスタンスベースのアルゴリズム（例えば、リッジ回帰、最小絶対値縮小選択演算子（ＬＡＳＳＯ）、弾性ネット、最小角回帰（ＬＡＲＳ）、決定木アルゴリズム（例えば、分類回帰木（ＣＡＲＴ）、反復二分法３（ＩＤ３）、カイ二乗自動相互作用検出（ＣＨＡＩＤ）、決定切り株、条件付き決定木）、ベイジアンアルゴリズム（例えば、ナイーブベイズ、ガウスナイーブベイズ、多項式ナイーブベイズ、平均１依存性推定器（ＡＯＤＥ）、ベイジアン信頼度ネットワーク（ＢＮＮ）、ベイジアンネットワーク）、クラスタリングアルゴリズム（例えば、ｋ平均法、ｋメジアン法、期待値最大化（ＥＭ）、階層的クラスタリング）、関連規則学習アルゴリズム（例えば、パーセプトロン、誤差逆伝播法、ホップフィールドネットワーク、動径基底関数ネットワーク（ＲＢＦＮ））、深層学習アルゴリズム（例えば、深層ボルツマンマシン（ＤＢＭ）、深層信頼ネットワーク（ＤＢＮ）、畳み込みニューラルネットワーク（ＣＮＮ）、積層型オートエンコーダ）、次元削減アルゴリズム（例えば、主成分分析（ＰＣＡ）、主成分回帰（ＰＣＲ）、部分最小二乗回帰（ＰＬＳＲ）、サモンマッピング、多次元スケーリング（ＭＤＳ）、射影追跡法、線形判別分析（ＬＤＡ）、混合判別分析（ＭＤＡ）、二次判別分析（ＱＤＡ）、柔軟判別分析（ＦＤＡ））、アンサンブルアルゴリズム（例えば、ブースティング、ブートストラップ集約（バギング）、エイダブースト、階層型一般化（ブレンディング）、勾配ブースティングマシン（ＧＢＭ）、勾配ブースト回帰木（ＧＢＲＴ）、ランダムフォレスト）、ＳＶＭ（サポートベクトルマシン）、教師付き学習、教師なし学習、半教師付き学習などを含んでよいが、これらに限定されない。

アーキテクチャの追加の例は、ＲｅｓＮｅｔ５０、ＲｅｓＮｅｔ５２、ＲｅｓＮｅｔ１０１、ＶＧＧ、ＤｅｎｓｅＮｅｔ、ＰｏｉｎｔＮｅｔなどのニューラルネットワークを含む。

図１、図５及び図６は、本開示の例による例示的なプロセスを示す。これらのプロセスは、論理フロー図として図示され、それぞれの動作は、ハードウェア、ソフトウェア、またはそれらの組み合わせにおいて実装され得る一連の動作を表す。ソフトウェアのコンテキストにおいて、動作は、１つまたは複数のプロセッサによって実行された場合に、列挙した動作を実行する１つまたは複数のコンピュータ可読記憶媒体に格納されたコンピュータ実行可能命令を表す。一般に、コンピュータ実行可能命令は、具体的な機能を実行するか、または具体的な抽象データ型を実装するルーティン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。動作が説明される順序は、限定として解釈されることを意図したものではなく、任意の数の説明される動作は、プロセスを実行するために任意の順序で、及び／または並行して、除外されたり、または組み合わされてよい。

図５は、機械学習（ＭＬ）モデルの第１の部分に入力データを入力し、中間入力データをＭＬモデルの第２の部分に入力し、ＭＬモデルの第１及び第２の部分からの出力データに基づいて環境内のオブジェクトの分類確率を決定するための例示的なプロセスである。例えば、本明細書で説明されるように、プロセス５００のうちの一部または全ては、図４における１つまたは複数のコンポーネントによって実行され得る。例えば、プロセス５００の一部または全ては、ボクセル空間コンポーネント４２４、撮像コンポーネント４２６、マスクコンポーネント４２８、及び／または特徴コンポーネント４３０によって実行され得る。

動作５０２において、プロセス５００は、環境のセンサデータを受信することを含み得る。いくつかの例では、動作５０２は、環境の飛行時間データ、ライダデータ、画像データ、レーダデータなどを受信及び／またはキャプチャすることを含み得る。いくつかの例では、動作５０２は、車両が環境を横断するときに、車両（例えば、自律車両）によって実行され得る。いくつかの例では、環境はオブジェクトを含み得、センサデータは環境内のオブジェクトの表示を含み得る。

動作５０４において、プロセス５００は、環境のトップダウンビューを表すマルチチャネル画像データを決定することを含み得る。いくつかの例では、マルチチャネル画像データは、センサデータに基づき得る。いくつかの例では、マルチチャネル画像データは、マルチチャネル画像データ１１４に対応し得る。いくつかの例では、マルチチャネル画像データは、環境内のオブジェクトに対応する空間特徴に関連付けられた画像データを含み得る。

動作５０６において、プロセス５００は、オブジェクトに対応する空間特徴が画像データ内に存在するかどうかを決定することを含み得る。例えば、動作５０６は、空間特徴がマルチチャネル画像データ内に存在することを決定することを含み得る。追加的または代替的に、動作５０６は、オブジェクトが画像データ内に存在することを決定することを含み得る。別の例として、動作５０６は、空間特徴及び／またはオブジェクトが画像データ内に存在しないことを決定することを含み得る。プロセスは、その後、空間特徴及び／またはオブジェクトが画像データに存在しないという決定に基づいて、プロセスを再開するための動作５０２を含み得る。

動作５０８において、プロセス５００は、マルチチャネル画像データを機械学習（ＭＬ）モデルの第１の部分に入力することを含み得る。いくつかの例では、ＭＬモデルの第１の部分は、例えば、畳み込みニューラルネットワーク（ＣＮＮ）などのニューラルネットワークのバックボーンまたは特徴抽出コンポーネントとして構成され得る。ＭＬモデルの第１の部分は、マルチチャネル画像データを処理し、マルチチャネル画像データに対応する中間出力データを決定し得る。

動作５１０において、プロセス５００は、ＭＬモデルの第１の部分から中間出力データを受信することを含み得る。いくつかの例では、中間出力データは、マルチチャネル画像データに少なくとも部分的に基づいてもよい。

動作５１２において、プロセス５００は、オブジェクトに関連付けられる非空間特徴を表す非空間特徴データを決定することを含み得る。いくつかの例では、非空間特徴データは、センサデータに少なくとも部分的に基づいてもよい。追加的または代替的に、非空間特徴データは、オブジェクトに関連付けられた非空間特徴に関連付けられ得る。いくつかの例では、非空間特徴データは、特徴１３６に対応し得る。

動作５１４において、プロセス５００は、中間出力データ及び非空間特徴データをＭＬモデルの第２の部分に入力することを含み得る。いくつかの例では、ＭＬモデルの第２の部分は、例えば、ディープニューラルネットワーク（ＤＮＮ）などの高密度ニューラルネットワークとして構成され得る。中間出力データ及び／または空間特徴データは、オブジェクトごとに変換されるか、またはそうでなければ連結され、ＭＬモデルの第２の部分に渡され、ＭＬモデルの第２の部分は、中間出力データ及び／または非空間特徴データを処理し得、オブジェクトごとの複数のロジットを表す出力データを決定し得る。

動作５１６において、プロセス５００は、ＭＬモデルの第２の部分から中間出力データを受信することを含み得る。いくつかの例では、出力データは、中間出力データ及び／または非空間特徴データに少なくとも部分的に基づいてもよい。いくつかの例では、出力データは、環境内のオブジェクトごとに複数のロジット（例えば、０または負の無限大から１または無限大までの確率値を表す関数）を表し得る。

動作５１８において、プロセス５００は、オブジェクトの分類確率を決定することを含み得る。いくつかの例では、分類確率は、ＭＬモデルの第２の部分から受信された出力データに少なくとも部分的に基づいてもよい。いくつかの例では、分類確率は、出力データによって表されるオブジェクトごとのロジットに少なくとも部分的に基づいてもよい。いくつかの例では、分類確率は、オブジェクトタイプ分類（例えば、車両、歩行者、自転車など）、オブジェクト挙動分類（例えば、断定的、通常、回避的、攻撃的など）、オブジェクト視線分類（例えば、気を散らした歩行者、警告された歩行者など）、オブジェクト軌道分類（例えば、道路上、歩道に残っている、ジェイウォーキングなど）、車線変更分類（例えば、車線を私の車線に変更する）、及び／または緊急車両分類のうちの少なくとも１つを示し得る。

図６は、第１の入力データを第１のＭＬモデルに入力し、第２の入力データを第２のＭＬモデルに入力し、第１のＭＬモデルからオブジェクトに関連付けられた第１の分類を受信し、第２のＭＬモデルからオブジェクトに関連付けられた第２の分類を受信し、第１の分類または第２の分類に基づいて自律車両を制御するための例示的なプロセス６００である。例えば、本明細書で説明されるように、プロセス６００のうちの一部または全ては、図４における１つまたは複数のコンポーネントによって実行され得る。例えば、プロセス６００の一部または全ては、ボクセル空間コンポーネント４２４、撮像コンポーネント４２６、マスクコンポーネント４２８、及び／または特徴コンポーネント４３０によって実行され得る。

動作６０２において、プロセス６００は、環境のセンサデータを受信することを含み得る。いくつかの例では、動作６０２は、環境の飛行時間データ、ライダデータ、画像データ、レーダデータなどを受信及び／またはキャプチャすることを含み得る。いくつかの例では、動作６０２は、車両が環境を横断するときに、車両（例えば、自律車両）によって実行され得る。

動作６０４において、プロセス６００は、環境の第１の領域の第１のトップダウンビューを表す第１のマルチチャネル画像データを決定することを含み得る。いくつかの例では、マルチチャネル画像データは、センサデータに基づき得る。いくつかの例では、マルチチャネル画像データは、マルチチャネル画像データ１１４に対応し得る。

動作６０６において、プロセス６００は、環境の第２の領域の第２のトップダウンビューを表す第２のマルチチャネル画像データを決定することを含み得る。いくつかの例では、第２のマルチチャネル画像データは、センサデータに基づき得る。いくつかの例では、第２のマルチチャネル画像データは、マルチチャネル画像データ１１４に対応し得る。いくつかの例では、環境の第２の領域は、第１の領域よりも大きい場合がある。いくつかの例では、第２のマルチチャネル入力データは、第１のマルチチャネル入力データの解像度よりも低い解像度を有し得る。

動作６０８において、プロセス６００は、第１のマルチチャネル画像データを機械学習（ＭＬ）モデルに入力することを含み得る。いくつかの例では、第１のＭＬモデルは、図２Ｂに関して前述したように、処理パイプライン２４０、２５０または２６０のいずれか１つに対応し得る。いくつかの例では、第１のＭＬモデルは、第１の部分及び第２の部分を含み得る。いくつかの例では、第１のＭＬモデルの第１の部分は、例えば、畳み込みニューラルネットワーク（ＣＮＮ）などのニューラルネットワークのバックボーンまたは特徴抽出コンポーネントとして構成され得る。いくつかの例では、第１のＭＬモデルの第２の部分は、例えば、ディープニューラルネットワーク（ＤＮＮ）などの高密度ニューラルネットワークとして構成され得る。

動作６１０において、プロセス６００は、第２のマルチチャネル画像データを第２の機械学習（ＭＬ）モデルに入力することを含み得る。いくつかの例では、第２のＭＬモデルは、図２Ｂに関して前述したように、処理パイプライン２４０、２５０または２６０のいずれか１つに対応し得る。いくつかの例では、第２のＭＬモデルは、第１の部分及び第２の部分を含み得る。いくつかの例では、第２のＭＬモデルの第１の部分は、例えば、畳み込みニューラルネットワーク（ＣＮＮ）などのニューラルネットワークのバックボーンまたは特徴抽出コンポーネントとして構成され得る。追加的または代替的に、第２のＭＬモデルの第２の部分は、例えば、ディープニューラルネットワーク（ＤＮＮ）などの高密度ニューラルネットワークとして構成され得る。

動作６１２において、プロセス６００は、第１のＭＬモデルから第１の出力データを受信することを含み得る。いくつかの例では、第１の出力データは、環境内のオブジェクトに関連付けられた第１の分類を含み得る。いくつかの例では、第１の出力データは、環境内のオブジェクトごとに複数のロジット（例えば、０または負の無限大から１または無限大までの確率値を表す関数）に基づき得る。追加的または代替的に、第１の出力データは、図２Ｂに関して前述したように、エンティティ２４８、２５８または２６８のロジットのいずれかの少なくとも一部に対応し得る。

動作６１４において、プロセス６００は、第２のＭＬモデルから第２の出力データを受信することを含み得る。いくつかの例では、第２の出力データは、環境内のオブジェクトに関連付けられた第２の分類を含み得る。いくつかの例では、第２の出力データは、環境内のオブジェクトごとに複数のロジット（例えば、０または負の無限大から１または無限大までの確率値を表す関数）に基づき得る。追加的または代替的に、第２の出力データは、図２Ｂに関して前述したように、エンティティ２４８、２５８または２６８のロジットのいずれかの少なくとも一部に対応し得る。

動作６１６において、プロセス６００は、第１の分類に関連付けられた第１の確率または第２の分類に関連付けられた第２の確率が閾値確率を満たすかどうかを決定することを含み得る。例えば、動作６１６は、第１の確率または第２の確率のうちの少なくとも１つが閾値確率を満たし、第１の分類または第２の分類に基づいて自律車両を制御し得ることを決定することを含み得る。別の例として、動作６１６は、第１の確率及び第２の確率の両方が閾値確率を満たさないと決定することを含み得る。プロセス６００は、続いて、第１の確率及び第２の確率の両方が閾値確率を満たさないという決定に基づいて、プロセスを再開する動作６０２を含み得る。

動作６１８において、プロセス６００は、オブジェクトに少なくとも部分的に基づいて車両を制御することを含み得る。いくつかの例では、動作６１８は、車両を停止させる軌道を生成すること、またはそうでなければ、環境を安全に横断するように車両を制御することを含み得る。いくつかの例では、動作６１８は、検出されたオブジェクトに基づいて候補軌道を修正することを含み得、例えば、環境内で車両が従うべき修正された軌道を決定する。

（例示的な条項）
Ａ．１つまたは複数のプロセッサと、
前記１つまたは複数のプロセッサによって実行可能な命令を格納する１つまたは複数の非一時的コンピュータ可読媒体と
を備え、命令は、実行されると、システムに、
オブジェクトを含む環境に関連付けられるセンサからのセンサデータを受信することと、
センサデータに少なくとも部分的に基づいて、環境のトップダウンビューを表すマルチチャネル画像データを決定することであって、マルチチャネル画像データはオブジェクトに対応する空間特徴に関連付けられる画像データを含む、ことと、
マルチチャネル入力データを機械学習（ＭＬ）モデルの第１の部分に入力することと、
ＭＬモデルの第１の部分からの中間出力データを受信することであって、前記中間出力データは前記オブジェクトに関連付けられるものとして符号化された空間特徴を含む、ことと、
センサデータに少なくとも部分的に基づいて、前記オブジェクトに関連付けられる非空間特徴を表す非空間特徴データを決定することと、
中間出力データ及び非空間特徴データをＭＬモデルの第２の部分に入力することと、
ＭＬモデルの第２の部分からの出力データを受信することと、
出力データに少なくとも部分的に基づいてオブジェクトの分類確率を決定することと
を含む動作を実行させる、システム。

Ｂ．空間特徴は、環境に関連付けられるマップ情報、オブジェクトに関連付けられる境界ボックス及びオブジェクトのサイズのうちの少なくとも１つを含み、非空間特徴は、オブジェクトに関連付けられる速度、オブジェクトに関連付けられる加速度及びオブジェクトに関連付けられる照明状態のうちの少なくとも１つを含む、段落Ａのシステム。

Ｃ．前記分類確率は、オブジェクトタイプ分類、オブジェクト挙動分類、オブジェクト視線分類、オブジェクト軌道分類、車線変更分類及び緊急車両分類のうちの少なくとも１つを含む、段落ＡまたはＢに記載のシステム。

Ｄ．前記マルチチャネル画像データ内のオブジェクトの対応する位置に対応するグラフィック参照を決定することをさらに含み、前記空間特徴は、前記グラフィック参照に少なくとも部分的に基づいてオブジェクトに関連付けられるものとして符号化される、段落Ａ乃至Ｃのいずれか一項に記載のシステム。

Ｅ．ＭＬモデルの第１の部分は、畳み込みニューラルネットワーク（ＣＮＮ）を含み、ＭＬモデルの第２の部分は、ディープニューラルネットワーク（ＤＮＮ）を含む、段落Ａ乃至Ｄのいずれか一項に記載のシステム。

Ｆ．オブジェクトを含む環境に関連付けられるセンサからのセンサデータを受信することと、
センサデータに少なくとも部分的に基づいて環境を表す空間データを決定することと、
空間データを機械学習（ＭＬ）モデルの第１の部分に入力することと、
ＭＬモデルの第１の部分からの中間データを受信することであって、前記中間データは前記オブジェクトに関連付けられるものとして符号化された空間特徴に対応する空間特徴データを含む、ことと、
センサデータに少なくとも部分的に基づいて、前記オブジェクトに関連付けられる特徴に対応する二次特徴データを決定することと、
空間特徴データ及び二次特徴データをＭＬモデルの第２の部分に入力することと、
ＭＬモデルの第２の部分から受信したデータに少なくとも部分的に基づいてオブジェクトの分類確率を決定することと
を備える方法。

Ｇ．空間特徴は、環境に関連付けられるマップ情報、オブジェクトに関連付けられる境界ボックス及びオブジェクトに関連付けられるサイズのうちの少なくとも１つを含み、特徴は、オブジェクトに関連付けられる速度、オブジェクトに関連付けられる加速度及びオブジェクトに関連付けられる照明状態のうちの少なくとも１つを含む、段落Ｆに記載の方法。

Ｈ．空間データは、環境のトップダウンビューを表す、段落Ｇに記載の方法。

Ｉ．空間データにおけるオブジェクトの対応する位置を識別するマスクを決定することと、
マスク及び空間データに基づいて、オブジェクトに関連付けられる特徴ベクトルを決定することと
をさらに含む、段落Ｆ乃至Ｈのいずれか一項に記載の方法。

Ｊ．ＭＬモデルの第１の部分は、畳み込みニューラルネットワーク（ＣＮＮ）を含み、ＭＬモデルの第２の部分は、ディープニューラルネットワーク（ＤＮＮ）を含む、段落Ｆ乃至Ｉのいずれか一項に記載の方法。

Ｋ．空間データは、環境内の起点までの第１の範囲に対応する第１の空間データであり、ＭＬモデルは第１のＭＬモデルを含み、前記方法は、
センサデータに少なくとも部分的に基づいて、第２の空間データを決定することであって、第２の空間データは、前記起点までの第２の範囲に対応し、第１の範囲は第２の範囲よりも小さい、ことと、
第２の範囲に関連付けられる分類確率を決定するように構成された第２のＭＬモデルに前記第２の空間データを入力することと、
をさらに含み、
前記分類確率を決定することは、第２のＭＬモデルの出力に少なくとも部分的に基づく、段落Ｆ乃至Ｊのいずれか一項に記載の方法。

Ｌ．センサデータを、環境を表す３次元ボクセル空間に関連付けることをさらに含み、
前記空間データは、３次元ボクセル空間の縮小された次元の表現を表す、段落Ｆ乃至Ｋのいずれか一項に記載の方法。

Ｍ．環境における自律車両に関連付けられるセンサからセンサデータを受信することをさらに含む、段落Ｆ乃至Ｌのいずれか一項に記載の方法。

Ｎ．分類確率に少なくとも部分的に基づいて自律車両を制御することをさらに含む、段落Ｆ乃至Ｍのいずれか一項に記載の方法。

Ｏ．プロセッサによって実行可能な命令を格納する１つまたは複数の非一時的コンピュータ可読媒体であって、前記命令は、実行されると、前記プロセッサに、
オブジェクトを含む環境に関連付けられるセンサからのセンサデータを受信することと、
センサデータに少なくとも部分的に基づいて環境を表す空間データを決定することと、
空間データを機械学習（ＭＬ）モデルの第１の部分に入力することと、
ＭＬモデルの第１の部分からの中間データを受信することであって、中間データは、オブジェクトに関連付けられるものとして符号化された空間特徴に対応する空間特徴データを含む、ことと、
センサデータに少なくとも部分的に基づいて、オブジェクトに関連付けられる特徴に対応する二次特徴データを決定することと、
空間特徴データ及び二次特徴データをＭＬモデルの第２の部分に入力することと、
前記ＭＬモデルの第２の部分から受信したデータに少なくとも部分的に基づいて前記オブジェクトの分類確率を決定することと
を含む動作を実行させる、１つまたは複数の非一時的コンピュータ可読媒体。

Ｐ．空間特徴は、環境に関連付けられるマップ情報、オブジェクトに関連付けられる境界ボックス及びオブジェクトに関連付けられるサイズのうちの少なくとも１つを含み、特徴は、オブジェクトに関連付けられる速度、オブジェクトに関連付けられる加速度及びオブジェクトに関連付けられる照明状態のうちの少なくとも１つを含む、段落Ｏに記載の１つまたは複数の非一時的コンピュータ可読媒体。

Ｑ．空間データは、環境のトップダウンビューを表す、段落Ｐに記載の１つまたは複数の非一時的コンピュータ可読媒体。

Ｒ．空間データは、第１の空間特徴を含む第１のチャネルと、第２の空間特徴を含む第２のチャネルを含む、段落Ｑに記載の１つまたは複数の非一時的コンピュータ可読媒体。

Ｓ．前記動作は、
空間データにおけるオブジェクトの対応する位置を識別するマスクを決定することと、
マスク及び空間データに基づいて、オブジェクトに関連付けられる特徴ベクトルを決定することであって、中間データは特徴ベクトルを含む、ことと
をさらに含む、段落Ｑ乃至Ｒのいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。

Ｔ．ＭＬモデルの第１の部分は、畳み込みニューラルネットワーク（ＣＮＮ）を含み、ＭＬモデルの第２の部分は、ディープニューラルネットワーク（ＤＮＮ）を含む、段落Ｑ乃至Ｓのいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。

Ｕ．１つまたは複数のプロセッサと、
１つまたは複数のプロセッサによって実行可能な命令を格納する１つまたは複数の非一時的コンピュータ可読媒体と
を備え、前記命令は、実行されると、システムに、
自律車両を含む環境に関連付けられるセンサからセンサデータを受信することと、
センサデータに少なくとも部分的に基づいて、環境の第１の領域の第１のトップダウンビューを表す第１のマルチチャネル入力データを決定することと、
センサデータに少なくとも部分的に基づいて、環境の第２の領域の第２のトップダウンビューを表す第２のマルチチャネル入力データを決定することであって、環境の第２の領域は環境の第１の領域よりも広く、第２のマルチチャネル入力データは、第１のマルチチャネル入力データよりも低い解像度を有する、ことと、
第１のマルチチャネル入力データを第１の機械学習（ＭＬ）モデルに入力することと、
第２のマルチチャネル入力データを第２のＭＬモデルに入力することと、
前記第１のＭＬモデルからの第１の出力データを受信することであって、前記第１の出力データは、環境内のオブジェクトに関連付けられる第１の分類を含む、ことと、
前記第２のＭＬモデルからの第２の出力データを受信することであって、前記第２の出力データは、オブジェクトに関連付けられる第２の分類を含む、ことと、
第１の分類または第２の分類に少なくとも部分的に基づいて自律車両を制御することと
を含む動作を実行させるシステム。

Ｖ．環境の第１の領域は、環境の第２の領域と少なくとも部分的に重なる、段落Ｕに記載のシステム。

Ｗ．前記動作は、オブジェクトが環境の第１の領域に関連付けられることを決定することと、前記オブジェクトが第１の領域内にあると決定することに少なくとも基づいて第２の分類を廃棄することとをさらに含み、自律走行車両を制御することは第１の分類に少なくとも部分的に基づいている、段落ＵまたはＶに記載のシステム。

Ｘ．第１のマルチチャネル入力データの第１のチャネルは、オブジェクトに関連付けられる特徴を表す第１の特徴データを含み、第２のマルチチャネル入力データの第２のチャネルは、オブジェクトに関連付けられる特徴を表す第２の特徴データを含む、段落Ｕ乃至Ｗのいずれか一項に記載のシステム。

Ｙ．第１のマルチチャネル入力データは、環境における空間特徴及びオブジェクトを表す、段落Ｕ乃至Ｘのいずれか一項に記載のシステム。

Ｚ．環境に関連付けられるセンサからのセンサデータを受信することと、
センサデータに少なくとも部分的に基づいて、環境の第１の領域を表す第１の入力データを決定することと、
センサデータに少なくとも部分的に基づいて、環境の第２の領域を表す第２の入力データを決定することであって、環境の第２の領域は、第１の領域よりも広く、第２の入力データは、第１の入力データよりも低い解像度で環境を表す、ことと、
第１の入力データを第１の機械学習（ＭＬ）モデルに入力することと、
第２の入力データを第２ＭＬモデルに入力することと、
第１のＭＬモデルから受信した環境内のオブジェクトに関連付けられる第１の分類または第２のＭＬモデルから受信した環境内のオブジェクトに関連付けられる第２の分類に少なくとも部分的に基づいて自律車両を制御することと
を備える方法。

ＡＡ．環境の第１の領域は、環境の第２の領域と少なくとも部分的に重なる、段落Ｚに記載の方法。

ＡＢ．オブジェクトが環境の第１の領域と関連付けられていることを判定することと、
オブジェクトが第１の領域内にあることを判定したことに少なくとも基づいて第２の分類を廃棄することであって、自律車両を制御することは第１の分類に少なくとも部分的に基づいている、ことと
をさらに含む、段落ＺまたはＡＡに記載の方法。

ＡＣ．第１の入力データは第１のマルチチャネル入力データを含み、第１のマルチチャネル入力データの第１のチャネルはオブジェクトに関連付けられる特徴を表す第１の特徴データを含み、第２のマルチチャネル入力データの第２のチャネルはオブジェクトに関連付けられる特徴を表す第２の特徴データを含む、段落Ｚ乃至ＡＢのいずれか一項に記載の方法。

ＡＤ．第１の入力データは、環境内の空間特徴及びオブジェクトを表す、段落Ｚ乃至ＡＣのいずれか一項に記載の方法。

ＡＥ．センサデータに関連付けられる特徴データを判定することをさらに含み、特徴データはオブジェクトに関連付けられる特徴を表し、第１の入力データは前記特徴の第１のサブセットに少なくとも部分的に基づくいくつかのチャネルを含む、段落Ｚ乃至ＡＤのいずれか一項に記載の方法。

ＡＦ．第１の入力データを第１のＭＬモデルの第１の部分に入力することと、
第１のＭＬモデルの第１の部分から中間出力データを受信することと、
オブジェクトに関連付けられる特徴の第２のサブセット及び中間出力データに少なくとも部分的に基づいて中間入力データを決定することと、
中間入力データを第１のＭＬモデルの第２の部分に入力することと、
第１のＭＬモデルの第１の部分から、オブジェクトに関連付けられる第１の分類を含む第１の出力データを受信することと
をさらに含む、段落Ｚ乃至ＡＥのいずれか一項に記載の方法。

ＡＧ．前記特徴の第１のサブセットは、環境に関連付けられるマップ情報、オブジェクトに関連付けられる境界ボックス及びオブジェクトに関連付けられるサイズのうちの少なくとも１つを含み、前記特徴の第２のサブセットは、オブジェクトに関連付けられる速度、オブジェクトに関連付けられる加速度及びオブジェクトに関連付けられる照明状態のうちの少なくとも１つを含む、段落Ｚ乃至ＡＦのいずれか一項に記載の方法。

ＡＨ．センサデータを、環境を表す３次元ボクセル空間に関連付けることをさらに含み、３次元ボクセル空間は第１の領域及び第２の領域を含み、第１の入力データは、３次元ボクセル空間内の第１の領域に対応するボクセルデータを含む、段落Ｚ乃至ＡＧのいずれか一項に記載の方法。

ＡＩ．プロセッサによって実行可能な命令を格納する１つまたは複数の非一時的コンピュータ可読媒体であって、前記命令は、実行されると、前記プロセッサに、
環境に関連付けられるセンサからのセンサデータを受信することと、
センサデータに少なくとも部分的に基づいて環境の第１の領域を表す第１の入力データを決定することと、
センサデータに少なくとも部分的に基づいて環境の第２の領域を表す第２の入力データを決定することであって、環境の第２の領域は第１の領域よりも大きく、第２の入力データは第１の入力データよりも低い解像度にて環境を表す、ことと、
第１の入力データを第１の機械学習（ＭＬ）モデルに入力することと、
第２の入力データを第２のＭＬモデルに入力することと、
第１のＭＬモデルから受信した、環境におけるオブジェクトに関連付けられる第１の分類、または第２のＭＬモデルから受信した環境におけるオブジェクトに関連付けられる第２の分類に少なくとも部分的に基づいて、自律車両を制御することと
を含む動作を実行させる、１つまたは複数の非一時的コンピュータ可読媒体。

ＡＪ．環境の第１の領域は、環境の第２の領域と少なくとも部分的に重なる、段落ＡＩに記載の１つまたは複数の非一時的コンピュータ可読媒体。

ＡＫ．前記動作は、オブジェクトが環境の第１の領域に関連付けられることを決定することと、前記オブジェクトが第１の領域内にあると決定することに少なくとも基づいて第２の分類を廃棄することとをさらに含み、自律車両を制御することは第１の分類に少なくとも部分的に基づいている、段落ＡＩまたはＡＪに記載の１つまたは複数の非一時的コンピュータ可読媒体。

ＡＬ．第１の入力データは、第１のマルチチャネル入力データを含み、第１のマルチチャネル入力データの第１のチャネルは、オブジェクトに関連付けられる特徴を表す第１の特徴データを含み、第２のマルチチャネル入力データの第２のチャネルは、オブジェクトに関連付けられる特徴を表す第２の特徴データを含む、段落ＡＩ乃至ＡＫのいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。

ＡＭ．第１の入力データは、環境における空間特徴及びオブジェクトを表す、段落ＡＩ乃至ＡＬのいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。

ＡＮ．前記動作は、センサデータに関連付けられる特徴データを決定することをさらに含み、特徴データはオブジェクトに関連付けられる特徴を表し、第１の入力データは、特徴の第１のサブセットに少なくとも部分的に基づいていくつかのチャネルを含む、段落ＡＩ乃至ＡＭのいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。

上記の条項の例は、１つの特定の実施形態に関して説明されているが、本明細書のコンテキストでは、条項の例の内容は、方法、デバイス、システム、コンピュータ可読媒体、及び／または他の実施形態を介して実装することもできることを理解されたい。さらに、例Ａ乃至ＡＮのいずれも、単独で、または例Ａ乃至ＡＮの任意の他の１つまたは複数と組み合わせて実施することができる。

（結論）
本明細書で説明される技術の１つまたは複数の例が説明されてきたが、それらの例の様々な変更形態、追加形態、置換形態及び均等形態が、本明細書で説明される技術範囲内に含まれる。

例示の説明において、主張される特許の主題の特定の例を示す、本願の一部を形成する添付図面に対する参照が行われる。他の例が用いられることが可能であること、及び構造上の変更などの変更または変形が行われることが可能であることを理解されたい。このような例、変更または変形は、意図された発明の主題に対する範囲から必ずしも逸脱するものではない。本明細書におけるステップは、特定の順序で提供される一方で、ある場合において、順序が変更され得ることによって、説明されるシステム及び方法の機能を変更することなく、特定の入力が異なる時間または異なる順序で提供され得る。開示された手順は、また、異なる順序で実行され得る。さらに、本明細書における様々なコンピュータ処理は、開示される順序で実行される必要はなく、コンピュータ処理の代替の順序を用いる他の例が容易に実装されることができる。順序変更されることに加えて、コンピュータ処理はまた、同一の結果を伴う部分的なコンピュータ処理に分解されることができる。

Claims

オブジェクトを含む環境に関連付けられるセンサからセンサデータを受信することと、
前記センサデータに少なくとも部分的に基づいて、前記環境を表す空間データを決定することと、
前記空間データを機械学習（ＭＬ）モデルの第１の部分に入力することと、
ＭＬモデルの第１の部分からの中間データを受信することであって、前記中間データは前記オブジェクトに関連付けられるものとして符号化された空間特徴に対応する空間特徴データを含む、ことと、
前記センサデータに少なくとも部分的に基づいて、前記オブジェクトに関連付けられる特徴に対応する二次特徴データを決定することと、
前記空間特徴データ及び前記二次特徴データをＭＬモデルの第２の部分に入力することと、
前記ＭＬモデルの第２の部分から受信したデータに少なくとも部分的に基づいて前記オブジェクトの分類確率を決定することと
を含む方法。
前記空間特徴は、
前記環境に関連付けられるマップ情報、
前記オブジェクトに関連付けられる境界ボックス、及び
前記オブジェクトに関連付けられるサイズ
のうちの少なくとも１つを含み、
前記特徴は、
前記オブジェクトに関連付けられる速度、
前記オブジェクトに関連付けられる加速度、及び
前記オブジェクトに関連付けられる照明状態
のうちの少なくとも１つを含む、
請求項１の方法。
前記空間データは、前記環境のトップダウンビューを表す、請求項１または２の方法。
前記空間データは、マルチチャネル画像データを表し、
前記方法は、
前記マルチチャネル画像データ内の前記オブジェクトの対応する位置に対応するグラフィック参照を決定することをさらに含み、前記空間特徴は、前記グラフィック参照に少なくとも部分的に基づいて前記オブジェクトに関連付けられるものとして符号化される、請求項１乃至３のいずれか一項に記載の方法。
前記空間データにおける前記オブジェクトの対応する位置を識別するマスクを決定することと、
前記マスク及び前記空間データに基づいて、前記オブジェクトに関連付けられる特徴ベクトルを決定することであって、中間データは前記特徴ベクトルを含む、ことと
をさらに含む、請求項１乃至４のいずれか一項に記載の方法。
前記ＭＬモデルの第１の部分は、畳み込みニューラルネットワーク（ＣＮＮ）を含み、前記ＭＬモデルの第２の部分は、ディープニューラルネットワーク（ＤＮＮ）を含む、請求項１乃至５のいずれか一項に記載の方法。
前記空間データは、環境内の起点までの第１の範囲に対応する第１の空間データであり、前記ＭＬモデルは第１のＭＬモデルを含み、前記方法は、
前記センサデータに少なくとも部分的に基づいて、第２の空間データを決定することであって、前記第２の空間データは、前記起点までの第２の範囲に対応し、前記第１の範囲は前記第２の範囲よりも小さい、ことと、
前記第２の範囲に関連付けられる分類確率を決定するように構成された第２のＭＬモデルに前記第２の空間データを入力することと、
をさらに含み、
前記分類確率を決定することは、前記第２のＭＬモデルの出力に少なくとも部分的に基づく、請求項１乃至６のいずれか一項に記載の方法。
前記センサデータを、前記環境を表す３次元ボクセル空間に関連付けることをさらに含み、
前記空間データは、前記３次元ボクセル空間の縮小された次元の表現を表す、請求項１乃至７のいずれか一項に記載の方法。
環境内の自律車両に関連付けられるセンサから前記センサデータを受信すること、及び
前記分類確率に少なくとも部分的に基づいて自律車両を制御することと
のうちの少なくとも１つをさらに含む、請求項１乃至８のいずれか一項に記載の方法。
前記分類確率は、
オブジェクトタイプ分類、
オブジェクト挙動分類、
オブジェクト視線分類、
オブジェクト軌道分類、
車線変更分類、及び
緊急車両分類
のうちの少なくとも１つを含む、請求項１乃至９のいずれか一項に記載の方法。
１つまたは複数のプロセッサによって実行されると、請求項１乃至１０のいずれか一項に記載の方法を１つまたは複数のコンピューティングデバイスに実行させる命令を格納する１つまたは複数の非一時的コンピュータ可読媒体。
１つまたは複数のプロセッサと、
前記１つまたは複数のプロセッサによって実行可能な命令を格納する１つまたは複数の非一時的コンピュータ可読媒体と
を備え、前記命令は、実行されると、前記１つまたは複数のプロセッサに、
オブジェクトを含む環境に関連付けられるセンサからセンサデータを受信することと、
前記センサデータに少なくとも部分的に基づいて、前記環境を表す空間データを決定することと、
前記空間データを機械学習（ＭＬ）モデルの第１の部分に入力することと、
ＭＬモデルの第１の部分からの中間データを受信することであって、前記中間データは前記オブジェクトに関連付けられるものとして符号化された空間特徴に対応する空間特徴データを含む、ことと、
前記センサデータに少なくとも部分的に基づいて、前記オブジェクトに関連付けられる特徴に対応する二次特徴データを決定することと、
前記空間特徴データ及び前記二次特徴データをＭＬモデルの第２の部分に入力することと、
前記ＭＬモデルの第２の部分から受信したデータに少なくとも部分的に基づいて前記オブジェクトの分類確率を決定することと
を含む動作を実行させるシステム。
前記空間特徴は、
前記環境に関連付けられるマップ情報、
前記オブジェクトに関連付けられる境界ボックス、及び
前記オブジェクトに関連付けられるサイズ
のうちの少なくとも１つを含み、
前記特徴は、
前記オブジェクトに関連付けられる速度、
前記オブジェクトに関連付けられる加速度、及び
前記オブジェクトに関連付けられる照明状態
のうちの少なくとも１つを含む、
請求項１２のシステム。
前記空間データは、前記環境のトップダウンビューを表し、
第１の空間特徴を含む第１のチャネル、及び第２の空間特徴を含む第２のチャネルを含む、請求項１２または１３のシステム。
前記動作は、
前記空間データにおける前記オブジェクトの対応する位置を識別するマスクを決定することと、
前記マスク及び前記空間データに基づいて、前記オブジェクトに関連付けられる特徴ベクトルを決定することであって、前記中間データは前記特徴ベクトルを含む、ことと
をさらに含む、請求項１２乃至１４のいずれか一項に記載のシステム。