JP2024506433A - 機械学習モデルのための中間入力 - Google Patents

機械学習モデルのための中間入力 Download PDF

Info

Publication number
JP2024506433A
JP2024506433A JP2023518719A JP2023518719A JP2024506433A JP 2024506433 A JP2024506433 A JP 2024506433A JP 2023518719 A JP2023518719 A JP 2023518719A JP 2023518719 A JP2023518719 A JP 2023518719A JP 2024506433 A JP2024506433 A JP 2024506433A
Authority
JP
Japan
Prior art keywords
data
environment
spatial
model
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023518719A
Other languages
English (en)
Inventor
パリーク サミール
Original Assignee
ズークス インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US17/137,873 external-priority patent/US11829449B2/en
Priority claimed from US17/137,947 external-priority patent/US11847831B2/en
Application filed by ズークス インコーポレイテッド filed Critical ズークス インコーポレイテッド
Publication of JP2024506433A publication Critical patent/JP2024506433A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Traffic Control Systems (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

環境内のオブジェクトの分類確率を決定する技術が本明細書で論じられる。技術には、マルチチャネルデータを使用して、トップダウンの視点などの視点から環境に関連付けられるセンサデータを分析することが含まれ得る。この視点から、技術は、マルチチャネル入力データ及び追加の特徴データのチャネルを決定することができる。空間特徴に対応するチャネルはマルチチャネル入力データに含まれ、非空間特徴に対応するデータは追加特徴データに含まれる。マルチチャネル入力データは、機械学習(ML)モデルの第1の部分に入力することができ、追加特徴データは、MLモデルの第1の部分からの中間出力データと連結されて、後続処理と分類確率の決定のためにMLモデルの第2の部分に入力することができる。また、技術は、環境を表す多解像度ボクセル空間上で実行され得る。

Description

関連出願に対する相互参照
本特許出願は、2020年12月30日に出願された米国実用特許出願第17/137,873号及び2020年12月30日に出願された米国実用特許出願第17/137,947号の優先権を主張する。出願番号17/137,873及び17/137,947は、参照により本明細書に組み込まれる。
自律車両は、センサを使用して、環境内のオブジェクトを表すデータをキャプチャし得る。技術は、そのようなオブジェクトの分類を決定するために使用することができる。現在の技術は、多くの場合、大量の入力データを処理することを伴い、これはリソース制約のある環境で課題を提示し得る。
詳細な説明は、添付図面を参照して説明される。図面において、参照番号の左端の数字は、その参照番号が最初に出現する図面を識別する。異なる図面における同一の参照番号の使用は、類似または同一の構成要素または特徴を示す。
図1は、環境のセンサデータを受信し、入力データを機械学習(ML)モデルの第1の部分に入力し、中間入力データをMLモデルの第2の部分に入力し、MLモデルの第1及び第2の部分からの出力データに基づいて環境内のオブジェクトの分類確率を決定する例示的なプロセスのフロー図である。 図2Aは、多解像度(multi-resolution)ボクセル空間及びボクセル空間に関連付けられたマルチチャネル画像データの例を示す。 図2Bは、異なる解像度でレンダリングされ得る環境の様々な範囲を処理するための例示的な処理パイプラインを示す。 図3Aは、MLモデルを用いてマルチチャネル画像データを処理するためのシステムの例示的なアーキテクチャを示す。 図3Bは、MLモデルの第1の部分を介してマルチチャネル画像データを処理し、MLモデルの第2の部分を介して中間入力データを処理し、その結果を連結してデータをさらに処理するためのシステムの例示的なアーキテクチャを示す。 図4は、本明細書で説明される技術を実装するための例示的なシステムのブロック図である。 図5は、機械学習(ML)モデルの第1の部分に入力データを入力し、中間入力データをMLモデルの第2の部分に入力し、MLモデルの第1及び第2の部分からの出力データに基づいて環境内のオブジェクトの分類確率を決定する例示的なプロセスである。 図6は、第1の入力データを第1のMLモデルに入力し、第2の入力データを第2のMLモデルに入力し、第1のMLモデルからオブジェクトに関連付けられた第1の分類を受信し、第2のMLモデルからオブジェクトに関連付けられた第2の分類を受信し、第1の分類または第2の分類に基づいて自律車両を制御する例示的なプロセスである。
センサデータを処理して環境内のオブジェクトに関連付けられた分類を決定する技術が本明細書で説明される。例えば、技術は、センサデータに基づいて、環境を表す環境データを生成することを含み得る。例えば、そのような環境データは、環境のトップダウンビューを表し得るマルチチャネル画像データとして表すことができる。センサデータは、いくつかの例では、1つまたは複数のオブジェクト(例えば、歩行者、車両、自転車など)が存在し得る環境に関連付けられたデータを含み得る。センサデータ(またはセンサデータに基づくデータ)は、オブジェクトに関連付けられた空間属性(例えば、マップ情報、占有層など)及び/またはオブジェクトに関連付けられた非空間属性(例えば、速度、加速度、車両ライトなど)を表す特徴データを含み得る。本明細書に記載の技術は、センサデータを受信すること、センサデータ(またはセンサデータに基づくデータ)を「トップダウンビュー」からマルチチャネル画像データとして表示すること、入力データに表されるオブジェクトに関連付けられた特徴データを決定すること、入力データを機械学習(ML)モデルの第1の部分に入力すること、MLモデルの第1の部分から受信した中間出力データを特徴データと連結することに基づいて中間入力データを決定すること、中間入力データをMLモデルの第2の部分に入力すること、及びMLモデルの第2の部分から受信した出力データに基づいてオブジェクトに関連付けられた分類確率を決定することを含み得るが、これらに限定されない。
追加的または代替的に、例えば、パイプラインの第1の部分で画像データの層(layer)の第1のサブセットを入力し、パイプラインの第2の部分で画像データの層の第2のサブセットを入力することによって、機械学習処理パイプラインでマルチチャネル画像データを処理するためのプロセスなど、本明細書に記載の技術は、マルチチャネル画像データとして環境のレンダリングの数に対応して、並列に数回実行され得る。
例えば、環境の第1の部分は、第1の範囲(例えば、50m×50m)に関連付けられた第1のマルチチャネル画像データ(例えば、トップダウンのマルチチャネル画像データ)としてレンダリングされ得る。環境の第2の部分(例えば、100m×100mの領域)は、第2の範囲に関連付けられた第2のマルチチャネル画像データとしてレンダリングされ得る。環境の第3の部分(例えば、200m×200m)は、第3のマルチチャネル画像としてレンダリングされ得る。環境の任意の数の領域は、マルチチャネル画像データとして表すことができる。いくつかの例では、マルチチャネル画像データは、環境の少なくとも部分的に重複する部分を表すことができる。いくつかの例では、異なるマルチチャネル画像データは、共通点を中心にすることができる。いくつかの例では、入力データの各々は、同じ「解像度(resolution)」に関連付けることができる。
入力データは、異なる機械学習モデルに並行して入力され、「ピクセル」または入力データによって表されるオブジェクトの分類情報を決定することができる。環境の重複部分に関連付けられた出力を集約して、複数の入力データに表されるオブジェクトの分類を決定することができる。分類確率は、他の構成要素に渡されてもよく、推論の生成、車両の軌道の決定などに利用されてもよい。
マルチチャネル画像データによって表される環境の異なる範囲のそれぞれについての処理パイプラインのこの分離は、単一のパイプラインで全ての異なる範囲を処理する際に生じ得る処理制約を回避する。いくつかの例では、画像データによって表される範囲を拡大し、同じ解像度を使用すると、範囲の増加に比例して処理及び空間要件が増加する。例えば、第1の解像度(例えば、ピクセルあたり約10cm)で第1の範囲(例えば、50m×50m)に関連付けられた第1のマルチチャネル画像データは、範囲が増加している間に実質的に同様の数のピクセルが処理されているため、第2の解像度(例えば、ピクセルあたり約40cm)で第2の範囲(例えば、100m×100m)に関連付けられた第2のマルチチャネル画像データと実質的に類似した速度でレンダリングされ、処理され得る。より大きな第2の範囲は、より短い第1の範囲よりも粗い解像度を有するが、第1の範囲は、処理のためにより細かい解像度ピクセルを必要とする車両の近くのオブジェクトを識別するために許容可能な解像度を提供し得、より正確な分類結果をもたらす。加えて、並列で実行されるように別個の処理パイプラインを構成し、次いで結果として生じるデータを集約することは、レンダリング及び/または処理時間をさらに改善し得る。
上述のように、センサデータは、環境の様々な部分に関連付けられたマルチチャネル画像データとして表され得る。特徴データは、環境の領域について決定され得る。例えば、特徴データは、複数の空間特徴及び非空間特徴を含み得る。いくつかの例では、空間特徴は、環境のマップ情報(例えば、車線標識、横断歩道、信号機の位置、建物の位置など)、環境内のオブジェクトの境界ボックス、環境内のオブジェクトのサイズなどを含み得るが、これらに限定されない。追加的または代替的に、非空間特徴は、環境内のオブジェクトの速度、環境内のオブジェクトの加速度、環境内のオブジェクトのライトに関連付けられた照明状態、オブジェクトの動作クラス(例えば、攻撃的、通常など)などを含み得るが、これらに限定されない。いくつかの例では、環境に関連付けられた1つまたは複数の特徴は、マルチチャネル画像データ(例えば、マルチチャネル入力画像)の層として符号化されるか、またはそうでなければ格納され得る。したがって、データは、機械学習モデルへの入力のために効率的に表現され得る。
例えば、機械学習モデルは、トップダウンマルチチャネル入力画像の形式のデータを受け入れ得る。特に、モデルは、環境のX及びY離散化の数に等しいサイズの画像の形式のデータを受け入れ、画像は、環境の異なる空間特徴を表す多数のチャネルを有する。
いくつかの例では、マルチチャネル入力データは、画像データの1つまたは複数の層を含み得る。例えば、マルチチャネル画像データは、第1の特徴データに関連付けられた第1の2次元層(例えば、第1のチャネル)と、第2の特徴データに関連付けられた第2の2次元層(例えば、第2のチャネル)とを含むことができる。追加的または代替的に、多次元画像データは、単一の特徴を表す特徴データに関連付けられた第1のチャネル及び第2のチャネルなどの2次元層のグループを含むことができる。
いくつかの例では、多次元画像データは、セマンティック情報の複数のクラスに関連付けられた層を含むことができるが、いくつかの例では、特定の分類に関連付けられたデータは、マルチチャネル画像データから省略することができる。
いくつかの例では、様々なセンサデータがマルチチャネル画像データに関連付けられ得る。例えば、いくつかの例では、マルチチャネル画像データは、ライダデータ、レーダデータ、飛行時間データ、または任意の他の深度データを表し得る。
いくつかの例では、本明細書で論じられる技術は、自律車両などの車両のコンテキストで実装され得る。自律車両は、車両が環境を横断するときにセンサデータをキャプチャし、マルチチャネル画像データを決定し得る。
上述のように、技術は、環境に関連付けられたデータ、単一解像度マルチチャネル画像データ、及び/または多解像度マルチチャネル画像データに基づいて動作(operation)を実行することを含み得る。マルチチャネル画像データによって表されるセンサデータの第1の部分、及びセンサデータの第2の部分から決定される特徴データ(部分は少なくとも部分的に重複し得る)を用いて、動作は、マルチチャネル画像データをデータを処理し、中間出力データを受信するために、マルチチャネル画像データをMLモデルの第1の部分に入力することを含み得る。いくつかの例では、マルチチャネル画像データは、環境のトップダウンビューを表し得る。追加的または代替的に、マルチチャネル画像データは、環境内の空間特徴及び/またはオブジェクトを表し得る。いくつかの例では、中間出力データは、マルチチャネル画像データから抽出されたセンサデータに関連付けられた高密度特徴(dense feature)を表し得る。追加的または代替的に、動作は、中間出力データ及び特徴データに基づいて中間入力データを決定し、中間入力データをMLモデルの第2の部分に入力して、中間入力データを処理し、出力データを受信することを含み得る。いくつかの例では、出力データは、マルチチャネル画像データによって表される環境内のオブジェクトごとに複数のロジット(logit)(例えば、0または負の無限大から1または無限大までの確率値を表す関数)を表し得る。追加的または代替的に、動作は、出力データに基づいてオブジェクトの1つまたは複数の分類確率を決定することをさらに含み得る。
本明細書で論じられる入力データ及び出力データのいずれかは、例えば、テンソル(例えば、数値、スカラー、配列、ベクトル、2次元配列、行列など)などの特徴データを記憶することができる任意のデータ構造によって表され得ることに留意されたい。
いくつかの例では、第1のレンダラは、マルチチャネル入力データを生成するように構成され得、マルチチャネル入力データは、Nチャネルを含むマルチチャネル画像データとして構成され得、Nは、センサデータに関連付けられたいくつかの特徴に対応する任意の整数であり得る。次いで、マルチチャネル画像データのNチャネルは、特徴データに基づいてチャネルの2つのサブセットに分割され得る。例えば、Nチャネルは、第1のAチャネル及び第2のBチャネルに分割されてもよく、ここで、Aは、例えば、特徴データによって表される空間特徴などのいくつかの一次特徴(primary feature)に対応する任意の整数であってもよく、Bは、環境内のエンティティごとに、例えば、特徴データによって表される非空間特徴などのいくつかの二次特徴(secondary feature)に対応する任意の整数であってもよい。次いで、マルチチャネル画像データのNチャネルは、MLモデルの異なる点において、及びMLモデルの異なる部分によってシステムによって処理され得る。例えば、第1のAチャネルを含む入力データは、MLモデルの第1の部分に入力されてもよく、第1のAチャネルを表すデータは、環境内のオブジェクト(またはエンティティ)に対応するピクセルに関連付けられた全ての特徴が集約されて、所与のオブジェクトに関する全ての特徴を表すように変換されてもよい。これらのAチャネルは、オブジェクトごとの特徴として表されると、次いで、処理パイプラインの後半のエンティティごとに特徴データによって表される非空間特徴を含むBチャネルと組み合わされ得る。
Nチャネル入力画像データのAチャネルとBチャネルとの間のこの分離は、実行のためのより低い電力コスト要件の結果として、最初のAチャネルのみが、より小さなフットプリントで、パイプラインの高密度バックボーン部分に入力されるため、ML分類パイプラインのより速い実行をもたらす。加えて、密集したニューラルネットワークを用いてマルチチャネル入力データに含まれる全てのものを空間的に処理すると、チャネル数に対応する重みの比例した増加がもたらされるため、密集したネットワークに入力されるチャネルの数をNチャネルから第1のAチャネル(AはNのサブセットである)に減らすことは、チャネル数の減少に比例して、推論時間の大幅な短縮をもたらし得る。
いくつかの例では、MLモデルの第1の部分は、例えば、畳み込みニューラルネットワーク(CNN)などのニューラルネットワークのバックボーンまたは特徴抽出コンポーネントとして構成され得る。例示的なバックボーンとしては、限定するものではないが、ResNet101、ResNet52などが挙げられ得る。MLモデルの第1の部分は、第1のAチャネルを含むマルチチャネル画像データを処理し、マルチチャネル画像データに対応する中間出力データを決定し得る。例えば、中間出力データは、第1のAチャネルに関連付けられた特徴の高密度表現(または値の集合)を含み得る。いくつかの例では、特徴の高密度表現は、マルチチャネル画像データに表されるピクセルに関連付けられた特徴ベクトルを含み得る。
いくつかの例では、スパースレンダラとして構成された第2のレンダラは、例えば、非空間特徴を表す第2のBチャネルなどの特定の特徴に対応するセンサデータに基づいて追加の特徴データを生成するように構成され得る。追加の特徴データは、センサデータによって表されるオブジェクトごとに複数の特徴を含み得る。いくつかの例では、追加の特徴データは、オブジェクトに関連付けられた特徴ベクトルとして構成され得る。
いくつかの例では、中間入力データは、中間出力データと追加の特徴データとをオブジェクトごとに連結することに基づいて決定され得る。例えば、単一チャネル画像を利用して、中間出力データをマスクし、1つまたは複数のオブジェクトを検出し、及び/またはマルチチャネル画像データ内の1つまたは複数のオブジェクトの中心位置などの特定の位置に対応する1つまたは複数のグラフィック参照(graphical reference)を決定し得る。いくつかの例では、第1のレンダラは、画像に含まれるオブジェクトの中心(または各オブジェクトのそれぞれの中心)の表示を含む単一チャネル画像を生成し得る。単一チャネル画像はまた、環境内のオブジェクトに関連付けられた占有の表示を含み得る。例えば、単一チャネル画像は、中間出力データに対してオブジェクトの対応する位置に対応する占有及び/またはグラフィック参照の表示を提供するために、中間出力データと整列されるか、またはそうでなければ中間出力データをマスクすることができる。中間出力データ内に占有の表示がない場合は、対応する特徴ベクトルが無視され得、中間出力データ内に占有の表示がある場合は、対応する特徴ベクトルが収集され得る。単一のオブジェクトに対応する収集された特徴ベクトルは、オブジェクトに関連付けられた単一の特徴ベクトルを決定するために集約され得、単一の特徴ベクトルは、マルチチャネル画像データ内のオブジェクトの対応する位置に対応するグラフィック参照で表され得る。さらに、グラフィック参照で表される特徴ベクトルは、中間入力データを決定するために、オブジェクトごとの追加の特徴と連結され得る(すなわち、オブジェクトに関連付けられた特徴ベクトルをオブジェクトに関連付けられた追加の特徴ベクトルと連結する)。
中間入力データは、MLモデルの第2の部分に入力され得る。いくつかの例では、MLモデルの第2の部分は、例えば、ディープニューラルネットワーク(DNN)などの高密度ニューラルネットワークとして構成され得る。中間入力データは、環境内のオブジェクトごとに、MLモデルの第2の部分を通過してもよく、これは、中間入力データを処理し、環境内のオブジェクトごとに複数のロジット(例えば、0または負の無限大から1または無限大までの確率値を表す関数)を表す出力データを決定し得る。
いくつかの例では、環境内のオブジェクトの1つまたは複数の分類確率は、出力データに基づいて決定され得る。例えば、ロジットは、オブジェクトタイプ分類(例えば、車両、歩行者、自転車など)、オブジェクト挙動分類(例えば、断定的、通常、回避的、攻撃的など)、オブジェクト視線分類(例えば、気を散らした歩行者、警告歩行者など)、オブジェクト軌道分類(例えば、道路上、歩道上に残っている、ジェイウォーキングなど)、車線変更分類(例えば、私の車線に車線を変更する)、及び/または緊急車両分類など、オブジェクトに関連付けられた複数の分類に関連付けられた複数の確率を示し得るが、これらに限定されない。これらの分類確率は単なる例であり、技術はこれらの特定の例に限定されない。
本明細書で論じられる技術は、自律車両のコンピューティングデバイスなどのコンピューティングデバイスの機能を、いくつかの方法で改善し得る。例えば、マルチ解像度マルチチャネル画像データ内の複数のレベルを使用することは、車両の近くのデータの高解像度管理及び車両から遠く離れたデータの低解像度管理を容易にする。そのようなレベルは、例えば、単一の高解像度レベルに関連付けられた入力データと比較した場合に、センサデータを格納するためのメモリの量を大幅に減少させ得る。いくつかの例では、複雑な空間データ及びセマンティックデータは、マルチチャネル画像データ内で視覚的に表現され得、データの効率的な評価及び処理を可能にする。本明細書に記載の技術はまた、トップダウン予測の遅延を減少させ得る。理解され得るように、増加した範囲でトップダウン予測の遅延を減らすことは、特に車両及び自律車両のコンテキストにおいて、安全性の結果を改善し得る。本明細書に記載の技術はまた、オブジェクトを検出及び分類する処理時間を短縮し、さらにさらなる範囲でオブジェクトを検出及び分類することによって、安全性の結果を改善し得る。理解できるように、車両及び自動運転車のコンテキストでは、オブジェクトの決定及び検出が迅速かつ正確に行われなければならない状況が発生する可能性がある。さらに、より大きな範囲でのオブジェクトの決定及び検出も迅速かつ正確に行わなければならない状況が生じ得る。それ故に、本明細書で説明される技術は、安全性の結果を改善することと同様に、コンピューティングデバイスの機能を改善することが可能である。
本明細書で説明される技術は、複数の方法で実装され得る。例示的な実装は、下記の図面を参照して以下で提供される。自律車両のコンテキストにおいて説明されるが、本明細書で説明される方法、装置、及びシステムは、多様なシステム(例えば、センサシステム、またはロボティックプラットホーム)に適用されてよく、自律車両に限定されない。一例では、そのようなシステムが様々な動作を実行することが安全であるかどうかの表示を提供し得る運転者制御車両で、同様の技術が利用され得る。別の例では、本技術は、製造アセンブリラインコンテキスト、航空測量コンテキスト、または航海コンテキストで利用することができる。さらに、本明細書で説明される技法は、実データ(例えばセンサを使用してキャプチャされた)、シミュレートされたデータ(例えばシミュレータによって生成された)、またはその2つの任意の組合せで使用し得る。
図1は、環境のセンサデータを受信し、入力データを機械学習(ML)モデルの第1の部分に入力し、中間入力データをMLモデルの第2の部分に入力し、MLモデルの第1及び第2の部分からの出力データに基づいて環境内のオブジェクトの分類確率を決定する例示的なプロセスの絵のフロー図である。
動作102において、プロセスは、車両(例えば、自律車両)の知覚システムに関連して動作するセンサによって、環境のセンサデータ及びセンサデータに関連付けられたセマンティック情報を受信することを含み得る。センサデータのコンテキストで説明されているが、動作102は、深度コンポーネントを含む任意の3次元データまたはデータを受信することを含むことができる。セマンティック情報は、例えば、1つ以上のセマンティック分類、ラベル、またはセグメンテーション情報を含むことができる。いくつかの例では、動作102は、知覚システムに関連して動作する複数のセンサから複数のセンサデータセットを受信することを含むことができる。いくつかの例では、動作102は、2つ以上のセンサからの(及び/または一定期間にわたる)データを単一のライダデータセット(「メタスピン」とも称される)に結合または融合することを含むことができる。場合によっては、動作102は、ある期間にわたってなど、処理のためにセンサデータの一部を抽出することを含むことができる。いくつかの例では、動作102は、レーダデータ(または他のセンサデータ)を受信し、レーダデータをセンサデータに関連付けて、環境のより詳細な表現(representation)を生成することを含むことができる。
上述のように、センサデータ(例えば、センサデータセット)は、セマンティック情報に関連付けることができる。センサデータを決定し、セマンティック情報と関連付けるためのそのような技術の例は、例えば、「センサデータセグメンテーション」と題され、2017年11月21日に出願された米国特許出願第15/820,245号において論じられており、これは、その全体が参照により本明細書に組み込まれる。
セマンティック情報は、分類及び/または軌道計画のために環境内の静的及び/または動的オブジェクトに関連付けられ得る。地面、静的オブジェクト、及び/または動的オブジェクトに対応する環境の一部は、そのようなセマンティック情報で識別及びラベル付けすることができる。いくつかの例では、データは、セマンティック情報に少なくとも部分的に基づいてセグメント化され得る。いくつかの例では、動的オブジェクトのリストを追跡システムに提供して、各動的オブジェクトの経時的な軌道を追跡及び/または予測することができる。いくつかの例では、静的オブジェクトのリスト及び/または地面の識別をプランナシステムに提供して、駆動可能な表面を横断し、本明細書で識別される静的オブジェクトを回避するか、またはそうでなければ考慮に入れる車両の軌道を生成することができる。
例104は、環境のセンサデータ108をキャプチャする車両106を示す。いくつかの例では、センサデータ108は、ライダデータ、レーダデータ、ソナーデータ、飛行時間データまたは他の深度データを含み得る。例えば、動作102は、画像データをキャプチャし、キャプチャされた画像データに基づいて深度データを生成することを含み得る。
動作110において、プロセスは、環境のトップダウンビューを表すマルチチャネル画像データ114(例えば、2次元入力グリッド)を決定することを含み得る。いくつかの例では、マルチチャネル画像データ114は、センサデータに基づいて決定され得る。
前述のように、いくつかの例では、動作110は、環境の様々な部分に基づいて、マルチチャネル画像データ114(例えば、2次元入力グリッド)を決定することを含み得る。マルチチャネル画像データ114の各領域または部分は、環境の領域(または他の次元)に関連付けられた2次元表現の領域として決定され得る。いくつかの例では、マルチチャネル画像データ114の各領域は、環境の領域に関連付けられた2次元表現のセルであり得る。2次元入力グリッドの各領域は、50cm×50cm領域に関連付けられ得、特徴データを含み得る。各領域は、1つ以上の隣接(例えば、ネイバー)領域に関連付けられ得る(例えば、隣接して配置され得る)。
マルチチャネル画像データ114の例は、例112に示される。例えば、例112は、第1のチャネル116及び第2のチャネル118を含む。いくつかの例では、第1のチャネル116は、境界ボックス、位置、範囲(例えば、長さ及び幅)、及び/または環境内のオブジェクト120の存在の任意の他の表示を表し得る。いくつかの例では、第2のチャネル118は、オブジェクトに関連付けられた空間特徴122(例えば、マップ情報、占有層など)を含む特徴データを表し得る。
マルチチャネル画像データは、複数の領域を含み得る。各領域は、2次元表現の領域として決定されてもよく、環境の領域に関連付けられてもよい。例えば、領域は、領域に関連付けられた2次元情報に変換されている環境に関連付けられた3次元情報に基づいて、環境の領域に関連付けられ得る。
各領域は特徴データを含み得る。例えば、限定されないが、特徴データは、(列に関連付けられたセンサデータのために)複数の空間特徴122及び非空間特徴を含むことができる。いくつかの例では、空間特徴122は、環境のマップ情報(例えば、車線標識、横断歩道、信号機の位置、建物の位置など)、環境内のオブジェクトの境界ボックス、環境内のオブジェクトのサイズなどを含み得るが、これらに限定されない。追加的または代替的に、非空間特徴は、環境内のオブジェクトの速度、環境内のオブジェクトの加速度、環境内のオブジェクトのライトに関連付けられた照明状態、オブジェクトの動作クラス(例えば、攻撃的、通常など)などを含み得るが、これらに限定されない。いくつかの例では、センサデータ及び/または3次元ボクセル空間に関連付けられた1つまたは複数の特徴は、マルチチャネル入力画像の層として符号化されるか、またはそうでなければ格納され得る。従って、データは、機械学習モデルへの入力のために効率的に表現され得る。
いくつかの例では、第1のレンダラは、マルチチャネル入力データを生成するように構成され得、マルチチャネル入力データは、Nチャネルを含むマルチチャネル画像データ114として構成され得、Nは、センサデータに関連付けられたいくつかの特徴に対応する任意の整数であり得る。マルチチャネル画像データ114のNチャネルは、特徴データに基づいてチャネルの2つのサブセットに分割され得る。例えば、Nチャネルは、第1のAチャネル及び第2のBチャネルに分割されてもよく、ここで、Aは、例えば、特徴データによって表される空間特徴の数に対応する任意の整数であってもよく、Bは、特徴データによって表される非空間特徴の数に対応する任意の整数であってもよい。マルチチャネル画像データ114のNチャネルは、MLモデルの異なる点において、及びMLモデルの異なる部分によってシステムによって処理され得る。例えば、第1のAチャネルを含む入力データは、MLモデルの第1の部分に入力され得る。
理解できるように、動作110は、本明細書で説明されるように、マルチチャネル画像(複数可)を生成または決定することを含み得る。マルチチャネル画像の生成または決定の例は、「トップダウンシーンにおける軌道予測」と題され、2018年10月4日に出願された米国特許出願第16/151,607号に関連して説明される。米国特許出願第16/151,607号は、その全体が参照によって本明細書に組み込まれている。
動作124は、マルチチャネル画像データ114(例えば、トップダウンまたは別のビュー)を、例えば、畳み込みニューラルネットワーク(CNN)などのニューラルネットワークのバックボーンまたは特徴抽出コンポーネントとして構成されたMLモデルの第1の部分126に入力することを含み得る。例示的なバックボーンとしては、限定するものではないが、ResNet101、ResNet52などが挙げられ得る。MLモデルの第1の部分126は、第1のAチャネルを含むマルチチャネル画像データを処理し、マルチチャネル画像データ114に対応する中間出力データを決定し得る。
動作128は、MLモデルの第2の部分に入力される中間入力データを決定することを含み得る。いくつかの例では、中間入力データを決定することは、環境内のオブジェクトごとに中間出力データ及び追加の特徴データを連結することに基づいてもよい。
いくつかの例では、動作128は、例えば、非空間特徴を表す第2のBチャネルなどの特定の特徴に対応するセンサデータに基づいて追加の特徴データを生成するように構成され得る、スパースレンダラなどの第2のレンダラを利用することを含み得る。
中間入力データの例を例130に示す。いくつかの例では、例130は、中間出力データ134及び追加の特徴データ136(または特徴)に基づいて決定された中間入力データ132を含み得る。
いくつかの例では、中間出力データ134は、第1のAチャネルに関連付けられた特徴の高密度表現(または値の集合)を含み得る。いくつかの例では、特徴の高密度表現は、マルチチャネル画像データ114に表されるピクセルに関連付けられた特徴ベクトルを含み得る。
いくつかの例では、追加の特徴データ136は、非空間特徴などの特定の特徴に対応するセンサデータ108に基づいてもよい。追加の特徴データ136は、センサデータ108によって表されるオブジェクトごとに複数の特徴を含み得る。いくつかの例では、追加の特徴データ136は、オブジェクト120に関連付けられた特徴ベクトルとして構成され得る。
いくつかの例では、中間入力データ132は、中間出力データ134と追加の特徴データ136とをオブジェクトごとに連結することに基づいて決定され得る。例えば、単一チャネル画像を利用して、中間出力データ134にマスクし、1つまたは複数のオブジェクトを検出し得る。いくつかの例では、第1のレンダラは、画像に含まれるオブジェクトの中心(または各オブジェクトのそれぞれの中心)の表示を含む単一チャネル画像を生成し得る。単一チャネル画像はまた、環境内のオブジェクト120に関連付けられた占有の表示を含み得る。例えば、単一チャネル画像は、中間出力データ134と整列されるか、さもなければ、中間出力データ134とマスクされて、中間出力データ134に対する占有率の表示を提供し得る。中間出力データ134内に占有の表示がない場合は、対応する特徴ベクトルが無視され得、中間出力データ134内に占有の表示がある場合は、対応する特徴ベクトルが収集され得る。単一のオブジェクトに対応する収集された特徴ベクトルは、オブジェクト120に関連付けられた単一の特徴ベクトルを決定するために集約され得、単一の特徴ベクトルは、オブジェクトの中心で表され得る。
さらに、例えば、オブジェクト120の中心などの、グラフィック参照で表される特徴ベクトルは、中間入力データ132を決定するために、オブジェクトごとの追加の特徴と連結され得る(すなわち、オブジェクトに関連付けられた特徴ベクトルをオブジェクトに関連付けられた追加の特徴ベクトルと連結する)。
動作138は、中間入力データ132を、例えば、ディープニューラルネットワーク(DNN)などの高密度ニューラルネットワークとして構成されたMLモデルの第2の部分140に入力することを含み得る。中間入力データ132は、環境内のオブジェクトごとに、MLモデルの第2の部分を通過してもよく、これは、中間入力データ132を処理し、環境内のオブジェクトごとに複数のロジット(例えば、0または負の無限大から1または無限大までの確率値を表す関数)を表す出力データを決定し得る。
動作142は、MLモデルの第2の部分140から出力データを受信することを含み得る。出力データの例を例144に示す。いくつかの例では、例144は、環境内のオブジェクトごとに複数のロジット148(例えば、0または負の無限大から1または無限大までの確率値を表す関数)を表す出力データ146を含み得る。
動作150は、オブジェクトの1つまたは複数の分類確率を決定することを含み得る。いくつかの例では、1つまたは複数の分類確率を決定することは、出力データ146によって表されるオブジェクトごとのロジット148に少なくとも部分的に基づいてもよい。
分類確率の例を例152に示す。いくつかの例では、例152は、環境内のオブジェクト120の分類確率154を含み得る。前述のように、分類確率154は、出力データ146によって表されるオブジェクトごとのロジット148に少なくとも部分的に基づいてもよい。
例えば、オブジェクトごとのロジット148は、限定されるわけではないが、オブジェクトタイプ分類(例えば、車両、歩行者、自転車など)、オブジェクト挙動分類(例えば、断定的、通常、回避的、攻撃的など)、オブジェクト視線分類(例えば、気を散らした歩行者、警告歩行者など)、オブジェクト軌道分類(例えば、道路上、歩道上に残っている、ジェイウォーキングなど)、車線変更分類(例えば、私の車線に車線を変更する)、及び/または緊急車両分類など、オブジェクト120に関連付けられた複数の分類に関連付けられた複数の確率として決定された1つまたは複数の分類確率154を示し得る。
追加的に、または代替的に、動作150において、プロセスは、分類確率154を処理することに少なくとも部分的に基づいて車両106を制御することを含み得る。いくつかの例では、動作150は、車両106によって実行され得る。いくつかの例では、動作150は、環境内で車両106をナビゲートするために、車両106の1つまたは複数のシステムのための経路、軌道、及び/または制御信号を生成することを含み得る。
図2は、多解像度ボクセル空間202及びボクセル空間に関連付けられたマルチチャネル画像データの例200を示す。いくつかの例では、多解像度ボクセル空間202は、図1に関して前述した例示的なボクセル空間に対応し得る。
多解像度ボクセル空間202は、3次元(例えば、x、y、z)で示され、第1のレベル204、第2のレベル206、及び第3のレベル208を含む。
2次元表現(例えば、第1のレベル204のx-y態様を示す)は、第1のレベル210として示される。
2次元表現(例えば、第2のレベル206のx-y態様を示す)は、第2のレベル212として示される。
2次元表現(例えば、第3のレベル208のx-y態様を示す)は、第3のレベル214として示される。
例216は、車両218に対して並置されたレベル210、212、及び214(またはレベル204、206、及び208)を示す。すなわち、ボクセルレベル210、212、及び214は、車両218に近接する環境の一部に対応することができる。
例216によって見ることができるように、多解像度ボクセル空間のいくつかの部分は、1つのレベル、2つのレベル、3つのレベル、または任意の数のレベルに関連付けることができる。例えば、ポイント220は、第1のレベル210に関連付けることができる。ポイント222は、第1のレベル210及び第2のレベル212に関連付けることができる。すなわち、ポイント222は、第1のレベル210に関連付けられた第1のボクセル及び第2のレベル212に関連付けられた第2のボクセルで表すことができ、第1のボクセル及び第2のボクセルは、少なくとも部分的に重複する。ポイント224は、第1のレベル210、第2のレベル212、及び第3のレベル214に関連付けることができる。すなわち、ポイント224は、第1のレベル210に関連付けられた第1のボクセル、第2のレベル212に関連付けられた第2のボクセル、及び第3のレベル214に関連付けられた第3のボクセルで表されることが可能であり、第1のボクセル、第2のボクセル、及び第3のボクセルは、少なくとも部分的に重複する。
追加的または代替的に、レベル210、212、及び214のそれぞれは、対応するレベルの解像度のために構成された、図1に関して上述したプロセス100に従って処理するためのMLモデルの第1の部分126への入力のために、レベル210、212、及び214のそれぞれのトップダウンビューを表すマルチチャネル画像データなどの対応するマルチチャネル画像データを決定するために利用され得る。いくつかの例では、レベル210、212、及び214にそれぞれ対応するマルチチャネル入力画像のそれぞれは、並列に、または多解像度ボクセル空間202に含まれるボクセル空間の数に対応する任意の数のレベルで処理され得、出力データは、オブジェクトの分類確率を決定するために集約され得る。例えば、最も粗い解像度レベル210のトップダウンビューを表すマルチチャネル画像データに対応するエンティティごとのロジットは、第1の及び最も遠い範囲を拡大して記憶されてもよい。さらに、中間解像度レベル212のトップダウンビューを表すマルチチャネル画像データに対応するエンティティごとのロジットは、第2の及び中間範囲を拡大して記憶されてもよく、最も粗い解像度レベル210のトップダウンビューを表すマルチチャネル画像データに対応するエンティティごとのロジットの一部を第2の及び中間範囲に上書きしてもよい。さらに、最高級解像度レベル214のトップダウンビューを表すマルチチャネル画像データに対応するエンティティごとのロジットは、第3の及び最短範囲に拡大して記憶してもよく、中間解像度レベル212のトップダウンビューを表すマルチチャネル画像データ及び/または最も粗い解像度レベル210のトップダウンビューを表すマルチチャネル画像データに対応するエンティティごとのロジットの一部を、第3の最短範囲まで上書きしてもよい。
いくつかの例では、動作は、他のボクセル及び/またはボクセルレベルとは独立して、各ボクセル内にデータを蓄積することを含むことができる。すなわち、センサデータは、ボクセル空間内で生のセンサデータ(例えば、データポイントに関連付けられた個々の値)として表されてもよく、またはデータの統計的蓄積として表されてもよい。例えば、センサデータは、処理されたデータを含む個々のボクセル、そのようなデータポイントの数、平均強度、個々のボクセルに関連付けられたセンサデータの平均x値、個々のボクセルに関連付けられたセンサデータの平均y値、個々のボクセルに関連付けられたセンサデータの平均z値、及び/またはボクセルに関連付けられたセンサデータに基づいた共分散行列を用いて、ボクセル空間に蓄積され得る。センサデータは、あるレベルのボクセルが別のレベルのボクセルと少なくとも部分的に重複する場合でも、各ボクセルについて独立して蓄積することができる。
追加的または代替的に、センサデータは、環境の様々な部分に関連付けられたマルチチャネル画像データとして表され得る。特徴データは、環境の領域について決定され得る。
前述のように、センサデータは、ボクセル空間に蓄積されてもよく、及び/または環境の様々な部分に関連付けられてもよく、個々のボクセル及び/または部分は、例えば、(列に関連付けられたセンサデータのために)複数の空間特徴228及び非空間特徴230などの特徴データ226を表す特徴データを含む。いくつかの例では、空間特徴228は、環境のマップ情報(例えば、車線標識、横断歩道、信号機の位置、建物の位置など)、環境内のオブジェクトの境界ボックス、環境内のオブジェクトのサイズなどを含み得るが、これらに限定されない。追加的または代替的に、非空間特徴230は、環境内のオブジェクトの速度、環境内のオブジェクトの加速度、環境内のオブジェクトのライトに関連付けられた照明状態、オブジェクトの動作クラス(例えば、攻撃的、通常など)などを含み得るが、これらに限定されない。いくつかの例では、センサデータ及び/または3次元ボクセル空間に関連付けられた1つまたは複数の特徴226は、マルチチャネル入力画像の層として符号化されるか、またはそうでなければ格納され得る。従って、データは、図1に関して説明されるようなMLモデルの第1の部分126などの機械学習モデルへの入力のために効率的に表現され得る。
いくつかの例では、レンダラは、Nチャネルを含むマルチチャネル入力データを生成するように構成され、Nは、センサデータに関連付けられた特徴226の数に対応する任意の整数であり得る。マルチチャネル画像データのNチャネルは、特徴データ226に基づいてチャネルの2つのサブセットに分割され得る。例えば、Nチャネルは、第1のAチャネル及び第2のBチャネルに分割されてもよく、ここで、環境内のエンティティごとに、Aは、例えば、特徴データ226によって表される空間特徴228の数に対応する任意の整数であってもよく、Bは、特徴データ226によって表される非空間特徴230の数に対応する任意の整数であってもよい。マルチチャネル画像データのNチャネルは、MLモデルの異なる点において、及びMLモデルの異なる部分によってシステムによって処理され得る。例えば、第1のAチャネルを含む入力データは、MLモデルの第1の部分に入力されてもよく、第1のAチャネルを表すデータは、環境内のオブジェクト(またはエンティティ)に対応するピクセルに関連付けられた全ての特徴が集約されて、所与のオブジェクトに関する全ての特徴226を表すように変換されてもよい。これらのAチャネルは、オブジェクトごとの特徴として表されると、処理パイプラインの後半のエンティティごとに特徴データによって表される非空間特徴130を含むBチャネルと組み合わされ得る。
Nチャネル入力画像データのAチャネルとBチャネルとの間のこの分離は、実行のためのより低い電力コスト要件の結果として、最初のAチャネルのみが、より小さなフットプリントで、パイプラインの高密度バックボーン部分に入力されるため、ML分類パイプラインのより速い実行をもたらす。加えて、高密度ニューラルネットワークを用いてマルチチャネル入力データに含まれる全てのものを空間的に処理すると、チャネル数に対応する重みの比例した増加がもたらされるため、高密度ネットワークに入力されるチャネルの数をNチャネルから第1のAチャネル(AはNのサブセットである)に減らすことは、チャネル数の減少に比例して、推論時間の大幅な短縮をもたらし得る。
図2Bは、異なる解像度でレンダリングされ得る環境の様々な範囲を処理するための例示的な処理パイプライン240、250及び260を示す。いくつかの例では、入力ブロブ244、254、及び264は、図1に関して以前に説明されたマルチチャネル画像データ114に対応し得る。いくつかの例では、処理パイプライン240、250及び260は、図1に関して前述したプロセス100に対応する技術を実装し得る。
前述のように、本明細書で説明される技術は、マルチチャネル画像データとして環境のレンダラの数に対応して、並行して複数回実行され得る。例えば、第1の範囲のブロブレンダラ242は、環境の第1の部分を表す第1のマルチチャネル入力ブロブ244を、第1の範囲(例えば、50m×50m)に関連付けられたマルチチャネル画像データ(例えば、トップダウンマルチチャネル画像データ)としてレンダリングし得る。追加的または代替的に、第2の範囲のブロブレンダラ252は、環境の第2の部分を表す第2のマルチチャネル入力ブロブ254を、第2の範囲(例えば、100m×100m)に関連付けられたマルチチャネル画像データ(例えば、トップダウンマルチチャネル画像データ)としてレンダリングし得る。追加的または代替的に、第3の範囲のブロブレンダラ262は、環境の第3の部分を表す第3のマルチチャネル入力ブロブ264を、第3の範囲(例えば、200m×200m)に関連付けられたマルチチャネル画像データ(例えば、トップダウンマルチチャネル画像データ)としてレンダリングし得る。
いくつかの例では、マルチチャネル入力ブロブ244、254、及び264は、環境の少なくとも部分的に重複する部分を表すことができる。いくつかの例では、異なるマルチチャネル入力ブロブ244、254、及び264は、共通点を中心とすることができる。入力ブロブ244、254、及び264は、様々な範囲に構成された異なる機械学習モデル246、256、及び266に並列して入力され、入力ブロブ244、254、及び264によって表される「ピクセル」またはオブジェクトの分類情報を決定することができる。環境の重複部分に関連付けられた出力を集約して、複数の入力ブロブ244、254、及び264に表されるオブジェクトの分類を決定することができる。
第1の例示的な処理パイプライン240では、第1のマルチチャネル入力ブロブ244は、第1の最短範囲に関連付けられた環境の一部を表すマルチチャネル入力ブロブ244を処理するように構成された第1の範囲のMLモデル246に入力され得る。第1の範囲のMLモデル246は、環境の第1の範囲248内のエンティティについて、複数のロジット(例えば、0または負の無限大から1または無限大までの確率値を表す関数)を表す出力データを決定し得る。
第2の例示的な処理パイプライン250では、第2のマルチチャネル入力ブロブ254は、第2の中間範囲に関連付けられた環境の一部を表すマルチチャネル入力ブロブ254を処理するように構成された第2の範囲のMLモデル256に入力され得る。第2の範囲のMLモデル256は、環境の第2の範囲258内のエンティティについて、複数のロジット(例えば、0または負の無限大から1または無限大までの確率値を表す関数)を表す出力データを決定し得る。追加的に、または代替的に、第2の範囲のMLモデル256は、第2の範囲内及び第1の範囲の外のエンティティのロジット258を表す出力データを決定し得る。
第3の例示的な処理パイプライン260では、第3のマルチチャネル入力ブロブ264は、第3の最長の範囲に関連付けられた環境の一部を表すマルチチャネル入力ブロブ264を処理するように構成された第3の範囲MLモデル266に入力され得る。第3の範囲MLモデル266は、環境の第3の範囲268内のエンティティについて、複数のロジット(例えば、0または負の無限大から1または無限大までの確率値を表す関数)を表す出力データを決定し得る。追加的に、または代替的に、第3の範囲MLモデル266は、第3の範囲内及び第2の範囲268の外のエンティティのロジットを表す出力データを決定し得る。
いくつかの例では、MLモデル246、256、及び266によってそれぞれ決定される様々な範囲248、258、及び268内のエンティティのロジットを表す出力データは、環境内のオブジェクトの分類確率を決定するために集約され得る。例えば、第3の範囲268内のエンティティのロジットは、集約のために最初に収集され得る。第2の範囲258内のエンティティのロジットは、2番目に収集されてもよく、第3の範囲268内のエンティティのロジットの一部を中心点から第2の範囲まで上書きしてもよい。第1の範囲248内のエンティティのロジットは、3番目に収集されてもよく、第3の範囲268内のエンティティごとのロジットの一部及び/または第2の範囲258内のエンティティごとのロジットの一部を、中心点から第1の範囲まで上書きしてもよい。
したがって、出力データは、第1の範囲内のエンティティのロジット248、第2の範囲内及び第1の範囲外のエンティティのロジット258、並びに第3の範囲内及び第2の範囲外のエンティティのロジット268を表し得る。いくつかの例では、異なる解像度でレンダリングされ得る環境の様々な範囲におけるオブジェクトの1つまたは複数の分類確率は、出力データに基づいて決定され得る。例えば、ロジットは、限定されるわけではないが、オブジェクトタイプ分類(例えば、車両、歩行者、自転車など)、オブジェクト挙動分類(例えば、断定的、通常、回避的、攻撃的など)、オブジェクト視線分類(例えば、気を散らした歩行者、警告歩行者など)、オブジェクト軌道分類(例えば、道路上、歩道上に残っている、ジェイウォーキングなど)、車線変更分類(例えば、私の車線に車線を変更する)、及び/または緊急車両分類など、オブジェクトに関連付けられた複数の分類に関連付けられた複数の確率を示し得る。これらの分類確率は単なる例であり、技術はこれらの特定の例に限定されない。
マルチチャネル画像データによって表される環境の異なる範囲のそれぞれについての処理パイプラインのこの分離は、単一のパイプラインで全ての異なる範囲を処理する際に生じ得る処理制約を回避する。いくつかの例では、画像データによって表される範囲を拡大し、同じ解像度を使用すると、範囲の増加に比例して処理及び空間要件が増加する。例えば、第1の解像度(例えば、ピクセルあたり約10cm)で第1の範囲(例えば、50m×50m)に関連付けられた第1のマルチチャネル画像データは、範囲が増加している間に実質的に同様の数のピクセルが処理されているため、第2の解像度(例えば、ピクセルあたり約40cm)で第2の範囲(例えば、100m×100m)に関連付けられた第2のマルチチャネル画像データと実質的に類似した速度でレンダリングされ、処理され得る。より大きな第2の範囲は、より短い第1の範囲よりも粗い解像度を有するが、第1の範囲は、処理のためにより細かい解像度ピクセルを必要とする車両の近くのオブジェクトを識別するために許容可能な解像度を提供し得、より正確な分類結果をもたらす。加えて、並列で実行されるように別個の処理パイプラインを構成し、結果として生じるデータを集約することは、レンダリング及び/または処理時間をさらに改善し得る。
図3Aは、MLモデルを用いてマルチチャネル画像データを処理するシステムの例示的なアーキテクチャ300を示す。
示されるように、マルチチャネル画像データなどのバックボーン入力特徴302は、ニューラルネットワークのバックボーン304または特徴抽出コンポーネントに入力され得る。バックボーン304は、バックボーン304の構成に応じて、バックボーン入力特徴302が高密度バックボーン特徴306に変換され得るように、様々な方法で構成され得る。いくつかの例では、高密度バックボーン特徴306は、マルチチャネル画像データの層に関連付けられた特徴の高密度表現(または値の集合)を含み得る。いくつかの例では、特徴の高密度表現は、バックボーン入力特徴302に表されるピクセルに関連付けられた特徴ベクトルを含み得る。
バックボーン入力特徴302に表されるそれぞれのピクセルに関連付けられた特徴ベクトルを含む高密度バックボーン特徴306は、単一のエンティティに対応するピクセルの特徴ベクトルの全てを集約してエンティティに関連付けられた単一の特徴ベクトルを決定し得るアグリゲーション308コンポーネントを通過し得る。エンティティに関連付けられた特徴ベクトルはさらに処理され、環境内のエンティティごとに複数のロジット(例えば、0または負の無限大から1または無限大までの確率値を表す関数)を決定し得る。
図3Bは、MLモデルの第1の部分を介してマルチチャネル画像データを処理し、MLモデルの第2の部分を介して中間入力データを処理し、その結果を連結してデータをさらに処理するためのシステムの例示的なアーキテクチャ320を示す。
示されるように、マルチチャネル画像データなどのバックボーン入力特徴302は、ニューラルネットワークのバックボーン304または特徴抽出コンポーネントに入力され得る。いくつかの例では、マルチチャネル画像データは、Nチャネルを含み得、Nは、センサデータに関連付けられた特徴の数に対応する任意の整数であり得る。次いで、マルチチャネル画像データのNチャネルは、特徴データに基づいてチャネルの2つのサブセットに分割され得る。例えば、Nチャネルは、第1のAチャネル及び第2のBチャネルに分割されてもよく、ここで、Aは、例えば、特徴データによって表される空間特徴の数に対応する任意の整数であってもよく、Bは、特徴データによって表される非空間特徴の数に対応する任意の整数であってもよい。
上述したように、バックボーン304は、バックボーン304の構成に応じて、バックボーン入力特徴302が高密度バックボーン特徴306に変換され得るように、様々な方法で構成され得る。いくつかの例では、高密度バックボーン特徴306は、マルチチャネル画像データの第1のAチャネルに関連付けられた特徴の高密度表現(または値の集合)を含み得る。いくつかの例では、特徴の高密度表現は、マルチチャネル画像データに表されるピクセルに関連付けられた特徴ベクトルを含み得る。
高密度バックボーン特徴306は、エンティティ(オブジェクト)ごとの特徴マップ324を決定するためにマスキング動作322を受け得る。いくつかの例では、単一チャネル画像を利用して、高密度バックボーン特徴にマスクし、1つまたは複数のエンティティを検出し得る。いくつかの例では、レンダラは、画像に含まれるエンティティの中心(または各エンティティのそれぞれの中心)の表示を含む単一チャネル画像を生成し得る。単一チャネル画像はまた、環境内のオブジェクトに関連付けられた占有の表示を含み得る。例えば、単一チャネル画像は、高密度バックボーン特徴306と整列されるか、またはそうでなければマスクされて、高密度バックボーン特徴306に対する占有の表示を提供し得る。高密度バックボーン特徴306内に占有の表示がない場合は、対応する特徴ベクトルは無視され得、高密度バックボーン特徴306内に占有の表示がある場合は、対応する特徴ベクトルが収集され得る。単一のエンティティに対応する収集された特徴ベクトルは、エンティティに関連付けられた単一の特徴ベクトルを決定するために集約され得、単一の特徴ベクトルは、エンティティの中心で表され得る。エンティティごとの全ての特徴ベクトルは、エンティティごとの特徴マップ324に含まれ得る。
いくつかの例では、スパースレンダラ326は、例えば、非空間特徴を表す第2のBチャネルなどの特定の特徴に対応するセンサデータに基づいて、エンティティごとの追加の特徴328を表す追加の特徴データを生成するように構成され得る。エンティティごとの追加の特徴328は、センサデータによって表されるエンティティごとの複数の特徴を含み得る。いくつかの例では、エンティティごとの追加の特徴は、エンティティに関連付けられた特徴ベクトルとして構成され得る。
いくつかの例では、特徴ごとの連結動作が実行され得る。例えば、例えば、エンティティごとの特徴マップ324に含まれるエンティティの中心など、マルチチャネル画像データ内のオブジェクトの位置に対応するグラフィック参照で表される各特徴ベクトルは、エンティティごとの追加の特徴328と連結され得(すなわち、エンティティに関連付けられた特徴ベクトルをエンティティに関連付けられた追加の特徴ベクトルと連結する)、エンティティごとの特徴連結データ330を決定する。エンティティごとの特徴連結データ330は、例えば、エンティティごとのディープニューラルネットワーク(DNN)などの高密度ニューラルネットワークに入力され得る。エンティティごとの特徴連結データ330は、エンティティ332ごとに密集したネットワークを通過され得、エンティティごとの特徴連結データ330を処理して、環境に含まれるエンティティ310ごとの複数のロジットを決定し得る。
図4は、本明細書で説明される技術を実装するための例示的なシステム400のブロック図である。少なくとも1つの例では、システム400は、車両402を含むことができる。図示された例示的なシステム400において、車両402は、自律走行車両であるが、車両402は、任意の他のタイプの車両であることが可能である。
車両402は、米国運輸省道路交通安全局によって発行されたレベル5分類に従って動作するよう構成された自律走行車両などの無人運転車両とするこができ、これは、運転者(または乗員)が車両をいつでも制御することを期待されることなく、全行程の全ての安全上重要な機能を実行することが可能な車両を説明している。そのような例では、車両402は、全ての駐車機能を含む、行程の開始から完了までの全ての機能を制御するよう構成されることができるため、運転者並びに/またはステアリングホイール、アクセルペダル、及び/もしくはブレーキペダルのような車両402を駆動するための制御を含まなくてよい。これは単なる例であり、本明細書で説明されるシステム及び方法は、運転者によって常に手動で制御される必要がある車両から部分的または完全に自律的に制御される車両までの範囲を含む、任意の地面、空中、または水上車両へ組み込まれてもよい。
車両402は、1つまたは複数のコンピューティングデバイス404、1つまたは複数のセンサシステム406、1つまたは複数のエミッタ408、1つまたは複数の通信接続410(通信デバイス及び/またはモデムとも称される)、少なくとも1つの直接接続412(例えば、データを交換する及び/または電力を提供するために車両402と物理的に結合するための)、及び1つまたは複数の駆動システム414を含み得る。1つまたは複数のセンサシステム406は、環境に関連付けられたセンサデータをキャプチャするように構成され得る。
1つまたは複数のセンサシステム406は、飛行時間センサ、位置センサ(例えば、GPS、コンパスなど)、慣性センサ(例えば、慣性測定装置(IMU)、加速度計、磁力計、ジャイロスコープなど)、ライダセンサ、レーダセンサ、ソナーセンサ、赤外線センサ、カメラ(例えば、RGB、IR、明暗度、深度など)、マイクロホンセンサ、環境センサ(例えば、温度センサ、湿度センサ、光センサ、圧力センサなど)、超音波トランスデューサ、ホイールエンコーダなどを含むことができる。1つまたは複数のセンサシステム406は、これら、または他のタイプのセンサのそれぞれの複数のインスタンスを含み得る。例えば、飛行時間センサは、車両402の角、前部、後部、側面、及び/または上部に配置される個々の飛行時間センサを含むことが可能である。別の例として、カメラセンサは、車両402の外部及び/または内部についての様々な位置に配置される複数のカメラを含んでよい。1つまたは複数のセンサシステム406は、コンピューティングデバイス404に入力を提供し得る。
車両402はまた、光及び/または音を発するエミッタ408を含むことができる。この例における1つまたは複数のエミッタ408は、内部オーディオ及び視覚エミッタを含み、車両402の乗員と通信する。限定ではない例として、内部エミッタは、スピーカー、照明、標識、ディスプレイスクリーン、タッチスクリーン、触覚エミッタ(例えば、振動及び/または力フィードバック)、機械的アクチュエータ(例えば、シートベルトテンショナー、シートポジショナー、ヘッドレストポジショナーなど)などを含み得る。この例における1つまたは複数のエミッタ408はまた、外部エミッタを含む。限定ではない例として、この例における外部エミッタは、走行の方向または車両動作の他のインジケータ(例えば、インジケータライト、サイン、光アレイなど)を信号で送るための光、及びそのうちの1つ以上が音響ビームステアリング技術を備え得る、歩行者または他の近くの車両と音声で通信するための1つ以上のオーディオエミッタ(例えば、スピーカー、スピーカーアレイ、ホーンなど)を含む。
車両402はまた、車両402と、1つ以上の他のローカルまたはリモートコンピューティングデバイス(例えば、リモート遠隔操作コンピューティングデバイス)またはリモートサービスとの間の通信を可能にする1つ以上の通信接続410を含むことができる。例えば、1つ以上の通信接続410は、車両402上の他のローカルコンピューティングデバイス及び/または1つ以上の駆動システム414との通信を容易にし得る。また、1つ以上の通信接続410は、車両402が他の近隣のコンピューティングデバイス(例えば、他の近隣の車両、交通信号など)と通信することを可能にし得る。
1つ以上の通信接続410は、コンピューティングデバイス404を別のコンピューティングデバイスまたは1つ以上の外部ネットワーク440(例えば、インターネット)に接続するための物理及び/または論理インターフェースを含むことができる。例えば、1つ以上の通信接続410は、IEEE802.11規格によって定義された周波数を介するようなWi-Fi(登録商標)ベースの通信、Bluetooth(登録商標)などの短距離無線周波数、セルラー通信(例えば、2G、3G、4G、4G LTE、5Gなど)、衛星通信、専用狭域通信(DSRC)、またはそれぞれのコンピューティングデバイスが他のコンピューティングデバイスとインターフェースすることを可能にする任意の適切な有線または無線通信プロトコルを可能にすることができる。
少なくとも1つの例では、車両402は、1つまたは複数の駆動システム414を含むことができる。ある例において、車両402は、単一の駆動システム414を有してよい。少なくとも1つの例では、車両402が複数の駆動システム414を有する場合、個々の駆動システム414は、車両402の反対側の端部(例えば、前部及び後部など)に配置されてもよい。少なくとも1つの例では、駆動システム414は、駆動システム414及び/または車両402の周囲の状態を検出するための1つ以上のセンサシステム406を含むことができる。限定ではない例として、センサシステム406は、駆動システムのホイールの回転を感知するための1つまたは複数のホイールエンコーダ(例えば、ロータリーエンコーダ)、駆動システムの方向及び加速度を測定するための慣性センサ(例えば、慣性測定ユニット、加速度計、ジャイロスコープ、磁力計など)、カメラまたは他の画像センサ、運転システムの周囲のオブジェクトを音響的に検出するための超音波センサ、ライダセンサ、レーダセンサなどを含む場合がある。ホイールエンコーダなどのいくつかのセンサは、駆動システム414に固有のものであってよい。場合によっては、駆動システム414上のセンサシステム406は、車両402の対応するシステム(例えば、センサシステム406)と重複してよく、またはそれを補足してもよい。
駆動システム414は、高電圧バッテリ、車両を推進するモータ、バッテリからの直流を他の車両システムで使用する交流に変換するインバータ、ステアリングモータ及びステアリングラック(電動とすることができる)を含むステアリングシステム、油圧または電気アクチュエータを含むブレーキシステム、油圧及び/または空気圧コンポーネントを含むサスペンションシステム、トラクションの損失を軽減し制御を維持するブレーキ力分散用の安定性制御システム、HVACシステム、照明(例えば、車両の外周を照らすヘッドライト/テールライトなどの照明)、及び1つまたは複数の他のシステム(例えば、冷却システム、安全システム、車載充電システム、DC/DCコンバータ、高電圧ジャンクション、高電圧ケーブル、充電システム、充電ポートなどの他の電気的コンポーネント)を含む多くの車両システムを含み得る。さらに、駆動システム414は、センサシステム406からデータを受信して前処理をすることができ、様々な車両システムの動作を制御する駆動システムコントローラを含んでよい。いくつかの例では、駆動システムコントローラは、1つ以上のプロセッサと、1つ以上のプロセッサと通信可能に結合されたメモリとを含むことができる。メモリは、駆動システム414の様々な機能を実行するための1つまたは複数のコンポーネントを格納し得る。さらに、駆動システム414はまた、それぞれの駆動システムによる、1つ以上の他のローカルまたはリモートコンピューティングデバイスとの通信を可能にする1つ以上の通信接続部を含む。
コンピューティングデバイス404は、1つまたは複数のプロセッサ416と、1つまたは複数のプロセッサ416と通信可能に結合されたメモリ418とを含み得る。例示される例では、コンピューティングデバイス404のメモリ418は、位置決めコンポーネント420、ボクセル空間コンポーネント424、撮像コンポーネント426を含む知覚コンポーネント422、予測コンポーネント432、計画コンポーネント434、マップコンポーネント436、及び1つまたは複数のシステムコントローラ438を格納する。例示のためにメモリ418に存在するように示されているが、位置決めコンポーネント420、知覚コンポーネント422、ボクセル空間コンポーネント424、撮像コンポーネント426、マスクコンポーネント428、特徴コンポーネント430、予測コンポーネント432、計画コンポーネント434、マップコンポーネント436、及び1つまたは複数のシステムコントローラ438は、追加的または代替的に、コンピューティングデバイス404(例えば、車両402の異なるコンポーネントに格納されている)にアクセス可能であり、及び/または車両402にアクセス可能である(例えば、リモートで格納されている)ことが企図される。
コンピューティングデバイス404のメモリ418において、位置決めコンポーネント420は、センサシステム406からデータを受信して車両402の位置を決定する機能を含むことができる。例えば、位置決めコンポーネント420は、環境の3次元マップを含み、及び/または要求/受信でき、マップ内の自律走行車両の位置を継続的に決定することができる。いくつかの例では、位置決めコンポーネント420は、SLAM(simultaneous localization and mapping)またはCLAMS(calibration, localization and mapping, simultaneously)を使用し、飛行時間データ、画像データ、ライダデータ、レーダデータ、ソナーデータ、IMUデータ、GPSデータ、ホイールエンコーダデータ、またはそれらの任意の組み合わせなどを受信して、自律走行車両の位置を正確に決定することができる。いくつかの例において、本明細書で説明されるように、位置決めコンポーネント420は、車両402の様々なコンポーネントにデータを提供し、軌道を生成するために自律走行車両の初期位置を決定することができる。
知覚コンポーネント422は、オブジェクトの検出、セグメンテーション、及び/または分類を実行するための機能を含むことができる。いくつかの例では、知覚コンポーネント422は、車両402に近接するエンティティの存在及び/またはエンティティタイプ(例えば、自動車、歩行者、自転車運転者、建物、樹木、路面、縁石、歩道、未知のものなど)としてのエンティティの分類を示す処理されたセンサデータを提供することができる。追加の及び/または代替の例示において、知覚コンポーネント422は、検出されたエンティティ及び/またはエンティティが位置する環境に関連付けられる1つまたは複数の特徴を示す処理されたセンサデータを提供してよい。いくつかの例では、エンティティに関連付けられた特性は、x位置(グローバル位置)、y位置(グローバル位置)、z位置(グローバル位置)、方向、エンティティタイプ(例えば、分類など)、エンティティの速度、エンティティの範囲(サイズ)などを含むことができるが、これらに限定されない。環境に関連付けられた特性は、環境内の別のエンティティの存在、環境内の別のエンティティの状態、時刻、曜日、季節、気象条件、暗闇/光の表示などを含み得るが、これらに限定されない。
上述のように、知覚コンポーネント422は、知覚アルゴリズムを使用して、センサデータに基づいて環境内のオブジェクトに関連付けられた知覚ベースの境界ボックスを決定することができる。例えば、知覚コンポーネント422は、画像データを受信し、画像データを分類して、オブジェクトが画像データ内に表されることを判定することができる。次いで、知覚コンポーネント422は、検出アルゴリズムを使用して、2次元境界ボックス及び/またはオブジェクトに関連付けられた知覚ベースの3次元境界ボックスを生成することができる。知覚コンポーネント422はさらに、オブジェクトに関連付けられた3次元境界ボックスを生成することができる。上述したように、3次元境界ボックスは、オブジェクトに関連付けられた位置、向き、ポーズ、及び/またはサイズ(例えば、長さ、幅、高さなど)などの追加情報を提供することができる。
知覚コンポーネント422は、知覚コンポーネント422によって生成された知覚データを格納する機能を含むことができる。いくつかの例では、知覚コンポーネント422は、オブジェクトタイプとして分類されたオブジェクトに対応するトラックを決定することができる。例示のみを目的として、センサシステム406を使用する知覚コンポーネント422は、環境の1つまたは複数の画像をキャプチャすることができる。センサシステム406は、歩行者などのオブジェクトを含む環境の画像をキャプチャすることができる。歩行者は、時間Tにおいて第1の位置に、時間T+tにおいて第2の位置にいることができる(例えば、時間Tの後の時間tの期間中の移動)。換言すれば、歩行者は、この期間中に第1の位置から第2の位置まで移動することができる。そのような移動は、例えば、オブジェクトに関連付けられた格納された知覚データとしてログに記録され得る。
いくつかの例では、格納された知覚データは、車両によってキャプチャされた融合知覚データを含むことができる。融合知覚データは、画像センサ、ライダセンサ、レーダセンサ、飛行時間センサ、ソナーセンサ、グローバルポジショニングシステムセンサ、内部センサ及び/またはこれらの任意の組み合わせなどのセンサシステム406からのセンサデータの融合または他の組み合わせを含むことができる。格納された知覚データは、追加的または代替的に、センサデータに表されるオブジェクト(例えば、歩行者、車両、建物、路面など)のセマンティック分類を含む分類データを含むことができる。格納された知覚データは、追加的または代替的に、環境を通して動的オブジェクトとして分類されるオブジェクトの動きに対応するトラックデータ(位置、方向、センサ特徴など)を含むことができる。トラックデータは、経時的に複数の異なるオブジェクトの複数のトラックを含むことができる。このトラックデータは、オブジェクトが止まっている(例えば、静止している)または移動している(例えば、歩行、走行など)時に、特定のタイプのオブジェクト(例えば、歩行者、動物など)の画像を識別するためにマイニングされることができる。この例では、コンピューティングデバイスは、歩行者に対応するトラックを決定する。
ボクセル空間コンポーネント424は、センサデータを受信し、センサデータを多解像度ボクセル空間として1つ以上のボクセル空間に関連付ける機能を含むことができ、いくつかの例では、ボクセル空間は3次元を含む。いくつかの例では、ボクセル空間コンポーネント424は、センサデータを統計的に蓄積し、センサが個々のボクセルに関連付けられているときにセンサを処理する機能を含み得る。他の例では、ボクセル空間コンポーネント424は、センサデータを生のセンサデータ(例えば、データポイントに関連付けられた個々の<x、y、z、範囲、時間>値)としてボクセル空間に関連付ける機能を含み得る。
撮像コンポーネント426は、多解像度ボクセル空間のトップダウン表現(または任意のビューからの表現)を決定する機能を含み得る。追加的または代替的に、撮像コンポーネント426は、MLモデルの第1の部分に入力するための多解像度マルチチャネル画像データを決定する機能を含み得る。例えば、撮像コンポーネント426は、図2Bに関して前述したように、様々なMLモデル246、256、及び266にそれぞれ入力するためにマルチチャネル入力ブロブ244、254、及び264をレンダリングする機能を含み得る。追加的または代替的に、撮像コンポーネントは、MLモデルの様々な部分で入力のための様々な入力データをレンダリングするように構成され得る。
マスクコンポーネント428は、環境の画像に含まれるオブジェクトの中心(または各オブジェクトのそれぞれの中心)の表示を含む単一チャネル画像を生成する機能を含み得る。追加的に、または代替的に、マスクコンポーネント428は、例えば、1つまたは複数の特徴ベクトルを含むマルチチャネル画像データなどのいくつかの入力データをマスクして、入力データに対する占有の表示を提供する機能を含み得る。
特徴コンポーネント430は、環境を表す画像のピクセルに対応する特徴ベクトルを集約する機能を含み得る。例えば、1つまたは複数のピクセルは、オブジェクトに関連付けられ、オブジェクトに関連付けられた1つまたは複数のピクセルに対応する特徴ベクトルは、オブジェクトに関連付けられた単一の特徴ベクトルを決定するために集約され得る。追加的または代替的に、特徴コンポーネント430は、オブジェクトに関連付けられた特徴ベクトルを、オブジェクトごとに1つまたは複数の追加の特徴を表す追加の特徴ベクトルと連結して、MLモデルの第2の部分に入力される中間入力データを決定する機能を含み得る。
予測コンポーネント432は、環境内の1つまたは複数のオブジェクトの可能な位置の予測確率を表す1つまたは複数の確率マップを生成することができる。例えば、予測コンポーネント432は、車両402からの閾値距離内の車両、歩行者、動物などに関する1つまたは複数の確率マップを生成することができる。いくつかの例では、予測コンポーネント432は、オブジェクトのトラックを測定し、観測された及び予測された挙動に基づいて、オブジェクトについての、離散化された予測確率マップ、ヒートマップ、確率分布、離散化された確率分布、及び/または軌道を生成することができる。いくつかの例では、1つまたは複数の確率マップは、環境内の1つまたは複数のオブジェクトの意図を表すことができる。
計画コンポーネント434は、環境を横断するために車両402が進む経路を決定することができる。例えば、計画コンポーネント434は、様々なルート及び経路並びに様々なレベルの詳細を決定することができる。いくつかの例では、計画コンポーネント434は、第1の位置(例えば、現在の位置)から第2の位置(例えば、ターゲット位置)へ走行するルートを決定することができる。この説明のために、ルートは2つの位置の間を走行するための一連のウェイポイントであってよい。非限定的な例として、ウェイポイントは、道路、交差点、全地球測位システム(GPS)座標などを含む。さらに、計画コンポーネント434は、第1の位置から第2の位置までルートの少なくとも一部に沿って自律走行車両を誘導するための命令を生成することができる。少なくとも1つの例において、計画コンポーネント434は、一連のウェイポイントにおける第1のウェイポイントから一連のウェイポイントにおける第2のウェイポイントにどのように自律走行車両を誘導するかを決定し得る。いくつかの例では、命令は経路または経路の一部であることができる。いくつかの例では、複数の経路は、後退地平線技術(receding horizon technique)に従って、実質的に同時に(例えば、技術的な許容範囲内で)生成されることができる。最も高い信頼水準を有する後退地平線データにおける複数の経路のうちの単一の経路を、車両を操作するために選択し得る。
他の例では、計画コンポーネント434は、代替的に、または追加的に、知覚コンポーネント422及び/または予測コンポーネント432からのデータを使用して、車両402が環境を横断するために進む経路を決定することができる。例えば、計画コンポーネント434は、環境に関連付けられたオブジェクトに関する知覚コンポーネント422及び/または予測コンポーネント432からデータを受信することができる。このデータを使用して、計画コンポーネント434は、環境内のオブジェクトを回避するために、第1の位置(例えば、現在の位置)から第2の位置(例えば、ターゲット位置)まで移動する経路を決定することができる。少なくともいくつかの例では、そのような計画コンポーネント434は、そのような衝突のない経路がないと判定し、車両402を全ての衝突を回避する及び/またはそうでなければ損傷を軽減する安全な停止へ導く経路を提供し得る。
メモリ418は、環境内をナビゲートするために車両402によって使用され得る1つまたは複数のマップ436をさらに含むことができる。説明の目的のために、マップは、これらに限定されることでないが、(交差点のような)トポロジー、通り、山脈、道路、地形、及び一般的な環境などの環境についての情報を提供することが可能な2次元、3次元またはN次元でモデル化された任意の数のデータ構造であってよい。ある例において、マップは、共分散データ(例えば、多解像度ボクセル空間に表された)テクスチャ情報(例えば、色情報(例えば、RGB色情報、Lab色情報、HSV/HSL色情報)など)、強度情報(例えば、LIDAR情報、レーダ情報など)、空間情報(例えば、メッシュ上に投影された画像データ、個々の「サーフェル」(例えば、個別の色及び/または強度に関連付けられるポリゴン))、反射性情報(例えば、鏡面性情報、再帰反射性情報、BRDF情報、BSSRDF情報など)を含んでよいが、これらには限定されない。ある例において、マップは、環境の3次元メッシュを含んでよい。いくつかの例において、本明細書で説明するように、マップの個々のタイルが環境の個別の部分を表すようにマップをタイル形式で格納でき、必要に応じて作業メモリにロードする場合がある。少なくとも1つの例において、1つまたは複数のマップ436は、少なくとも1つのマップ(例えば、画像及び/またはメッシュ)を含んでよい。いくつかの例では、車両402は、マップ436に少なくとも部分的に基づいて制御されることができる。すなわち、マップ436は、位置決めコンポーネント420、知覚コンポーネント422(及びサブコンポーネント)、予測コンポーネント432、及び/または計画コンポーネント434と関連して使用されて、車両402の位置を決定し、環境内のオブジェクトを識別し、オブジェクト及び/または車両402に関連付けられた予測確率を生成し、及び/または環境内をナビゲートするために経路及び/または軌道を生成することができる。
少なくとも1つの例では、コンピューティングデバイス404は、1つまたは複数のシステムコントローラ438を含むことができ、これは、車両402のステアリング、推進、ブレーキ、安全、エミッタ、通信及び他のシステムを制御するように構成され得る。システムコントローラ438は、駆動システム414の対応するシステム及び/または車両402の他のコンポーネントと通信し、及び/または制御することができ、これらは、計画コンポーネント434から提供される経路に従って動作するように構成され得る。
車両402は、ネットワーク440を介してコンピューティングデバイス442に接続することができ、1つまたは複数のプロセッサ444及び1つまたは複数のプロセッサ444と通信可能に結合されたメモリ446を含み得る。少なくとも1つの例では、1つまたは複数のプロセッサ444は、プロセッサ416に類似してもよく、メモリ446は、メモリ418に類似してもよい。図示の例では、コンピューティングデバイス442のメモリ446は、遠隔操作コンポーネント448及び/またはモデルコンポーネント450を格納する。少なくとも1つの例では、モデルコンポーネント450は、経験的テスト及び/またはシミュレーションの後、本明細書で論じられるように、知覚コンポーネント422によって使用されるMLモデルを生成し得る。例示的な目的のためにメモリ446に存在するように示されているが、遠隔操作コンポーネント448及びモデルコンポーネント450は、追加的に、または代替的に、コンピューティングデバイス442にアクセス可能であり得る(例えば、コンピューティングデバイス442の異なるコンポーネントに格納され、及び/またはコンピューティングデバイス442にアクセス可能であり得る(例えば、リモートに格納される)ことが企図される。
モデルコンポーネント450は、本明細書で論じられるように、マルチチャネル画像データのセグメンテーション情報、分類情報などを決定するためのモデルを生成する機能を含み得る。
コンピューティングデバイス404のプロセッサ416及びコンピューティングデバイス442のプロセッサ444は、本明細書で説明されるように、データを処理して動作を行うための命令を実行できる任意の適切なプロセッサであってよい。限定ではない例として、プロセッサ416及び444は、1つまたは複数の中央処理装置(CPU)、グラフィックス処理ユニット(GPU)、または、電子データを処理して、その電子データをレジスタ及び/またはメモリに格納され得る他の電子データへと変換する任意の他のデバイスまたはデバイスの一部を含んでよい。いくつかの例では、集積回路(例えば、ASICなど)、ゲートアレイ(例えば、FPGAなど)、及び他のハードウェアデバイスはまた、それらが符号化された命令を実行するように構成される限り、プロセッサとみなされてよい。
コンピューティングデバイス404のメモリ418及びコンピューティングデバイス442のメモリ446は、非一時的コンピュータ可読媒体の例である。メモリ418及び446は、オペレーティングシステム及び1つまたは複数のソフトウェアアプリケーション、命令、プログラム、及び/またはデータを格納して、本明細書で記載される方法及び様々なシステムに起因する機能を実装することができる。様々な実装において、メモリ418及び446は、スタティックランダムアクセスメモリ(SRAM)、シンクロナスダイナミックRAM(SDRAM)、不揮発性/フラッシュタイプメモリ、または情報を格納可能な任意の他のタイプのメモリのような適切なメモリ技術を用いて実装されてよい。本明細書で記載されるアーキテクチャ、システム、及び個々のエレメントは、多くの他の論理的、プログラム的、及び物理的なコンポーネントを含んでよく、それらのうちの添付図面に示されるものは、単に本明細書での説明に関連する例示に過ぎない。
ある例示において、本明細書で説明されるコンポーネントの一部または全ての態様は、任意のモデル、アルゴリズム、及び/または機械学習アルゴリズムを含んでよい。例えば、いくつかの例では、メモリ418及び446内のコンポーネントは、ニューラルネットワークとして実装され得る。
本明細書で記載されるように、例示的なニューラルネットワークは、入力データを一連の接続されたレイヤに渡して出力を生成するアルゴリズムである。ニューラルネットワークにおけるそれぞれのレイヤはまた、別のニューラルネットワークを含んでよく、または(畳み込みか否かには関係なく)任意の数のレイヤを含んでもよい。本開示の文脈において理解されるように、ニューラルネットワークは、機械学習を利用してよく、これは、学習したパラメータに基づいて出力が生成されるようなアルゴリズムの広範囲のクラスを指してもよい。
ニューラルネットワークのコンテキストで説明されるものの、任意のタイプの機械学習は、本開示と整合するように用いられてよい。例えば、機械学習または機械学習アルゴリズムは、回帰アルゴリズム(例えば、通常最小二乗回帰(OLSR)、線形回帰、ロジスティック回帰、段階的回帰、多変量適応回帰スプライン(MARS)、局所的に推定される散布図の平滑化(LOESS)、インスタンスベースのアルゴリズム(例えば、リッジ回帰、最小絶対値縮小選択演算子(LASSO)、弾性ネット、最小角回帰(LARS)、決定木アルゴリズム(例えば、分類回帰木(CART)、反復二分法3(ID3)、カイ二乗自動相互作用検出(CHAID)、決定切り株、条件付き決定木)、ベイジアンアルゴリズム(例えば、ナイーブベイズ、ガウスナイーブベイズ、多項式ナイーブベイズ、平均1依存性推定器(AODE)、ベイジアン信頼度ネットワーク(BNN)、ベイジアンネットワーク)、クラスタリングアルゴリズム(例えば、k平均法、kメジアン法、期待値最大化(EM)、階層的クラスタリング)、関連規則学習アルゴリズム(例えば、パーセプトロン、誤差逆伝播法、ホップフィールドネットワーク、動径基底関数ネットワーク(RBFN))、深層学習アルゴリズム(例えば、深層ボルツマンマシン(DBM)、深層信頼ネットワーク(DBN)、畳み込みニューラルネットワーク(CNN)、積層型オートエンコーダ)、次元削減アルゴリズム(例えば、主成分分析(PCA)、主成分回帰(PCR)、部分最小二乗回帰(PLSR)、サモンマッピング、多次元スケーリング(MDS)、射影追跡法、線形判別分析(LDA)、混合判別分析(MDA)、二次判別分析(QDA)、柔軟判別分析(FDA))、アンサンブルアルゴリズム(例えば、ブースティング、ブートストラップ集約(バギング)、エイダブースト、階層型一般化(ブレンディング)、勾配ブースティングマシン(GBM)、勾配ブースト回帰木(GBRT)、ランダムフォレスト)、SVM(サポートベクトルマシン)、教師付き学習、教師なし学習、半教師付き学習などを含んでよいが、これらに限定されない。
アーキテクチャの追加の例は、ResNet50、ResNet52、ResNet101、VGG、DenseNet、PointNetなどのニューラルネットワークを含む。
図1、図5及び図6は、本開示の例による例示的なプロセスを示す。これらのプロセスは、論理フロー図として図示され、それぞれの動作は、ハードウェア、ソフトウェア、またはそれらの組み合わせにおいて実装され得る一連の動作を表す。ソフトウェアのコンテキストにおいて、動作は、1つまたは複数のプロセッサによって実行された場合に、列挙した動作を実行する1つまたは複数のコンピュータ可読記憶媒体に格納されたコンピュータ実行可能命令を表す。一般に、コンピュータ実行可能命令は、具体的な機能を実行するか、または具体的な抽象データ型を実装するルーティン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。動作が説明される順序は、限定として解釈されることを意図したものではなく、任意の数の説明される動作は、プロセスを実行するために任意の順序で、及び/または並行して、除外されたり、または組み合わされてよい。
図5は、機械学習(ML)モデルの第1の部分に入力データを入力し、中間入力データをMLモデルの第2の部分に入力し、MLモデルの第1及び第2の部分からの出力データに基づいて環境内のオブジェクトの分類確率を決定するための例示的なプロセスである。例えば、本明細書で説明されるように、プロセス500のうちの一部または全ては、図4における1つまたは複数のコンポーネントによって実行され得る。例えば、プロセス500の一部または全ては、ボクセル空間コンポーネント424、撮像コンポーネント426、マスクコンポーネント428、及び/または特徴コンポーネント430によって実行され得る。
動作502において、プロセス500は、環境のセンサデータを受信することを含み得る。いくつかの例では、動作502は、環境の飛行時間データ、ライダデータ、画像データ、レーダデータなどを受信及び/またはキャプチャすることを含み得る。いくつかの例では、動作502は、車両が環境を横断するときに、車両(例えば、自律車両)によって実行され得る。いくつかの例では、環境はオブジェクトを含み得、センサデータは環境内のオブジェクトの表示を含み得る。
動作504において、プロセス500は、環境のトップダウンビューを表すマルチチャネル画像データを決定することを含み得る。いくつかの例では、マルチチャネル画像データは、センサデータに基づき得る。いくつかの例では、マルチチャネル画像データは、マルチチャネル画像データ114に対応し得る。いくつかの例では、マルチチャネル画像データは、環境内のオブジェクトに対応する空間特徴に関連付けられた画像データを含み得る。
動作506において、プロセス500は、オブジェクトに対応する空間特徴が画像データ内に存在するかどうかを決定することを含み得る。例えば、動作506は、空間特徴がマルチチャネル画像データ内に存在することを決定することを含み得る。追加的または代替的に、動作506は、オブジェクトが画像データ内に存在することを決定することを含み得る。別の例として、動作506は、空間特徴及び/またはオブジェクトが画像データ内に存在しないことを決定することを含み得る。プロセスは、その後、空間特徴及び/またはオブジェクトが画像データに存在しないという決定に基づいて、プロセスを再開するための動作502を含み得る。
動作508において、プロセス500は、マルチチャネル画像データを機械学習(ML)モデルの第1の部分に入力することを含み得る。いくつかの例では、MLモデルの第1の部分は、例えば、畳み込みニューラルネットワーク(CNN)などのニューラルネットワークのバックボーンまたは特徴抽出コンポーネントとして構成され得る。MLモデルの第1の部分は、マルチチャネル画像データを処理し、マルチチャネル画像データに対応する中間出力データを決定し得る。
動作510において、プロセス500は、MLモデルの第1の部分から中間出力データを受信することを含み得る。いくつかの例では、中間出力データは、マルチチャネル画像データに少なくとも部分的に基づいてもよい。
動作512において、プロセス500は、オブジェクトに関連付けられる非空間特徴を表す非空間特徴データを決定することを含み得る。いくつかの例では、非空間特徴データは、センサデータに少なくとも部分的に基づいてもよい。追加的または代替的に、非空間特徴データは、オブジェクトに関連付けられた非空間特徴に関連付けられ得る。いくつかの例では、非空間特徴データは、特徴136に対応し得る。
動作514において、プロセス500は、中間出力データ及び非空間特徴データをMLモデルの第2の部分に入力することを含み得る。いくつかの例では、MLモデルの第2の部分は、例えば、ディープニューラルネットワーク(DNN)などの高密度ニューラルネットワークとして構成され得る。中間出力データ及び/または空間特徴データは、オブジェクトごとに変換されるか、またはそうでなければ連結され、MLモデルの第2の部分に渡され、MLモデルの第2の部分は、中間出力データ及び/または非空間特徴データを処理し得、オブジェクトごとの複数のロジットを表す出力データを決定し得る。
動作516において、プロセス500は、MLモデルの第2の部分から中間出力データを受信することを含み得る。いくつかの例では、出力データは、中間出力データ及び/または非空間特徴データに少なくとも部分的に基づいてもよい。いくつかの例では、出力データは、環境内のオブジェクトごとに複数のロジット(例えば、0または負の無限大から1または無限大までの確率値を表す関数)を表し得る。
動作518において、プロセス500は、オブジェクトの分類確率を決定することを含み得る。いくつかの例では、分類確率は、MLモデルの第2の部分から受信された出力データに少なくとも部分的に基づいてもよい。いくつかの例では、分類確率は、出力データによって表されるオブジェクトごとのロジットに少なくとも部分的に基づいてもよい。いくつかの例では、分類確率は、オブジェクトタイプ分類(例えば、車両、歩行者、自転車など)、オブジェクト挙動分類(例えば、断定的、通常、回避的、攻撃的など)、オブジェクト視線分類(例えば、気を散らした歩行者、警告された歩行者など)、オブジェクト軌道分類(例えば、道路上、歩道に残っている、ジェイウォーキングなど)、車線変更分類(例えば、車線を私の車線に変更する)、及び/または緊急車両分類のうちの少なくとも1つを示し得る。
図6は、第1の入力データを第1のMLモデルに入力し、第2の入力データを第2のMLモデルに入力し、第1のMLモデルからオブジェクトに関連付けられた第1の分類を受信し、第2のMLモデルからオブジェクトに関連付けられた第2の分類を受信し、第1の分類または第2の分類に基づいて自律車両を制御するための例示的なプロセス600である。例えば、本明細書で説明されるように、プロセス600のうちの一部または全ては、図4における1つまたは複数のコンポーネントによって実行され得る。例えば、プロセス600の一部または全ては、ボクセル空間コンポーネント424、撮像コンポーネント426、マスクコンポーネント428、及び/または特徴コンポーネント430によって実行され得る。
動作602において、プロセス600は、環境のセンサデータを受信することを含み得る。いくつかの例では、動作602は、環境の飛行時間データ、ライダデータ、画像データ、レーダデータなどを受信及び/またはキャプチャすることを含み得る。いくつかの例では、動作602は、車両が環境を横断するときに、車両(例えば、自律車両)によって実行され得る。
動作604において、プロセス600は、環境の第1の領域の第1のトップダウンビューを表す第1のマルチチャネル画像データを決定することを含み得る。いくつかの例では、マルチチャネル画像データは、センサデータに基づき得る。いくつかの例では、マルチチャネル画像データは、マルチチャネル画像データ114に対応し得る。
動作606において、プロセス600は、環境の第2の領域の第2のトップダウンビューを表す第2のマルチチャネル画像データを決定することを含み得る。いくつかの例では、第2のマルチチャネル画像データは、センサデータに基づき得る。いくつかの例では、第2のマルチチャネル画像データは、マルチチャネル画像データ114に対応し得る。いくつかの例では、環境の第2の領域は、第1の領域よりも大きい場合がある。いくつかの例では、第2のマルチチャネル入力データは、第1のマルチチャネル入力データの解像度よりも低い解像度を有し得る。
動作608において、プロセス600は、第1のマルチチャネル画像データを機械学習(ML)モデルに入力することを含み得る。いくつかの例では、第1のMLモデルは、図2Bに関して前述したように、処理パイプライン240、250または260のいずれか1つに対応し得る。いくつかの例では、第1のMLモデルは、第1の部分及び第2の部分を含み得る。いくつかの例では、第1のMLモデルの第1の部分は、例えば、畳み込みニューラルネットワーク(CNN)などのニューラルネットワークのバックボーンまたは特徴抽出コンポーネントとして構成され得る。いくつかの例では、第1のMLモデルの第2の部分は、例えば、ディープニューラルネットワーク(DNN)などの高密度ニューラルネットワークとして構成され得る。
動作610において、プロセス600は、第2のマルチチャネル画像データを第2の機械学習(ML)モデルに入力することを含み得る。いくつかの例では、第2のMLモデルは、図2Bに関して前述したように、処理パイプライン240、250または260のいずれか1つに対応し得る。いくつかの例では、第2のMLモデルは、第1の部分及び第2の部分を含み得る。いくつかの例では、第2のMLモデルの第1の部分は、例えば、畳み込みニューラルネットワーク(CNN)などのニューラルネットワークのバックボーンまたは特徴抽出コンポーネントとして構成され得る。追加的または代替的に、第2のMLモデルの第2の部分は、例えば、ディープニューラルネットワーク(DNN)などの高密度ニューラルネットワークとして構成され得る。
動作612において、プロセス600は、第1のMLモデルから第1の出力データを受信することを含み得る。いくつかの例では、第1の出力データは、環境内のオブジェクトに関連付けられた第1の分類を含み得る。いくつかの例では、第1の出力データは、環境内のオブジェクトごとに複数のロジット(例えば、0または負の無限大から1または無限大までの確率値を表す関数)に基づき得る。追加的または代替的に、第1の出力データは、図2Bに関して前述したように、エンティティ248、258または268のロジットのいずれかの少なくとも一部に対応し得る。
動作614において、プロセス600は、第2のMLモデルから第2の出力データを受信することを含み得る。いくつかの例では、第2の出力データは、環境内のオブジェクトに関連付けられた第2の分類を含み得る。いくつかの例では、第2の出力データは、環境内のオブジェクトごとに複数のロジット(例えば、0または負の無限大から1または無限大までの確率値を表す関数)に基づき得る。追加的または代替的に、第2の出力データは、図2Bに関して前述したように、エンティティ248、258または268のロジットのいずれかの少なくとも一部に対応し得る。
動作616において、プロセス600は、第1の分類に関連付けられた第1の確率または第2の分類に関連付けられた第2の確率が閾値確率を満たすかどうかを決定することを含み得る。例えば、動作616は、第1の確率または第2の確率のうちの少なくとも1つが閾値確率を満たし、第1の分類または第2の分類に基づいて自律車両を制御し得ることを決定することを含み得る。別の例として、動作616は、第1の確率及び第2の確率の両方が閾値確率を満たさないと決定することを含み得る。プロセス600は、続いて、第1の確率及び第2の確率の両方が閾値確率を満たさないという決定に基づいて、プロセスを再開する動作602を含み得る。
動作618において、プロセス600は、オブジェクトに少なくとも部分的に基づいて車両を制御することを含み得る。いくつかの例では、動作618は、車両を停止させる軌道を生成すること、またはそうでなければ、環境を安全に横断するように車両を制御することを含み得る。いくつかの例では、動作618は、検出されたオブジェクトに基づいて候補軌道を修正することを含み得、例えば、環境内で車両が従うべき修正された軌道を決定する。
(例示的な条項)
A.1つまたは複数のプロセッサと、
前記1つまたは複数のプロセッサによって実行可能な命令を格納する1つまたは複数の非一時的コンピュータ可読媒体と
を備え、命令は、実行されると、システムに、
オブジェクトを含む環境に関連付けられるセンサからのセンサデータを受信することと、
センサデータに少なくとも部分的に基づいて、環境のトップダウンビューを表すマルチチャネル画像データを決定することであって、マルチチャネル画像データはオブジェクトに対応する空間特徴に関連付けられる画像データを含む、ことと、
マルチチャネル入力データを機械学習(ML)モデルの第1の部分に入力することと、
MLモデルの第1の部分からの中間出力データを受信することであって、前記中間出力データは前記オブジェクトに関連付けられるものとして符号化された空間特徴を含む、ことと、
センサデータに少なくとも部分的に基づいて、前記オブジェクトに関連付けられる非空間特徴を表す非空間特徴データを決定することと、
中間出力データ及び非空間特徴データをMLモデルの第2の部分に入力することと、
MLモデルの第2の部分からの出力データを受信することと、
出力データに少なくとも部分的に基づいてオブジェクトの分類確率を決定することと
を含む動作を実行させる、システム。
B.空間特徴は、環境に関連付けられるマップ情報、オブジェクトに関連付けられる境界ボックス及びオブジェクトのサイズのうちの少なくとも1つを含み、非空間特徴は、オブジェクトに関連付けられる速度、オブジェクトに関連付けられる加速度及びオブジェクトに関連付けられる照明状態のうちの少なくとも1つを含む、段落Aのシステム。
C.前記分類確率は、オブジェクトタイプ分類、オブジェクト挙動分類、オブジェクト視線分類、オブジェクト軌道分類、車線変更分類及び緊急車両分類のうちの少なくとも1つを含む、段落AまたはBに記載のシステム。
D.前記マルチチャネル画像データ内のオブジェクトの対応する位置に対応するグラフィック参照を決定することをさらに含み、前記空間特徴は、前記グラフィック参照に少なくとも部分的に基づいてオブジェクトに関連付けられるものとして符号化される、段落A乃至Cのいずれか一項に記載のシステム。
E.MLモデルの第1の部分は、畳み込みニューラルネットワーク(CNN)を含み、MLモデルの第2の部分は、ディープニューラルネットワーク(DNN)を含む、段落A乃至Dのいずれか一項に記載のシステム。
F.オブジェクトを含む環境に関連付けられるセンサからのセンサデータを受信することと、
センサデータに少なくとも部分的に基づいて環境を表す空間データを決定することと、
空間データを機械学習(ML)モデルの第1の部分に入力することと、
MLモデルの第1の部分からの中間データを受信することであって、前記中間データは前記オブジェクトに関連付けられるものとして符号化された空間特徴に対応する空間特徴データを含む、ことと、
センサデータに少なくとも部分的に基づいて、前記オブジェクトに関連付けられる特徴に対応する二次特徴データを決定することと、
空間特徴データ及び二次特徴データをMLモデルの第2の部分に入力することと、
MLモデルの第2の部分から受信したデータに少なくとも部分的に基づいてオブジェクトの分類確率を決定することと
を備える方法。
G.空間特徴は、環境に関連付けられるマップ情報、オブジェクトに関連付けられる境界ボックス及びオブジェクトに関連付けられるサイズのうちの少なくとも1つを含み、特徴は、オブジェクトに関連付けられる速度、オブジェクトに関連付けられる加速度及びオブジェクトに関連付けられる照明状態のうちの少なくとも1つを含む、段落Fに記載の方法。
H.空間データは、環境のトップダウンビューを表す、段落Gに記載の方法。
I.空間データにおけるオブジェクトの対応する位置を識別するマスクを決定することと、
マスク及び空間データに基づいて、オブジェクトに関連付けられる特徴ベクトルを決定することと
をさらに含む、段落F乃至Hのいずれか一項に記載の方法。
J.MLモデルの第1の部分は、畳み込みニューラルネットワーク(CNN)を含み、MLモデルの第2の部分は、ディープニューラルネットワーク(DNN)を含む、段落F乃至Iのいずれか一項に記載の方法。
K.空間データは、環境内の起点までの第1の範囲に対応する第1の空間データであり、MLモデルは第1のMLモデルを含み、前記方法は、
センサデータに少なくとも部分的に基づいて、第2の空間データを決定することであって、第2の空間データは、前記起点までの第2の範囲に対応し、第1の範囲は第2の範囲よりも小さい、ことと、
第2の範囲に関連付けられる分類確率を決定するように構成された第2のMLモデルに前記第2の空間データを入力することと、
をさらに含み、
前記分類確率を決定することは、第2のMLモデルの出力に少なくとも部分的に基づく、段落F乃至Jのいずれか一項に記載の方法。
L.センサデータを、環境を表す3次元ボクセル空間に関連付けることをさらに含み、
前記空間データは、3次元ボクセル空間の縮小された次元の表現を表す、段落F乃至Kのいずれか一項に記載の方法。
M.環境における自律車両に関連付けられるセンサからセンサデータを受信することをさらに含む、段落F乃至Lのいずれか一項に記載の方法。
N.分類確率に少なくとも部分的に基づいて自律車両を制御することをさらに含む、段落F乃至Mのいずれか一項に記載の方法。
O.プロセッサによって実行可能な命令を格納する1つまたは複数の非一時的コンピュータ可読媒体であって、前記命令は、実行されると、前記プロセッサに、
オブジェクトを含む環境に関連付けられるセンサからのセンサデータを受信することと、
センサデータに少なくとも部分的に基づいて環境を表す空間データを決定することと、
空間データを機械学習(ML)モデルの第1の部分に入力することと、
MLモデルの第1の部分からの中間データを受信することであって、中間データは、オブジェクトに関連付けられるものとして符号化された空間特徴に対応する空間特徴データを含む、ことと、
センサデータに少なくとも部分的に基づいて、オブジェクトに関連付けられる特徴に対応する二次特徴データを決定することと、
空間特徴データ及び二次特徴データをMLモデルの第2の部分に入力することと、
前記MLモデルの第2の部分から受信したデータに少なくとも部分的に基づいて前記オブジェクトの分類確率を決定することと
を含む動作を実行させる、1つまたは複数の非一時的コンピュータ可読媒体。
P.空間特徴は、環境に関連付けられるマップ情報、オブジェクトに関連付けられる境界ボックス及びオブジェクトに関連付けられるサイズのうちの少なくとも1つを含み、特徴は、オブジェクトに関連付けられる速度、オブジェクトに関連付けられる加速度及びオブジェクトに関連付けられる照明状態のうちの少なくとも1つを含む、段落Oに記載の1つまたは複数の非一時的コンピュータ可読媒体。
Q.空間データは、環境のトップダウンビューを表す、段落Pに記載の1つまたは複数の非一時的コンピュータ可読媒体。
R.空間データは、第1の空間特徴を含む第1のチャネルと、第2の空間特徴を含む第2のチャネルを含む、段落Qに記載の1つまたは複数の非一時的コンピュータ可読媒体。
S.前記動作は、
空間データにおけるオブジェクトの対応する位置を識別するマスクを決定することと、
マスク及び空間データに基づいて、オブジェクトに関連付けられる特徴ベクトルを決定することであって、中間データは特徴ベクトルを含む、ことと
をさらに含む、段落Q乃至Rのいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
T.MLモデルの第1の部分は、畳み込みニューラルネットワーク(CNN)を含み、MLモデルの第2の部分は、ディープニューラルネットワーク(DNN)を含む、段落Q乃至Sのいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
U.1つまたは複数のプロセッサと、
1つまたは複数のプロセッサによって実行可能な命令を格納する1つまたは複数の非一時的コンピュータ可読媒体と
を備え、前記命令は、実行されると、システムに、
自律車両を含む環境に関連付けられるセンサからセンサデータを受信することと、
センサデータに少なくとも部分的に基づいて、環境の第1の領域の第1のトップダウンビューを表す第1のマルチチャネル入力データを決定することと、
センサデータに少なくとも部分的に基づいて、環境の第2の領域の第2のトップダウンビューを表す第2のマルチチャネル入力データを決定することであって、環境の第2の領域は環境の第1の領域よりも広く、第2のマルチチャネル入力データは、第1のマルチチャネル入力データよりも低い解像度を有する、ことと、
第1のマルチチャネル入力データを第1の機械学習(ML)モデルに入力することと、
第2のマルチチャネル入力データを第2のMLモデルに入力することと、
前記第1のMLモデルからの第1の出力データを受信することであって、前記第1の出力データは、環境内のオブジェクトに関連付けられる第1の分類を含む、ことと、
前記第2のMLモデルからの第2の出力データを受信することであって、前記第2の出力データは、オブジェクトに関連付けられる第2の分類を含む、ことと、
第1の分類または第2の分類に少なくとも部分的に基づいて自律車両を制御することと
を含む動作を実行させるシステム。
V.環境の第1の領域は、環境の第2の領域と少なくとも部分的に重なる、段落Uに記載のシステム。
W.前記動作は、オブジェクトが環境の第1の領域に関連付けられることを決定することと、前記オブジェクトが第1の領域内にあると決定することに少なくとも基づいて第2の分類を廃棄することとをさらに含み、自律走行車両を制御することは第1の分類に少なくとも部分的に基づいている、段落UまたはVに記載のシステム。
X.第1のマルチチャネル入力データの第1のチャネルは、オブジェクトに関連付けられる特徴を表す第1の特徴データを含み、第2のマルチチャネル入力データの第2のチャネルは、オブジェクトに関連付けられる特徴を表す第2の特徴データを含む、段落U乃至Wのいずれか一項に記載のシステム。
Y.第1のマルチチャネル入力データは、環境における空間特徴及びオブジェクトを表す、段落U乃至Xのいずれか一項に記載のシステム。
Z.環境に関連付けられるセンサからのセンサデータを受信することと、
センサデータに少なくとも部分的に基づいて、環境の第1の領域を表す第1の入力データを決定することと、
センサデータに少なくとも部分的に基づいて、環境の第2の領域を表す第2の入力データを決定することであって、環境の第2の領域は、第1の領域よりも広く、第2の入力データは、第1の入力データよりも低い解像度で環境を表す、ことと、
第1の入力データを第1の機械学習(ML)モデルに入力することと、
第2の入力データを第2MLモデルに入力することと、
第1のMLモデルから受信した環境内のオブジェクトに関連付けられる第1の分類または第2のMLモデルから受信した環境内のオブジェクトに関連付けられる第2の分類に少なくとも部分的に基づいて自律車両を制御することと
を備える方法。
AA.環境の第1の領域は、環境の第2の領域と少なくとも部分的に重なる、段落Zに記載の方法。
AB.オブジェクトが環境の第1の領域と関連付けられていることを判定することと、
オブジェクトが第1の領域内にあることを判定したことに少なくとも基づいて第2の分類を廃棄することであって、自律車両を制御することは第1の分類に少なくとも部分的に基づいている、ことと
をさらに含む、段落ZまたはAAに記載の方法。
AC.第1の入力データは第1のマルチチャネル入力データを含み、第1のマルチチャネル入力データの第1のチャネルはオブジェクトに関連付けられる特徴を表す第1の特徴データを含み、第2のマルチチャネル入力データの第2のチャネルはオブジェクトに関連付けられる特徴を表す第2の特徴データを含む、段落Z乃至ABのいずれか一項に記載の方法。
AD.第1の入力データは、環境内の空間特徴及びオブジェクトを表す、段落Z乃至ACのいずれか一項に記載の方法。
AE.センサデータに関連付けられる特徴データを判定することをさらに含み、特徴データはオブジェクトに関連付けられる特徴を表し、第1の入力データは前記特徴の第1のサブセットに少なくとも部分的に基づくいくつかのチャネルを含む、段落Z乃至ADのいずれか一項に記載の方法。
AF.第1の入力データを第1のMLモデルの第1の部分に入力することと、
第1のMLモデルの第1の部分から中間出力データを受信することと、
オブジェクトに関連付けられる特徴の第2のサブセット及び中間出力データに少なくとも部分的に基づいて中間入力データを決定することと、
中間入力データを第1のMLモデルの第2の部分に入力することと、
第1のMLモデルの第1の部分から、オブジェクトに関連付けられる第1の分類を含む第1の出力データを受信することと
をさらに含む、段落Z乃至AEのいずれか一項に記載の方法。
AG.前記特徴の第1のサブセットは、環境に関連付けられるマップ情報、オブジェクトに関連付けられる境界ボックス及びオブジェクトに関連付けられるサイズのうちの少なくとも1つを含み、前記特徴の第2のサブセットは、オブジェクトに関連付けられる速度、オブジェクトに関連付けられる加速度及びオブジェクトに関連付けられる照明状態のうちの少なくとも1つを含む、段落Z乃至AFのいずれか一項に記載の方法。
AH.センサデータを、環境を表す3次元ボクセル空間に関連付けることをさらに含み、3次元ボクセル空間は第1の領域及び第2の領域を含み、第1の入力データは、3次元ボクセル空間内の第1の領域に対応するボクセルデータを含む、段落Z乃至AGのいずれか一項に記載の方法。
AI.プロセッサによって実行可能な命令を格納する1つまたは複数の非一時的コンピュータ可読媒体であって、前記命令は、実行されると、前記プロセッサに、
環境に関連付けられるセンサからのセンサデータを受信することと、
センサデータに少なくとも部分的に基づいて環境の第1の領域を表す第1の入力データを決定することと、
センサデータに少なくとも部分的に基づいて環境の第2の領域を表す第2の入力データを決定することであって、環境の第2の領域は第1の領域よりも大きく、第2の入力データは第1の入力データよりも低い解像度にて環境を表す、ことと、
第1の入力データを第1の機械学習(ML)モデルに入力することと、
第2の入力データを第2のMLモデルに入力することと、
第1のMLモデルから受信した、環境におけるオブジェクトに関連付けられる第1の分類、または第2のMLモデルから受信した環境におけるオブジェクトに関連付けられる第2の分類に少なくとも部分的に基づいて、自律車両を制御することと
を含む動作を実行させる、1つまたは複数の非一時的コンピュータ可読媒体。
AJ.環境の第1の領域は、環境の第2の領域と少なくとも部分的に重なる、段落AIに記載の1つまたは複数の非一時的コンピュータ可読媒体。
AK.前記動作は、オブジェクトが環境の第1の領域に関連付けられることを決定することと、前記オブジェクトが第1の領域内にあると決定することに少なくとも基づいて第2の分類を廃棄することとをさらに含み、自律車両を制御することは第1の分類に少なくとも部分的に基づいている、段落AIまたはAJに記載の1つまたは複数の非一時的コンピュータ可読媒体。
AL.第1の入力データは、第1のマルチチャネル入力データを含み、第1のマルチチャネル入力データの第1のチャネルは、オブジェクトに関連付けられる特徴を表す第1の特徴データを含み、第2のマルチチャネル入力データの第2のチャネルは、オブジェクトに関連付けられる特徴を表す第2の特徴データを含む、段落AI乃至AKのいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
AM.第1の入力データは、環境における空間特徴及びオブジェクトを表す、段落AI乃至ALのいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
AN.前記動作は、センサデータに関連付けられる特徴データを決定することをさらに含み、特徴データはオブジェクトに関連付けられる特徴を表し、第1の入力データは、特徴の第1のサブセットに少なくとも部分的に基づいていくつかのチャネルを含む、段落AI乃至AMのいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
上記の条項の例は、1つの特定の実施形態に関して説明されているが、本明細書のコンテキストでは、条項の例の内容は、方法、デバイス、システム、コンピュータ可読媒体、及び/または他の実施形態を介して実装することもできることを理解されたい。さらに、例A乃至ANのいずれも、単独で、または例A乃至ANの任意の他の1つまたは複数と組み合わせて実施することができる。
(結論)
本明細書で説明される技術の1つまたは複数の例が説明されてきたが、それらの例の様々な変更形態、追加形態、置換形態及び均等形態が、本明細書で説明される技術範囲内に含まれる。
例示の説明において、主張される特許の主題の特定の例を示す、本願の一部を形成する添付図面に対する参照が行われる。他の例が用いられることが可能であること、及び構造上の変更などの変更または変形が行われることが可能であることを理解されたい。このような例、変更または変形は、意図された発明の主題に対する範囲から必ずしも逸脱するものではない。本明細書におけるステップは、特定の順序で提供される一方で、ある場合において、順序が変更され得ることによって、説明されるシステム及び方法の機能を変更することなく、特定の入力が異なる時間または異なる順序で提供され得る。開示された手順は、また、異なる順序で実行され得る。さらに、本明細書における様々なコンピュータ処理は、開示される順序で実行される必要はなく、コンピュータ処理の代替の順序を用いる他の例が容易に実装されることができる。順序変更されることに加えて、コンピュータ処理はまた、同一の結果を伴う部分的なコンピュータ処理に分解されることができる。

Claims (15)

  1. オブジェクトを含む環境に関連付けられるセンサからセンサデータを受信することと、
    前記センサデータに少なくとも部分的に基づいて、前記環境を表す空間データを決定することと、
    前記空間データを機械学習(ML)モデルの第1の部分に入力することと、
    MLモデルの第1の部分からの中間データを受信することであって、前記中間データは前記オブジェクトに関連付けられるものとして符号化された空間特徴に対応する空間特徴データを含む、ことと、
    前記センサデータに少なくとも部分的に基づいて、前記オブジェクトに関連付けられる特徴に対応する二次特徴データを決定することと、
    前記空間特徴データ及び前記二次特徴データをMLモデルの第2の部分に入力することと、
    前記MLモデルの第2の部分から受信したデータに少なくとも部分的に基づいて前記オブジェクトの分類確率を決定することと
    を含む方法。
  2. 前記空間特徴は、
    前記環境に関連付けられるマップ情報、
    前記オブジェクトに関連付けられる境界ボックス、及び
    前記オブジェクトに関連付けられるサイズ
    のうちの少なくとも1つを含み、
    前記特徴は、
    前記オブジェクトに関連付けられる速度、
    前記オブジェクトに関連付けられる加速度、及び
    前記オブジェクトに関連付けられる照明状態
    のうちの少なくとも1つを含む、
    請求項1の方法。
  3. 前記空間データは、前記環境のトップダウンビューを表す、請求項1または2の方法。
  4. 前記空間データは、マルチチャネル画像データを表し、
    前記方法は、
    前記マルチチャネル画像データ内の前記オブジェクトの対応する位置に対応するグラフィック参照を決定することをさらに含み、前記空間特徴は、前記グラフィック参照に少なくとも部分的に基づいて前記オブジェクトに関連付けられるものとして符号化される、請求項1乃至3のいずれか一項に記載の方法。
  5. 前記空間データにおける前記オブジェクトの対応する位置を識別するマスクを決定することと、
    前記マスク及び前記空間データに基づいて、前記オブジェクトに関連付けられる特徴ベクトルを決定することであって、中間データは前記特徴ベクトルを含む、ことと
    をさらに含む、請求項1乃至4のいずれか一項に記載の方法。
  6. 前記MLモデルの第1の部分は、畳み込みニューラルネットワーク(CNN)を含み、前記MLモデルの第2の部分は、ディープニューラルネットワーク(DNN)を含む、請求項1乃至5のいずれか一項に記載の方法。
  7. 前記空間データは、環境内の起点までの第1の範囲に対応する第1の空間データであり、前記MLモデルは第1のMLモデルを含み、前記方法は、
    前記センサデータに少なくとも部分的に基づいて、第2の空間データを決定することであって、前記第2の空間データは、前記起点までの第2の範囲に対応し、前記第1の範囲は前記第2の範囲よりも小さい、ことと、
    前記第2の範囲に関連付けられる分類確率を決定するように構成された第2のMLモデルに前記第2の空間データを入力することと、
    をさらに含み、
    前記分類確率を決定することは、前記第2のMLモデルの出力に少なくとも部分的に基づく、請求項1乃至6のいずれか一項に記載の方法。
  8. 前記センサデータを、前記環境を表す3次元ボクセル空間に関連付けることをさらに含み、
    前記空間データは、前記3次元ボクセル空間の縮小された次元の表現を表す、請求項1乃至7のいずれか一項に記載の方法。
  9. 環境内の自律車両に関連付けられるセンサから前記センサデータを受信すること、及び
    前記分類確率に少なくとも部分的に基づいて自律車両を制御することと
    のうちの少なくとも1つをさらに含む、請求項1乃至8のいずれか一項に記載の方法。
  10. 前記分類確率は、
    オブジェクトタイプ分類、
    オブジェクト挙動分類、
    オブジェクト視線分類、
    オブジェクト軌道分類、
    車線変更分類、及び
    緊急車両分類
    のうちの少なくとも1つを含む、請求項1乃至9のいずれか一項に記載の方法。
  11. 1つまたは複数のプロセッサによって実行されると、請求項1乃至10のいずれか一項に記載の方法を1つまたは複数のコンピューティングデバイスに実行させる命令を格納する1つまたは複数の非一時的コンピュータ可読媒体。
  12. 1つまたは複数のプロセッサと、
    前記1つまたは複数のプロセッサによって実行可能な命令を格納する1つまたは複数の非一時的コンピュータ可読媒体と
    を備え、前記命令は、実行されると、前記1つまたは複数のプロセッサに、
    オブジェクトを含む環境に関連付けられるセンサからセンサデータを受信することと、
    前記センサデータに少なくとも部分的に基づいて、前記環境を表す空間データを決定することと、
    前記空間データを機械学習(ML)モデルの第1の部分に入力することと、
    MLモデルの第1の部分からの中間データを受信することであって、前記中間データは前記オブジェクトに関連付けられるものとして符号化された空間特徴に対応する空間特徴データを含む、ことと、
    前記センサデータに少なくとも部分的に基づいて、前記オブジェクトに関連付けられる特徴に対応する二次特徴データを決定することと、
    前記空間特徴データ及び前記二次特徴データをMLモデルの第2の部分に入力することと、
    前記MLモデルの第2の部分から受信したデータに少なくとも部分的に基づいて前記オブジェクトの分類確率を決定することと
    を含む動作を実行させるシステム。
  13. 前記空間特徴は、
    前記環境に関連付けられるマップ情報、
    前記オブジェクトに関連付けられる境界ボックス、及び
    前記オブジェクトに関連付けられるサイズ
    のうちの少なくとも1つを含み、
    前記特徴は、
    前記オブジェクトに関連付けられる速度、
    前記オブジェクトに関連付けられる加速度、及び
    前記オブジェクトに関連付けられる照明状態
    のうちの少なくとも1つを含む、
    請求項12のシステム。
  14. 前記空間データは、前記環境のトップダウンビューを表し、
    第1の空間特徴を含む第1のチャネル、及び第2の空間特徴を含む第2のチャネルを含む、請求項12または13のシステム。
  15. 前記動作は、
    前記空間データにおける前記オブジェクトの対応する位置を識別するマスクを決定することと、
    前記マスク及び前記空間データに基づいて、前記オブジェクトに関連付けられる特徴ベクトルを決定することであって、前記中間データは前記特徴ベクトルを含む、ことと
    をさらに含む、請求項12乃至14のいずれか一項に記載のシステム。
JP2023518719A 2020-12-30 2021-12-07 機械学習モデルのための中間入力 Pending JP2024506433A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US17/137,873 2020-12-30
US17/137,873 US11829449B2 (en) 2020-12-30 2020-12-30 Intermediate input for machine learned model
US17/137,947 2020-12-30
US17/137,947 US11847831B2 (en) 2020-12-30 2020-12-30 Multi-resolution top-down prediction
PCT/US2021/062122 WO2022146622A1 (en) 2020-12-30 2021-12-07 Intermediate input for machine learned model

Publications (1)

Publication Number Publication Date
JP2024506433A true JP2024506433A (ja) 2024-02-14

Family

ID=82260804

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023518719A Pending JP2024506433A (ja) 2020-12-30 2021-12-07 機械学習モデルのための中間入力

Country Status (4)

Country Link
EP (1) EP4272186A1 (ja)
JP (1) JP2024506433A (ja)
CN (1) CN116261747A (ja)
WO (1) WO2022146622A1 (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10255525B1 (en) * 2017-04-25 2019-04-09 Uber Technologies, Inc. FPGA device for image classification
US20180349746A1 (en) * 2017-05-31 2018-12-06 Uber Technologies, Inc. Top-View Lidar-Based Object Detection
JP6729516B2 (ja) * 2017-07-27 2020-07-22 トヨタ自動車株式会社 識別装置

Also Published As

Publication number Publication date
CN116261747A (zh) 2023-06-13
EP4272186A1 (en) 2023-11-08
WO2022146622A1 (en) 2022-07-07

Similar Documents

Publication Publication Date Title
JP7350013B2 (ja) マスクを使用したデータセグメンテーション
US11351991B2 (en) Prediction based on attributes
US11631200B2 (en) Prediction on top-down scenes based on action data
US11021148B2 (en) Pedestrian prediction based on attributes
US11734832B1 (en) Prediction on top-down scenes based on object motion
US11409304B1 (en) Supplementing top-down predictions with image features
US11386671B2 (en) Refining depth from an image
US11380108B1 (en) Supplementing top-down predictions with image features
WO2020198189A1 (en) Pedestrian prediction based on attributes
US11829449B2 (en) Intermediate input for machine learned model
US11847831B2 (en) Multi-resolution top-down prediction
JP2023505059A (ja) センサデータを使用した高さ推定
US11270437B1 (en) Top-down segmentation pixel orientation and distance
JP2024506433A (ja) 機械学習モデルのための中間入力
US11636685B1 (en) Multi-resolution top-down segmentation
US11983933B1 (en) Boundary aware top-down trajectory prediction