JP7345504B2

JP7345504B2 - Ｌｉｄａｒデータと画像データの関連付け

Info

Publication number: JP7345504B2
Application number: JP2020561676A
Authority: JP
Inventors: リーテンシア; マニプラダンサビーク; ディミトロフアンゲロフドラゴミール
Original assignee: ズークスインコーポレイテッド
Priority date: 2018-05-03
Filing date: 2019-04-23
Publication date: 2023-09-15
Anticipated expiration: 2039-04-23
Also published as: CN112292711A; EP3788597A1; WO2019212811A1; JP2021523443A; CN112292711B; US11816852B2; US10726567B2; CN118115557A; US20210104056A1; US20190340775A1

Description

関連出願
このＰＣＴ国際出願は、参照により本明細書に組み込まれている、２０１８年５月３日に出願された米国特許出願第１５／９７０，８３８号の優先権の利益を主張するものである。

カメラ画像は従来、２次元のデータを含んでいる。したがって、オブジェクト検出がシーンの画像に対して行われるときでも、この検出は、検出されたオブジェクトに対応する画像の座標しか提供しない（即ち、深度及び／又はスケールが曖昧である）。画像から検出されたオブジェクトの深度を復元するために、ステレオカメラを使用するなどの解決策が導入されている。しかしながら、ステレオカメラ深度検出はエラーが発生しやすく、自律車両制御などのリアルタイムアプリケーションには遅すぎることが多く、低下された安全性という結果をもたらす可能性がある。

詳細な説明が添付の図を参照して説明される。図において、参照番号の左端の数字は、参照番号が最初に現れる図を識別する。異なる図における同じ参照番号は、類似又は同一の要素を示す。

検出されたオブジェクトと、画像内の検出されたオブジェクトの位置を識別するように生成されたバウンディングボックスとを含む例示的な画像を示す図である。深度知覚問題を示す例示的シナリオのブロック図である。例示的シナリオの鳥瞰図、及び図２Ｃの要素に対応し得るＬＩＤＡＲデータを示す図である。例示的シナリオの側面プロファイル、及び図２Ｃの要素に対応し得るＬＩＤＡＲデータを示す図である。例示的な検出されたオブジェクトと、例示的な関心領域と、例示的な遮蔽オブジェクトと、画像上に投影された例示的なＬＩＤＡＲデータとを含む例示的な画像を示す図である。図２Ａ～図２Ｃの例示的なシナリオに対応する機械学習されたモデルによって生成された例示的な確率分布、及び３つの例示的なＬＩＤＡＲポイントに関連付けられた例示的な確率を示すブロック図である。後続の図で議論するためのいくつかの選択された例示的なＬＩＤＡＲポイントに関連付けられた深度測定の側面プロファイル図である。後続の図で議論するための選択された例示的なＬＩＤＡＲポイントの関心領域への投影を示す図である。関心領域の中心からのＬＩＤＡＲポイント投影の距離に少なくとも部分的に基づいて、ＬＩＤＡＲポイントについての係数を生成するための例示的な分布を示す図である。画像において検出されたオブジェクトについての深度推定値を決定するための例示的なプロセスを示す図である。画像において検出されたオブジェクトについての深度推定値を決定するための例示的なプロセスを示す図である。画像において検出されたオブジェクトについての深度推定値を決定するための例示的なプロセスを示す図である。本明細書で論じられるビジョン－メタスピン関連付けシステム（vision-metaspin association system）を組み込むことができる例示的な自律車両のブロック図である。

本明細書で論じられる技法（例えば、機械及び／又はプロセス）は、画像センサからの画像データ、及びＬＩＤＡＲセンサからのＬＩＤＡＲデータを使用して、環境におけるオブジェクトまでの距離を決定することを含むことができる。いくつかの例では、本明細書で論じられる技法は、画像内のオブジェクト（本明細書では「関心領域」と呼ばれる）に対応するピクセルの表示を受信することと、ＬＩＤＡＲデータを受信することと、関心領域と画像が撮られた時間とに対応するＬＩＤＡＲデータからＬＩＤＡＲポイントを決定することとに少なくとも部分的に基づいて、カメラからオブジェクトまでの距離（例えば、オブジェクトの深度）を決定する。これらのＬＩＤＡＲポイントが識別されると、これらの技法は、ＬＩＤＡＲポイントをスコアリングし、加重メジアン計算における重みとしてＬＩＤＡＲポイントに関連付けられたスコアを使用して、ＬＩＤＡＲポイントを距離でソートすること（例えば、各ＬＩＤＡＲポイントは距離測定値に関連付けられ、いくつかの例では角度にも関連付けられ得る）と、重みとしてスコアを使用して、ソートされたＬＩＤＡＲポイントの加重メジアンを決定することとを含むことができる。いくつかの例では、これらの技法は、オブジェクトに関連付けるための深度推定値として加重メジアンを識別することを含むことができる。そのような技法は、遮蔽オブジェクトのＬＩＤＡＲデータを考慮することによって、オブジェクトのより正確な深度推定値を提供することができる。

本明細書で論じられる画像は、環境の２次元表現を取り込む単眼画像であり得る。即ち、単眼画像は、カラー／グレースケール画像データ（可視カメラデータ及び赤外線カメラデータなどを含むがこれらに限定されない）を含み得るが、深度（例えば、ユークリッド座標系の「ｚ軸」）が欠如している。本明細書で論じられる技法は、画像において検出されたオブジェクトの深度を決定することを含むことができる。言い換えれば、本明細書で論じられる技法は、画像が撮られた場所（例えば、カメラ、焦点面、画像面である。画像面はレンズ特性によりカメラと少し異なる位置にあり得るが、本明細書の議論では、これを単に「カメラ」と呼んで簡略化する）から、検出されたオブジェクトがどれだけ離れているかを識別する。いくつかの例では、ＬＩＤＡＲセンサは、ＬＩＤＡＲセンサからシーン内の多数の表面ポイントまでの距離を測定することができる。各表面ポイントについて、ＬＩＤＡＲセンサは、表面ポイントの距離とＬＩＤＡＲセンサに対するその角度方向との両方を決定することができる。この能力は、多数の表面ポイントの３次元座標を含む点群（point cloud）を作成するために使用され得る。いくつかの例では、ＬＩＤＡＲセンサは、３６０度回転して、ＬＩＤＡＲセンサの視野（「ＦＯＶ」）内にあるＬＩＤＡＲデバイスを取り囲む環境の点群（例えば、複数のＬＩＤＡＲポイント）を作成するように構成されるが、任意の他のタイプのＬＩＤＡＲセンサ（例えば、ソリッドステート、ＭＥＭＳ、フラッシュなど）も企図される。多数のＬＩＤＡＲデバイスが同時に使用される場合、（ＬＩＤＡＲデバイスをスピンさせるための単一のスピンなどの）期間にわたって収集された全てのＬＩＤＡＲデータが本明細書では「メタスピン」と呼ばれる。

いくつかの例では、これらの技法は、カメラによって環境の画像を取り込むことと、ＬＩＤＡＲセンサを使用して環境の点群を作成することとを含むことができる。これらの技法は、画像内のオブジェクトを検出すること、及び／又は、検出されたオブジェクトに関連付けられた関心領域（ＲＯＩ）（例えば、検出されたオブジェクトに対応するピクセルから構成されるマスク、検出されたオブジェクトに関連付けられていると識別されるピクセルを包含するバウンディングボックスなど）を決定することを含むことができる。例えば、単眼画像のみが利用可能である場合、カメラから、検出されたオブジェクトの可視表面までの距離（「深度」）は不明であり得るが、ＲＯＩは検出されたオブジェクトの可視表面に対応し得る。

いくつかの例では、これらの技法は、カメラによって画像に取り込まれた環境の一部に対応する、及び／又は画像のＲＯＩに対応する、ＬＩＤＡＲデータの一部を識別することを含むことができ、これは、画像のより小さなサブセットであり得る。これらの技法は、追加的又は代替的に、画像が取り込まれた時間に最も密接に対応するＬＩＤＡＲデータを決定することを含むことができる。いくつかの例では、カメラとＬＩＤＡＲセンサは位相ロックされ、したがって、カメラとＬＩＤＡＲセンサが同時に環境の同じ領域に対応するデータを取り込むことができるが、いくつかの例では、カメラとＬＩＤＡＲセンサは、わずかに異なる時間で同じ領域に対応するデータを取り込むことがある。後者の例では、これらの技法は、画像が取り込まれた時間に最も密接に対応する時間に取り込まれたＬＩＤＡＲデータを決定することを含むことができる。例えば、カメラが３０Ｈｚで環境の領域の画像を取り込み、ＬＩＤＡＲセンサが１０Ｈｚで領域のＬＩＤＡＲデータを取り込む場合、これらの技法は、ＬＩＤＡＲセンサの３つのメタスピンごとに、３つのうちのどのメタスピンが、画像に時間的に最も密接に対応する（及び上述されたようにＲＯＩに対応する）データのサブセットを含むかを決定することを含むことができる。同様に、いくつかの例では、メタスピンが収集された時間を表す多数の画像が選ばれてよく、画像のサブセットが、メタスピンが収集されたときの環境を最も表す画像として選択されてよい。

別段の説明がされない限り、用語「ＬＩＤＡＲポイント」は、ＲＯＩに対して空間的に（この場合、ＲＯＩが環境及び／又は画像内で対応する）及び／又は時間的に最も密接に対応するメタスピンに取り入れられるＬＩＤＡＲデータのサブセットを指す。

いくつかの例では、上述されたように、ＲＯＩ及び／又は時間に対応するＬＩＤＡＲポイントが識別されると、これらの技法は、これらのＬＩＤＡＲポイントをスコアリングすることと、ＬＩＤＡＲポイントを距離でソートすること（例えば、各ＬＩＤＡＲポイントは、少なくともＬＩＤＡＲセンサからの距離及び角度を含む深度測定値に関連付けられ、ソートは、これらを最小の距離から最大の距離へ又はその逆に整理することを含むことができる）と、ソートされたＬＩＤＡＲポイントの加重メジアンに関連付けられたＬＩＤＡＲポイントを識別することとをさらに含むことができる。いくつかの例では、ＬＩＤＡＲポイントのスコアは、加重メジアンを求めるために重みとして使用され得る。いくつかの例では、これらの技法は、加重メジアンであるＬＩＤＡＲポイントに関連付けられた深度測定値を、一次深度推定値として識別することを含むことができる。

しかしながら、いくつかのシナリオでは、第２のオブジェクトが、画像内の検出されたオブジェクトの少なくとも部分を遮蔽することがある。場合によっては、一次深度推定値が実際には第２のオブジェクトに対応するように第２のオブジェクトが配置されることがあり、第２のオブジェクトは、検出されたオブジェクトの少なくとも一部の前に出現する場合に遮蔽オブジェクトであり得る。これに対処するために、これらの技法は、一次深度推定値の範囲内の距離に対応するＬＩＤＡＲポイントのグループを除去することを含むことができる。例えば、一次深度推定値の前の（即ち、ＬＩＤＡＲセンサに向かって）０．８ｍと、一次深度推定値の後の（即ち、ＬＩＤＡＲセンサから一次深度推定値の反対側の）１．６ｍとの間にある深度測定値に関連付けられた任意のＬＩＤＡＲポイントが除外され得る。これらの技法は、この範囲の外側にある深度測定値に関連付けられたＬＩＤＡＲポイントのサブセットを識別することと、ＬＩＤＡＲポイントのサブセットをソートすることと、ＬＩＤＡＲポイントのサブセットの加重メジアンを識別することと、二次深度推定値としてサブセットの加重メジアンを識別することとを含むことができる。

遮蔽オブジェクトではなく検出されたオブジェクトに真に関連付けられているものとして一次深度推定値と二次深度推定値を区別するために、これらの技法は、一次深度推定値と二次深度推定値との間の差、例えば、２つの推定値間の距離などを決定することを含み得る。これらの技法は、これを閾値差と比較することができ、閾値差は、静的に定義され得る（例えば、１．５メートル、３メートル）、又は検出されたオブジェクトの分類に関連付けられ得る（例えば、トラックトレーラの場合は６メートル、ピックアップトラックの場合は３メートル、乗用車両の場合は２メートル、小型車両の場合は１メートル）。

差が閾値差以下である（例えば、２つの推定値間の差が１メートルであり、検出されたオブジェクトが２メートルの閾値差に関連付けられた乗用車両である）場合、これらの技法は、推定値を両方とも検出されたオブジェクトに対応するものとして識別することができる。いくつかの例では、これらの技法は、一次深度推定値を最終推定値として出力することができ、及び／又は推定値を平均することなどができる。

差が閾値差を満たす及び／又は超える（例えば、２つの推定値間の差が３メートルであり、検出されたオブジェクトが、２メートルの閾値差に関連付けられた乗用車両である）場合、これらの技法は、第１の深度推定値及び第２の深度推定値を単眼画像モデルの出力と比較すること（例えば、検出されたオブジェクトの推定された高さ及び／又は検出されたオブジェクトの分類を入力として取り入れ、特定の深度測定値がオブジェクトに対応する確率密度を識別する特定の深度測定値についての深度の確率分布を出力する、機械学習されたモデル）、第１の深度推定値に関連付けられたＬＩＤＡＲポイントの第１の密度を第２の深度に関連付けられたＬＩＤＡＲポイントの第２の密度と比較すること（例えば、どちらが、ＬＩＤＡＲポイントのより高い密度及び／又はより大きい数に関連付けられているかを識別する）、及び／又は第１の深度推定値及び第２の深度推定値を、オブジェクトに関連付けられたオブジェクトトラック（object track）と比較することによって、一次深度推定値又は二次深度推定値のうちの一方を選ぶことができる。いくつかの例では、オブジェクトトラックは、検出されたオブジェクトの以前の位置、検出されたオブジェクトの速度、及び／又は検出されたオブジェクトの予測された位置及び／又は速度を含むことができる。いくつかの例では、一次深度推定値又は二次深度推定値のうちの一方が、検出されたオブジェクトに関連付けられることになる出力深度推定値として識別され得る。いくつかの例では、２つのうちの他方が破棄され、又は遮蔽オブジェクトに関連付けられ得る。

いくつかの例では、ＬＩＤＡＲポイントをスコアリングすることは、単眼画像モデルによって生成された確率分布（例えば、画像の検出されたオブジェクトの及び／又は検出されたオブジェクトの分類を入力として取り入れ、代表的な深度にわたる確率分布を出力する機械学習されたモデル）から、ＬＩＤＡＲポイントによって識別された距離測定値に関連付けられた確率密度（例えば、単位長さあたりの確率を表す確率密度）を決定することを含むことができる。スコアリングは、追加的又は代替的に、ＬＩＤＡＲポイントを３次元空間から２次元空間におけるＲＯＩに投影して、投影されたＬＩＤＡＲポイントが２次元座標に関連付けられるようにすることと、ＲＯＩの中心への２次元座標の距離を決定することと、距離に少なくとも部分的に基づく係数（例えばスカラー）を生成すること（例えば、距離が増大するにつれて係数が減少する）とを含むことができる。いくつかの例では、ＬＩＤＡＲポイントについてのスコアを生成することは、確率密度に係数を掛けることを含む。

いくつかの例では、これらの技法は、３次元ＬＩＤＡＲポイントをＲＯＩに投影して、個々の投影されたＬＩＤＡＲポイント（即ち、２次元の画像空間へのＬＩＤＡＲポイントの「投影」）を画像の座標と対応させることによって、視覚データとＬＩＤＡＲデータを単一データセットに融合することを含むことができる。いくつかの例では、この融合は、カメラ及び／又はＬＩＤＡＲセンサの法平面からの偏差（例えば、環境外乱による揺れ）の速度を追跡することによって改善され得る。

本明細書で論じられる技法は、画像内の検出されたオブジェクトの深度を決定できるようにコンピュータを装備することによって、コンピュータの機能を改善することができる。さらに、これらの技法は、ステレオカメラ技術より、及び／又は専ら単眼画像モデルを使用して、オブジェクトの深度推定値の精度を改善することができる。これらの技法はまた、例えば、マルチビュー又はステレオジオメトリ再構成を必要とするのではなく単眼画像を使用して深度推定値を提供することによって、特定のＦＯＶについての深度知覚を提供するのに必要な画像センサの数を減少させる。このような冗長センサの除外は、対応して、深度知覚を達成するために必要な計算サイクルの数を減少させ、電力及び／又はネットワーク帯域幅などの他の消費を減少させる。さらに、事前の実験中に、本明細書で論じられる技法は、検出されたオブジェクトについての深度推定値を約６ミリ秒以下で提供しており、深度推定値を自律車両の制御などのリアルタイムアプリケーションに有用にしている。

例示的なシナリオ
図１Ａは、この例ではバンである検出されたオブジェクト１０２と、画像内の検出されたオブジェクトの位置を識別するように生成されたＲＯＩ１０４とを含む例示的な画像１００を示す。図１ＡのＲＯＩ１０４は、２次元バウンディングボックスによって示されている。しかしながら、任意の他の適切な方法が、画像に対応する画像のピクセルのグループを示すために使用されてよいことは理解されよう（例えば、一般にインスタンスと呼ばれることがある、車両に関連付けられた離散ピクセルを識別するピクセルマスク）。いくつかの例では、画像及び／又はバウンディングボックスは、自律車両の視覚システムによって生成され、検出されたオブジェクトに関連付けられた深度を知覚システムが決定するために自律車両の知覚システムによって受信され得る。

図１Ｂは、深度知覚問題（又はスケール曖昧さ）をより完全に説明する例示的なシナリオ１０６のブロック図を示す。図１Ｂは、画像を撮って画像内にオブジェクト（例えば、車両１１０）を検出した、例示的な車両１０８（例えば、カメラを含む自律車両）を図示する。例示的な車両１０８は、バウンディングボックスを使用して、検出されたオブジェクト１１０に対応するピクセルを識別していることが可能であるが、画像は、カメラの位置に対して水平及び垂直に２次元での位置データを提供するのみである。したがって、画像は、カメラに対する検出されたオブジェクト１１０の深度を識別するには不十分であり、検出されたオブジェクト１１０は、画像に取り込まれた検出されたオブジェクト１１０の表面に対応する深度１１２又は深度１１４に等しく配置される可能性がある。仮定として、例示的な車両１０８のカメラで発生する１１６によって示される光線が、ＲＯＩのエッジによって囲まれ得るが、カメラから無限に離れて延びる可能性がある。

例示的なＬＩＤＡＲデータ
図２Ａ及び図２Ｂは、例示的なシナリオ２００、星で表され例示的な車両２０２のＬＩＤＡＲセンサにより取り込まれる例示的なＬＩＤＡＲデータ、例示的な検出されたオブジェクト２０４、及び例示的な遮蔽オブジェクト２０６（例えば、道標の柱）の鳥瞰図及び側面プロファイル図をそれぞれ示す。例えば、図示されたＬＩＤＡＲデータは、１つのメタスピンに取り込まれたＬＩＤＡＲデータを表すことができる。実際には、点群は、ここに図示されている数十個ではなく数万個以上のポイントを含む可能性が高いことが理解されよう。車両２０２は、少なくともカメラ及びＬＩＤＡＲセンサが装備された自律車両を表すことができる。

図示された例示的なシナリオ２００では、車両２０２は既に、カメラを使用して画像（２０８）を取り込み、画像２０８内のオブジェクト２０４を検出し、ＲＯＩ２１０を生成して画像内の検出されたオブジェクト２０４の場所を識別し、画像が撮られた時間に時間的に最も密接に対応するメタスピンに関連付けられたデータを決定している。光線２１２は、ＲＯＩ２１０の境界を表し、これは、ＲＯＩ２１０の２次元境界内の任意のポイントに対応することができ、したがって、第３の次元（即ち、この場合は深度）において制限されない。したがって、光線（又は線）２１２は、カメラに対応する錐台（例えば、センサ面、画像面など）に関連付けられ、無限に続く可能性があるが、知覚エンジンが、検出されたオブジェクトに合理的に対応し得るＬＩＤＡＲポイントを識別するためにＬＩＤＡＲセンサの許容限界（例えば１５０メートル）によって光線２１２の範囲を制限してよい。いくつかの例では、ＲＡＤＡＲポイントがＬＩＤＡＲセンサの許容限界を超えて使用されてよく、及び／又はＲＡＤＡＲデータが追加的又は代替的に使用されてよい。ＬＩＤＡＲデータとＲＡＤＡＲデータの両方が使用されるいくつかの例では、ＲＡＤＡＲデータは、より遠距離（例えば、車両２０２の１５０メートル又は１００メートル外側）で、ＬＩＤＡＲは、より近距離（例えば、車両２０２から１５０メートル又は１００メートル以内）で、より大きく重み付けされ得る。ＬＩＤＡＲデータがより遠距離で、ＲＡＤＡＲデータがより近距離で、より大きく重み付けされ得ることも企図される。本明細書ではＬＩＤＡＲデータについて論じているが、本明細書で論じられる技法は、表面の３次元の位置を検出する任意のセンサ（例えば、ＬＩＤＡＲ、ＲＡＤＡＲ、環境の表面の点群又は他の表現を生成することができる任意のセンサ）からデータを受信するシステムに等しく適用され得る。

いくつかの例では、知覚システムは、ＬＩＤＡＲセンサの位置及び／又は向きに対する空間内のカメラの位置及び／又は向き、ＬＩＤＡＲデータの個々のポイントに関連付けられた距離及び角度、及び／又は光線２１２に少なくとも部分的に基づいて、どのＬＩＤＡＲポイントがＲＯＩ２１０と対応するかを決定することができる。ＲＯＩ２１０に対応すると決定されたＬＩＤＡＲポイントは、ＬＩＤＡＲポイント２１４のように影付きの星で示され、ＲＯＩ２１０の外側にある残りのＬＩＤＡＲポイントは、ＬＩＤＡＲポイント２１８のように白い中心を有して示される。

図示された例は、ＲＯＩ２１０に対応するＬＩＤＡＲポイントであって、検出されたオブジェクト２０４の表面に対応するＬＩＤＡＲポイントのクラスタ２２０を含むＬＩＤＡＲポイントと、遮蔽オブジェクト２０６の表面に対応するＬＩＤＡＲポイントのクラスタ２２２と、画像２０８の背景におけるオブジェクトの表面に対応するＬＩＤＡＲポイント２１４とを含む。

いくつかの例では、知覚エンジンがＲＯＩ２１０に対応するＬＩＤＡＲポイント（影付きの星で示される）を識別すると、図２Ｃに図示されるように、知覚エンジンは、ＬＩＤＡＲポイント（即ち、この例では、クラスタ２２０及び２２２及びポイント２１４）を画像２０８内へ投影することができる。これは、理解されるように、対応する画像座標にＬＩＤＡＲポイントを投影することを含むことができる。追加的又は代替的に、これは、３次元ＬＩＤＡＲポイントを２次元投影されたＬＩＤＡＲポイントに投影すること（即ち投影）を含むことができる。検出されたオブジェクト２０４の表面に対応するクラスタ２２２におけるＬＩＤＡＲポイントの数が、図２Ｃでは簡単にするために２つのポイントに減らされていることに留意されたい。

例示的なＬＩＤＡＲポイントスコアリング
図３は、図２Ａ～図２Ｃの例示的なシナリオに対応する単眼画像モデルによって生成された例示的な確率分布３００、及び３つの例示的なＬＩＤＡＲポイント３０２、３０４、及び３０６に関連付けられた例示的な確率の図を示す。

いくつかの例では、検出されたオブジェクトの深度を識別するために、入力としてオブジェクト分類及び／又はＲＯＩ２１０を取り入れる単眼高さが使用され得る。２０１７年３月８日に出願された「ＯｂｊｅｃｔＨｅｉｇｈｔＥｓｔｉｍａｔｉｏｎｆｒｏｍＭｏｎｏｃｕｌａｒＩｍａｇｅｓ」という名称の米国特許出願第１５４５３５６９号明細書は、そのようなモデルを記載しており、参照により本明細書に組み込まれる。単眼画像モデルは、機械学習モデル、例えば、畳み込みニューラルネットワーク（ＣＮＮ）などを含むことができる。いくつかの例では、単眼画像モデルは、入力として画像（例えばＲＯＩ２１０）及び／又はオブジェクト分類を受け入れることができ、例示的な確率分布３００と同様の確率分布を出力することができる。

いくつかの例では、図３のように、確率分布３００は一連のビンを含むことができ、各ビンは、オブジェクトの推定されたサイズ範囲及び／又はオブジェクトの推定された距離を表す。図３は、後者の場合を図示し、異なるビンは、推定された距離の範囲及び確率に関連付けられる。例えば、確率は、オブジェクトの分類及び／又はオブジェクトの高さ推定値に基づき、距離測定値がオブジェクトに関連付けられる確率であり得る。非限定的な例として、８つのビンを有する出力は、０～２ｍ、２～４ｍ、４～６ｍ、６～８ｍ、８～１０ｍ、１０～１００ｍに応じて深度分布を表すことができ、各ビンに関連付けられた値は、データに関連付けられた深度がそのビン内にある確率を示す。ビンは等しい幅を有して図３に図示されているが、ビンは異なる幅を有してよいことは理解されよう（例えば、ビン幅は、確率分布の平均から標準の４分の１又は半分に対応するように計算されてよい）。いくつかの例では、最初及び最後のビンは、最小深度未満でなく最大深度を超えないデータを表すことができる。いくつかの例では、最初及び最後のビンの分布が（例えば、線形、指数関数的、ガウス分布、又は任意の他の分布に）スケーリングされ得る。システムが単眼画像モデルの出力のみを使用して検出されたオブジェクト２０４の深度を推定する例では、システムは、最も高い確率に関連付けられたビンからオブジェクトの推定されたサイズを取り出すことができる。

図示された例において、及び本明細書で論じられる改善された技法を使用するシステムにおいて、これらの技法は、確率分布３００から、ＬＩＤＡＲポイントに関連付けられた深度測定値に対応する確率を識別することを含むことができる。例えば、図３では、ＬＩＤＡＲポイント３０６は、最も低い確率に関連付けられ、ＬＩＤＡＲポイント３０２は、わずかにより高い確率に関連付けられ、ＬＩＤＡＲポイント３０４は、図示された３つのＬＩＤＡＲポイントの最も高い確率に関連付けられる。

いくつかの例では、これらの技法は、確率分布３００から、ＬＩＤＡＲポイントによって識別される深度測定値に対応する確率密度を決定することを含むことができる。確率密度は、ビンの幅によって修正された（例えば除算された）ビンの高さ（即ち確率）であり得るが、高さ及び幅を考慮して確率密度を計算する他の方法も企図される。この確率密度は、距離測定値に関連付けられた確率密度を示し得る。

いくつかの例では、確率分布３００は、平均、標準偏差、及び／又は信頼スコアをさらに含むことができる。本明細書で論じられる技法は、ＲＯＩ２１０などのＲＯＩの推定深度にわたる確率分布を生成し、各ＬＩＤＡＲポイントに関連付けられた確率及び／又は確率密度を識別することをさらに含むことができる。いくつかの例では、本明細書で論じられる技法は、ＲＯＩを単眼画像モデルに入力することを含み、いくつかの例では、オブジェクト分類（例えば、車両２０２の知覚システムによって決定される表示、例えば、「乗用車両」、「小型車両」、「配達用トラック」、「トラックトレーラ」、「ピックアップトラック」、「自転車」、「歩行者」など）も単眼画像モデルに同様に入力することができる

図４Ａは、後続の図で議論するためのいくつかの選択された例示的なＬＩＤＡＲポイントに関連付けられた深度測定の側面プロファイル図を示す。これらの例示的なＬＩＤＡＲポイントは、遮蔽オブジェクト２０６の表面に関連付けられたＬＩＤＡＲポイント４００のクラスタ、検出されたオブジェクト２０４の表面に関連付けられた２つのポイント（４０２及び４０４）、及びＲＯＩ２１０の背景におけるオブジェクトの表面に関連付けられたＬＩＤＡＲポイント４０６を含む。

図４Ｂは、後続の図で議論するための例示的なＬＩＤＡＲポイント４００～４０６の対応する画像への例示的な投影を示す。いくつかの例では、車両２０２の知覚エンジンは、３次元ＬＩＤＡＲポイント４００を画像へ投影して（これは、ＲＯＩ２１０内に投影するはずである）、２次元ＬＩＤＡＲ投影を生成することができる。投影されたＬＩＤＡＲポイント４００’は、画像空間へのＬＩＤＡＲポイント４００の投影であり得る。投影されたＬＩＤＡＲポイント４０２’は、画像空間へのＬＩＤＡＲポイント４０４の投影であり得る。投影されたＬＩＤＡＲポイント４０４’は、画像空間へのＬＩＤＡＲポイント４０４の投影であり得る。投影されたＬＩＤＡＲポイント４０６’は、画像空間へのＬＩＤＡＲポイント４０６の投影であり得る。いくつかの例では、個別のＬＩＤＡＲポイントを画像へ投影することは、個別のＬＩＤＡＲポイントを画像座標に関連付け、これは、その座標が個別のＬＩＤＡＲポイントの画像への投影に最も近い座標であることに少なくとも部分的に基づいて関連付けることができる。

本明細書で論じられる技法は、空間位置及び時間においてＲＯＩ２１０に対応すると決定されたＬＩＤＡＲポイントについてのスコアを生成することを含むことができる。車両１０２の知覚エンジンは、図４Ｃが示すように、ＲＯＩ２１０の中心からの投影された個別のＬＩＤＡＲポイントの距離に反比例し得る係数に少なくとも部分的に基づいて、個別のＬＩＤＡＲポイントのスコアを生成することができる。いくつかの例では、この距離は、ＲＯＩ２１０のサイズに正規化された２次元ガウス分布及び／又は放物線によって定義された係数に適合し又は他の形式で対応して係数を生成することができるが、任意の他の関連付け（例えば、ユークリッド距離、線形、二次式、多項式など）も企図される。いくつかの例では、分布は、ＲＯＩ２１０の最も遠い縁又はコーナーがＲＯＩ２１０の中心からの２標準偏差であるように正規化されてもよい。

図４Ｃは、ＲＯＩの中心４１８からの増加する距離に基づいて係数の減少する値を示す、等高線リング４１０、４１２、４１４、及び４１６を含む分布４０８の例を図示する。議論のために、中心４１８はユークリッド空間内の点（ｘ＝０、ｙ＝０）に対応することができるが、視覚システムは任意の他の適切な様式でＲＯＩのピクセルを参照してよい。図４Ｃはまた、投影されたＬＩＤＡＲポイント４００’～４０６’を、明確にするためにそれらの番号識別子を含まずに図示している。図４Ｃはまた、線４２２（ｙ＝０）及び等高線リング４１０、４１２、４１４、及び４１６に対応する係数値を通過して決定され得るような、距離スコア関数の表現４２０を示す。例えば、中心４１８は、最大の係数値４２４に関連付けられる。ｙ＝０と等高線リング４１０により定義されるｘ値とに対応するＲＯＩ２１０内のポイントにおける係数値は、係数値４２６であると見出され、同様に、ｙ＝０と等高線リング４１２及び４１４により定義されるｘ値については、係数値４２８及び４３０にそれぞれ対応し得る。図４Ｃでは図で示されているが、そのような係数値は以下の方程式を使用して決定され得る。

ここで、Ａは、ある定義された最大スコアを表し、（ｘ_c、ｙ_c）は、画像座標におけるＲＯＩ２１０の中心を表し、ｄは、そのような分布の幅に関連付けられたいくつかの所望の係数を表す。

スコア又は係数はガウス分布として図示されているが、任意の適切な分布が使用されてよく、例えば、純粋にユークリッド距離に基づくスカラー、多数の極大値を含む分布（例えば、多数のオブジェクトが検出される場合、又はガウス混合モデルなどを使用する特定のタイプの環境の場合）、放物線、その他、及び上述されたスコアリング関数の任意の逆（例えば、ＲＯＩの中心からポイントが離れていくにつれて増加するスコアリング関数）が使用され得ることは理解されよう。

いくつかの例では、本明細書で論じられる技法は、ＲＯＩ２１０の中心４１８からの（２次元の）投影されたＬＩＤＡＲポイントの距離に少なくとも部分的に基づいて、投影されたＬＩＤＡＲポイントの係数（例えばスカラー）を決定することを含むことができる。この係数は、追加的又は代替的に、上述されたように、中心４１８からの距離に関して決定された分布に基づくことができる。

いくつかの例では、本明細書で論じられる技法は、空間及び時間においてＲＯＩ２１０に対応するＬＩＤＡＲポイントについての全体的スコアを生成することができ、ここで、個別のＬＩＤＡＲポイントの全体的スコアを生成することは、図３に関連して論じられたように、単眼画像モデルにより生成された確率分布に関連付けられた確率及び／又は確率密度、及び／又は図４に関連して論じられたように、個別のＬＩＤＡＲポイントに関連付けられた係数に少なくとも部分的に基づくことができる。いくつかの例では、スコアは、確率及び／又は確率密度に係数を掛けることによって生成され得る。

例示的なプロセス
図５Ａ～図５Ｃは、単眼画像の深度知覚のための例示的なプロセス５００（例えば、画像において検出されたオブジェクトの深度推定値を決定する）を示す。いくつかの例では、例示的なプロセス５００が視覚エンジン５０２及び／又は知覚エンジン５０４によって実行され得る。いくつかの動作は、これらのエンジンのうちの１つによって実行されるものとして示されているが、それは、追加的又は代替的に他のエンジンによって実行され得ることは理解されよう。いくつかの例では、視覚エンジン５０２及び／又は知覚エンジン５０４は、自律車両を制御するための自律車両システムの一部であってよい。いくつかの例では、視覚エンジン５０２及び知覚エンジン５０４は、本明細書で論じられる動作のうちの１つ又は複数を並列に実行することができる。例えば、図５Ａ及び５Ｂは、並列に動作する視覚エンジン５０２及び知覚エンジン５０４を示す。視覚エンジン５０２及び知覚エンジン５０４は、（例えば、一方のエンジンでの動作が他方のエンジンでの動作の結果を必要とする場合に）動作の１つ又は複数を連続的に実行してよいことも理解されよう

動作５０６において、例示的なプロセス５００は、本明細書で論じられる技法のいずれかに従って環境の画像を受信することを含むことができる。いくつかの例では、画像は単眼画像（色（例えばＲＧＢ）、グレースケール、ＩＲ、又はＵＶなどのいずれか）であり得るが、画像はステレオ画像（そうでなければマルチビュー画像）であってもよく、また、例示的なプロセス５００は、そのような画像に関連付けられた深度を改善又は検証するために使用されてもよいことは理解されよう。いくつかの例では、自律車両上のカメラが画像を取り込むことができる。

動作５０８において、例示的なプロセス５００は、本明細書で論じられる技法のいずれかに従って、画像から環境内のオブジェクト（例えば、オブジェクト１０２、オブジェクト２０４）を検出することを含むことができる。いくつかの例では、知覚エンジン５０４がオブジェクトを検出することができる。

動作５１０において、例示的なプロセス５００は、本明細書で論じられる技法のいずれかに従って、検出されたオブジェクトに対応するＲＯＩ（例えば、ＲＯＩ１０４、ＲＯＩ２１０）を生成することを含むことができる。例えば、動作５１４は、画像において検出されたオブジェクトに関連付けられた画像座標（例えばピクセル）のバウンディングボックス、インスタンスセグメンテーション、マスク、又は他の識別子を生成することを含むことができる。２つの動作として図示されているが、動作５０８及び５１０及び／又は任意の他の対の動作は、実質的に同時に実行されてよいことは理解されよう。即ち、画像は検出器に入れられてよく、その出力は、特定の１つ又は複数のオブジェクトの検出の表示（例えば、１つ又は複数のバウンディングボックス）である。いくつかの例では、例示的なプロセス５００は、ＲＯＩ及び／又はオブジェクトデータ（例えばオブジェクト分類）を受信することによって始まることができる。

動作５１２において、例示的なプロセス５００は、本明細書で論じられる技法のいずれかに従って、ＬＩＤＡＲデータを受信すること、及び／又は、ＲＯＩ及び／又は画像が取り込まれた時間に対応するＬＩＤＡＲデータのＬＩＤＡＲポイントを決定することを含むことができる。例えば、図２Ａ～図２Ｃの白で充填された星ではなく、図２Ａ～図２Ｃの影付きの星を参照されたい。いくつかの例では、これは、追加的又は代替的に、ＲＡＤＡＲセンサから受信されたＲＡＤＡＲポイントを含むことができる。いくつかの例では、ＲＡＤＡＲデータは、ＬＩＤＡＲの最大範囲（例えば１００メートル）を超えるデータポイントに使用され得る。いくつかの例では、ＲＯＩに空間及び時間で対応するＬＩＤＡＲデータを決定することは、カメラ及びＬＩＤＡＲセンサの知られている位置及び向き、及びＬＩＤＡＲポイントに関連付けられた深度測定値に基づく幾何学的計算を含む。いくつかの例では、ＬＩＤＡＲポイントに関連付けられた「深度測定値」は、ＬＩＤＡＲセンサからの距離、及びＬＩＤＡＲエミッタ／レシーバペアの向きの軸に対する角度を含むことができる。追加的又は代替的な例では、ＲＯＩに対応するＬＩＤＡＲポイントを決定することは、ＲＯＩに対応する画像空間へＬＩＤＡＲポイントを投影することと、ＲＯＩ内の画像座標に関連付けられるＬＩＤＡＲポイントを決定することとを含むことができる。

動作５１４において、例示的なプロセス５００は、本明細書で論じられる技法のいずれかに従って図３で論じられたモデルなどの単眼画像モデルを介して、画像のＲＯＩ内の検出されたオブジェクトの深度の確率分布を生成することを含むことができる。

動作５１６において、例示的なプロセス５００は、本明細書で論じられる技法のいずれかに従って、ＬＩＤＡＲポイントのスコアを生成することを含むことができる。いくつかの例では、これは、ＬＩＤＡＲポイントの各ＬＩＤＡＲポイントについて別個のスコアを生成することを含むことができる。いくつかの例では、個別のＬＩＤＡＲポイントのスコアを生成するのと同じプロセスによって、全てのＬＩＤＡＲポイントについてスコアが生成され得る。個別のＬＩＤＡＲポイントのスコアを生成することは、ＬＩＤＡＲポイントに関連する確率及び／又は確率密度を生じる動作５１６（Ａ）、及び／又はＬＩＤＡＲポイントに関連する係数を生じる動作５１６（Ｂ）を含むことができる。いくつかの例では、スコアを生成することは、動作５１６（Ａ）で決定された確率密度に動作５１６（Ｂ）で決定された係数を掛けることを含むことができる。

いくつかの例では、ＬＩＤＡＲポイントのスコアを生成することは、確率及び／又は確率密度をＬＩＤＡＲポイントに関連付けること、係数をＬＩＤＡＲポイントに関連付けること、及び／又は確率及び／又は確率密度と係数との積をＬＩＤＡＲポイントに関連付けることを含むことができる。例えば、ＬＩＤＡＲポイントのスコアを決定することは、ＬＩＤＡＲポイントにより定義された距離に関連付けられた確率分布のビンの高さ及び幅を決定することと、高さ及び幅に少なくとも部分的に基づいて確率密度を決定することと、ＲＯＩの中心からの投影されたＬＩＤＡＲポイントの距離に少なくとも部分的に基づいて係数を決定することと、確率密度に係数を掛けることによってＬＩＤＡＲポイントのスコアを決定することとを含むことができる。

動作５１６（Ａ）において、例示的なプロセス５００は、本明細書で論じられる技法のいずれかに従って、個別のＬＩＤＡＲポイントに関連付けるための確率及び／又は確率密度を決定することを含むことができる。これは、ＬＩＤＡＲポイントの深度測定値に対応する確率分布上でポイントを決定することを含むことができる。いくつかの例では、これは、そのＬＩＤＡＲポイントを、確率分布上のビン及びそれに関連付けられた確率に関連付けること、及び（少なくともいくつかの例では）関連付けられたビンの幅によって値を調整して（例えば割る）、それに関連付けられた確率密度を決定することを含むことができる。

動作５１６（Ｂ）において、例示的なプロセス５００は、本明細書で論じられる技法のいずれかに従って、個別のＬＩＤＡＲポイントに関連付けるための係数を決定することを含むことができる。いくつかの例では、動作５１６（Ｂ）は、ＬＩＤＡＲポイントごとに係数を決定することを含むことができる。動作５１６（Ｂ）は、個別のＬＩＤＡＲポイントをＲＯＩの画像空間へ投影して、個別のＬＩＤＡＲ投影からＲＯＩの中心までの距離を決定することを含むことができる。これにより、投影されたＬＩＤＡＲポイントは、ＲＯＩの画像空間における座標に関連付けられ得る。いくつかの例では、ＬＩＤＡＲポイントの投影のＲＯＩの中心からの距離が増加するにつれて、ＬＩＤＡＲポイントに割り当てられた係数の大きさが減少してよい。いくつかの例では、この減少は、ガウス分布、ユークリッド距離、放物線、多数の極大値を含むトポロジーなどによって定義され得る。より詳細には、少なくとも図４Ａ～図４Ｃ及び付随する議論を参照されたい。

図５Ｂを参照すると、動作５１８において、例示的なプロセス５００は、本明細書で論じられる技法のいずれかに従って、ＬＩＤＡＲポイントを距離でソートすることを含むことができる。例えば、ＬＩＤＡＲポイントは、少なくとも距離を定義し、いくつかの例では角度（又は、例えば方位角と仰角の角度）を定義する深度測定値に関連付けられる。いくつかの例では、ＬＩＤＡＲポイントは最小距離から最大距離へソートされるが、これは逆にされてもよい。言い換えれば、ＬＩＤＡＲポイントは少なくとも距離を定義し、したがって、ＬＩＤＡＲポイントはこの距離の大きさに従ってソートされる。少なくともいくつかの例では、先に進む前に、最も遠い及び最も近いＬＩＤＡＲポイントのパーセンテージ分（例えば、最も近い及び最も遠い５％）が棄却され得る。

動作５２０において、例示的なプロセス５００は、本明細書で論じられる技法のいずれかに従って、ソートされたＬＩＤＡＲポイントの加重メジアンを決定することと、一次深度推定値として、加重メジアンに関連付けられた深度測定値を選択することとを含むことができる。いくつかの例では、ＬＩＤＡＲポイントに対して生成されたスコアが、加重されたスコア決定のための重みとして使用され得る。例えば、距離でソートされたｎ個のＬＩＤＡＲポイントｘ₁，ｘ₂，…，ｘ_nについて、

であるようにＬＩＤＡＲポイントに対応するスコアｗ₁，ｗ₂，…，ｗ_nを正規化することによって加重メジアンが求められ、加重メジアンは、

及び

を満たすＬＩＤＡＲポイントｘ_kであり得る。

いくつかの例では、一次深度推定値は、加重メジアン（例えば、距離及び角度）に対応するＬＩＤＡＲポイント自体を含むことができ、又は他の例では、一次深度推定値は、例えばＲＯＩの中心のような検出されたオブジェクト上のポイントを介するカメラからの光線へのＬＩＤＡＲポイントの距離及び／又は投影を含むことができる。

いくつかの例では、例示的なプロセス５００は、少なくとも動作５１６を除外してよく、ＬＩＤＡＲポイントのスコアを生成することなくＬＩＤＡＲポイントのメジアンを決定してよい。しかしながら、場合によっては、動作５１６を省略することにより、深度推定値の精度を低下させることがある。

動作５２２において、例示的なプロセス５００は、本明細書で論じられる技法のいずれかに従って、検出されたオブジェクトの位置に少なくとも部分的に基づいて、車両プランナが自律車両を制御するために、一次深度推定値を車両プランナに出力することを含むことができる。いくつかの例では、知覚エンジン５０４は、ＲＯＩ及び深度推定値を出力することができ、これは、環境内の検出されたオブジェクトの位置を識別するために十分であり得る。例えば、いくつかの例では、知覚エンジン５０４は、少なくとも位置を出力することができ、いくつかの例では、検出されたオブジェクトのサイズ及び／又は向きを、深度推定値及び／又はローカル及び／又はグローバルマップに関係しそれと共に記憶され得る対応するＲＯＩに少なくとも部分的に基づいて出力することができる。いくつかの例では、深度推定値を使用して、検出されたオブジェクトのサイズを決定するために幾何学的計算を実行することができる。

動作５２４において、例示的なプロセス５００は、本明細書で論じられる技法のいずれかに従って、ＬＩＤＡＲポイントからＬＩＤＡＲポイントの一部を除去することを追加的又は代替的に含むことができる。ＬＩＤＡＲポイントの一部は、１つ又は複数の距離閾値よりも小さい及び／又は大きい距離測定値に関連付けられ得る。例えば、知覚エンジン５０４は、一次深度推定値から１メートルより小さい及び／又は１メートルより大きい距離測定値に関連付けられたＬＩＤＡＲポイントを除去することができるが、そのような距離閾値は対称的である必要はない。「前」への言及は、一次深度推定値とＬＩＤＡＲデバイスとの間にあるポイントを含むと解釈されてよく、「後」は、一次深度推定値を超えてＬＩＤＡＲデバイスから離れて位置することを意味すると解釈されてよい。いくつかの例では、範囲は、一次距離測定値の前の０．８メートルから一次距離測定値の後の１．６メートルまでの範囲内にある距離測定値を含むことができる。いくつかの例では、範囲は、一次距離測定値の前の１．６メートルから一次距離測定値の後の１．６メートルまでの範囲内にある距離測定値を含むことができる。多くの変形例が企図され、範囲は、検出されたオブジェクトに関連付けられたオブジェクト分類に少なくとも部分的に基づいて変化してよい。例えば、範囲は、「配達用トラック」として分類された検出されたオブジェクトについては０．８メートル前から３メートル後、「小型車両」として分類された検出されたオブジェクトについては０．５メートル前から１．２メートル後、又は「トラックトレーラ」として分類された検出されたオブジェクトについては１メートル前から８メートル後として定義され得る。同様に、動作５２４は、範囲の外側になる距離測定値に関連付けられたＬＩＤＡＲポイントのサブセットを識別することによって実現されてよい。

ＬＩＤＡＲポイントのグループのこの除去は、例えば、ＬＩＤＡＲポイント４００’などの遮蔽オブジェクト（例えば遮蔽オブジェクト２０６）に帰せられるポイントを除去するために有効であり得る。４００’に示されているようなＬＩＤＡＲポイントは、場合によっては、ＬＩＤＡＲポイント４０２’及び４０４’などの検出されたオブジェクトに真に対応するＬＩＤＡＲポイントを圧倒することがある。この除去は、二次深度推定値を識別しようとする。

動作５２６において、例示的なプロセス５００は、本明細書で論じられる技法のいずれかに従って、範囲外にある深度測定値に関連付けられたＬＩＤＡＲポイントのサブセットを距離でソートすることを含むことができる。

動作５２８において、例示的なプロセス５００は、本明細書で論じられる技法のいずれかに従って、ＬＩＤＡＲポイントのソートされたサブセットの第２の加重メジアンを決定することと、二次深度推定値として、第２の加重メジアンに関連付けられた深度測定値を選択することとを含むことができる。言い換えれば、上述された第１の加重メジアンは、ＲＯＩに関連付けられた全てのＬＩＤＡＲポイントの加重メジアンであるが、第２の加重メジアンは、それらのＬＩＤＡＲポイントのサブセット、例えば、上述された範囲の外側にある距離に関連付けられたそれらのＬＩＤＡＲポイント、及び／又は上述された範囲の内側にある距離に関連付けられたそれらのＬＩＤＡＲポイントの加重メジアンである。

動作５３０において、例示的なプロセス５００は、本明細書で論じられる技法のいずれかに従って、一次深度推定値と二次深度推定値の特性及び／又はそれに関連付けられたＬＩＤＡＲポイントの特性を比較することを含むことができる。動作５３０は、検出されたオブジェクトの深度の真の表示と偽の表示を区別することができる。例えば、動作５３０は、オブジェクト自体ではなく遮蔽オブジェクトに対応する深度推定値を区別するように実行され得る。いくつかの例では、動作５３０は、一次深度推定値に関連付けられたＬＩＤＡＲポイントの数及び／又は空間密度を、二次深度推定に関連付けられたＬＩＤＡＲポイントの数及び／又は空間密度と比較することを含むことができる。例えば、範囲外のひいては二次深度推定値に関連付けられたＬＩＤＡＲポイントのサブセットが、範囲内のＬＩＤＡＲポイントよりも大幅に少ない数のＬＩＤＡＲポイントに関連付けられている場合、これは、一次深度推定値が、検出されたオブジェクトに真に関連付けられていること、及び一次深度推定値に関連付けられたＬＩＤＡＲポイントが、検出されたオブジェクトの表面に関連付けられていることを示し得る。いくつかの例では、動作５３６は、ＲＯＩの中心からの距離の関数として、一次深度推定値及び／又は二次深度推定値に関連付けられたＬＩＤＡＲポイントの密度を追加的又は代替的に含むことができる。二次ＬＩＤＡＲポイントがより濃くＲＯＩの中心から離れてあるほど（即ち、範囲外のＬＩＤＡＲポイント）、それらは、検出されたオブジェクトではなく第２のオブジェクト（即ち遮蔽オブジェクト）に関連付けられている可能性が高くなり得る。

追加的又は代替的に、動作５３０は、単眼画像モデルによって生成された確率分布から、一次深度推定値及び二次深度推定値に関連付けられた確率及び／又は確率密度を決定することを含むことができる。例えば、動作５３０は、二次深度推定値よりも低い確率及び／又は確率密度に一次深度推定値が関連付けられていると決定することを含むことができる。これは、一次深度推定値が遮蔽オブジェクトに帰せられる場合に発生する可能性が高くなり得る。

追加的又は代替的に、動作５３０は、オブジェクトトラック又は予測されたオブジェクトトラックに対する一次深度推定値の第１の適合及び二次深度推定値の第２の適合を決定することを含むことができる。いくつかの例では、オブジェクトトラック又は予測されたオブジェクトトラックにより密接に対応する深度推定値が、出力されるべき深度推定値として選択され得る。

いくつかの例では、動作５３０は、上述された技法のいずれかに少なくとも部分的に基づき、一次深度推定値及び二次深度推定値のスコアを生成することができるスコアリング関数を含むことができる。いくつかの例では、オブジェクトトラック技法は、スコアリング関数に含まれなくてよいが、同点のスコアを破るために使用され得る。

動作５３２において、例示的なプロセス５００は、本明細書で論じられる技法のいずれかに従って、比較に少なくとも部分的に基づいて、一次推定値、二次深度推定値、及び／又はその平均又はモードを車両コントローラ（例えば車両プランナ）に出力することを含むことができる。例えば、より高いスコア、より高い確率及び／又は確率密度に関連付けられた、及び／又はオブジェクトトラックにより密接に対応する深度推定値は、検出されたオブジェクトに関連付けられ自律車両を制御するために依拠される出力深度推定値として、車両プランナに出力され得る。いくつかの例では、例示的なプロセス５００は、一次深度推定値と二次深度推定値の平均を、それらが互いの閾値内又は最も高い可能な確率及び／又は確率密度の閾値内にある場合に出力することを含むことができる。

動作５３４、例示的なプロセス５００は、本明細書で論じられる技法のいずれかに従って、出力のために１つの深度推定値のみが選択された場合、動作５３２で出力されなかった深度推定値を破棄すること、又はその深度推定値を第２のオブジェクト（例えば遮蔽オブジェクト）に関連付けることを追加的に含むことができる。例えば、動作５３４は、第２のオブジェクトがＲＯＩ内に現れるという表示を生成することを含むことができる。知覚エンジン５０４は、この表示を使用して、第２のオブジェクトを識別するために元の画像及び／又はＲＯＩを再評価することができる。これは、様々なオブジェクト検出手法、及び／又はオブジェクト検出を行うために使用される機械学習モデルを含むことができる。第２のオブジェクトが検出された場合、第１の検出されたオブジェクトに関連して出力されなかった他の深度推定値が、第２のオブジェクトに関連して車両プランナに出力され得る。

例示的なアーキテクチャ
図６は、本明細書で論じられる技法のいずれかに従って、生成された深度推定値を使用して、自律車両などの少なくとも１つの車両の動作を制御するための例示的な車両システム６０２を含む例示的なアーキテクチャ６００のブロック図である。いくつかの例では、車両システム６０２は、車両１０８及び／又は２０２の少なくとも一部を表すことができる。いくつかの例では、このアーキテクチャは、画像において検出されたオブジェクトの深度を決定するために他の機械で使用され得る。

いくつかの例では、車両システム６０２は、プロセッサ６０４及び／又はメモリ６０６を含むことができる。これらの要素は、図６では組み合わせて示されているが、いくつかの例では、それらは車両システム６０２の別個の要素であってよく、システムの構成要素はハードウェア及び／又はソフトウェアとして実装され得ることが理解されよう。

プロセッサ６０４は、１つのプロセッサを含む単一プロセッサシステム、又はいくつかのプロセッサ（例えば、２、４、８、又は別の適切な数）を含むマルチプロセッサシステムを含むことができる。プロセッサ６０４は、命令を実行することができる任意の適切なプロセッサとすることができる。例えば、様々な実装形態において、プロセッサは、任意の様々な命令セットアーキテクチャ（ＩＳＡ）、例えば、ｘ８６、ＰｏｗｅｒＰＣ、ＳＰＡＲＣ、ＭＩＰＳＩＳＡ、又は任意の他の適切なＩＳＡを実装する汎用プロセッサ又は組み込みプロセッサであり得る。マルチプロセッサシステムでは、各プロセッサ６０４は、必ずではないが一般的には同じＩＳＡを実装することができる。いくつかの例では、プロセッサ６０４は、中央処理装置（ＣＰＵ）、グラフィックス処理装置（ＧＰＵ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、又はそれらの組み合わせを含み得る。

例示的な車両システム６０２は、メモリ６０６を含むことができる。いくつかの例では、メモリ６０６は、プロセッサ６０４によってアクセス可能な実行可能命令／モジュール、データ、及び／又はデータ項目を記憶するように構成された、非一時的コンピュータ可読媒体を含むことができる。様々な実装形態において、非一時的コンピュータ可読媒体は、スタティックランダムアクセスメモリ（ＳＲＡＭ）、同期ダイナミックＲＡＭ（ＳＤＲＡＭ）、不揮発性／フラッシュタイプメモリ、又は任意の他のタイプのメモリなど、任意の適切なメモリ技術を使用して実装され得る。図示の例では、上記されたような所望の動作を実装するプログラム命令及びデータが、非一時的コンピュータ可読メモリ内に記憶されて示されている。他の実装形態では、プログラム命令及び／又はデータは、様々なタイプのコンピュータアクセス可能媒体、例えば非一時的コンピュータ可読媒体において、又は非一時的コンピュータ可読媒体とは別の同様の媒体において、受信、送信、又は記憶され得る。非一時的コンピュータ可読メモリは、入力／出力（「Ｉ／Ｏ」）インターフェース６０８を介して例示的な車両システム６０２に結合されたフラッシュメモリ（例えばソリッドステートメモリ）、磁気又は光媒体（例えばディスク）などの記憶媒体又はメモリ媒体を含むことができる。非一時的コンピュータ可読媒体を介して記憶されたプログラム命令及びデータは、例えばネットワークインターフェース６１０を介して実装され得るネットワーク及び／又はワイヤレスリンクなどの通信媒体を介して伝達され得る電気、電磁、又はデジタル信号などの伝送媒体又は信号によって送信され得る。

さらに、図６では単一のユニットとして示されているが、プロセッサ６０４及びメモリ６０６は、車両の多数のコンピューティングデバイスの間、及び／又は多数の車両、データセンター、遠隔操作センターなどの間で分散され得ることが理解されよう。

いくつかの例では、入力／出力（「Ｉ／Ｏ」）インターフェース６０８は、プロセッサ６０４、メモリ６０６、ネットワークインターフェース６１０、センサ６１２、Ｉ／Ｏデバイス６１４、駆動システム６１６、及び／又は車両システム６０２の任意の他のハードウェアの間のＩ／Ｏトラフィックを調整するように構成され得る。いくつかの例では、Ｉ／Ｏデバイス６１４は、外部及び／又は内部のスピーカ、ディスプレイ、搭乗者入力デバイスなどを含むことができる。いくつかの例では、Ｉ／Ｏインターフェース６０８は、プロトコル、タイミング、又は他のデータ変換を実行して、１つの構成要素（例えば非一時的コンピュータ可読媒体）からのデータ信号を、別の構成要素（例えばプロセッサ）による使用に適したフォーマットに変換することができる。いくつかの例では、Ｉ／Ｏインターフェース６０８は、例えば、周辺コンポーネント相互接続（ＰＣＩ）バス規格、ユニバーサルシリアルバス（ＵＳＢ）規格、又はそれらの変形などの様々なタイプの周辺バスを介して取り付けられたデバイスのサポートを含むことができる。いくつかの実装形態では、Ｉ／Ｏインターフェース６０８の機能は、２つ以上の別個の構成要素、例えば、ノースブリッジとサウスブリッジなどに分割され得る。また、いくつかの例では、メモリ６０６へのインターフェースなどのＩ／Ｏインターフェース６０８の機能性の一部又は全てが、車両システム６０２のプロセッサ６０４及び／又は１つ又は複数の他の構成要素に直接組み込まれ得る。

例示的な車両システム６０２は、車両システム６０２と１つ又は複数の他のデバイスとの間に通信リンク（即ち「ネットワーク」）を確立するように構成された、ネットワークインターフェース６１０を含むことができる。例えば、ネットワークインターフェース６１０は、第１のネットワーク６２０を介して車両システム６０２と別の車両６１８との間、及び／又は第２のネットワーク６２４を介して車両システム６０２とリモートコンピューティングシステム６２２との間で、データが交換されるのを可能にするように構成され得る。例えば、ネットワークインターフェース６１０は、別の車両６１８及び／又はリモートコンピューティングデバイス６２２の間のワイヤレス通信を可能にすることができる。様々な実装形態において、ネットワークインターフェース６１０は、Ｗｉ－Ｆｉネットワークなどのワイヤレス一般データネットワークを介した通信、及び／又は遠隔通信ネットワーク、例えば、セルラ通信ネットワーク及び衛星ネットワークなどをサポートすることができる。

いくつかの例では、本明細書で論じられるセンサデータ及び／又は知覚データは、第１の車両で受信され、第１のネットワーク６２０を介して第２の車両へ、及び／又は第２のネットワーク６２４を介してリモートコンピューティングシステム６２２へ送信され得る。

例示的な車両システム６０２は、センサ６１２を含むことができ、センサ６１２は、例えば、環境内の車両システム６０２を位置特定し、環境内の１つ又は複数のオブジェクトを検出し、画像内の検出されたオブジェクトの深度を決定し、その環境を通る例示的な車両システム６０２の動きを感知し、環境データ（例えば、周囲温度、圧力、及び湿度）を感知し、及び／又は例示的な車両システム６０２の内部の状態（例えば、搭乗者数、内部温度、騒音レベル）を感知するように構成される。センサ６１２は、例えば、１つ又は複数のカメラ６２６（例えば、ＲＧＢカメラ、強度（グレースケール）カメラ、赤外線カメラ、ＵＶカメラ、深度カメラ、ステレオカメラ、単眼カメラ）、１つ又は複数のＬＩＤＡＲセンサ６２８、１つ又は複数のＲＡＤＡＲセンサ６３０、１つ又は複数の磁力計、１つ又は複数のソナーセンサ、音を感知するための１つ又は複数のマイクロホン、１つ又は複数のＩＭＵセンサ（例えば、加速度計及びジャイロスコープを含む）、１つ又は複数のＧＰＳセンサ、１つ又は複数のガイガーカウンタセンサ、１つ又は複数のホイールエンコーダ（例えば、回転エンコーダ）、１つ又は複数の駆動システムセンサ、速度センサ、及び／又は例示的な車両システム６０２の動作に関係付けられた他のセンサを含むことができる。

いくつかの例では、これらのタイプのセンサの１つ又は複数は、位相ロックされ（即ち、実質的に同時に車両の環境の実質的に同じ部分に対応するデータを取り込む）、又は非同期とされ得る。本明細書で論じられる技法の目的のために、カメラ６２６及びＬＩＤＡＲ６２８及び／又はＲＡＤＡＲ６３０の出力が非同期である場合、これらの技法は、時間的にカメラデータに最も密接に対応するＬＩＤＡＲデータ及び／又はＲＡＤＡＲデータを決定することを含むことができる。例えば、知覚エンジン６３２がこの決定を行うことができる。

例示的な車両システム６０２は、知覚エンジン６３２と、単眼高さ機械学習（ＭＬ）モデル６３６を含むことができる視覚エンジン６３４と、プランナ６３８とを含むことができる。

視覚エンジン６３４は、メモリ６０６に記憶された命令を含むことができ、命令は、プロセッサ６０４によって実行されたとき、プロセッサ６０４に、車両システム６０２を囲む環境の画像（例えば単眼画像）を受信させ、画像において環境内のオブジェクトを検出させ、検出されたオブジェクトに対応するものとして画像の一部分を識別するＲＯＩ（例えば、バウンディングボックス、ピクセルマスク）を生成させ、及び／又は、単眼高さＭＬモデル６３６を介し、ＲＯＩに少なくとも部分的に基づいて、知覚エンジン６３２から受信されたオブジェクト分類、及び／又は検出されたオブジェクトの高さ推定値、確率分布を生成させる。いくつかの例では、知覚エンジン６３２は、ＲＯＩを生成し、及び／又は単眼高さＭＬモデル６３６を含み、確率分布を生成することができる。

単眼高さＭＬモデル６３６は、図３及び／又は図４に関して論じられ、及び／又は２０１７年３月８日に出願された「ＯｂｊｅｃｔＨｅｉｇｈｔＥｓｔｉｍａｔｉｏｎｆｒｏｍＭｏｎｏｃｕｌａｒＩｍａｇｅｓ」という名称の米国特許出願第１５４５３５６９号明細書で論じられたような単眼画像モデルを含むことができる。単眼高さＭＬモデル６３６は、メモリ６０６に記憶された命令を含むことができ、命令は、プロセッサ６０４によって実行されたとき、プロセッサ６０４に、オブジェクト分類、画像、及び／又はＲＯＩを受信させ、単眼高さＭＬモデル６３６の層の構成に従って、確率分布を生成させる。いくつかの例では、確率分布は、距離によってインデックス付けされた確率を含むことができ、ここで、個別の距離は、検出されたオブジェクトに個別の距離が真に関連付けられている個別の確率及び／又は確率分布に関連付けられている。視覚エンジン６３４は、決定され生成されたデータのいずれも知覚エンジン６３２へ送信することができる。

知覚エンジン６３２は、メモリ６０６に記憶された命令を含むことができ、命令は、プロセッサ６０４によって実行されたとき、プロセッサ６０４に、ＬＩＤＡＲデバイスからＬＩＤＡＲデータを受信させ、画像が取り込まれた時間に対応するＬＩＤＡＲポイント、及びＲＯＩに対応する環境の領域を決定させ、ＬＩＤＡＲポイントについてのスコアを生成させ、一次深度推定値としてＬＩＤＡＲポイントの加重メジアンを選択させ、ここで、加重メジアンはスコアを重みとして使用する。知覚エンジン６３２は、追加的又は代替的に、本明細書で論じられる技法のいずれかに従って、一次深度推定値をプランナに出力し、第２の深度推定値を決定し、及び／又は、一次深度推定値と二次深度推定値との間で選択して、検出されたオブジェクト及び／又は第２のオブジェクトに関連付けるためにプランナに送信することができる。

いくつかの例では、命令は、入力としてセンサ６１２からセンサデータを受信し、例えば、例示的な車両システム６０２を囲む環境におけるオブジェクトのポジション（pose）（例えば、位置及び向き）、オブジェクトに関連付けられたオブジェクトトラック（例えば、時間の期間（例えば５秒間）にわたるオブジェクト履歴位置、速度、加速度、及び／又は進行方向）、及び／又はオブジェクトに関連付けられたオブジェクト分類（例えば、歩行者、乗用車両、小型車両、配達用トラック、自転車乗用者）のうちの１つ又は複数を表すデータを出力するように、プロセッサ６０４をさらに構成することができる。いくつかの例では、知覚エンジン６３２は、１つ又は複数のオブジェクトのオブジェクト軌道を予測するように構成され得る。例えば、知覚エンジン６３２は、例えば、オブジェクトに関連付けられた予測される位置、軌道、及び／又は速度の確率的決定又は多峯性分布に基づいて、多数のオブジェクト軌道を予測するように構成され得る。

知覚エンジン６３２は、出力深度推定値、ＲＯＩ、画像、検出されたオブジェクトに関連付けられたオブジェクト分類、検出されたオブジェクトに関連付けられたオブジェクトトラック、及び／又はプランナ６３８が軌道を生成するために使用できる任意の他の追加情報（例えば、オブジェクト分類、オブジェクトトラック、車両ポジション）を送信することができる。いくつかの例では、知覚エンジン６３２及び／又はプランナ６３８は、追加的又は代替的に、単眼高さＭＬモデル６３６により生成された信頼性に少なくとも部分的に基づいて、このデータの任意のものを、ネットワークインターフェース６１０を介して、ネットワーク６２４を経由してリモートコンピューティングデバイス６２２へ、及び／又はネットワーク６２０を経由して別の車両６１８へ送信することができる。いくつかの例では、知覚エンジン６３２、視覚エンジン６３４、及び／又はプランナ６３８は、別の車両６１８及び／又はリモートコンピューティングデバイス６２２に配置されてよい。

いくつかの例では、リモートコンピューティングデバイス６２２は、遠隔操作デバイスを含むことができる。遠隔操作デバイスは、ＲＯＩ、出力深度推定値、及び／又は一次深度推定値及び二次深度推定値のセットに応答するように構成されたデバイスであってよく、知覚エンジン６３２が２つの間の同点を破れなかった場合、出力深度推定値が正しいかどうかの表示、及び／又は検出されたオブジェクト及び／又は第２のオブジェクトに対応するものとしての一次深度推定値及び／又は二次深度推定値の選択で応答する。追加的又は代替的な例では、遠隔操作デバイスは、視覚エンジン６３４及び／又は知覚エンジン６３２によって生成された、センサデータ及び／又は検出されたオブジェクトに関係付けられた情報を表示することができ、これは、深度推定値を裏付ける又は識別するリモートオペレータ（「テレオペレータ」）からの入力を受信するために有用であり得る。そのような例では、遠隔操作デバイスは、深さ推定値の少なくとも１つが真陽性又は偽陽性である表示などの入力をテレオペレータから受信するためのインターフェースを含むことができる。いくつかの例では、遠隔操作デバイスは、表示を裏付ける又は表示を偽陽性として識別する自律車両及び／又は追加の自律車両に応答することができる。

プランナ６３８は、メモリ６０６に記憶された命令を含むことができ、命令は、プロセッサ６０４によって実行されたとき、プロセッサ６０４に、例えば、例示的な車両システム６０２のその環境における場所を表すデータ及び局所的位置（local pose）データなどの他のデータ、及び出力深度推定値及びＲＯＩに基づくことができる検出されたオブジェクトの位置及び／又はトラックを使用して、例示的な車両システム６０２の軌道を表すデータを生成させる。いくつかの例では、プランナ６３８は、実質的に連続的に（任意の後退ホライズン時間が企図されるが、例えば、１又は２ミリ秒ごとに）、例示的な車両システム６０２を制御するための複数の潜在的な軌道を生成し、車両を制御するための軌道のうちの１つを選択することができる。選択は、現在のルート、オブジェクトの深度推定値、現在の車両軌道、オブジェクトの深度推定値、及び／又は検出されたオブジェクト軌道データに少なくとも部分的に基づくことができる。軌道を選択すると、プランナ６３８は、選択された軌道に従って例示的な車両システム６０２を制御するために、軌道を駆動システム６１６に送信することができる。

いくつかの例では、知覚エンジン６３２、視覚エンジン６３４、単眼高さＭＬモデル６３６、及び／又はプランナ６３８は、例えば、知覚エンジンを実行するのに適合されたプロセッサなどの特殊なハードウェア（例えば、グラフィックプロセッサ、ＦＰＧＡ）をさらに含むことができる。

例示的な条項
Ａ．１つ又は複数のプロセッサと、１つ又は複数のプロセッサによって実行可能な命令を記憶する１つ又は複数のコンピュータ可読媒体とを備えるシステムであって、命令は、実行されたとき、システムに、環境の画像を画像センサから受信するステップと、画像に少なくとも部分的に基づいて、環境内のオブジェクトを表すものとして画像の一部分を識別する関心領域を決定するステップと、ＬＩＤＡＲデバイスからＬＩＤＡＲポイントを受信するステップであって、ＬＩＤＡＲポイントは、関心領域、及び画像が取り込まれた時間に関連付けられている、ステップと、ＬＩＤＡＲポイントについてのスコアを生成するステップであって、ＬＩＤＡＲポイントについてのスコアを生成するステップは、単眼画像モデルによって生成された確率分布に少なくとも部分的に基づいて、ＬＩＤＡＲポイントに関連付けられた深度測定値に関連付けられている確率密度を決定することと、画像へ投影されたＬＩＤＡＲポイントと関心領域の中心との間のピクセルにおける距離に少なくとも部分的に基づいて、係数を決定することとを含む、ステップと、加重メジアン計算を使用して、オブジェクトの一次深度推定値を決定するステップであって、加重メジアン計算に関連付けられた重みはスコアを含む、ステップとを実行させる。

Ｂ．命令は、システムに、ＬＩＤＡＲポイントのサブセットとして、一次深度推定値の範囲内である深度測定値に関連付けられたＬＩＤＡＲポイントを選択するステップと、ソートされたＬＩＤＡＲポイントの第２の加重メジアンを決定するステップと、第２の加重メジアンに少なくとも部分的に基づいて、オブジェクトの二次深度推定値を決定するステップとを実行させる、パラグラフＡに記載のシステム。

Ｃ．システムは、自律車両を備え、カメラ及びＬＩＤＡＲが自律車両上にあり、命令は、システムに、一次深度推定値又は二次深度推定値に少なくとも部分的に基づいて、環境内のオブジェクトの位置を識別するステップと、オブジェクトの位置に少なくとも部分的に基づいて、自律車両の動きを制御するための軌道を生成するステップとをさらに実行させる、パラグラフＡ又はＢに記載のシステム。

Ｄ．命令は、システムに、一次深度推定値及び二次深度推定値を単眼画像モデルの出力と比較するステップ、一次深度推定値に関連付けられたＬＩＤＡＲポイントの第１の密度を、二次深度推定値に関連付けられたＬＩＤＡＲポイントの第２の密度と比較するステップ、又は一次深度推定値及び二次深度推定値を、オブジェクトに関連付けられたオブジェクトトラックと比較するステップをさらに実行させる、パラグラフＡ～Ｃのいずれか１項に記載のシステム。

Ｅ．ＬＩＤＡＲポイントについてのスコアを生成するステップは、確率密度に係数を掛けることを含む、パラグラフＡ～Ｄのいずれか１項に記載のシステム。

Ｆ．画像面からオブジェクトまでの距離を決定するコンピュータ実装方法であって、方法は、環境のＬＩＤＡＲデータ及び画像データを受信するステップと、環境において検出されたオブジェクトに関連付けられた関心領域を決定するステップと、関心領域に対応するＬＩＤＡＲデータのＬＩＤＡＲポイントを決定するステップと、ＬＩＤＡＲポイントについてのスコアを生成するステップであって、ＬＩＤＡＲポイントについてのスコアを生成するステップは、関心領域の中心から、画像上へのＬＩＤＡＲポイントの投影までの距離に少なくとも部分的に基づいて、係数を決定することと、ＬＩＤＡＲポイントに関連付けられた深度測定値の確率密度を決定することと、確率密度及び係数に少なくとも部分的に基づいて、スコアを生成することとを含む、ステップと、スコアに少なくとも部分的に基づいて、ＬＩＤＡＲポイントの加重メジアンを決定するステップと、一次深度推定値として、加重メジアンに関連付けられた深度測定値を識別するステップとを含む。

Ｇ．係数を決定するステップは、画像へのＬＩＤＡＲポイントの投影を使用して関心領域の中心を中心にしたガウス分布を評価するステップを含む、パラグラフＦに記載のコンピュータ実装方法。

Ｈ．確率密度を決定するステップは、機械学習モデルを介して、オブジェクトの分類に少なくとも部分的に基づいて、深度の範囲にわたって確率分布を生成するステップを含む、パラグラフＦ又はＧに記載のコンピュータ実装方法。

Ｉ．スコアを生成するステップは、確率密度に係数を掛けるステップを含む、パラグラフＦ～Ｈのいずれか１項に記載のコンピュータ実装方法。

Ｊ．一次深度推定値を含む深度値の範囲を満たす又は超える距離に関連付けられたＬＩＤＡＲポイントのサブセットを識別するステップと、ＬＩＤＡＲポイントのサブセットに関連付けられた距離によってＬＩＤＡＲポイントのサブセットをソートするステップと、サブセットに関連付けられたスコア及びソートに少なくとも部分的に基づいて、第２の加重メジアンを決定するステップと、二次深度推定値として、第２の加重メジアンに関連付けられた深度測定値を識別するステップとをさらに含む、パラグラフＦに記載のコンピュータ実装方法。

Ｋ．深度値の範囲は、一次深度推定値よりも０．Ｈメートル小さいポイントから一次深度推定値よりもＡ．Ｆ大きいポイントまで変化する、パラグラフＦ～Ｊのいずれか１項に記載のコンピュータ実装方法。

Ｌ．第１の深度推定値を使用して確率分布を評価することによって第１の深度推定値に関連付けられた第１の確率密度又は第１の確率を、第２の深度推定値を使用して確率分布を評価することによって第２の深度推定値に関連付けられた第２の確率密度又は第２の確率と比較すること、一次深度推定値に関連付けられたＬＩＤＡＲポイントの第１の密度を、第２の深度に関連付けられたＬＩＤＡＲポイントの第２の密度と比較すること、又は一次深度推定値及び二次深度推定値を、オブジェクトに関連付けられたオブジェクトトラックと比較することのうちの少なくとも１つに少なくとも部分的に基づいて、一次深度推定値又は二次深度推定値を出力深度として選択するステップをさらに含む、パラグラフＦ～Ｋのいずれか１項に記載のコンピュータ実装方法。

Ｍ．二次深度推定値を選択するステップは、オブジェクトの少なくとも一部分を遮蔽する遮蔽オブジェクトの存在を示すステップと、一次深度推定値を遮蔽オブジェクトに関連付け、二次深度推定値をオブジェクトに関連付けるステップとをさらに含む、パラグラフＦ～Ｌのいずれか１項に記載のコンピュータ実装方法。

Ｎ．出力深度を自律車両のコントローラに送信するステップと、出力深度に少なくとも部分的に基づいて軌道を生成するステップであって、軌道は、自律車両に環境の一部分を横断させるように構成される、ステップと、をさらに含む、パラグラフＦ～Ｍのいずれか１項に記載のコンピュータ実装方法。

Ｏ．実行されたときに、１つ又は複数のプロセッサに、オブジェクトを含む環境の画像をカメラから受信するステップと、画像におけるオブジェクトの場所を表す関心領域を受信するステップと、点群センサから点群データを受信するステップと、点群データから、関心領域に対応する点群ポイントを決定するステップと、画像に少なくとも部分的に基づいて、深度の確率分布を決定するステップと、画像に関連付けられた画像空間内の点群ポイントの相対座標に少なくとも部分的に基づいて、及び確率分布により指定された深度に対する点群ポイントの位置に少なくとも部分的に基づいて、点群ポイントについてのスコアを生成するステップと、加重メジアン計算によって、スコアに少なくとも部分的に基づいて加重メジアンを決定するステップと、オブジェクトの第１の深度推定値として、加重メジアンに関連付けられた深度測定値を識別するステップと、を含む動作を実行させる命令のセットを有する非一時的コンピュータ可読媒体。

Ｐ．動作は、第１の深度推定値からの深度の範囲の外側にある深度測定値に関連付けられた点群ポイントのサブセットを決定するステップと、点群ポイントのサブセットの第２の加重メジアンを決定するステップと、オブジェクトの第２の深度推定値として、第２の加重メジアンに関連付けられた第２の距離を識別するステップとをさらに含む、パラグラフＯに記載の非一時的コンピュータ可読媒体。

Ｑ．動作は、第１の深度推定値を使用して確率分布を評価することによって第１の深度推定値に関連付けられた第１の確率密度又は第１の確率を、第２の深度推定値を使用して確率分布を評価することによって第２の深度推定値に関連付けられた第２の確率密度又は第２の確率と比較するステップ、第１の深度推定値に関連付けられた点群ポイントの第１の密度を、第２の深度推定値に関連付けられた点群ポイントの第２の密度と比較するステップ、又は第１の深度推定値及び第２の深度推定値を、オブジェクトに関連付けられたオブジェクトトラックと比較するステップのうちの１つと、比較するステップに少なくとも部分的に基づいて、第１の深度推定値又は第２の深度推定値のうちの一方をオブジェクトに関連付けるステップとをさらに含む、パラグラフＯ又はＰに記載の非一時的コンピュータ可読媒体。

Ｒ．動作は、第１の深度推定値又は第２の深度推定値のうちの少なくとも一方に少なくとも部分的に基づいて、自律車両の動きを制御するための軌道を生成するステップをさらに含む、パラグラフＯ～Ｑのいずれか１項に記載の非一時的コンピュータ可読媒体。

Ｓ．係数を決定するステップは、関心領域の中心からのＬＩＤＡＲポイントの投影距離に関して関心領域の中心を中心にされたガウス分布を評価することに少なくとも部分的に基づく、パラグラフＯに記載の非一時的コンピュータ可読媒体。

Ｔ．ＬＩＤＡＲポイントについてのスコアを生成するステップは、確率密度に係数を掛けることを含む、パラグラフＯ～Ｓのいずれか１項に記載の非一時的コンピュータ可読媒体。

主題は構造的特徴及び／又は方法論的行為に特有の言語で説明されているが、添付の特許請求の範囲に定義される主題は、必ずしも記載された特定の特徴又は行為に限定されないことを理解されたい。むしろ、特定の特徴及び行為はクレームを実施するための例示的な形態として開示される。

本明細書に説明されたモジュールは、任意のタイプのコンピュータ可読媒体に記憶されることができ、ソフトウェア及び／又はハードウェアに実装されることができる命令を表す。上記に説明された方法及びプロセスの全ては、１つ又は複数のコンピュータ又はプロセッサ、ハードウェア、又はそれらの何らかの組み合わせによって実行されるソフトウェアコードモジュール及び／又はコンピュータ実行可能命令に具現化され、それらを介して完全に自動化され得る。或いは、方法の一部又は全部が専用のコンピュータハードウェアで具現化され得る。

とりわけ、「できる」、「できた」、「得る」又は「してもよい」などの条件付き言語は、特に明記されない限り、特定の特徴、要素、及び／又はステップを特定の例は含むが他の例は含まないことを示すように文脈内で理解されよう。したがって、そのような条件付き言語は一般に、特定の特徴、要素、及び／又はステップが１つ又は複数の例に何らか必要とされること、又は、１つ又は複数の例が、ユーザ入力又はプロンプトの有無にかかわらず、特定の特徴、要素、及び／又はステップが特定の例において含まれ又は実行されるかどうかを決定するためのロジックを必然的に含むことを意味することは意図されていない。

「Ｘ、Ｙ又はＺの少なくとも１つ」という語句などの接続語は、特に明記されない限り、項目、用語などがＸ、Ｙ、又はＺのいずれか、又は複数の各要素を含むそれらの任意の組み合わせであり得ることを示すと理解されよう。単数形として明示的に説明されていない限り、「ａ」は単数形及び複数形を意味する。

本明細書に説明され及び／又は添付の図に示されるフロー図の任意のルーチン記述、要素、又はブロックは、ルーチンにおける特定の論理的機能又は要素を実装するための１つ又は複数のコンピュータ実行可能命令を含むモジュール、セグメント、又はコードの部分を潜在的に表すものとして理解されるべきである。代替的実装形態が、本明細書に説明される例の範囲内に含まれ、この範囲では、当業者に理解されるように含まれる機能性に応じて、要素又は機能が削除され、又は実質的な同期、逆の順序、追加の動作、又は動作の省略を含めて、示され又は論じられたものと異なる順序で実行され得る。

上記の例に多くの変形及び変更が行われる可能性があり、その要素は他の許容可能な例のうちであると理解されることは強調されるべきである。全てのそのような修正及び変更は、ここで本開示の範囲内に含まれ、添付の特許請求の範囲によって保護されることが意図される。

Claims

１つ又は複数のプロセッサによって実行される方法であって、
ＬＩＤＡＲデータと、環境の画像データとを受信するステップと、
前記環境内で検出されたオブジェクトに関連付けられた前記画像データの一部を識別する関心領域を決定するステップと、
前記関心領域に対応する前記ＬＩＤＡＲデータのＬＩＤＡＲポイントを決定するステップと、
前記ＬＩＤＡＲポイントについてのスコアを生成するステップであって、ＬＩＤＡＲポイントについてのスコアを生成することは、
前記関心領域の中心から前記画像データ上への前記ＬＩＤＡＲポイントの投影までの距離に少なくとも部分的に基づいて係数を決定することと、
前記画像データ及び／又は前記オブジェクトの分類を入力として受け取り、かつ前記画像データ及び／又は前記分類に少なくとも部分的に基づいて確率分布を決定する機械学習モデルによって生成された前記確率分布から、前記ＬＩＤＡＲポイントに関連付けられた深度測定値の確率密度を決定することと、
前記確率密度及び前記係数に少なくとも部分的に基づいて前記スコアを生成することと、を含む、ステップと、
前記スコアを重みとして使用して前記ＬＩＤＡＲポイントの加重メジアンを決定するステップと、
一次深度推定値として、前記加重メジアンに関連付けられた深度測定値を識別するステップであって、前記一次深度推定値は、前記環境における前記オブジェクトまでの距離に関連付けられている、ステップと、
を含む、方法。
前記係数を決定することは、前記画像データ上への前記ＬＩＤＡＲポイントの前記投影を用いて、前記関心領域の前記中心を中心にしたガウス分布を評価すること、
を含む、
請求項１に記載の方法。
前記確率密度を決定することは、機械学習モデルを介して、前記オブジェクトの分類に少なくとも部分的に基づいて、深度の範囲にわたって確率分布を生成すること、
を含む、
請求項１に記載の方法。
前記スコアを生成することは、前記確率密度に前記係数を掛けること、
を含む、
請求項１に記載の方法。
前記一次深度推定値を含む深度値の範囲を満たす又は超える距離に関連付けられたＬＩＤＡＲポイントのサブセットを識別するステップと、
前記サブセットに関連付けられたスコアに少なくとも部分的に基づいて、第２の加重メジアンを決定するステップと、
二次深度推定値として、前記第２の加重メジアンに関連付けられた深度測定値を識別するステップと、
をさらに含む、
請求項１に記載の方法。
前記深度値の範囲は、前記一次深度推定値よりも０．８メートル小さいポイントから、前記一次深度推定値よりも１．６メートル大きいポイントまで変化する、
請求項５に記載の方法。
前記一次深度推定値を用いて前記確率分布を評価することによって前記一次深度推定値に関連付けられた第１の確率密度又は第１の確率を、前記二次深度推定値を用いて前記確率分布を評価することによって前記二次深度推定値に関連付けられた第２の確率密度又は第２の確率と比較すること、
前記一次深度推定値に関連付けられたＬＩＤＡＲポイントの第１の密度を、前記二次深度推定値に関連付けられたＬＩＤＡＲポイントの第２の密度と比較すること、又は
前記一次深度推定値及び前記二次深度推定値を、前記オブジェクトに関連付けられたオブジェクトトラックと比較することであって、前記オブジェクトトラックは、所定期間にわたる前記オブジェクトの履歴位置、速度、加速度、及び／又は進行方向に関連付けられている、ことと、
の少なくとも１つに少なくとも部分的に基づいて、前記一次深度推定値又は前記二次深度推定値を出力深度として選択するステップをさらに含む、
請求項５に記載の方法。
前記二次深度推定値を選択することは、
前記オブジェクトの少なくとも一部を遮蔽する遮蔽オブジェクトの存在を示すことと、
前記一次深度推定値を前記遮蔽オブジェクトに関連付け、前記二次深度推定値を前記オブジェクトに関連付けることと、
をさらに含む、
請求項７に記載の方法。
自律車両のコントローラに前記出力深度を送信するステップと、
前記出力深度に少なくとも部分的に基づいて軌道を生成するステップであって、前記軌道は、前記自律車両に前記環境の一部を横切らせるように構成される、ステップと、
をさらに含む、
請求項７又は８に記載の方法。
前記一次深度推定値及び前記二次深度推定値を、前記機械学習モデルの出力と比較すること、
前記一次深度推定値に関連付けられたＬＩＤＡＲポイントの第１の密度を、前記二次深度推定値に関連付けられたＬＩＤＡＲポイントの第２の密度と比較すること、又は
前記一次深度推定値及び前記二次深度推定値を、前記オブジェクトに関連付けられたオブジェクトトラックと比較すること、
をさらに含む、
請求項７に記載の方法。
前記一次深度推定値又は前記二次深度推定値に少なくとも部分的に基づいて、前記環境内の前記オブジェクトの位置を識別するステップと、
前記オブジェクトの前記位置に少なくとも部分的に基づいて、自律車両の動きを制御するための軌道を生成するステップと、
をさらに含む、
請求項５、７、８、又は１０に記載の方法。
少なくとも部分的に前記一次深度推定値に基づいて、前記環境内の前記オブジェクトの位置を識別するステップと、
少なくとも部分的に前記オブジェクトの前記位置に基づいて、自律車両の動きを制御するための軌道を生成するステップと、
をさらに含む、
請求項１に記載の方法。
前記関心領域に対応する前記ＬＩＤＡＲポイントを決定するステップは、
前記ＬＩＤＡＲポイントを含むＬＩＤＡＲポイントの集まりを画像空間に投影することと、
前記関心領域の範囲内に位置するものとして前記ＬＩＤＡＲポイントを識別することと、
を含み、
前記関心領域は、前記環境内の前記オブジェクトを表すものとして画像の一部を識別し、前記画像及び前記ＬＩＤＡＲポイントは、十分に近い時間に受信される、
請求項１に記載の方法。
システムであって、
１つ又は複数のプロセッサと、
前記１つ又は複数のプロセッサによって実行可能な命令を格納する１つ又は複数のコンピュータ可読媒体と、を備え、前記命令は、実行されたとき、前記システムに、請求項１～１３のいずれか１項に記載の処理を実行させる、システム。
実行されたとき、１つ又は複数のプロセッサに、請求項１～１３のいずれか１項に記載の処理を実行させる、格納された命令のセットを有する非一時的なコンピュータ可読媒体。