JP2022539843A - 点群におけるオブジェクト検出 - Google Patents

点群におけるオブジェクト検出 Download PDF

Info

Publication number
JP2022539843A
JP2022539843A JP2022500800A JP2022500800A JP2022539843A JP 2022539843 A JP2022539843 A JP 2022539843A JP 2022500800 A JP2022500800 A JP 2022500800A JP 2022500800 A JP2022500800 A JP 2022500800A JP 2022539843 A JP2022539843 A JP 2022539843A
Authority
JP
Japan
Prior art keywords
points
dimensional
location
suggested
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
JP2022500800A
Other languages
English (en)
Inventor
シレンズ,ジョナサン
アン フー グエン,パトリック
ジェームズ ケイン,ベンジャミン
ヌジアム,ジクアン
ハン,ウェイ
チャウルーン ヤン,ブランドン
チャイ,ユーニン
サン,ペイ
ジョウ,イン
イ,シー
アルシャリフ,ウアイス
チェン,ジフェン
ヴァスデヴァン,ヴィジャイ
Original Assignee
ウェイモ エルエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ウェイモ エルエルシー filed Critical ウェイモ エルエルシー
Publication of JP2022539843A publication Critical patent/JP2022539843A/ja
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • G06V20/647Three-dimensional objects by matching two-dimensional images to three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Traffic Control Systems (AREA)

Abstract

1つ以上のセンサによってキャプチャされたシーンのセンサ測定値を表す点群データを処理して、シーン内の1つ以上のオブジェクトの場所を識別するオブジェクト検出出力を生成するための、コンピュータ記憶媒体に符号化されたコンピュータプログラムを含む、方法、システム、および装置。車両の車載システム内に配備されたとき、生成されるオブジェクト検出出力を使用して、車両の自律運転の決定をより正確に下すことができる。【選択図】図2

Description

関連出願の相互参照
本出願は、2019年7月8日に出願された米国仮出願第62/871,669号の優先権を主張する。先行出願の開示は、本出願の開示の一部と見なされ、参照により本出願の開示に組み込まれる。
本明細書は、ニューラルネットワークを使用した点群データの処理に関する。
ニューラルネットワークは、非線形ユニットの1つ以上の層を採用して、受け取った入力に対する出力を予測する機械学習モデルである。一部のニューラルネットワークは、出力層に加えて1つ以上の隠れ層を含む。各隠れ層の出力は、ネットワーク内の1つ以上の他の層、すなわち、1つ以上の他の隠れ層、出力層、またはその両方への入力として使用される。ネットワークの各層は、それぞれのパラメータセットの現在値に従って、受け取った入力から出力を生成する。
本明細書は、1つ以上のセンサによってキャプチャされたシーンのセンサ測定値を表す点群データを処理して、シーン内の1つ以上のオブジェクトの場所を識別するオブジェクト検出出力を生成する、1つ以上の場所にある1つ以上のコンピュータ上のコンピュータプログラムとして実装されるシステムについて説明する。
第1の態様によれば、点群内のオブジェクトを検出するためのシステムが提供される。システムは、1つ以上のセンサによってキャプチャされたシーンのセンサ測定値を表し、かつシーン内の三次元の点を含む、点群データを取得し、シーン内の三次元の点に基づいて複数の二次元の提案場所を判定する。システムは、各二次元の提案場所に対して、二次元の提案場所の近辺の点群データ内の三次元の点から特徴表現を生成する。次に、システムは、シーン内のオブジェクトを識別するオブジェクト検出出力を生成するように構成されたオブジェクト検出ニューラルネットワークを使用して、二次元の提案場所の特徴表現を処理する。
本明細書に記載の主題は、特定の実施形態において、以下の利点の1つ以上を実現するように実施することができる。
本明細書に記載のシステムは、1つ以上のセンサによってキャプチャされたシーンのセンサ測定値を表す点群データを処理して、シーン内の1つ以上のオブジェクトの場所を識別するオブジェクト検出出力を生成することができる。1つ以上のセンサは、自律車両のセンサ(例えば、LIDARセンサ)とすることができ、シーンは、自律車両の近辺のシーンとすることができ、オブジェクト検出出力は、車両に対して自律運転の決定を下して、車両の運転者または乗客、あるいはその両方に情報を表示するために使用することができる。システムは、点群データ用に特別に設計された非畳み込みの点ベースのネットワークを実装し、最小の待ち時間と比較的低い演算コストで正確なオブジェクト検出出力を生成することができる。対照的に、点群データ内のオブジェクトを分類または検出するための多くの従来のアプローチでは、点群を2D平面画像に射影すること、および演算量の多い畳み込み画像処理技術を使用して、その結果の画像内のオブジェクトを検出することで、そのような点群をカメラ画像であるかのように処理すること、を含む。カメラベースの2D画像に固有の課題に対処するために初期に開発された処理技術を採用することにより、そのようなアプローチでは、3D空間での比較的高いスパース性など、点群の特徴の一部を十分に活用することができない。さらに、そのようなアプローチは、画像内のすべての空間位置が等しく扱われる畳み込み画像処理技術を採用するため、オブジェクト検出に非畳み込み技術を採用することにより、本明細書に記載のシステムはまた、演算をシーン内の異なる空間領域へと選択的に方向付けることができるという利点を有する。いくつかの例では、システムは、この能力を利用して、シーン内の各空間領域に専用の演算量をシステムの優先順位、リソースの可用性、またはその両方に適合させるように構成されている。推論時にサンプリング手順を操作することにより、システムは、システムの点ベースのネットワークを変更または再トレーニングすることなく、判定される提案の数を調整することにより、演算要求を動的に変更し得る。このフレームワークは、システムが、様々な演算優先順位にわたって柔軟に標的化されることを可能にするだけでなく、システムが、空間カバレッジを最大化するか、または点群の密度に一致するように調整された方法で、オブジェクト提案を生成することも可能にする。自律車両の正確なリアルタイム情報の必要性とその周辺の性質とを考えると、本明細書に記載のシステムは、自律車両ベースの知覚システムの要件により適し得る。
本明細書の主題の1つ以上の実施形態の詳細を、添付の図面および以下の説明に記載する。主題の他の特徴、態様、および利点は、明細書、図面、および特許請求の範囲から、明らかになるであろう。
車載システムの例のブロック図を示す。 知覚サブシステムの例のブロック図を示す。 例示的な特徴量化器ニューラルネットワークのブロック図を示す。 点群内のオブジェクトを検出するための例示的なプロセスのフロー図である。
様々な図面の中の同様の参照番号および名称は、同様の要素を示す。
本明細書は、1つ以上のセンサによってキャプチャされたシーンのセンサ測定値を表す点群データを処理して、シーン内の1つ以上のオブジェクトの場所を識別するオブジェクト検出出力を生成する、1つ以上の場所にある1つ以上のコンピュータ上のコンピュータプログラムとして実装されるシステムについて説明する。例えば、1つ以上のセンサは、自律車両、例えば、陸上、空中、または海上車両のセンサとすることができ、シーンは、自律車両の近辺のシーンとすることかできる。次いで、オブジェクト検出出力を使用して、車両に対して自律運転の決定を下して、車両の運転者または乗客、あるいはその両方に情報を表示するために使用することができる。
特に、システムは、1つ以上のセンサによってキャプチャされたシーンのセンサ測定値を表す点群データを受信する。点群データには、三次元の点のセット、すなわち、1つ以上のセンサによるシーンの1つ以上のスキャンによって識別された反射に対応する点のセット、および任意選択的に1つ以上のセンサによって三次元の点に対して生成された特徴、例えば、LiDAR特徴が含まれる。各三次元の点は、通常、x、y、z座標(または異なる座標系の3つの異なる座標)を有する。
システムは、シーン内の三次元の点に基づいて、複数の二次元の提案場所を判定する。特に、システムは、三次元の点の場所から固定数の二次元の場所をサンプリングする。言い換えれば、システムは、三次元の点を表す3つの座標から一対の座標、例えば、(x,y)を指定してから、指定された座標、例えば、シーン内の三次元の点の(x,y)座標のうちから固定数の二次元の提案場所をサンプリングする。
システムは、データに依存するが演算効率の高い様々な方法のうちのいずれにおいても、固定数の二次元の提案場所をサンプリングすることができる。一例として、システムは、最も遠い点のサンプリングを使用して、固定数の二次元の提案場所をサンプリングすることができ、この場合、選択された次の点が、選択された前のすべての点から最大に離れるように、個々の点が順番に選択される。別の例として、システムは、ランダムな均一サンプリングを使用して、固定数の二次元の提案場所をサンプリングすることができ、この場合、各二次元の提案場所は、三次元の点にわたる均一な分布からランダムにサンプリングされる、すなわち、各三次元の点の(x,y)座標が等しくサンプリングされる。
システムは、各二次元の提案場所に対して、二次元の提案場所の近辺の点群データ内の三次元の点から特徴表現を生成する。いくつかの実装形態では、システムは、プロセスに使用可能な演算リソースの量またはオブジェクト検出プロセスの待ち時間要件に基づいて、オブジェクト検出プロセスのこのフェーズを変更することができる。特に、システムは、リソースまたは待ち時間の要件を満たすために、各二次元の提案場所に対して使用される点の数を調整することができる。すなわち、システムは、オブジェクト検出器によって使用されるニューラルネットワーク層のいずれも再トレーニングする必要なく、オブジェクト検出器を異なる演算設定に適合させることができる。要件を満たすために使用する必要のある点が少ない場合、システムは、予測の優先度が高い点、または関連する可能性が高い空間領域にある点に優先順位を付けることができる。例えば、自動運転車両の場合、システムは、車両の動作に関連する可能性が高い点に優先順位を付けることができる。
次に、システムは、シーン内のオブジェクトを識別するオブジェクト検出出力を生成するように構成されたオブジェクト検出ニューラルネットワークを使用して、二次元の提案場所の特徴表現を処理する。
これらの特徴および他の特徴については、以下でより詳細に説明する。
図1は、例示的な車載システム100を示す図である。車載システム100は、車両102に物理的に搭載されている。図1の車両102は自動車として図示されているが、車載システム100は、任意の適切な車両に搭載することができる。車両102は、完全に自律運転の決定を下す完全に自律車両、または人間のオペレータを支援する半自律車両とすることができる。例えば、人間の運転者が、検出されたオブジェクト、例えば、歩行者、自転車乗り、別の車両と衝突しそうであることを、完全な車両予測が示す場合、車両102は、自律的にブレーキをかけることができる。車両102は、自動車であるとして図1に示されているが、車両102は、センサデータを使用して完全に自律または半自律動作決定を下す任意の適切な車両とすることができる。例えば、車両102は、船舶または航空機とすることができる。さらに、車載システム100は、図1に示されているものに追加されるコンポーネント(例えば、制御サブシステムまたはユーザインターフェースサブシステム)を含むことができる。
車載システム100は、車載システム100が車両102の近辺の環境を「見る」ことを可能にするセンササブシステム120を含む。センササブシステム120は、1つ以上のセンサを含み、そのうちのいくつかは、車両102の近辺の環境からの電磁放射の反射を受信するように構成されている。例えば、センササブシステム120は、レーザ光の反射を検出するように構成された1つ以上のレーザセンサ(例えば、LIDARセンサ)を含むことができる。別の例として、センササブシステム120は、電波の反射を検出するように構成された1つ以上のレーダセンサを含むことができる。別の例として、センササブシステム120は、可視光の反射を検出するように構成された1つ以上のカメラセンサを含むことができる。
センササブシステム120は、繰り返し(すなわち、複数の時刻の各々において)、生のセンサ測定値、生のセンサ測定値から得られたデータ、またはその両方を使用して、センサデータ122を生成する。生のセンサ測定値は、反射放射によって移動した方向、強度、および距離を示す。例えば、センササブシステム120におけるセンサは、特定の方向に電磁放射の1つ以上のパルスを送信することができ、反射の強度と反射が受信された時刻とを測定することができる。距離は、パルスを送信してからその反射を受信するまでに経過した時間を判定することによって演算することができる。各センサは、角度、方位角、またはその両方で特定の空間を継続的に掃引きすることができる。例えば、方位角での掃引は、センサが同じ視線に沿った複数のオブジェクトを検出することを可能にする。
特に、センサデータ122は、車両102の近辺の環境(すなわち、現在の時刻での環境)の最新の状態を特徴付ける点群データを含む。点群は、特定の座標系によって定義されたデータ点の集まりである。例えば、三次元座標系では、点群は、ある実際のまたは合成の物理系の形状を定義することができ、点群の各点は、座標系、例えば、(x,y,z)座標のそれぞれの座標を表す3つの値で定義される。別の例として、三次元座標系では、点群の各点は、4つ以上の値で定義することができ、そのうちの3つの値は、座標系の座標を表し、それに追加の値は各々、点群の点のプロパティ、例えば、点群の点の強度を表す。点群データは、例えば、車両102に搭載されているLIDARセンサまたは深度カメラセンサを使用することによって生成することができる。例えば、点群の各点は、車両102に搭載されたセンサによって特定の方向に送信されたレーザ光または他の放射線の反射に対応することができる。
車載システム100は、知覚出力132を生成する際に使用するために、センササブシステム120によって生成されたセンサデータ122を知覚サブシステム130に提供することができる。
知覚サブシステム130は、車両の近辺内のオブジェクトを識別するコンポーネントを実装する。コンポーネントには典型的には、完全に学習された1つ以上の機械学習モデルが含まれる。機械学習モデルは、知覚タスクを実行するときに所望の予測を演算するようにモデルがトレーニングされている場合、「完全に学習された」と言う。言い換えれば、完全に学習されたモデルは、人間がプログラムした決定ではなく、トレーニングデータのみに基づいてトレーニングされた知覚出力を生成する。例えば、知覚出力132は、1つ以上のオブジェクトカテゴリの各々に対応するそれぞれのオブジェクトスコアを含む分類出力であってもよく、各オブジェクトスコアは、入力センサデータがその対応するオブジェクトカテゴリに属するオブジェクトを特徴付ける尤度を表す。別の例として、知覚出力132は、センサデータ122内の1つ以上のバウンディングボックスを定義するデータを含むことができ、任意選択的に、1つ以上のバウンディングボックスの各々について、1つ以上のオブジェクトカテゴリのセットからのあるオブジェクトカテゴリに属するオブジェクトがバウンディングボックスに示されている環境の領域に存在する尤度を表すそれぞれの信頼性スコアを含むことができる。オブジェクトカテゴリの例には、車両102が道路を走行する際の車両102の近辺の、歩行者、自転車乗り、または他の車両が含まれる。
車載システム100は、知覚出力132を計画サブシステム140に提供することができる。計画サブシステム140が知覚出力132を受信すると、計画サブシステム140は、知覚出力132を使用して、車両102の将来の軌道を計画する計画決定を生成することができる。計画サブシステム140によって生成される計画決定は、例えば、譲ること(例えば、知覚出力132で識別される歩行者に)、停止(例えば、知覚出力132で識別される「停止」標識で)、知覚出力132で識別された他の車両を追い越すこと、知覚出力132で識別された自転車乗りに対応するために車両の車線位置を調整すること、学校または建設ゾーンで減速すること、合流すること(例えば、高速道路に)、および駐車すること、を含むことができる。計画サブシステム140によって生成された計画決定は、車両102の制御システムに提供することができる。車両の制御システムは、計画システムによって生成された計画決定を実施することによって、車両の動作の一部またはすべてを制御することができる。例えば、車両のブレーキをかける計画決定を受信することに応答して、車両102の制御システムは、電子信号を車両のブレーキ制御ユニットに送信することができる。電子信号の受信に応答して、ブレーキ制御ユニットは、車両のブレーキを機械的にかけることができる。
計画サブシステム140が、車両102が安全で快適な軌道に沿って移動するようにする計画決定を生成するために、車載システム100は、計画サブシステム140に高品質の知覚出力132を提供しなければならない。点群データ内のオブジェクトを分類または検出するための多くのアプローチでは、点群を2D平面画像に射影すること、および、例えば、畳み込みニューラルネットワーク(CNN)アーキテクチャまたは畳み込み演算を使用して、その結果の画像内のオブジェクトを検出することを含むものなどの画像処理技術を使用して、そのような点群をカメラ画像であるかのように処理すること、を含む。しかしながら、このようなアプローチは、多くの場合、非常に演算量が多く、高解像度の画像で推論を実行することは、多くのシステムで実行可能ではないことが多い。予測は、計画サブシステム140によって正確な計画決定を下すことができることを保証するために、最小の待ち時間で知覚サブシステム130によって行われなければならないこと、さらには、車両102内の演算リソースは、車両と共に移動しなければならず、したがって制限され得ることから、車載システム100は、そのようなシステムの一例として見ることができる。
したがって、十分な精度で比較的低い演算コストで知覚出力を生成するために、知覚サブシステム130は、自律車両の要件によりよく適合し得る点群データについて特別に設計された非畳み込みオブジェクト検出器を実装することができる。そのようなオブジェクト検出器のアーキテクチャおよび機能を、図2を参照して以下でさらに詳細に説明する。
図2は、例示的な知覚サブシステム230のブロック図である。知覚サブシステム230は、以下に説明するシステム、コンポーネント、および技法が実装される1つ以上の場所にある1つ以上のコンピュータ上にコンピュータプログラムとして実装されるシステムの例である。いくつかの実装形態では、図2の知覚サブシステム230は、図1を参照して上記で説明したように、知覚サブシステム130に対応し得る。図2に示されるように、知覚サブシステム230は、提案場所判定エンジン250、特徴量化器260、およびオブジェクト検出ニューラルネットワーク270を含む。簡単に、かつ以下でさらに詳細に説明するように、点群内の場所が与えられると、知覚サブシステム230は、点群内の隣接する点のサブセットを判定または選択し、これらの点を特徴付け、これらの点をオブジェクトクラスおよびバウンディングボックスパラメータに回帰する。重要なのは、オブジェクトの場所が選択された場所を基準にして予測され、あらゆるグローバル情報、すなわち点群内の隣接する点のサブセットの外側にある点の情報を採用しないことである。この設定は、各空間場所が知覚サブシステム230によって独立して処理され得ることを保証し、これにより、知覚サブシステム230による各場所の演算を並列化して、推論待ち時間を減少させ得る。
提案場所判定エンジン250は、入力としてセンサデータ222を受信し、センサデータ222に少なくとも部分的に基づいて、提案場所252のセットを判定する。センサデータ222は、1つ以上のセンサによってキャプチャされたシーンのセンサ測定値を表し、かつシーン内の複数の三次元の点を含む点群データを含み、提案場所判定エンジン250によって判定される提案場所252は、複数の二次元の提案場所を含む。いくつかの例では、センサデータ222は、図1を参照して上記で説明したように、センサデータ122に対応し得る。
より具体的には、いくつかの実装形態では、シーン内の三次元の点の各々は、それぞれの(x,y)座標を有し、提案場所判定エンジン250によって判定される二次元の提案場所252は、個々の点が点群内に存在する(x,y)座標に対応する。そのため、いくつかの実装形態では、提案場所252を判定するために、提案場所判定エンジン250は、シーン内の三次元の点の(x,y)座標のうちから固定数の二次元の提案場所を判定またはサンプリングし得る。
これらの実装形態では、提案場所判定エンジン250は、シーン内の三次元の点の(x,y)座標のうちから二次元の提案場所を判定またはサンプリングするために、様々な異なる技術の任意のものを採用し得る。一例として、提案場所判定エンジン250は、ランダムな均一サンプリングを使用して、シーン内の三次元の点の(x,y)座標のうちから固定数の二次元の提案場所をサンプリングし得、この場合、各二次元の提案場所は、三次元の点にわたる均一な分布からランダムにサンプリングされる、すなわち、各三次元の点の(x,y)座標が等しくサンプリングされる。
別の例として、提案場所判定エンジン250は、最も遠い点のサンプリング(FPS)を使用して、シーン内の三次元の点の(x,y)座標のうちから固定数の二次元の提案場所をサンプリングし得、この場合、選択された次の点が、選択された前のすべての点から最大に離れるように、個々の点が順番に選択される。提案場所判定エンジン250によって判定される提案場所252は、特徴量化器260に提供される。
特徴量化器260は、提案場所判定エンジン250からの入力として提案場所252を受信し、少なくとも部分的に提案場所252に基づいて、特徴表現262のセットを生成する。
より具体的には、提案場所252に含まれる各二次元の提案場所に対して、特徴量化器260は、二次元の提案場所の近辺の点群データ内の三次元の点から特徴表現を生成する。そのため、いくつかの例では、特徴量化器260は、提案場所252に基づいて、さらにセンサデータ222の少なくとも一部またはその抽象化に基づいて、特徴表現262を生成する。
いくつかの実装形態では、特徴量化器260は、提案場所252に含まれる各各二次元の提案場所に対して、提案場所の閾値半径内にある(x,y)座標を有する固定数の点を判定し、固定数の点から提案場所について特徴表現を生成する。例えば、判定された固定数の点には32~512の点が含まれ得、閾値半径は、2~3メートルの値に設定される。他の構成も可能である。これらの実装では、特徴量化器260は、それぞれの提案場所の閾値半径内にある(x,y)座標を有するサンプリングされた固定数の点から、提案場所252に含まれる各二次元の提案場所に対して特徴表現を生成し得る。以下でさらに詳細に説明するように、いくつかの例では、特徴量化器260は、提案場所252に含まれる各二次元の提案場所に対して特徴表現を生成するために利用され得る特徴量化器ニューラルネットワークを含み得る。
いくつかの例では、知覚サブシステム230は、プロセスに利用可能な演算リソースの量またはオブジェクト検出プロセスの待ち時間要件に基づいて、特徴量化器260によって実行されるプロセスを変更することができる。特に、知覚サブシステム230は、リソースまたは待ち時間の要件を満たすために、各二次元の提案場所に対して判定または選択および使用される点の数を調整することができ、すなわち、知覚サブシステム230は、知覚サブシステム230で採用されるニューラルネットワーク層のいずれも再トレーニングする必要なく、異なる演算設定に適合することができる。これらの例のうちのいくつかでは、知覚サブシステム230は、待ち時間またはリソース要件を依然として満たしながら、各提案場所に対してサンプリングすることができる点の数を判定し、次いで、特徴表現を生成するときに判定された数以下の点を使用する。例えば、知覚サブシステム230は、現在の演算環境における点を識別し、かつ点について特徴表現を生成するために必要な時間および/または演算に基づいて、待ち時間またはリソース要件を依然として満たしながら、各提案場所に対してサンプリングすることができる点の数を判定することができる。要件を満たすために使用する必要のある点が少ない場合、知覚サブシステム230は、予測の優先度が高い点、または関連する可能性が高い空間領域にある点に優先順位を付けることができる。例えば、自動運転車両の場合、知覚サブシステム230は、車両の動作に関連する可能性が高い点に優先順位を付けることができる。
前述の実装形態のうちの少なくともいくつかでは、特徴量化器260は、コンテキストデータ242をさらに受信またはそうではない場合はアクセスし、提案場所からの距離に基づいて、およびさらにコンテキストデータ242に基づいて、提案場所252に含まれる各二次元の提案場所に対して固定数の点を判定または選択し得る。
例えば、コンテキストデータ242は、自動運転車両の1つ以上のセンサからのデータを含み得、特徴量化器260は、(i)提案場所の第1の閾値半径内にあると判定される、および(ii)コンテキストデータ242に基づいて自動運転車両の第2の閾値半径内にあると判定される、(x,y)座標を有する固定数の点を選択し得る。
いくつかの例では、特徴量化器260は、最初に、閾値半径内にある(x,y)座標を有する点からより多い数の点、すなわち、特徴表現を生成するために使用される固定数よりも多い数をサンプリングし得、次いで、コンテキストデータ242に基づいて、各点の自動運転車両の動作に対する相対的な重要性に基づいてこれらの点をランク付けし得る。次いで、特徴量化器260は、判定された固定数の点として、少なくとも部分的にランク付けに基づいて、提案場所の閾値半径内にある(x,y)座標を有する点のサブセットを選択し得る。例えば、特徴量化器260は、車両からの距離に基づいて、またはコンテキストデータ242内の他の情報に基づいて、点をランク付けし得る。このようにして、特徴量化器260は、車両の動作に関連する可能性が高い点に優先順位を付け得、したがって、演算上の節約を達成し得る。コンテキストデータ242に含まれ、かつ知覚サブシステム230によって各提案場所に対する点を判定または選択するために利用され得る他の情報には、知覚サブシステム230もしくは車両の他の1つ以上のシステムに現在置かれている、もしくは置かれる予定の1つ以上の演算負荷を示すデータ、知覚出力232の信頼性のレベルを示すデータ、GPS座標もしくは車両の現在位置を示す他のデータ、歩行者の領域および/もしくは車両交通を示し得るセマンティックもしくはロードマップ情報、時間情報、車両の近辺内の現在もしくは将来の交通もしくは気象条件を示すデータ、過去の運転データ、車両の現在の速度または加速度を示すデータ、車両の燃料および/もしくはバッテリを示すデータレベル、衛星画像、他の近くの車両との間でおよび/もしくはそれらについて通信されるデータ、ユーザの好みなどが含まれる。そのため、コンテキストデータ242に含まれるかまたは表されるデータは、車両に搭載された1つ以上のセンサ、インターネットリソース、知覚サブシステム230と通信するコンピューティングデバイスなどを含む様々な異なるソースから発生し得る。
いくつかの実装形態では、コンテキストデータ242は、1つ以上の前のフレームからのセンサデータ222、1つ以上の前のフレームからの提案場所252、1つ以上の前のフレームからの特徴表現262、および/または1つ以上の前のフレームからの知覚出力232を含む、1つ以上の前のフレームに対して知覚サブシステム230によって取得または生成されたデータを含み得る。前のフレームからのそのようなデータは、知覚サブシステム230に、オブジェクトが位置すると予想される場所の比較的信頼できる推定を提供するのに役立ち得る。このようにして、知覚サブシステム230は、オブジェクトが現在のフレームに位置する可能性が高いシーン内の領域により多くの演算リソースを割り当て、および/またはオブジェクトが現在のフレームに位置する可能性が低いシーン内の領域により少ない演算リソースを割り当てることが可能となり得る。
いくつかの例では、所与の提案場所に対する点が判定されると、特徴量化器260はさらに、判定された各点を所与の提案場所の原点に再中心化すること、すなわち、所与の提案場所が原点に位置する座標系において、判定された点を表し、次いで再中心化された点を使用して、判定された点について特徴表現を生成することができる。
前述の実装形態のうちの少なくともいくつかでは、特徴量化器260は、特徴表現262を生成するために利用され得る特徴量化器ニューラルネットワークを含む。より具体的には、所与の提案場所について、特徴量化器260は、特徴量化器ニューラルネットワークを使用して所与の提案場所に対する特徴量化器入力を処理して、所与の提案場所について特徴表現を生成し得る。例えば、特徴量化器ニューラルネットワークに適用される特徴量化器入力は、所与の提案場所に対して判定または選択される固定数の点を示すデータを含み得る。特徴量化器260が判定された各点を原点に再中心化する例の場合、特徴量化器ニューラルネットワークに適用される特徴量化器入力は、再中心化された点を示すデータを含み得る。さらに、いくつかの例では、特徴量化器ニューラルネットワークに適用される特徴量化器入力は、判定された各点についてのセンサ特徴を示すデータを含み得る。いくつかの実装形態では、特徴量化器260に含まれる特徴量化器ニューラルネットワークは、図3を参照して以下でさらに詳細に説明されるように、特徴量化器ニューラルネットワーク360に対応し得る。
図3は、例示的な特徴量化器ニューラルネットワーク360のブロック図である。特徴量化器ニューラルネットワーク360は、入力としてデータ357を受信し、データ357に少なくとも部分的に基づいて、特徴表現362のセットを生成する。上で言及されるように、いくつかの実装形態では、特徴量化器ニューラルネットワーク360は、図2を参照して本明細書に説明したように、知覚サブシステム230の特徴量化器260の一部として実装され得る。これらの実装形態では、データ357および特徴表現362は、図2を参照して上記で説明したように、特徴量化器入力および特徴表現262にそれぞれ対応し得る。図3の例では、特徴量化器ニューラルネットワーク360は、複数の層361A~361E(例えば、5層)を含む。図3は、層361Bの詳細図のみを含むが、層361Aおよび361C~361Eのアーキテクチャは、層361Bのアーキテクチャと類似または同等であってもよいことを理解されたい。層361A~361Eの各々は、入力として、点のセットを受け取り、各点は、関連する特徴ベクトルを有する。層361Bの詳細図に示されるように、所与の点の入力を処理するとき、層361A~361Eの各々は、例えば、点のセットに対する特徴ベクトル全体にわたって各特徴の最大値(max)を演算することによって、最初に点のセット全体の集約統計を演算し、次いで、その結果のグローバル統計を所与の点の特徴に連結して、その所与の点の連結入力を生成し得る。層361A~361Eの各々は、2つの完全に接続された層を適用し得、それらの各々は、所与の点の連結入力に対する、バッチ正規化(BN)、線形射影、およびReLU活性化から構成される。特徴量化器ニューラルネットワーク360は、集約を使用して層361A~361Eの各々の読み出しを実行し、すなわち、点のセットに対して層361A~361Eの各々の出力を集約して、例えば、点のセット内の個々の点に対する層の出力の平均値を演算することによって、単一の特徴ベクトルを生成し、次いで、読み出しを一緒に連結して、すなわち、層の出力の平均値を一緒に連結して、提案場所の特徴量化、例えば、特徴表現362を形成する。設計上、各層の出力は特徴表現で使用される前に集約されるため、特徴量化器ニューラルネットワーク360は、様々な数の入力点で使用することができ、柔軟性が高くなる。そのため、特徴量化器ニューラルネットワーク360への入力として判定または選択されて適合される点の数は、問題なく、例えば、特徴量化器ニューラルネットワーク360の層361A~361Eのいずれかも再トレーニングする必要なく、異なる演算設定に適合するように調整され得る。特徴量化器ニューラルネットワーク360は、5つの層、例えば、層361A~361Eを有するものとして図3に示されているが、特徴量化器ニューラルネットワーク360は、5層より多いまたは少ない層で実装され得ることを理解されたい。
再度図2を参照すると、特徴量化器260によって判定される特徴表現262は、図3を参照して上記で説明したように特徴量化器ニューラルネットワーク360によって生成される特徴表現362に対応し得、回帰および分類のためのオブジェクト検出ニューラルネットワーク270に提供される。知覚サブシステム230は、オブジェクト検出ニューラルネットワーク270を使用して特徴表現262を処理して、知覚出力232を生成する。オブジェクト検出ニューラルネットワーク270が生成するように構成されている知覚出力232は、シーン内のオブジェクトを識別するオブジェクト検出出力である。いくつかの例では、知覚出力232は、図1を参照して上記で説明したように、知覚出力132に対応し得る。
いくつかの実装形態では、知覚出力232を生成するために、オブジェクト検出ニューラルネットワーク270は、特徴表現262に含まれる各特徴表現を射影して、それぞれ複数のアンカーオフセットに対して複数の特徴ベクトルを生成し、複数の特徴ベクトルを処理して、複数のアンカーオフセットの各々に対してオブジェクト検出出力を生成する。すなわち、各提案場所に対して、ニューラルネットワーク270は、各アンカーオフセットに対してそれぞれの特徴ベクトルを生成し、次いで、アンカーオフセットに対して特徴ベクトルを処理して、アンカーオフセットに対してオブジェクト検出出力を生成する。これらの実装形態では、知覚出力232に含まれる各オブジェクト検出出力は、提案場所のうちの1つおよびアンカーオフセットのうちの1つに対応し、(i)アンカーオフセットによる提案場所オフセットに対応するシーンの領域に対する可能なオブジェクトの場所、および(ii)オブジェクトが識別された場所に位置する尤度、を識別する。これらの実装形態うちの少なくともいくつかでは、異なるアンカーオフセットが、異なる射影重みに関連付けられ、各アンカーオフセットに対してそれぞれの特徴ベクトルを生成するために、オブジェクト検出ニューラルネットワーク270は、アンカーオフセットに関連付けられた射影重みに従って、特徴表現262に含まれる各特徴表現を射影する。少なくともいくつかの実装形態では、オブジェクト検出出力には、識別された場所の各々に対する分類出力も含まれ、複数のアンカーオフセットの各々に対してオブジェクト検出出力を生成するために、オブジェクト検出ニューラルネットワーク270は、アンカーオフセットに対する特徴ベクトルを使用して、分類ヘッドを使用した分類ロジットと、回帰ヘッドを使用したオフセットに対するバウンディングボックス回帰ロジットと(各ヘッドには、1つ以上の完全接続または畳み込みニューラルネットワーク層が含まれる)を予測する。そのような予測は、知覚出力232に含まれるか、または表され得る。さらに、いくつかの例では、オブジェクト検出ニューラルネットワーク270は、非最大抑制(NMS)またはNMSと同様の少なくとも1つの技術を採用して、互いに大きく重複する同じクラスの予測を除去する。これらの例では、残りの予測は、知覚出力232に含まれるか、または表され得る。
知覚サブシステム230のオブジェクト検出ニューラルネットワーク270によって生成される知覚出力232は、1つ以上のシステムに提供され、車両に対して自律運転の決定を下して、車両のオペレータもしくは乗客、またはその両方に情報を表示するために使用され得る。例えば、知覚サブシステム230は、計画サブシステム140、制御サブシステム、およびユーザインターフェースサブシステムを含む、図1を参照して上記で説明したもののうちの1つ以上と類似または同等である1つ以上のシステムまたはサブシステムに知覚出力232を提供し得る。他の構成も可能である。
特徴量化器260の特徴量化器ニューラルネットワークおよびオブジェクト検出ニューラルネットワーク270は、トレーニングデータセット内の点群に対するグラウンドトゥルースオブジェクト検出出力上で共同でトレーニングされ得る。上で言及されるように、いくつかの実装形態では、特徴量化器260の特徴量化器ニューラルネットワークは、図3を参照して説明したように、特徴量化器ニューラルネットワーク360に対応し得る。これらのニューラルネットワークのトレーニングに使用される損失関数は、グラウンドトゥルースオブジェクト検出出力と比較してこれらのニューラルネットワークによって生成されたオブジェクト検出出力の品質を測定するオブジェクト検出損失、例えば、回帰値に対する平滑化L1損失と分類出力に対する交差エントロピー損失とすることができる。
いくつかの実装形態では、知覚サブシステム230は、取得された点群データから地面反射に関連している可能性が高い点を除去するようにさらに構成されている。これらの実装形態のうちの少なくともいくつかでは、このプロセスに関連する動作は、提案場所判定エンジン250によって実行され得る。例えば、知覚サブシステム230は、1つ以上の閾値を満たさない、z次元における位置を有する点を除去し得る。いくつかの例では、知覚サブシステム230は、z次元における1つ以上の指定された位置の範囲の外側に位置付けられる点を除去し得る。そうすることで、潜在的に演算量を節約し得、および/またはシステムが歩行者、車両、もしくは他の関心対象のオブジェクトに関連付けられる可能性が高い点に演算リソースを集中することを可能にし得る。
別個のモジュールまたはコンポーネントとして説明されているが、提案場所判定エンジン250、特徴量化器260、およびオブジェクト検出ニューラルネットワーク270の各々の機能の一部またはすべては、知覚サブシステム230の他のモジュールもしくはコンポーネントを介して、または知覚サブシステム230と通信して提供され得ることを理解されたい。一例として、いくつかの実装形態では、特徴量化器260によって実行されるものとして上記に説明したような動作のうちの1つ以上は、提案場所判定エンジン250によって実行され得、その結果、提案場所判定エンジン250によって特徴量化器260に提供される出力は、図3を参照して上記で説明したようなデータ357と類似または同等であり得る。そのような実装形態では、コンテキストデータ242は、提案場所判定エンジン250に提供され得る。いくつかの例では、提案場所判定エンジン250は、コンテキストデータ242を利用して、提案場所252を判定し得る。他の構成も可能である。
図4は、点群内のオブジェクトを検出するための例示的なプロセス400のフロー図である。便宜上、プロセス400は、1つ以上の場所に位置する1つ以上のコンピュータのシステムによって実行されるものとして説明される。例えば、車載システム、本明細書に従って適切にプログラムされている、例えば、図1の車載システム100、もしくはそのサブシステム、例えば、図1の知覚サブシステム130もしくは図2の知覚サブシステム230は、プロセス400を実行することができる。しかしながら、プロセス400は、他のシステムまたはシステム構成によって実行され得る。
システムは、1つ以上のセンサによってキャプチャされたシーンのセンサ測定値を表す点群データ(402)を取得する。例えば、これは、車載システム100のセンササブシステムからセンサデータ122を取得する、図1の車載システム100の知覚サブシステム130に対応し得る。同様に、これはまた、センサデータ222を取得する図2の知覚サブシステム230の提案場所判定エンジン250に対応し得る。システムによって取得される点群データは、シーン内の複数の三次元の点を含み、いくつかの実装形態では、シーン内の各三次元の点は、それぞれの(x,y)座標を有する。いくつかの例では、1つ以上のセンサは、自動運転車両のセンサ、例えば、1つ以上のLIDARセンサまたは深度カメラセンサである。いくつかの例では、点群データは、三次元の点の各々について1つ以上のセンサによって生成されたセンサ特徴を含む。
システムは、シーン内の三次元の点に基づいて、複数の二次元の提案場所(404)を判定する。例えば、これは、センサデータ222に基づいて提案場所252を判定する図2の知覚サブシステム230の提案場所判定エンジン250に対応し得る。上で言及されるように、いくつかの実装では、シーン内の各三次元の点はそれぞれの(x,y)座標を有する。これらの実装形態のうちの少なくともいくつかでは、シーン内の三次元の点に基づいて複数の二次元の提案場所を判定するために、システムは、シーン内の三次元の点の(x,y)座標のうちから固定数の二次元の提案場所をサンプリングする。いくつかの例では、システムは、最も遠い点のサンプリング(FPS)および/またはランダム均一サンプリングなどのサンプリング技術を使用して、固定数の二次元の提案場所をサンプリングし得る。
システムは、二次元の提案場所の近辺の点群データ内の三次元の点から、各二次元の提案場所(406)に対して特徴表現を生成する。例えば、これは、提案場所252に基づいて特徴表現262を生成する図2の知覚サブシステム230の特徴量化器260に対応し得る。いくつかの実装形態では、各二次元の提案場所に対して特徴表現を生成するために、システムは、提案場所の閾値半径内にある(x,y)座標を有する固定数の点を判定し、提案場所の閾値半径内にある(x,y)座標を有するサンプリングされた固定数の点から、二次元の提案場所について特徴表現を生成する。上で言及されるように、いくつかの例では、1つ以上のセンサは、自動運転車両のセンサである。これらの例のうちのいくつかでは、提案場所の閾値半径内にある(x,y)座標を有する固定数の点を判定するために、前述の実装形態のうちの少なくともいくつかでは、システムは、(i)閾値半径内にある(x,y)座標を有する点からより多い第2の数の点をサンプリングし、(ii)自動運転車両の動作に対する相対的な重要性に基づいて第2の数の点をランク付けし、(iii)ランク付けに基づいてサンプリングされた第2の数の点のサブセットを、判定された固定数の点として選択する。例えば、システムは、自動運転車両からの距離に基づいて第2の数の点をランク付けし得る。これは、例えば、少なくとも部分的にコンテキストデータ242に基づいて、提案場所の近辺内の点をランク付けする図2の知覚サブシステム230の特徴量化器260に対応し得る。
前述の実装形態のうちの少なくともいくつかでは、二次元の提案場所について特徴表現を生成するために、システムは、(i)各判定された点に対して、二次元の提案場所を中心とする再中心点を生成し、(ii)特徴量化器ニューラルネットワークを使用して再中心化された点を含む特徴量化器入力を処理し、特徴表現を生成する。特徴量化器ニューラルネットワークは、可変数の入力点を処理するように構成され得る。例えば、特徴量化器ニューラルネットワークは、図3の特徴量化器ニューラルネットワーク360に対応し得る。上で言及されるように、いくつかの例では、点群データは、三次元の点の各々について1つ以上のセンサによって生成されたセンサ特徴を含む。これらの例のうちの少なくともいくつかでは、システムが特徴量化器ニューラルネットワークを使用して処理する特徴量化器入力には、判定された点の各々に対するセンサ特徴が含まれる。
システムは、シーン内のオブジェクトを識別するオブジェクト検出出力を生成するように構成されたオブジェクト検出ニューラルネットワーク(408)を使用して特徴表現を処理する。例えば、これは、オブジェクト検出ニューラルネットワークを使用して特徴表現262を処理して、知覚出力232を生成する図2の知覚サブシステム230に対応し得る。いくつかの実装形態では、オブジェクト検出ニューラルネットワークを使用して二次元の提案場所の特徴表現を処理するために、システムは、各提案場所に対して、特徴表現を射影して、複数のアンカーオフセットの各々についてそれぞれの特徴ベクトルを生成し、特徴ベクトルを処理して、複数のアンカーオフセットの各々について、(i)アンカーオフセットによってオフセットされた提案場所に対応するシーンの領域に対する可能なオブジェクトの場所と、(ii)オブジェクトが識別された場所にある尤度と、を識別するオブジェクト検出出力を生成する。いくつかの例では、異なるアンカーオフセットは、異なる射影重みを有する。これらの例のうちの少なくともいくつかでは、各アンカーオフセットに対してそれぞれの特徴ベクトルを生成するために、システムは、アンカーオフセットに対する射影重みに従って特徴表現を射影する。
いくつかの実装形態では、プロセス400は、システムが、取得された点群データから地面反射に関連付けられる可能性が高い点を除去する1つ以上の追加の動作を含む。例えば、システムは、z次元の1つ以上の指定された位置の範囲の外側に位置付けられている点を削除し得る。図2を参照して上で言及されるように、そうすることで、潜在的に演算量を節約し得、および/またはシステムが歩行者、車両、もしくは他の関心対象のオブジェクトに関連付けられる可能性が高い点に演算リソースを集中することを可能にし得る。いくつかの例では、システムが点群データを取得した(402)後であるがシステムが複数の二次元の提案場所を判定する(404)前に、そのような1つ以上の追加の動作を実行し得る。
本明細書では、システムおよびコンピュータプログラムコンポーネントに関連して「構成された」という用語を使用している。1つ以上のコンピュータのシステムが特定の操作または動作を実行するように構成されているとは、システムがそれにインストールされており、ソフトウェア、ファームウェア、ハードウェア、またはそれらの組み合わせが動作中に、システムにその操作または動作を実行させることを意味する。1つ以上のコンピュータプログラムが特定の操作または動作を実行するように構成されているとは、1つ以上のプログラムが、データ処理装置によって実行されると、装置に操作または動作を実行させる命令を含むことを意味する。
本明細書に記載の主題および機能的動作の実施形態は、デジタル電子回路内に、有形的に具現化されたコンピュータソフトウェアもしくはファームウェア内に、本明細書に開示された構造体およびそれらの構造上の等価物を含むコンピュータハードウェア内に、またはそれらのうちの1つ以上を組み合わせて、実装することができる。本明細書に記載の主題の実施形態は、1つ以上のコンピュータプログラムとして、すなわち、データ処理装置によって実行するために、またはデータ処理装置の操作を制御するために有形の非一時的記憶媒体に符号化されたコンピュータプログラム命令の1つ以上のモジュールとして実装することができる。コンピュータ記憶媒体は、機械可読記憶デバイス、機械可読記憶基板、ランダムまたはシリアルアクセスメモリデバイス、またはそれらの1つ以上の組み合わせであり得る。代替的に、または加えて、プログラム命令は、人工的に生成された伝播信号、例えば、データ処理装置によって実行するために好適な受信装置に送信される情報を符号化するために生成される機械生成の電気、光、または電磁信号に符号化され得る。
「データ処理装置」という用語は、データ処理ハードウェアを指し、データを処理するためのあらゆる種類の装置、デバイス、および機械を包含し、それらには、例として、プログラマブルプロセッサ、コンピュータ、または複数のプロセッサもしくはコンピュータが含まれる。装置はまた、例えば、FPGA(フィールドプログラマブルゲートアレイ)もしくはASIC(特定用途向け集積回路)などの専用論理回路とすることができるか、またはそれをさらに含むことができる。装置は、ハードウェアに加えて、コンピュータプログラムのための実行環境を作り出すコード、例えば、プロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、またはそれらの1つ以上の組み合わせを構成するコードを任意選択的に含むことができる。
プログラム、ソフトウェア、ソフトウェアアプリケーション、アプリケーション、モジュール、ソフトウェアモジュール、スクリプト、もしくはコードとも称された、または記載されたコンピュータプログラムは、コンパイラ型もしくはインタープリタ型言語、または宣言型もしくは手続き型言語を含む、任意の形式のプログラミング言語で記述され得、かつ独立型プログラム、またはモジュール、コンポーネント、サブルーチン、もしくはコンピューティング環境で使用するために好適な他のユニットを含む任意の形態で展開することができる。プログラムは、ファイルシステム内のファイルに対応する場合もあるが、必ずしもそうである必要はない。プログラムは、他のプログラムもしくはデータを保持するファイルの一部、例えば、マークアップ言語ドキュメントに格納された1つ以上のスクリプト、プログラム専用の単一ファイル、または複数の調整ファイル、例えば、1つ以上のモジュール、サブプログラム、もしくはコードの一部を格納するファイルに格納することができる。コンピュータプログラムは、1つのコンピュータまたは1つの場所に配置された複数のコンピュータ上で実行されるように展開するか、複数の場所に分散してデータ通信ネットワークで相互接続することができる。
本明細書では、「データベース」という用語は、データの集まりを指すために広く使用されており、データは、特定の方法で構造化される必要はなく、構造化される必要も全くなく、1つ以上の場所にある記憶デバイスに保存することができる。したがって、例えば、インデックスデータベースには、各集まりが異なる方法で編成およびアクセスされ得る、データの複数の集まりを含めることができる。
同様に、本明細書では、「エンジン」という用語は、1つ以上の特定の機能を実行するようにプログラムされたソフトウェアベースのシステム、サブシステム、またはプロセスを指すために広く使用されている。一般に、エンジンは1つ以上のソフトウェアモジュールまたはコンポーネントとして実装され、1つ以上の場所にある1つ以上のコンピュータにインストールされる。場合によっては、1台以上のコンピュータが特定のエンジン専用になり、それ以外の場合は、複数のエンジンを同じ台または複数のコンピュータにインストールして実行することができる。
本明細書に記載のプロセスおよび論理フローは、1つ以上のプログラマブルコンピュータが1つ以上のコンピュータプログラムを実行して、入力データ上で動作し、かつ出力を生成することで機能を果たすことによって実行することができる。プロセスおよび論理フローはまた、FPGAもしくはASICなどの専用論理回路によって、または特定用途の論理回路と1つ以上のプログラムされたコンピュータとの組み合わせによって実行することができる。
コンピュータプログラムの実行に好適なコンピュータは、汎用もしくは専用のマイクロプロセッサあるいはその両方、または他の種類の中央処理装置に基づくことができる。一般に、中央処理装置は、読み取り専用メモリもしくはランダムアクセスメモリ、またはその両方から命令およびデータを受信することになる。コンピュータの本質的な要素は、命令を遂行または実行するための中央処理装置ならびに命令およびデータを格納するための1つ以上のメモリデバイスである。中央処理装置およびメモリは、専用論理回路によって補完またはその回路に組み込むことができる。概して、コンピュータはまた、データを格納するための1つ以上の大容量ストレージデバイス、例えば、磁気ディスク、光磁気ディスク、もしくは光ディスクを含むか、または大容量ストレージデバイスからデータを受信、もしくはデータを転送、もしくはその両方を行うように動作可能に結合される。しかしながら、コンピュータは必ずしもそのようなデバイスを有する必要はない。さらに、コンピュータは別のデバイス、例えば、ほんの数例を挙げると、携帯電話、電子手帳(PDA)、モバイルオーディオもしくはビデオプレーヤ、ゲームコンソール、全地球測位システム(GPS)受信機、またはポータブル記憶デバイス、例えば、ユニバーサルシリアルバス(USB)フラッシュドライブなどに組み込むことができる。
コンピュータプログラム命令およびデータを格納するための好適なコンピュータ可読媒体には、すべての形態の不揮発性メモリ、媒体、およびメモリデバイスが含まれ、例としては、例えば、EPROM、EEPROM、およびフラッシュメモリデバイスなどの半導体メモリデバイス、例えば内蔵ハードディスクまたは取り外し可能ディスクなどの磁気ディスク、光磁気ディスク、ならびにCD ROMディスクおよびDVD-ROMディスクが挙げられる。
ユーザとの対話を提供するために、本明細書に記載の主題の実施形態は、コンピュータ上で実施することができ、コンピュータは、ユーザがコンピュータに入力を提供することができる、ユーザに情報を表示するための表示デバイス、例えば、CRT(陰極線管)もしくはLCD(液晶ディスプレイ)モニタ、ならびにキーボードおよびマウス、トラックボールなどのポインティングデバイスを有する。他の種類のデバイスを使用して、ユーザとの対話を提供することもできる。例えば、ユーザに提供されるフィードバックは、視覚的フィードバック、聴覚的フィードバック、または触覚的フィードバックなどの任意の形の感覚的フィードバックであり得、ユーザからの入力は、音響、音声、または触覚入力を含む任意の形式で受信することができる。さらに、コンピュータは、ユーザが使用するデバイスとの間でドキュメントを送受信することによって、例えば、ウェブブラウザから受信した要求に応答して、ユーザのデバイス上のウェブブラウザにウェブページを送信することによって、ユーザと対話することができる。また、コンピュータは、テキストメッセージまたは他の形式のメッセージを、メッセージアプリケーションを実行するスマートフォンなどのパーソナルデバイスに送信し、代わりにユーザからの応答メッセージを受信することにより、ユーザと対話することができる。
機械学習モデルを実装するためのデータ処理装置には、例えば、機械学習のトレーニングまたは本稼働の一般的で演算集約型の部分、すなわち、推論、ワークロードを処理するための専用ハードウェアアクセラレータユニットを含めることもできる。
機械学習モデルは、TensorFlowフレームワーク、Microsoft Cognitive Toolkitフレームワーク、Apache Singaフレームワーク、またはApache MXNetフレームワークなどの機械学習フレームワークを使用して実装および展開することができる。
本明細書に記載の主題の実施形態は、例えばデータサーバとしての、バックエンドコンポーネントを含むか、または例えばアプリケーションサーバとしての、ミドルウェアコンポーネントを含むか、または例えば、ユーザがそれを通して本明細書に記載の主題の実装形態と対話し得るグラフィカルユーザインターフェース、ウェブブラウザ、もしくはアプリケーションを有するクライアントコンピュータである、フロントエンドコンポーネントを含む、コンピューティングシステムにおいて、または1つ以上のそのようなバックエンド、ミドルウェア、もしくはフロントエンドコンポーネントの任意の組み合わせにおいて実施することができる。システムのコンポーネントは、デジタルデータ通信の任意の形式または媒体、例えば、通信ネットワークによって相互配線され得る。通信ネットワークの例には、ローカルエリアネットワーク(LAN)およびワイドエリアネットワーク(WAN)、例えばインターネットが含まれる。
コンピューティングシステムには、クライアントとサーバとを含めることができる。クライアントおよびサーバは概して、互いにリモートであり、典型的には通信ネットワークを介して相互作用する。クライアントとサーバとの関係は、それぞれのコンピュータで実行され、かつ互いにクライアントとサーバとの関係を有している、コンピュータプログラムによって生じる。いくつかの実施形態では、サーバは、データを、例えば、HTMLページを、ユーザデバイスに、例えば、クライアントとして動作するデバイスと対話するユーザにデータを表示し、ユーザからのユーザ入力を受信する目的で、送信する。ユーザデバイスで生成されたデータは、例えば、ユーザ対話の結果は、デバイスからサーバで受信することができる。
本明細書は多くの特定の実装形態の詳細を含むが、これらは、いずれかの発明の範囲、または請求され得る事項の範囲を限定するものとして解釈されるべきではなく、特定の発明の特定の実施形態に特有の特徴に関する説明として解釈されるべきである。別々の実施形態の局面で本明細書に記載された特定の特徴を、単一の実施形態で組み合わせて実装することもできる。逆に、単一の実施形態の文脈で本明細書に記載されている種々の特徴は、複数の実施形態で、別個に、または任意の好適なサブコンビネーションで実施することもできる。さらに、特徴は、特定の組み合わせで作用するものとして上記に説明され、当初はそのように特許請求されることがあるが、場合によっては、特許請求された組み合わせからの1つ以上の特徴が、その組み合わせから削除される可能性もあり、特許請求された組み合わせが、サブコンビネーションまたはサブコンビネーションの変形に向けられる可能性もある。
同様に、動作が特定の順序で図面に図示され、請求の範囲に記載されているが、これは、所望の結果を達成するために、かかる動作がその示された特定の順序、もしくは一連の順序で実行されるべきであること、または例証したすべての動作が実行されるべきであることを要求するものとして理解されるべきではない。特定の状況では、マルチタスクおよび並列処理が有利な場合がある。さらに、上記した実施形態における様々なシステムモジュールおよびコンポーネントの分離は、すべての実施形態においてかかる分離を必要とするものとして理解されるべきではなく、記載されたプログラムコンポーネントおよびシステムは、概して、単一のソフトウェア製品内に共に一体化され得るか、または複数のソフトウェア製品にパッケージ化され得る。
主題の特定の実施形態を説明してきた。他の実施形態は、以下の特許請求の範囲内に存在する。例えば、特許請求の範囲に記載された動作は、異なる順序で実行され得、望ましい結果を依然として達成することができる。一例として、添付の図に図示されたプロセスは、望ましい結果を達成するために、必ずしも示された特定の順序、または一連の順序を必要としない。特定の場合には、マルチタスクおよび並列処理が有利となり得る。

Claims (15)

  1. 方法であって、
    1つ以上のセンサによってキャプチャされたシーンのセンサ測定値を表す点群データを取得することであって、前記点群データが、前記シーン内の複数の三次元の点を含む、取得することと、
    前記シーン内の前記三次元の点に基づいて、複数の二次元の提案場所を判定することと、
    各二次元の提案場所に対して、前記二次元の提案場所の近くにある前記点群データ内の三次元の点から特徴表現を生成することと、
    前記シーン内のオブジェクトを識別するオブジェクト検出出力を生成するように構成されたオブジェクト検出ニューラルネットワークを使用して、前記二次元の提案場所の前記特徴表現を処理することと、を含む、方法。
  2. 各三次元点がそれぞれの(x,y)座標を有し、前記シーン内の前記三次元の点に基づいて、複数の二次元の提案場所を判定することが、
    前記シーン内の前記三次元の点の(x,y)座標のうちから、固定数の二次元の提案場所をサンプリングすることと、を含む、先行請求項に記載の方法。
  3. 前記固定数の二次元の提案場所をサンプリングすることが、
    最も遠い点のサンプリングを使用して、前記固定数の二次元の提案場所をサンプリングすることを含む、請求項2に記載の方法。
  4. 前記固定数の二次元の提案場所をサンプリングすることが、
    ランダムな均一サンプリングを使用して、前記固定数の二次元の提案場所をサンプリングすることを含む、請求項2に記載の方法。
  5. 各二次元の提案場所に対して、前記二次元の提案場所の近くにある前記点群データ内の三次元の点から特徴表現を生成することが、
    前記提案場所の閾値半径内にある(x,y)座標を有する固定数の点を判定することと、
    前記提案場所の閾値半径内にある(x,y)座標を有するサンプリングされた固定数の点から、前記二次元の提案場所について特徴表現を生成することと、を含む、先行する請求項のいずれか一項に記載の方法。
  6. 前記1つ以上のセンサが、自動運転車両のセンサであり、前記提案場所の閾値半径内にある固定数の点を判定することが、
    前記閾値半径内にある(x,y)座標を有する点からより多い第2の数の点をサンプリングすることと、
    前記自動運転車両の動作に対する相対的な重要性に基づいて前記第2の数の点をランク付けすることと、
    前記ランク付けに基づいてサンプリングされた前記第2の点のサブセットを、前記判定された固定点数として選択することと、を含む、請求項5に記載の方法。
  7. 前記自動運転車両の動作に対する相対的な重要性に基づいて前記第2の数の点をランク付けすることが、
    前記自動運転車両からの距離に基づいて前記第2の数の点をランク付けすることを含む、請求項6に記載の方法。
  8. 前記二次元の提案場所について前記特徴表現を生成することが、
    各判定された点に対して、前記二次元の提案場所を中心とする再中心化された点を生成することと、
    特徴量化器ニューラルネットワークを使用して、前記再中心化された点を含む特徴量化器入力を処理して、前記特徴表現を生成することと、を含む、請求項5~7のいずれか一項に記載の方法。
  9. 前記特徴量化器ニューラルネットワークが、可変数の入力点を処理するように構成されている、請求項8に記載の方法。
  10. 前記点群データが、前記三次元の点の各々について前記1つ以上のセンサによって生成されたセンサ特徴を含み、前記特徴量化器入力が、前記判定された点の各々についての前記センサ特徴を含む、請求項8または9のいずれか一項に記載の方法。
  11. 前記シーン内のオブジェクトを識別するオブジェクト検出出力を生成するように構成されたオブジェクト検出ニューラルネットワークを使用して、前記二次元の提案場所の前記特徴表現を処理することが、
    各提案場所に対して、
    複数のアンカーオフセットの各々についてそれぞれの特徴ベクトルを生成するために前記特徴表現を射影することと、
    前記特徴ベクトルを処理して、前記複数のアンカーオフセットの各々について、前記アンカーオフセットによる前記提案場所オフセットに対応する前記シーンの領域に対する可能なオブジェクトの場所、およびオブジェクトが前記識別された場所に位置する尤度、を識別するオブジェクト検出出力を生成することと、を含む、先行請求項のいずれか一項に記載の方法。
  12. 前記特徴表現を射影して、複数のアンカーオフセットの各々についてそれぞれの特徴ベクトルを生成することが、
    各アンカーオフセットに対して、前記アンカーオフセットに対する射影重みに従って前記特徴表現を射影することであって、異なるアンカーオフセットが、異なる射影重みを有する、射影することと、を含む、請求項11に記載の方法。
  13. 前記取得された点群データから地上反射に関連付けられる可能性が高い点を除去することをさらに含む、先行請求項のいずれか一項に記載の方法。
  14. システムであって、
    1つ以上のコンピュータと、
    前記1つ以上のコンピュータによって実行されたとき、前記1つ以上のコンピュータに先行請求項のいずれか一項に記載のそれぞれの方法の動作を実行させる命令を格納している、1つ以上の記憶デバイスと、を含む、システム。
  15. 1つ以上のコンピュータによって実行されたとき、前記1つ以上のコンピュータに先行請求項のいずれか一項に記載のそれぞれの方法の動作を実行させる命令を格納している、1つ以上の非一時的なコンピュータ記憶媒体。
JP2022500800A 2019-07-08 2020-07-08 点群におけるオブジェクト検出 Ceased JP2022539843A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962871669P 2019-07-08 2019-07-08
US62/871,669 2019-07-08
PCT/US2020/041200 WO2021007320A1 (en) 2019-07-08 2020-07-08 Object detection in point clouds

Publications (1)

Publication Number Publication Date
JP2022539843A true JP2022539843A (ja) 2022-09-13

Family

ID=71944315

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022500800A Ceased JP2022539843A (ja) 2019-07-08 2020-07-08 点群におけるオブジェクト検出

Country Status (6)

Country Link
US (1) US11450120B2 (ja)
EP (1) EP3980932A1 (ja)
JP (1) JP2022539843A (ja)
KR (1) KR20220031685A (ja)
CN (1) CN114080629A (ja)
WO (1) WO2021007320A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021131652A (ja) * 2020-02-19 2021-09-09 株式会社トプコン データ構造、記録媒体、プログラム、及びシステム
US11636592B2 (en) * 2020-07-17 2023-04-25 International Business Machines Corporation Medical object detection and identification via machine learning
CN112801036A (zh) * 2021-02-25 2021-05-14 同济大学 一种目标识别方法、训练方法、介质、电子设备及汽车
WO2022187251A1 (en) * 2021-03-01 2022-09-09 Waymo Llc Generating scene flow labels from point clouds using object labels
US20220292813A1 (en) * 2021-03-10 2022-09-15 Acronis International Gmbh Systems and methods for detecting objects an image using a neural network trained by an imbalanced dataset
CN113205116B (zh) * 2021-04-15 2024-02-02 江苏方天电力技术有限公司 输电线路无人机巡检拍摄目标点自动提取及航迹规划方法
WO2023003354A1 (ko) * 2021-07-20 2023-01-26 엘지전자 주식회사 포인트 클라우드 데이터 송신 장치, 포인트 클라우드 데이터 송신 방법, 포인트 클라우드 데이터 수신 장치 및 포인트 클라우드 데이터 수신 방법
CN115965925B (zh) * 2023-03-03 2023-06-23 安徽蔚来智驾科技有限公司 点云目标检测方法、计算机设备、存储介质及车辆

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190188541A1 (en) * 2017-03-17 2019-06-20 Chien-Yi WANG Joint 3d object detection and orientation estimation via multimodal fusion

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1969523B1 (en) * 2005-12-16 2011-04-27 Technion Research and Development of Foundation, Ltd. Method and apparatus for determining similarity between surfaces
WO2011153624A2 (en) * 2010-06-11 2011-12-15 Ambercore Software Inc. System and method for manipulating data having spatial coordinates
GB2537681B (en) * 2015-04-24 2018-04-25 Univ Oxford Innovation Ltd A method of detecting objects within a 3D environment
CN110832348B (zh) * 2016-12-30 2023-08-15 辉达公司 用于自主车辆的高清晰度地图的点云数据丰富
US10460180B2 (en) * 2017-04-20 2019-10-29 GM Global Technology Operations LLC Systems and methods for visual classification with region proposals
US10970553B2 (en) * 2017-11-15 2021-04-06 Uatc, Llc Semantic segmentation of three-dimensional data
US10671860B2 (en) * 2018-02-20 2020-06-02 GM Global Technology Operations LLC Providing information-rich map semantics to navigation metric map
CN112639819A (zh) * 2018-07-05 2021-04-09 优创半导体科技有限公司 使用多个传感器和复杂度降低的神经网络进行对象检测
US11676005B2 (en) * 2018-11-14 2023-06-13 Huawei Technologies Co., Ltd. Method and system for deep neural networks using dynamically selected feature-relevant points from a point cloud

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190188541A1 (en) * 2017-03-17 2019-06-20 Chien-Yi WANG Joint 3d object detection and orientation estimation via multimodal fusion

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JORGE BELTRAN ET AL.: ""BirdNet: A 3D Object Detection Framework from LiDAR Information"", 2018 21ST INTERNATIONAL CONFERENCE ON INTELLIGENT TRANSPORTATION SYSTEMS (ITSC), JPN6023009895, November 2018 (2018-11-01), pages 3517 - 3523, ISSN: 0005090526 *
YIN ZHOU ET AL.: ""VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection"", 2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, JPN6023009893, June 2018 (2018-06-01), pages 4490 - 4499, XP033473359, ISSN: 0005090524, DOI: 10.1109/CVPR.2018.00472 *
國貞祐貴他: "1次元畳み込みニューラルネットワーク(1D−CNN)による全方位LIDARからの歩行者検出", 第24回 画像センシングシンポジウム SSII2018, JPN6023009892, 13 June 2018 (2018-06-13), JP, ISSN: 0005090525 *

Also Published As

Publication number Publication date
CN114080629A (zh) 2022-02-22
KR20220031685A (ko) 2022-03-11
WO2021007320A1 (en) 2021-01-14
US20210012089A1 (en) 2021-01-14
EP3980932A1 (en) 2022-04-13
US11450120B2 (en) 2022-09-20

Similar Documents

Publication Publication Date Title
US11450120B2 (en) Object detection in point clouds
JP7239703B2 (ja) 領域外コンテキストを用いたオブジェクト分類
US11164363B2 (en) Processing point clouds using dynamic voxelization
JP7459224B2 (ja) アンカー軌道を使用したエージェント軌道予測
RU2767955C1 (ru) Способы и системы для определения компьютером наличия динамических объектов
US11851081B2 (en) Predictability-based autonomous vehicle trajectory assessments
US20240338567A1 (en) Multi-Task Multi-Sensor Fusion for Three-Dimensional Object Detection
US20230213643A1 (en) Camera-radar sensor fusion using local attention mechanism
US11967103B2 (en) Multi-modal 3-D pose estimation
CN114514524A (zh) 多智能体模拟
US20220366263A1 (en) Training distilled machine learning models using a pre-trained feature extractor
US11105924B2 (en) Object localization using machine learning
US11657268B1 (en) Training neural networks to assign scores
US20220230418A1 (en) Computer-implemented method for training a computer vision model
US11774596B2 (en) Streaming object detection within sensor data
US20240232647A9 (en) Efficient search for data augmentation policies
US20240161398A1 (en) Late-to-early temporal fusion for point clouds
US20240062386A1 (en) High throughput point cloud processing
US20230104843A1 (en) Detecting stationary non-participants of traffic
US20220289209A1 (en) Evaluating multi-modal trajectory predictions for autonomous driving
CN114509772A (zh) 使用参考对象进行远程距离估计
CN117710917A (zh) 基于长短时序混合编码的端到端多模态多任务自动驾驶感知方法和装置
CN117034732A (zh) 基于真实与仿真对抗学习的自动驾驶模型训练方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220303

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230310

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230607

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230626

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230921

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230929

A045 Written measure of dismissal of application [lapsed due to lack of payment]

Free format text: JAPANESE INTERMEDIATE CODE: A045

Effective date: 20240126