JP2023529239A - マルチモーダルエゴセントリック将来予測のためのコンピュータ実装方法 - Google Patents
マルチモーダルエゴセントリック将来予測のためのコンピュータ実装方法 Download PDFInfo
- Publication number
- JP2023529239A JP2023529239A JP2023516846A JP2023516846A JP2023529239A JP 2023529239 A JP2023529239 A JP 2023529239A JP 2023516846 A JP2023516846 A JP 2023516846A JP 2023516846 A JP2023516846 A JP 2023516846A JP 2023529239 A JP2023529239 A JP 2023529239A
- Authority
- JP
- Japan
- Prior art keywords
- future
- rpn
- computer
- implemented method
- rtn
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 230000004807 localization Effects 0.000 claims abstract description 36
- 238000013528 artificial neural network Methods 0.000 claims abstract description 15
- 238000012546 transfer Methods 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims description 39
- 230000003068 static effect Effects 0.000 claims description 21
- 238000009826 distribution Methods 0.000 claims description 11
- 230000001143 conditioned effect Effects 0.000 claims description 6
- 238000012544 monitoring process Methods 0.000 claims description 4
- 238000001514 detection method Methods 0.000 description 5
- 239000000203 mixture Substances 0.000 description 5
- 238000013459 approach Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 2
- 230000033001 locomotion Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/77—Retouching; Inpainting; Scratch removal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30241—Trajectory
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30248—Vehicle exterior or interior
- G06T2207/30252—Vehicle exterior; Vicinity of vehicle
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Image Analysis (AREA)
- Traffic Control Systems (AREA)
Abstract
カメラを装備した自動車両(AV)又は先進運転者支援システム(ADAS)の運転環境におけるマルチモーダルエゴセントリック将来予測のためのコンピュータ実装方法であって、訓練された到達可能性事前確率ディープニューラルネットワーク(RPN)と、訓練された到達可能性転移ディープニューラルネットワーク(RTN)と、訓練された将来位置特定ディープニューラルネットワーク(FLN)及び/又は訓練された将来出現予測ディープニューラルネットワーク(EPN)、とを含む方法。
Description
本開示は、カメラを装備した自動車両(AV)又は先進運転者支援システム(ADAS)の運転環境におけるマルチモーダルエゴセントリック将来予測及び/又は将来出現のためのコンピュータ実装方法に関する。
このような方法は、カメラを使用して周囲を認識及び解釈するために、人間の運転者、先進運転者支援システム、又は自動車両を支援する分野で特に役立つ。
移動中の車両を考慮して、将来の動力学、特に他の車両及び歩行者の将来の位置を予測する問題は、(1)単一のカメラでのエゴセントリックな視野による部分的視認性、及び車両のエゴモーションによる大きな視野変化、(2)将来の状態の分布のマルチモダリティなどの重要な課題を引き起こす。
「Risky Region Localization With Point Supervision」と題された刊行物(http://openaccess.thecvf.com/content ICCV 2017 workshops/w3/html/Kozu ka Risky Region Localization ICCV 2017 paper.html)で、提示された研究は、画像から潜在的なリスクを有する領域を検出するための方法を提案しており、この領域は歩行者が最も出現しやすいエリアを意味する。ここでの目的は、セマンティックマップからの先験的知識を使用してピクセル間のリスクのペアの順序関係の自動生成から緻密なリスクマップを構築することであり、それにより、歩行者が障害物の後ろから飛び出すリスクを評価して、歩行者によって間もなく占有される可能性が高いピクセルを発見することができる。この方法は歩行者のみに限定されており、このソリューションは、コーナーを曲がるときに訓練サンプルがないために悪い結果をもたらす。データの欠如のため、この方法は、突然現れる歩行者の軌道を予測しない。彼らは、この予測をリスクレベル予測に組み込むことを試みた。したがって、彼らの方法は、将来の軌道の代わりに、突然現れる歩行者が現れる可能性のあるエリアのみを予測する。
「Set-Based Prediction of Pedestrian in Urban Environments Considering Formalized Traffic Rules」と題された刊行物(https://www.researchgate.net/publication/327690859 Set-Based Prediction of Pedestrians in Urban Environments Considering For malized Traffic Rules)で、提示された研究は、歩行者のセットベース予測、すなわち、到達可能性分析を使用して歩行者の非決定論的モデルの全ての可能な将来状態を含む有界領域の予測についてのアプローチを提案している。それらは、歩行者の到達可能な占有の厳密な過剰近似を得るために、歩行者の動力学、コンテキスト情報、及び交通規則を組み込む。また、それらの制約は、歩行者が交通規則を無視することが多いという事実に自動的に適応して、それを予測に含める。この方法は歩行者のみに限定され、固定されたトップビュー画像のみに基づいており、シーンのエゴモーション及び進展を扱っていない。
「Context-Aware Synthesis and Placement of Object Instances」と題された刊行物(https://papers.nips.cc/paper/8240-context-aware-svnthesis-and-placement-of-obiect-instances.pdf)で、提示された研究は、指定されたクラスのオブジェクトインスタンスマスクを画像のセマンティックラベルマップに挿入するタスクのためのエンドツーエンド訓練可能ニューラルネットワークを提案している。このネットワークは、2つの生成モジュールからなり、一方は、挿入されたオブジェクトマスクがどこにあるべきか(すなわち、位置及びスケール)を判定し、他方は、オブジェクトマスク形状(及び姿勢)がどのように見えるべきかを判定する。2つのモジュールは、空間変換ネットワークを介して互いに接続され、一緒に訓練される。この方法は、現在の時間でのみオブジェクトの出現を推定し、将来の位置特定予測のためにそのような情報を使用しない。
「Overcoming Limitations of Mixture Density Networks:A sampling and fitting framework for Multimodal Future Prediction」と題された刊行物(https://arxiv.org/pdf/1906.03631.pdf)で、提示された研究は、winner-takes-all loss(勝者独り勝ち)による将来のいくつかのサンプルの予測と、サンプルの複数モードへの反復グループ化とを含むアプローチを提案する。この研究は、提案された戦略Evolving Winer-Takes-All(進化型勝者独り勝ち)に基づくネットワークアーキテクチャを提案する。この方法は、固定カメラによるトップビュー画像に基づいており、第1の段階で、必要とされるエゴモーション補償を伴うフロントビューを考慮していない。この方法は、まだ見えていないオブジェクトの将来の出現を予測せず、観測可能なオブジェクトの将来の位置特定予測のみを行う。
「Forecasting Hands and Objects in Future Frames」と題された刊行物(http://openaccess.thecvf.com/content ECCVW 2018/papers/11131/Fan For ecasting Hands and Objects in Future Frames ECCVW 2018 paper.pdf)で、提示された研究は、完全畳み込み将来表現回帰ネットワークを使用して、人間の手及びオブジェクトを明示的に予測するアプローチを提案している。検出モデルに基づくこの方法は、シーンの特徴表現を符号化し、次に、この符号化された特徴表現の経時的な進展を予測し、最後に、検出モデルを再利用してこの特徴表現を復号し、それにより、この将来のシーンにおける所与のオブジェクトの検出を行う。したがって、彼らは、現在のオブジェクト検出特徴を将来に転移することを提案し、このようにして、観測されたオブジェクトと新規のオブジェクトの両方を予想する。そうすることによって、彼らはシーンを完全に符号化し、将来の新規のオブジェクトを検出するために符号化された特徴表現のこの転移を使用し、それらのシーン符号化は特定のIDなしに背景から分離された個々のオブジェクトについての情報を含むため、将来の位置特定予測のために既に識別されたオブジェクトの追跡はない。また、この将来の位置特定/出現予測は、検出モデルに基づいているので、マルチモダリティなしに所与のオブジェクトを出力するだけである。最後に、個々のオブジェクトのこの将来の位置特定/出現予測は、将来のシーンの符号化特徴表現を用いて取得された将来のシーン全体の完全な知識を用いてしか行うことができない。この方法は、特定のクラスだけでなく、全てのオブジェクトの将来の位置を予測する。
EP3048023A1において、本開示は、自車両を運転する際に運転者を支援する方法を提案している。環境の表現は、複数の表現セグメントとして取得されたセンサデータから生成され、各セグメントが環境の限定エリアに対応する。次いで、通行オブジェクトについての将来及び/又は過去の移動挙動が推定され、所与のエリアについて特性情報が推測され、この特性情報は、自車両の好ましい経路を定義するために使用される。本開示では、新規のオブジェクトの将来の出現を予測していない。本発明は、他の車が関与する道路における自車の経路を予測するために、トップビュー画像における車線変更予測の車のみに限定される。本発明は、多数のセンサ(3Dセンサ)を使用して、全ての情報をマッピングし、他の車の将来の軌道を予測する。
US9248834B1では、本開示は、環境を記述するマップ情報を使用してオブジェクトに対する可能なアクションのセットを生成することによって、車両の環境内のオブジェクトを検出し、それに応答する方法を提案している。次いで、可能なアクションのセットに基づいて、オブジェクトの可能な将来の軌道のセットを生成することができる。本開示では、新規のオブジェクトの将来の出現を予測していない。本開示は、オブジェクトの将来の軌道を予測するための環境の非常に詳細なマップに基づく。
本発明は、様々な先行技術の上記の欠点に対処することを目的とし、より具体的には、統一されたフレームワークにおけるマルチモーダルエゴセントリック将来の位置特定及び/又は将来の出現予測のための信頼できる方法を提案することを目的とする。
本開示の第1の態様は、カメラを装備した自動車両(AV)又は先進運転者支援システム(ADAS)の運転環境におけるマルチモーダルエゴセントリック将来予測のためのコンピュータ実装方法であって、訓練された到達可能性事前確率ディープニューラルネットワーク(RPN)と、訓練された到達可能性転移ディープニューラルネットワーク(RTN)と、訓練された将来位置特定ディープニューラルネットワーク(FLN)及び/又は訓練された将来出現予測ディープニューラルネットワーク(EPN)、とを含み、この方法は、所与の時間ステップ(t)で、カメラのエゴセントリックビジョンを通じて、運転環境からの画像を観測するステップと、観測された画像内の静的要素のセマンティックマップを取得するステップと、RPNを用いて、静的要素のセマンティックマップから所与のクラスの動的対象オブジェクトの到達可能性事前確率(RP)を推定するステップと、RTNを用いて、到達可能性マップ(RM)の形態で、カメラの計画されたエゴモーションを考慮して将来の時間ステップ(t+Δt)にRPを転移するステップと、FLNを用いて、運転環境の過去及び現在の観測(t-δtからt)及びRMによって条件付けられた動的対象オブジェクトの将来の位置のマルチモーダル分布を予測するステップ、及び/又は、EPNを用いて、運転環境の過去及び現在の観測(t-δtからt)及びRMによって条件付けられた運転環境における新規の動的対象オブジェクトの将来の出現を予測するステップと、有する推論モードを含む。
かかる方法は、シーンに関する事前定義された仮定又はマップからの知識なしに、将来のマルチモダリティを考慮することによって、エゴセントリック視野内の動的オブジェクト(例えば、通行オブジェクト)の将来の位置を予測する。それは、自視野に対処するために、環境のいかなる事前知識も伴わずに、複雑及び/又は高価な3Dセンサ、レーダ、LIDAR等の代わりに、単一カメラ(例えば、RGBカメラ)しか必要としない。到達可能性事前確率及びマルチ仮説学習は、モード崩壊を克服し、追跡されるオブジェクトの将来の位置のマルチモーダル予測を改善するのに役立つ。それはまた、見えないデータセットへの有望なゼロショット転移を実証する。この方法は、自動車から取得されたフロントビュー画像に対する将来予測を改善するための到達可能性事前確率を使用することによって、シーンの進展の問題に取り組み、エゴモーション及び将来のシーンを補償する。本方法は、任意のクラスの移動オブジェクト(歩行者、自動車、自転車、オートバイなど)であり得る所与のクラスの将来のオブジェクトについてアクセス可能なエリアの現在位置から取得された知識のみを使用する。このように、我々は、将来のシーン表現を完全に符号化せず、過去から取得された知識を使用して、時間連続性を入力として取り入れて将来の位置特定(又は出現)を定義し、これはよりロバストで誤りが発生しにくい方法である。また、到達可能性マップは、所与のクラスのみに基づいており、各クラスは、特定のオブジェクトの将来の位置特定を制御するための自身の到達可能性マップを有する。移動対象オブジェクトの将来予測に加えて、又はその代わりに、本方法は、まだ見えていないオブジェクトのための将来の出現予測モジュールも提供する。到達可能性事前確率は、将来の位置について推定され、オブジェクトの将来の位置又は新規のオブジェクトの出現の予測を改善するために使用される。
有利な実施形態によれば、静的要素のセマンティックマップを取得するステップは、以下のサブステップ:観測された画像から運転環境のセマンティックマップを計算するステップと、運転環境のセマンティックマップをインペインティングして動的オブジェクトを除去するステップと、を含み、RPを推定するステップでは、除去された動的オブジェクトがグラウンドトゥルースとして使用される。
到達可能性事前確率ネットワークは、オブジェクトのクラス(例えば、車両)とシーンセマンティクス(例えば、道路、歩道など)との間の関係を学習すべきであるので、訓練サンプルから全ての動的オブジェクトを除去する。これはインペインティングによって達成される。セマンティックマップ上のインペインティングは、アーティファクトを少なくするため、到達可能性事前確率はセマンティックマップに基づく。
有利な実施形態によれば、FLNを用いた予測ステップは、各動的対象オブジェクトの過去及び現在のマスク(t-δtからt)を考慮する。
有利な実施形態によれば、RPNは、時間ステップ(t)における所与のクラスの動的対象オブジェクトの潜在的な位置特定のためのバウンディングボックス仮説を到達可能性事前確率(RP)の形態で出力し、RTNは、将来の時間ステップ(t+Δt)における所与のクラスの動的対象オブジェクトの潜在的な位置特定のためのバウンディングボックス仮説を到達可能性マップ(RM)の形態で出力する。
バウンディングボックスは、異なるタイプの通行オブジェクトを追跡するために使用され、エゴモーションを推定するために、RGB画像のみからエゴモーションを計算する標準的な方法を使用する。
有利な実施形態によれば、EPNを用いた予測ステップは、動的対象オブジェクトのクラスを考慮する。
有利な実施形態によれば、EPNは、FLN予測と統合されたフレームワークにおいて、運転環境における新規の動的対象オブジェクトの将来の出現を予測する。
本方法は、到達可能性マップの有無にかかわらず、将来の位置特定及び将来の出現のための統一されたフレームワークを提案する。このようにして、本方法は、以前に取得された将来の環境知識なしに将来の出現を予測することができる。本方法は、見えているオブジェクトの将来の位置特定又は新規のオブジェクトの出現のいずれかを予測することができる。
有利な実施形態によれば、本方法は、推論モードの前に、訓練サンプルを用いてRPNを訓練して、到達可能性事前確率(RP)の形態で所与のクラスの動的対象オブジェクトの潜在的な位置特定のための複数のバウンディングボックス仮説を生成することによって、所与のクラスの動的対象オブジェクトとセマンティックマップの静的要素との間の関係を学習するステップと、訓練サンプル、静的要素のセマンティックマップ、及び計画されたエゴモーションが与えられると、RPを将来の時間ステップ(t+Δt)に転移することによってRTNを訓練し、将来の時間ステップ(t+Δt)における所与のクラスの動的対象オブジェクトの潜在的な位置特定のための複数のバウンディングボックス仮説を到達可能性マップ(RM)の形態で生成するステップと、を有する訓練モードを含む。
有利な実施形態によれば、RPN訓練は、インペインティング方法を用いて訓練サンプルのセマンティックマップから動的オブジェクトの全てのクラスを除去するステップと、除去された動的対象オブジェクトをRPを定義するためのグラウンドトゥルースサンプルとして使用するステップと、を更に含む。
有利な実施形態によれば、RTN訓練は、訓練バッチごとに、フォワードパスのためにRPN及びRTNの両方を渡し、勾配を逆伝搬するときに、RPNの重みを修正しながらRTNのみを渡すステップと、将来の時間ステップ(t+Δt)におけるサンプルの静的要素のセマンティックマップ上でRPNを実行することによって、自己監視方式でグラウンドトゥルースを取得するステップと、を更に含む。
有利な実施形態によれば、訓練モードは、FLNを訓練して、訓練サンプルについて、動的対象オブジェクトの過去及び現在のマスク(t-δt-t)を考慮して、動的対象オブジェクトの将来のバウンディングボックスのマルチモーダル分布を予測するステップと、訓練バッチごとに、フォワードパスのためにRPN、RTN、及びFLNを渡し、勾配を逆伝搬するとき、RPN及びRTNの重みを修正しながら、FLNのみを渡すステップと、を更に含む。
有利な実施形態によれば、訓練モードは、EPNを訓練して、訓練サンプルについて、動的対象オブジェクトの過去及び現在のマスクを考慮せずに、動的対象オブジェクトの出現の将来のバウンディングボックスのマルチモーダル分布を予測するステップと、訓練バッチごとに、フォワードパスのためにRPN、RTN、及びEPNを渡し、勾配を逆伝搬するとき、RPN及びRTNの重みを修正しながら、EPNのみを渡すステップと、を更に含む。
有利な実施形態によれば、FLN訓練及びEPN訓練は、統一されたフレームワークにおいて実行される。
有利な実施形態によれば、RPN、RTN、FLN又はEPN訓練は、Evolving Winer-Takes-AII(EWTA)方式を用いて複数のバウンディングボックス仮説を生成するステップを更に含む。
ETWAを使用する方法は、より具体的には、フロントビュー画像シーンに対処するように設計され、フロントビュー画像における将来の予測の質を大幅に改善する。
本開示の第2の態様は、カメラを装備して、人間の運転者が車両を運転するのを支援するため、又は先進運転者支援システムを支援するため、又は自動運転システムを支援するためのコンピュータ実装方法に関し、本方法が、カメラのエゴセントリックビジョンを通じて、車両が運転されている間の運転環境の画像を観測するステップと、観測された画像からマルチモダリティ画像を取得し、過去及び現在の観測に基づいて動的対象オブジェクトの過去及び現在の軌道を抽出するステップと、マルチモダリティ画像並びに過去及び現在の軌道を、第1の態様によるコンピュータ実装方法に供給するステップと、移動対象オブジェクトの複数の予測された将来の軌道及び/又は新規の移動対象オブジェクトの将来の出現を、運転者の注意に向けて表示するステップ、又は先進運転者支援システム又は自動運転システムに、移動対象オブジェクトの複数の予測された将来の軌道及び/又は新規の移動対象オブジェクトの将来の出現を提供するステップと、を含む。
本開示の他の特徴及び利点は、添付の図面によって示される、本開示の特定の非制限的な実施例の以下の詳細な説明からより明確に現れるであろう。
本開示の好ましい一実施形態による全体的な将来の位置特定フレームワークの概要を示す。
既存のデータセットから取得され、本開示の将来予測方法によって処理される運転環境の例を示す。
本開示の将来位置特定ネットワーク及び/又は出現予測ネットワークによって処理された運転環境を示す。
図1は、本開示の好ましい一実施形態による全体的な将来位置特定フレームワークの概要を示す。同図は、以下の3つの主要なモジュールからなる将来の位置特定タスクのためのフレームワークのパイプラインを示す:(1)オブジェクトクラスのメンバーがセマンティックマップにおいてどこに位置し得るかの事前確率を学習する到達可能性事前確率ネットワーク(RPN)、(2)計画されたエゴモーションを考慮して現在の時間ステップから将来の時間ステップへ到達可能性事前確率を転移する到達可能性転移ネットワーク(RTN)、及び(3)オブジェクトの過去及び現在の観測を条件とし、RTNからの一般解に基づいてその将来位置のマルチモーダル分布を予測することを学習する将来位置特定ネットワーク(FLN)。出現予測ネットワークは、見えているオブジェクトの将来を予測するのではなく、見えていないオブジェクトが将来のシーンのどこに出現し得るかを予測する。出現予測は、同じ最初の2つのモジュールを共有し、過去のオブジェクト軌道に関する条件を落とす第3のネットワークにおいてのみ異なる。我々は、それを出現予測ネットワーク(EPN)と呼ぶ。EPNの目的は、クラスのオブジェクトが将来出現するマルチモーダル分布を学習することである。
EPNは、3つの段階(a)、(b)及び(c)並びに第4の段階(d)に分割することができ、これらの段階を以下に記載する。段階(d)は図1に示されていない。
第1の段階(a)は、到達可能性事前確率ネットワーク(RPN)に関する。RPNは、複数のバウンディングボックス仮説を生成することによって、所与のクラスIDのオブジェクト(例えば、歩行者、自転車、車などの移動オブジェクト)とセマンティックマップの静的要素との間の関係を学習する。言い換えれば、RPNは、現在の時間における到達可能性バウンディングボックス仮説を予測する。RPN入力は、時間tにおける静的環境、すなわち、観測された画像内の静的要素と、追跡されるべき移動対象オブジェクトの少なくとも所与のクラスとのセマンティックマップである。RPNは、所与のクラスの潜在的な位置特定のためのバウンディングボックス仮説、いわゆる到達可能性事前確率(RP)を出力する。
この第1段階(a)の核心は、到達可能性事前確率(RP)、すなわち、将来の予測のための現在の時間での到達可能性マップ、すなわち、所与のクラスのオブジェクトが位置し得るエリアに対応する将来画像におけるバウンディングボックスを作成することである。このRPは、RPNを用いて現在の時間(時間ステップt)で計算される。到達可能性事前確率の使用は、環境に基づく予測の注意に焦点を当て、モード崩壊/忘却を克服し、ダイバーシティを高めるのに役立つ。
第2の段階(b)は、到達可能性転移ネットワーク(RTN)に関する。RTNは、観測された画像、そのセマンティック、及び計画されたエゴモーションが与えられると、到達可能性事前確率を将来に転移する。このネットワークを訓練するためのグラウンドトゥルースは、将来の静的セマンティックマップ上でRPNを実行することによって自己監視方式で取得される。RTN入力は、時間tにおける画像、時間tにおける静的環境のセマンティックマップ、時間tから時間t+Δtまでの計画されたエゴモーション、及びRPの形態のRPN出力(すなわち、バウンディングボックス仮説)である。RTNは、時間t+Δtにおける所与のクラスの潜在的な位置特定のためのバウンディングボックス仮説、いわゆる到達可能性マップ(RM)を出力する。
このRPは、次に、将来の期間t+Δtにおける到達可能性マップ(RM)を生成するために、RTNを用いて将来の期間(時間ステップt+Δt)において予測される。RTNは、段階(a)における現在時間の生成された到達可能性事前確率マップと、シーン及び自身の軌道の何らかの情報とを入力として取得するディープニューラルネットワークを使用して、将来の到達可能性マップ(すなわち、時間ステップt+Δtにおける)を予測する。
第3の段階(c)は、将来位置特定ネットワーク(FLN)に関する。FLNは、(サンプルの形態で複数のバウンディングボックスを生成するための)サンプリングネットワーク、次いで、サンプルをガウス混合モデルに適合させるための適合ネットワークを通じて、対象オブジェクトの将来のバウンディングボックスのマルチモーダル分布をもたらす。これは、緑色のバウンディングボックスとして示される混合成分の平均で将来の画像上にオーバーレイされたヒートマップとして示される。FLN入力は、時間t-δtから時間tまでの過去の画像、時間t-δtから時間tまでの動的環境の過去のセマンティックマップ、時間t-δtから時間tまでの対象オブジェクトの過去のマスク、時間tから時間t+Δtまでのエゴモーション、及びRMの形態のRTN出力(すなわち、時間t+Δtにおけるバウンディングボックス仮説)である。FLNは、時間t+Δtにおける所与の対象オブジェクトの位置特定のためのバウンディングボックス仮説を、時間t+Δtにおける所与の対象オブジェクトの将来の位置特定のガウス混合分布とともに出力する。動的環境のセマンティックマップは、環境内で検出された動的オブジェクトのセマンティックマップに対応する。マスクは、ニューラルネットワークにおける画像セグメンテーションのために一般的に使用される(例えば、https://viso.ai/deep-learning/mask-r-cnn/)。
次いで、RTNから受信された将来の到達可能性マップ(RM)が、FLNと組み合わされたときに将来の予測の品質を改善するために使用される。到達可能性マップを用いて取得されたこの知識は、FLNの予測を大幅に改善し、これは、過去及び現在の観測を条件とし、以前に計算された到達可能性マップによって制約されるように実施される。
図1に示されていない第4の段階(d)は、出現予測ネットワーク(EPN)に関する。EPNは、入力に対象オブジェクトのマスクがないことを除いて、FLNと同一である。EPNの目的は、将来の新規のオブジェクトの出現、すなわち、シーンに存在しないオブジェクトの将来の出現を予測することである。段階(d)は、移動対象オブジェクトの将来の位置特定を予測し、新規のオブジェクトの出現を予測するように段階(c)に追加するか、又は出現予測モードのみになるように段階(c)に置き換えることができる。
FLNの同じアーキテクチャに基づいて、EPNは、過去のオブジェクトマスクで将来の予測を制約しないことによって、新規のクラスの出現を予測する。ここでも、到達可能性マップは、出現予測の質を大幅に改善する。
図2は、既存のデータセットから取得され、本開示の将来予測方法によって処理される運転環境に関する例を示す。
左側に画像が示され、右側にセマンティック領域が示されている。明確にするために、両方のバウンディングボックス仮説が追加されている。一番上には、RPNについて、現在の時間ステップにおけるクラスカーについての到達可能性事前確率が示されている。中央には、RTNについて、将来に転移される前の到達可能性事前確率が示されている。一番下には、FLNについて、特定のインスタンスを更に条件とする最終的な将来の位置特定が示されている。ネットワーク(RPN、RTN、FLN)のいずれも、(時間t+Δtにおいて)将来画像又はそのセマンティックマップにアクセスできないことに留意されたい。
図3は、本開示の将来位置特定ネットワーク及び/又は出現予測ネットワークによって処理された運転環境を示す。それは、シーンにおける歩行者の潜在的な位置に対応する到達可能性事前確率を作成する。この事前確率の知識を使用して、次に、歩行者の将来の位置特定又は新規の歩行者の出現の予測を改善することができる。
(段階(a+b)に対応する)上側では、到達可能性事前確率(白い長方形)が、歩行者がシーン内のどこにいる可能性があるかという一般的な質問に回答する。(段階(c)に対応する)左側では、通りを横断する特定の歩行者の将来の位置特定(緑色の長方形)が、過去及び現在の観測に関する解を条件とすることによって、到達可能性事前確率から解を絞り込む。真の将来は紫色のボックスとして示されている。(段階(d)に対応する)右側では、出現予測(緑色の長方形)が、どこで歩行者が将来突然出現する可能性があるかを示し、シーンの現在の観測に関する解を条件とすることによって、到達可能性事前確率から解を絞り込む。
訓練モード
訓練モード自体は、順次行われる3つの異なる訓練段階に分解される。第4の段階は、出現予測のために追加することができる。
訓練モード自体は、順次行われる3つの異なる訓練段階に分解される。第4の段階は、出現予測のために追加することができる。
段階A-最初に、インペインティング方法を使用して訓練サンプルの(画像から計算される)セマンティックマップから全ての動的クラスを除去することによって、到達可能性事前確率ネットワーク(RPN)を訓練する。静的セマンティックセグメンテーションは、ネットワークへの入力であり、クラスcの除去されたオブジェクトは、到達可能性のグラウンドトゥルースサンプルである。複数の仮説を生成するネットワークは、Evolving Winer-Takes-AII方式を使用して訓練される。
段階B-次に、RPNを修正しながら、到達可能性転移ネットワーク(RTN)を訓練する、すなわち、訓練バッチごとに、フォワードパスのために2つのネットワークRPN及びRTNを渡すが、勾配を逆伝搬するときには、RTNについてのみそれを行い、よって、RPNの重みを修正する。このネットワークを訓練するためのグラウンドトゥルースは、将来の静的セマンティックマップ上でRPNを実行することによって自己監視方式で取得される。
段階C.最後に、RPN及びRTNの両方を修正しながら、将来位置特定ネットワークを訓練する、すなわち、訓練バッチごとに、フォワードパスのために3つのネットワークRPN、RTN、及びFLNを渡すが、勾配を逆伝搬するときには、FLNについてのみそれを行い、よって、RPN及びRTNの重みを修正する。ネットワークは、RPNのようなEvolving Winer Takes Allを用いて訓練される。
段階D-この最後のステップを単に置き換えることによって、出現予測ネットワークを訓練するために同じ方法を使用する。
推論モード
推論時に、入力軌道が観測され、その複数の可能な将来を予測したい場合、図1に示すように、(既に見えているオブジェクトについての)将来位置特定システムのための推論モードは、3つの異なる段階に分解される。第4の段階は、出現予測のために追加することができる。
推論時に、入力軌道が観測され、その複数の可能な将来を予測したい場合、図1に示すように、(既に見えているオブジェクトについての)将来位置特定システムのための推論モードは、3つの異なる段階に分解される。第4の段階は、出現予測のために追加することができる。
段階A-最初に、所与の環境において観測されたオブジェクトについて、このオブジェクトのクラスに関連付けられた到達可能性マップを計算する。これは、対応する静的セマンティックマップ(全ての静的クラスのセマンティックマップ、したがって環境要素のみで、歩行者及び車などの移動要素はインペインティング方法によって除去される)を有するシーン内の所与のオブジェクトバウンディングボックスについて、システムが、そのようなクラスオブジェクトの潜在的な位置特定のための複数のバウンディングボックス仮説を生成することによって、あるクラスのオブジェクトとセマンティックマップの静的要素との間の関係を学習することができることを意味する。
段階B-次いで、これらの複数のバウンディングボックス仮説が生成されると、到達可能性転移ネットワークは、計画されたエゴモーションを考慮に入れることによって、この到達可能性事前確率を現在の時間ステップから将来の時間ステップに転移する。現在の時間における到達可能性のバウンディングボックス、時間tから時間t+Δtまでの計画されたエゴモーション、時間tにおける静的環境のセマンティックマップが入力として与えられると、システムは、将来における到達可能性のバウンディングボックスを生成することができる。
段階C-最後に、オブジェクトの過去及び現在の観測が与えられると、将来位置特定ネットワークは、(複数のバウンディングボックス、すなわち、サンプルを生成するための)サンプリングネットワーク、次いで、サンプルをガウス混合モデル(緑色バウンディングボックスとして示される混合成分の手段を用いて将来像上にオーバーレイされたヒートマップとして示される)に適合させるための適合ネットワークを通して、RTNの一般解に基づいて、その将来位置のマルチモーダル分布を予測することを学習する。
段階D-将来のオブジェクトの出現予測は、同じA及びBステップを用いて同じ手順に従うが、Cステップのみが、入力中に対象オブジェクトマスクを欠くことを除いて、将来位置特定ネットワークと同一である出現予測ネットワークによって置き換えられる。
当業者に明らかな様々な修正及び/又は改善は、添付の特許請求の範囲によって定義される本開示の範囲から逸脱することなく、本開示に記載される本発明の異なる実施形態にもたらされ得ることが理解される。
Claims (14)
- カメラを装備した自動車両(AV)又は先進運転者支援システム(ADAS)の運転環境におけるマルチモーダルエゴセントリック将来予測のためのコンピュータ実装方法であって、訓練された到達可能性事前確率ディープニューラルネットワーク(RPN)と、訓練された到達可能性転移ディープニューラルネットワーク(RTN)と、訓練された将来位置特定ディープニューラルネットワーク(FLN)及び/又は訓練された将来出現予測ディープニューラルネットワーク(EPN)、とを含み、前記方法が、
-所与の時間ステップ(t)で、前記カメラのエゴセントリックビジョンを通じて、前記運転環境からの画像を観測するステップと、
-前記観測された画像内の静的要素のセマンティックマップを
前記観測された画像から前記運転環境のセマンティックマップを計算するステップと、
前記運転環境の前記セマンティックマップをインペインティングして、動的オブジェクトを除去するステップと、
によって取得するステップと、
-前記RPNを用いて、前記静的要素の前記セマンティックマップから所与のクラスの動的対象オブジェクトの潜在的な位置特定のためのバウンディングボックス仮説、いわゆる到達可能性事前確率(RP)を推定するステップと、
-前記RTNを用いて、時間t+Δtにおける前記所与のクラスの潜在的な位置特定のためのバウンディングボックス仮説、いわゆる到達可能性マップ(RM)の形態で、前記カメラの時間tから時間t+Δtまでの計画されたエゴモーションを考慮した将来の時間ステップ(t+Δt)に前記RPを転移するステップと、及び
-前記FLNを用いて、前記運転環境の過去及び現在の観測(t-δtからt)及び前記RMによって条件付けられた前記動的対象オブジェクトの将来の位置のマルチモーダル分布を予測するステップ、及び/又は、
-前記EPNを用いて、前記運転環境の過去及び現在の観測(t-δtからt)及び前記RMによって条件付けられた前記運転環境における新規の動的対象オブジェクトの将来の出現を予測するステップと、
を有する推論モードを含む、コンピュータ実装方法。 - 前記RPを推定するステップのために、前記除去された動的オブジェクトがグラウンドトゥルースとして使用される、請求項1に記載のコンピュータ実装方法。
- 前記FLNを用いた予測ステップが、各動的対象オブジェクトの過去及び現在のマスク(t-δtからt)を考慮に入れる、請求項1又は2に記載のコンピュータ実装方法。
- 前記RPNが、前記時間ステップ(t)における前記所与のクラスの前記動的対象オブジェクトの潜在的な位置特定のためのバウンディングボックス仮説を前記到達可能性事前確率(RP)の形態で出力し、前記RTNが、前記将来の時間ステップ(t+Δt)における前記所与のクラスの前記動的対象オブジェクトの潜在的な位置特定のためのバウンディングボックス仮説を前記到達可能性マップ(RM)の形態で出力する、請求項1~3のいずれか一項に記載のコンピュータ実装方法。
- 前記EPNを用いた前記予測ステップが、前記動的対象オブジェクトのクラスを考慮に入れる、請求項1~4のいずれか一項に記載のコンピュータ実装方法。
- 前記EPNが、前記FLN予測と統合されたフレームワークにおいて、前記運転環境における新規の動的対象オブジェクトの将来の出現を予測する、請求項1~5のいずれか一項に記載のコンピュータ実装方法。
- 前記方法が、前記推論モードの前に、
-訓練サンプルを用いて前記RPNを訓練して、到達可能性事前確率(RP)の形態で所与のクラスの動的対象オブジェクトの潜在的な位置特定のための複数のバウンディングボックス仮説を生成することによって、前記所与のクラスの動的対象オブジェクトとセマンティックマップの静的要素との間の関係を学習するステップと、
-前記訓練サンプル、前記静的要素の前記セマンティックマップ、及び前記計画されたエゴモーションが与えられると、前記RPを将来の時間ステップ((t+At)に転移することによって前記RTNを訓練し、前記将来の時間ステップ(t+Δt)における前記所与のクラスの動的対象オブジェクトの潜在的な位置特定のための複数のバウンディングボックス仮説を前記到達可能性マップ(RM)の形態で生成するステップと、を有する訓練モードを含む、請求項1~6のいずれか一項に記載のコンピュータ実装方法。 - 前記RPN訓練が、
-インペインティング方法を用いて訓練サンプルの前記セマンティックマップから動的オブジェクトの全てのクラスを除去するステップと、
ー前記RPを定義するためのグラウンドトゥルースサンプルとして、除去された動的対象オブジェクトを使用するステップと、を更に含む、請求項7に記載のコンピュータ実装方法。 - 前記RTN訓練が、
-訓練バッチごとに、フォワードパスのためにRPN及びRTNの両方を渡し、前記勾配を逆伝搬するとき、前記RPNの重みを修正しながら、前記RTNのみを渡すステップと、
-前記将来の時間ステップ(t+Δt)における前記サンプルの静的要素の前記セマンティックマップ上で前記RPNを実行することによって、自己監視方式で前記グラウンドトゥルースを取得するステップと、を更に含む、請求項7又は8に記載のコンピュータ実装方法。 - 前記訓練モードが、
-前記FLNを訓練して、前記訓練サンプルについて、前記動的対象オブジェクトの過去及び現在のマスク(t-δt-t)を考慮して、前記動的対象オブジェクトの前記将来のバウンディングボックスのマルチモーダル分布を予測するステップと、
-訓練バッチごとに、フォワードパスのために前記RPN、RTN、及びFLNを渡し、勾配を逆伝搬するとき、前記RPN及びRTNの重みを修正しながら、前記FLNのみを渡すステップと、を更に含む、請求項7~9のいずれか一項に記載のコンピュータ実装方法。 - 前記訓練モードが、
-前記EPNを訓練して、前記訓練サンプルについて、前記動的対象オブジェクトの過去及び現在のマスクを考慮することなく、前記動的対象オブジェクトの出現の前記将来のバウンディングボックスのマルチモーダル分布を予測するステップと、
-訓練バッチごとに、フォワードパスのために前記RPN、RTN、及びEPNを渡し、勾配を逆伝搬するとき、前記RPN及びRTNの重みを修正しながら、前記EPNのみを渡すステップと、を更に含む、請求項7~10のいずれか一項に記載のコンピュータ実装方法。 - 前記FLN訓練及び前記EPN訓練が、統一されたフレームワークにおいて実行される、請求項10又は11に記載のコンピュータ実装方法。
- 前記RPN、RTN、FLN、又はEPN訓練が、
Evolving Winer-Takes-AII(EWTA)方式を使用して、前記複数のバウンディングボックス仮説を生成するステップを更に含む、請求項7~12のいずれか一項に記載のコンピュータ実装方法。 - カメラを装備して、人間の運転者が車両を運転するのを支援するため、又は先進運転者支援システムを支援するため、又は自動運転システムを支援するためのコンピュータ実装方法であって、前記方法が、
-前記カメラのエゴセントリックビジョンを通じて、前記車両が運転されている間の運転環境の画像を観測するステップと、
-前記観測された画像からマルチモダリティ画像を取得し、過去及び現在の観測に基づいて動的対象オブジェクトの過去及び現在の軌道を抽出するステップと、
-前記マルチモダリティ画像並びに前記過去及び現在の軌道を、請求項1~6のいずれか一項に記載のコンピュータ実装方法に供給するステップと、
-移動対象オブジェクトの複数の予測された将来の軌道及び/又は新規の移動対象オブジェクトの将来の出現を、運転者の注意に向けて表示するステップ、又は
-前記先進運転者支援システム又は自動運転システムに、移動対象オブジェクトの前記複数の予測された将来の軌道及び/又は新規の移動対象オブジェクトの将来の出現を提供するステップと、を含む、コンピュータ実装方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP20315289.7 | 2020-05-29 | ||
EP20315289.7A EP3916626A1 (en) | 2020-05-29 | 2020-05-29 | Computer-implemented method for multimodal egocentric future prediction |
PCT/EP2021/064450 WO2021239997A1 (en) | 2020-05-29 | 2021-05-28 | Computer-implemented method for multimodal egocentric future prediction |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023529239A true JP2023529239A (ja) | 2023-07-07 |
Family
ID=71575320
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023516846A Pending JP2023529239A (ja) | 2020-05-29 | 2021-05-28 | マルチモーダルエゴセントリック将来予測のためのコンピュータ実装方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20230154198A1 (ja) |
EP (2) | EP3916626A1 (ja) |
JP (1) | JP2023529239A (ja) |
WO (1) | WO2021239997A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11794766B2 (en) * | 2021-10-14 | 2023-10-24 | Huawei Technologies Co., Ltd. | Systems and methods for prediction-based driver assistance |
CN117275220A (zh) * | 2023-08-31 | 2023-12-22 | 云南云岭高速公路交通科技有限公司 | 基于非完备数据的山区高速公路实时事故风险预测方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9248834B1 (en) | 2014-10-02 | 2016-02-02 | Google Inc. | Predicting trajectories of objects based on contextual information |
EP3048023B1 (en) | 2015-01-23 | 2018-11-28 | Honda Research Institute Europe GmbH | Method for assisting a driver in driving an ego vehicle and corresponding driver assistance system |
-
2020
- 2020-05-29 EP EP20315289.7A patent/EP3916626A1/en active Pending
-
2021
- 2021-05-28 EP EP21728929.7A patent/EP4158529A1/en active Pending
- 2021-05-28 WO PCT/EP2021/064450 patent/WO2021239997A1/en unknown
- 2021-05-28 JP JP2023516846A patent/JP2023529239A/ja active Pending
- 2021-05-28 US US17/928,165 patent/US20230154198A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
EP4158529A1 (en) | 2023-04-05 |
WO2021239997A1 (en) | 2021-12-02 |
EP3916626A1 (en) | 2021-12-01 |
US20230154198A1 (en) | 2023-05-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10796201B2 (en) | Fusing predictions for end-to-end panoptic segmentation | |
US11003923B2 (en) | Spatial and temporal information for semantic segmentation | |
Yang et al. | Crossing or not? Context-based recognition of pedestrian crossing intention in the urban environment | |
JP2022516288A (ja) | 階層型機械学習ネットワークアーキテクチャ | |
WO2021021355A1 (en) | Trajectory prediction | |
JP2023529239A (ja) | マルチモーダルエゴセントリック将来予測のためのコンピュータ実装方法 | |
EP3663965A1 (en) | Method for predicting multiple futures | |
Munir et al. | LDNet: End-to-end lane marking detection approach using a dynamic vision sensor | |
Suleymanov et al. | Online inference and detection of curbs in partially occluded scenes with sparse lidar | |
WO2022020709A1 (en) | Detecting traffic signaling states with neural networks | |
Choi et al. | Methods to detect road features for video-based in-vehicle navigation systems | |
Jaus et al. | Panoramic panoptic segmentation: Insights into surrounding parsing for mobile agents via unsupervised contrastive learning | |
Zhao et al. | Jperceiver: Joint perception network for depth, pose and layout estimation in driving scenes | |
CN112241757A (zh) | 用于操作神经网络的设备和方法 | |
Liu et al. | Deep transfer learning for intelligent vehicle perception: A survey | |
Yasmin et al. | Small obstacles detection on roads scenes using semantic segmentation for the safe navigation of autonomous vehicles | |
US20230169313A1 (en) | Method for Determining Agent Trajectories in a Multi-Agent Scenario | |
US20230048926A1 (en) | Methods and Systems for Predicting Properties of a Plurality of Objects in a Vicinity of a Vehicle | |
CN116434156A (zh) | 目标检测方法、存储介质、路侧设备及自动驾驶系统 | |
US20230206456A1 (en) | System and method for point supervised edge detection | |
US20220180646A1 (en) | Lane detection system and method for a vehicle | |
Liu et al. | Weakly but deeply supervised occlusion-reasoned parametric road layouts | |
Liu et al. | Weakly but deeply supervised occlusion-reasoned parametric layouts | |
Hadi et al. | Semantic instance segmentation in a 3D traffic scene reconstruction task | |
Iancu et al. | An improved vehicle trajectory prediction model based on video generation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20230113 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20230124 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240308 |