JP7846830B2

JP7846830B2 - アテンションモデルを含むトランスフォーマを用いた点群データからの物体の検出のための方法

Info

Publication number: JP7846830B2
Application number: JP2025517959A
Authority: JP
Inventors: ルッペル，フェリシア; ファイオン，フロリアン
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2022-09-28
Filing date: 2023-09-12
Publication date: 2026-04-15
Anticipated expiration: 2043-09-12
Also published as: KR20250076630A; DE102022210248A1; WO2024068259A1; EP4595019A1; JP2025530550A; US20250291033A1; CN119948538A

Description

本発明は、アテンションモデルを含むトランスフォーマを用いた点群データからの複数の物体の検出のための方法に関する。

今日、撮像センサにおいて物体検出が行われる。記録された環境には、典型的には複数の物体が存在し、したがって複数の物体の検出が実行される。例えば、センサによる物体検出は、他の車両、他の道路利用者、およびインフラストラクチャを捕捉するために車両に関し使用される。このデータは、（部分）自動または自律運転に使用することができる。

近年、物体検出のためにトランスフォーマを使用するという概念が追求されている。トランスフォーマは、ＡｓｈｉｓｈＶａｓｗａｎｉらの論文「Ａｔｔｅｎｔｉｏｎｉｓａｌｌｙｏｕｎｅｅｄ」ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１７０６．０３７６２，２０１７に、最初は言語処理の文脈で記載されている。物体検出では、各物体に関する測定値から、物体を記述する境界ボックスおよびそのボックスパラメータ、すなわち例えば物体の位置、大きさ、向き、速度、および／またはクラス識別子が算出される。トランスフォーマは、例えば物体追跡、予測、または（パス）計画などの下流の用途にも使用することができる。物体検出にトランスフォーマを使用するとき、後処理で従来適用されていた重複検出の抑制は重視しなくてもよい。これまで、そのようなトランスフォーマは、例えば画像データに適用されていた。それに対し、例えば自律および自動運転の文脈で生じるような大きな点群での使用は知られていない。

本発明は、アテンションモデルを含むトランスフォーマを用いた点群データからの複数の物体の検出のための方法に関する。点群データは、例えばＬｉＤＡＲによって捕捉される。しかし、この方法はＬｉＤＡＲに限定されず、他のセンサタイプも使用することができる。好ましくは、センサまたはセンサシステムは、車両から点群データが記録されるように車両に配置される。

この方法は、以下のステップを含む。まず、点群データから特徴ベクトルが計算される。これは、通常のようにトランスフォーマのエンコーダによって行われるのではなく、バックボーンによって行われる。バックボーンは、測定データから特徴を抽出する、または入力を、後でさらに処理することができる特定の特徴表現にするために使用されるニューラルネットワークである。したがって、トランスフォーマのエンコーダをなくすことができる。好ましくは、バックボーンの出力は、所定の長さを有する特徴ベクトルのシーケンスを得るために再フォーマットされる。バックボーンを使用して特徴ベクトルを計算することによって、セルフアテンションでの入力シーケンスは、トランスフォーマのエンコーダを用いるよりも制限が少なく、ＰｏｉｎｔＰｉｌｌａｒｓなどのグリッドベースのバックボーンでは、十分に小さいセルサイズを選択することができる。そのようにして計算された特徴ベクトルは、次いでトランスフォーマに供給され、クロスアテンションを算出するためのキーベクトルおよび値ベクトルとして機能する。

さらに、例えば最遠点サンプリング（ＦＰＳ）などのサンプリング法によって、点群データから、トランスフォーマの第１のレイヤに関する第１のアンカ位置が計算される。第１のアンカ位置から、エンコーディング、例えばフーリエエンコーディングを用いて特徴ベクトルが算出される。エンコーディングは、特にフィードフォワードネットワークによって完了することができる。そのようにして計算された特徴ベクトルは、トランスフォーマのデコーダの第１のレイヤに関する物体クエリとして機能する。アンカ位置の物体クエリは、物体の検索のための開始点として機能する。しかし、検索は、これらのアンカ位置に限定されず、これらのアンカ位置から離れている物体も検出される。アンカ位置は、他の検出手法で使用されるアンカボックスに対応しない。したがって、トランスフォーマに関する物体クエリは、通常のように学習されるのではなく、データに依存している。これは、とりわけ疎の点群において有利である。疎の点群では通常、実際にデータを含む位置を見つけるために多くの計算リソースが消費されるからである。このような疎の点群は、特にＬｉＤＡＲを用いた測定で生じる。アンカ位置から算出された物体クエリは、存在し得る物体に関するスロットとして機能する。

トランスフォーマのデコーダは、第１のレイヤで、物体クエリ（すなわち前述した特徴ベクトル）ならびにキーベクトルおよび値ベクトル（すなわち冒頭で述べた特徴ベクトル）から、結果特徴ベクトル（デコーダ出力ベクトルとも呼ばれる）を算出する。

結果特徴ベクトルから、物体を記述する境界ボックスに関するボックスパラメータ、すなわち例えばアンカ位置に対する物体の位置または位置差、大きさ、方向、速度、および／またはクラス識別子が、フィードフォワードネットワークを用いて計算される。これに関して、好ましくは、物体クエリを算出するために、前述したフィードフォワードネットワークとは別のフィードフォワードネットワークが使用され、このフィードフォワードネットワークは重み付けが異なる。

次いで、トランスフォーマの少なくとも１つのさらなるレイヤを処理するために、算出されたボックスパラメータを用いてアンカ位置が適合される。アンカ位置を適合させるとき、トランスフォーマの第１のレイヤの結果特徴ベクトルから計算されたボックスパラメータの位置差が、第１のアンカ位置に加算される。一般に、第１のレイヤの結果特徴ベクトルに関してボックスパラメータを得ることができ、ボックスパラメータは、第１のアンカ位置から遠く離れており、したがって大きい位置差を有する。アンカ位置の適合により、適合されたアンカ位置が得られ、これは、実際の物体により近い。適合されたアンカ位置から、上述したようなエンコーディングを用いて特徴ベクトルが算出され、これが、トランスフォーマの少なくとも１つのさらなるレイヤに関する物体クエリとして機能する。

適合されたアンカ位置に加えて第１のレイヤの高次元結果特徴ベクトルの情報も伝播するために、適合されたアンカ位置に関する第１のレイヤの結果特徴ベクトルの変換が実行される。ここで、結果特徴ベクトルは、適合されたアンカ位置にアライメントされる。有利には、これは、ＲｅＬＵアクティベーション（ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ）を含む２つのレイヤからなるフィードフォワードネットワークによって実現される。ここで２つのレイヤを有するフィードフォワードネットワークのみが使用されるので、これはわずかな追加コストしかもたらさない。

上述した、アンカ位置を適合させるステップ、適合されたアンカ位置から特徴ベクトルを算出するステップ、および結果特徴ベクトルを変換するステップを、本明細書では物体クエリの洗練と呼ぶ。

ここで、変換された結果特徴ベクトルおよび計算された物体クエリ、特にそれらのベクトル和は、少なくとも１つのさらなるレイヤに関する入力としてトランスフォーマのデコーダに供給され、そこで、存在し得る物体に関するスロットとして機能する。トランスフォーマのデコーダは、少なくとも１つのさらなるレイヤにおいて、前のレイヤに関して算出された変換された結果特徴ベクトルから、計算された物体クエリ（前述したように適合されたアンカ位置から算出されたもの）から、ならびに冒頭で述べたキーベクトルおよび値ベクトルから、結果特徴ベクトルを算出する。

その結果、少なくとも１つのさらなるレイヤの特徴ベクトル、したがって境界ボックス、および最終的には、少なくとも１つのさらなるレイヤで算出される物体も、第１のレイヤの適合されたアンカ位置の洗練された物体クエリに依存して算出される。ここで通常、洗練された物体クエリの位置は、元の物体クエリの位置よりも実際の物体に近くなる。捕捉が実行される起点となる物体クエリの位置と実際の物体との距離が、それぞれのレイヤでの捕捉の精度に影響を与えることになる。洗練された物体クエリの位置を前のボックスパラメータに適合させることにより、（洗練された）物体クエリの位置と実際の物体との距離が短縮され、したがってより正確な捕捉が実現される。

適合されたアンカ位置に関して結果特徴ベクトルを変換することによって、これは、後続のレイヤでの評価のための物体クエリとして引き続き使用することができる。ここで、結果特徴ベクトルの形状は変更されず、したがって既知のタイプのエンコーディングを使用することができる。特に、これに関して２つのレイヤのみを有する上述したフィードフォワードネットワークが使用されるとき、変換は、わずかな追加コストで実行することができる。さらに、第１のレイヤに関するものと同じ、アンカ位置のエンコーディングが使用され、したがって追加のパラメータを使用する必要はない。

さらに、結果特徴ベクトルは位置ベースのベクトルであり、デコーダによって処理されてアンカ位置に適合されるときに、物体に関するより多くの情報を順次に取得する。物体情報は、従来のように低次元のボックスパラメータのみにエンコーディングされるのではなく、潜在的な特徴空間内でエンコーディングされる。さらなるステップでは、次いで、そのようなベクトルを時間的に伝播させ、例えば物体追跡および予測に使用することができる。その結果、トランスフォーマは、物体認識を前提とし、大きな点群を扱う下流の用途にも使用することができる。

特に物体クエリの第１の洗練の際に距離の大幅な短縮が達成され、したがって、トランスフォーマの第１のレイヤと第２のレイヤとの間だけでも、物体クエリの洗練が既に大きな効果を達成する。好ましくは、結果特徴ベクトルに関するボックスパラメータを計算するステップ、アンカ位置を適合させるステップ、適合されたアンカ位置から結果特徴ベクトルのエンコーディングおよび変換によって、適合されたアンカ位置に関して特徴ベクトルを算出するステップは、第１のレイヤ以外のトランスフォーマの少なくとも１つのさらなるレイヤに関して実行され、上記のステップにおいて、さらなるレイヤが第１のレイヤの代わりに使用される。

「第１のレイヤ」という用語は、本明細書では、この方法が適用されるトランスフォーマの第１のレイヤとして理解されるべきである。この方法をトランスフォーマの第１のレイヤにすぐに適用することが有利であるが、この方法を後続のレイヤから利用することも考えられる。この場合、この後続のレイヤが「第１の」レイヤと解釈される。

トランスフォーマまたはトランスフォーマのモデルを訓練するために、好ましくは、以下のステップが実行される。各レイヤのデコーダ出力に関して、複数のボックスパラメータセット（好ましくは、デコーダの入力で物体クエリが提供されるのと同数のボックスパラメータセット）が算出される。さらに、最も近い推定ボックスパラメータに割り当てられるグランドトゥルースのボックスパラメータが提供される。このために、好ましくは、ハンガリー法が適用される。適していないボックスパラメータは、「非物体」クラスに割り当てられて破棄される。グランドトゥルースのボックスパラメータと割り当てられた推定ボックスパラメータとの偏差に、ｌ_１損失とも呼ばれる中央値回帰が適用される。最後に、トランスフォーマは、中央値回帰を用いて訓練される。

特に上述したようなフィードフォワードネットワークを使用した、適合されたアンカ位置に関する結果特徴ベクトルの変換の訓練は、トランスフォーマまたはモデルから独立して訓練され、その後、固定の重み付けで使用され得る。変換のための入力データ、およびグランドトゥルースを算出するために、固定の重み付けを有する訓練されたトランスフォーマが使用され、これは、上述したように点群データから結果特徴ベクトルを算出する。次いで、これらは変換に供給され、それにより、変換された結果特徴ベクトルが得られる。グランドトゥルースを得るために、算出された結果特徴ベクトルと、変換された結果特徴ベクトルとの両方にボックスパラメータの推定が適用される。ここで、位置差以外の全てのボックスパラメータは、変更されない。最後に、新たなアンカ位置に対するボックスパラメータの位置差が変換後にゼロになり、したがってボックスパラメータが互いに重なるまで、変換された結果特徴ベクトルが適合される。

コンピュータプログラムは、特に計算デバイスまたは制御デバイス上で実行されるときに、方法の各ステップを実行するように設計される。これにより、構造的な変更を加える必要なく、従来の電子制御デバイスに方法を実装することが可能になる。実装のために、コンピュータプログラムは機械可読記憶媒体に格納される。

従来の電子制御デバイスにコンピュータプログラムをロードすることにより、点群データからの複数の物体の検出を実行するように設計された電子制御ユニットが得られる。
本発明の例示的実施形態を図面に示し、以下の記載でより詳細に説明する。

従来技術による境界ボックスの算出を視覚化する鳥観図である。本発明による方法の実施形態による境界ボックスの算出を視覚化する鳥観図である。本発明による方法の実施形態の流れ図である。本発明による方法に従って、適合されたアンカ位置に関して結果特徴ベクトルを変換する流れ図である。

図１ａ、図１ｂは、それぞれ、グランドトゥルースに従った境界ボックスＢ_ｇｔ、およびトランスフォーマを用いた物体検出法によって算出された推定境界ボックスＢ_ｅ、ならびにそれぞれ算出が行われる起点となる物体クエリの位置Ｐ_ｙ，０、Ｐ_ｙ，１を鳥観図で示す。図１ａでは、推定境界ボックスＢ_ｅは常に、物体クエリの同じ位置Ｐ_ｙ，０から始めて算出される。物体クエリの位置Ｐ_ｙ，０と、物体の位置、すなわちグランドトゥルースに従って境界ボックスＢ_ｇｔが配置されている位置との間の距離により、トランスフォーマのデコーダでの算出に不正確さが生じ、推定境界ボックスＢ_ｅとグランドトゥルースに従った境界ボックスＢ_ｇｔとが大幅に離れている。図１ｂは、本発明による方法の結果を示す。トランスフォーマの第１のレイヤにおける推定境界ボックスＢ_ｅの算出は、物体クエリの元の位置Ｐ_ｙ，０から始めて図１ａと同様に行われ、これは図１ｂには示されていない。以下で述べるように、次いで物体クエリの洗練が実行され、これは、第１のレイヤで算出された境界ボックスＢ_ｅに依存する新たなアンカ位置に適合される。トランスフォーマの第２のレイヤでの、ここに示される境界ボックスＢ_ｅの算出は、洗練された物体クエリの新たな位置Ｐ_ｙ，１から始めて行われる。洗練された物体クエリのこの新たな位置Ｐ_ｙ，１は、実際の物体、すなわちグランドトゥルースに従って境界ボックスＢ_ｇｔが配置されている位置に近く、したがって、推定境界ボックスＢ_ｅをより良く決定することができ、したがって物体をより正確に検出することができる。

図２は、トランスフォーマの２つのレイヤに関する本発明による方法の流れ図を示す。同じステップは同じ参照符号で示され、一度だけ詳細に述べる。以下、ｓは、トランスフォーマのデコーダのレイヤの番号を表す。ｉは特徴ベクトルの制御変数として使用され、Ｍ個の特徴ベクトルが提供される。

始めに、車両ＦのＬｉＤＡＲセンサが環境を捕捉する。この受け取られた点群データの視覚的表現が、１で示されている。点群データから、バックボーン２が特徴ベクトルを計算し、特徴ベクトルは次いで、正弦および余弦を用いた位置エンコーディング３によって増幅され、最終的にキーベクトルｋ_ｉおよび値ベクトルｖ_ｉとしてトランスフォーマのデコーダ６に供給される。

同時に、点群データから、例えば最遠点サンプリングなどのサンプリング法４によって、第１のアンカ位置

が算出され、その後、フーリエエンコーディング５が実行される。

ここで、Ｂは、正規分布のエントリを有する行列であり、ＦＦＮは、フィードフォワードネットワークを表し、ここでは、ＲｅＬＵアクティベーション（ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ）を含む２つのレイヤからなる。

は、計算された特徴ベクトルであり、物体クエリとしてトランスフォーマのデコーダ６に供給される。
第１のアンカ位置

から直接算出された特徴ベクトルの第１のセットは、Ｙ_０で表され、物体クエリ

からなる。各物体クエリ

は、存在し得る物体に関するスロット（図２では個別のボックスによって示される）として機能する。トランスフォーマのデコーダ６は、６つのレイヤｓからなり、各レイヤがそれぞれ８つのアテンションヘッドを有する。第１のレイヤｓ_０（ｓ＝０）では、デコーダ６は、物体クエリ

、ならびにキーベクトルｋ_ｉおよび値ベクトルｖ_ｉから、結果特徴ベクトル

を算出する。物体クエリ

、キーベクトルｋ_ｉ、および値ベクトルｖ_ｉの次元は、例えば２５６である。
これにより、２つの物体Ｏ_１およびＯ_２が検出される。フィードフォワードネットワーク７は、第１のレイヤｓ_０の結果特徴ベクトル

から、物体Ｏ_１、Ｏ_２に関するボックスパラメータ

を計算し、ここで、Δｘ、Δｙ、Δｚは、３次元でのアンカ位置

に対する位置の差を表し、ｗ、ｌ、ｈは、３次元での物体Ｏ_１、Ｏ_２の大きさを表し、γは、物体Ｏ_１、Ｏ_２の向きであり、ｖ_ｘ、ｖ_ｙは、水平面での物体Ｏ_１、Ｏ_２の速度を表し、ｃｌｓは、クラス識別子を表す。物体Ｏ_１、Ｏ_２が検出され、ここでは、８で示される視覚的表現で示されている。

本発明によれば、物体クエリの洗練ＶＱが実行される。このために、一方で、アンカ位置

の適合４０が行われて、デコーダ６のさらなるレイヤｓに関する適合されたアンカ位置

を取得する。デコーダ６の第１のレイヤｓ_０で算出されたボックスパラメータ

の位置差Δｘ、Δｙ、Δｚが、第１のアンカ位置

に加算され、それにより、適合されたアンカ位置

が得られる。

結果特徴ベクトル

からボックスパラメータ

を得ることができ、これは、第１のアンカ位置

から遠く離れて位置し、したがって高い位置差Δｘ、Δｙ、Δｚを有する。アンカ位置の適合４０により、適合されたアンカ位置

が得られ、これは、物体により近い。
これらの適合されたアンカの位置

から始めて、さらにエンコーディング５０が実行される（これは上記のエンコーディング５に対応しており、それを参照されたい）。それにより、トランスフォーマのデコーダ６のさらなるレイヤｓの物体クエリ

として供給される特徴ベクトルが得られる。
一方、アンカアライメントモジュールＡＡＭ（ａｎｃｈｏｒａｌｉｇｎｍｅｎｔｍｏｄｕｌｅ）を用いて第１のレイヤｓ_０の結果特徴ベクトル

の変換９０が実行され、これについては図３を参照してより詳細に述べる。ここで、変換された結果特徴ベクトル

が得られ、これは、適合されたアンカ位置

にアライメントされる。

変換された結果特徴ベクトル

、およびエンコーディング５０によって算出された上記の特徴ベクトル

は、Ｙ_ｓとして示される特徴ベクトルのセットとして、デコーダのさらなるレイヤｓに供給される。

それぞれ、各物体クエリ

と各変換された結果特徴ベクトル

との和は、存在し得る物体に関するスロット（図２では個別のボックスで表されている）として機能する。したがって、合計でＭ個のスロットが得られる。デコーダ６は、さらなるレイヤｓで、上述したように、適合されたアンカ位置

に依存する現在のレイヤｓの物体クエリ

、前のレイヤｓ_０の変換された結果特徴ベクトル

を算出する。次いで、結果特徴ベクトル

は、同様にファストフォワードネットワーク７にも供給され、ファストフォワードネットワーク７は、物体Ｏ_１、Ｏ_２に関するボックスパラメータ

を計算する。このとき、物体クエリの洗練ＶＱにより、ここで算出された位置差Δｘ、Δｙ、Δｚは小さい。
図２には、さらなるレイヤに関する物体クエリのさらなる洗練ＱＶが示されている。問合せ１００で、さらなる洗練ＱＶを実行すべきかどうかが決定され、それにより、さらなるレイヤでの検出の精度のさらなる改良を達成することができる。ここで、Ｓ_ｒは、洗練ＱＶが実行されるべきレイヤを示す。

の場合、現在のレイヤｓの結果特徴ベクトル

は、後続のレイヤ（ここでは図示せず）に関する物体クエリとして使用される。
ｓ∈Ｓ_ｒの場合、物体クエリの対応する洗練ＱＶが実行される。上述したように、一方では、アンカ位置

の適合１４０が行われ、デコーダ６の現在のレイヤｓで算出されたボックスパラメータ

の位置差Δｘ、Δｙ、Δｚがアンカ位置

に加算されることにより、適合されたアンカ位置

が得られる。この適合されたアンカ位置

から始めて、さらにエンコーディング１５０が実行され（これは上述したエンコーディング５および５０に対応する。それらを参照されたい）、それにより特徴ベクトル

が得られる。一方、アンカアライメントモジュールＡＡＭ（ａｎｃｈｏｒａｌｉｇｎｍｅｎｔｍｏｄｕｌｅ）を用いて結果特徴ベクトル

の変換１９０（これは上述した変換９０に対応しており、これについて図３も参照されたい）が実行され、それにより、変換された結果特徴ベクトル

が得られる。
一般に、デコーダ６のレイヤｓに供給される特徴ベクトルのセットＹ_ｓは、レイヤの数に依存して、また、これらに関して物体クエリの洗練ＱＶが実行されるかどうかに依存して、以下のように設定される。

ここで、ｊ＝ｍａｘ｛ｌ｜ｌ＜ｓ∧ｌ∈Ｓ_ｒ）であり、これは、第２のケース（第２の行）では、エンコーディング５、５０、１５０によって取得された現在の物体クエリ

が常にデコーダ６に供給される。最後の行は、第１のレイヤｓ_０に関するケースを示す。
図３は、変換９０の流れ図を示す。結果特徴ベクトル

は、ＲｅＬＵアクティベーションを含む２つのレイヤ９１、９２からなるファストフォワードネットワークに供給される。ファストフォワードネットワークは、前のアンカ位置との位置差Δｘ、Δｙ、Δｚがゼロに設定されるように、２つのレイヤ９１、９２が結果特徴ベクトル

を変化させるように訓練される。レイヤ９１、９２自体は、学習された重み付けを用いた入力の変形である。第１のレイヤ９１の後、次元ｈを有する中間表現が得られる。第２のレイヤ９２の後、変換された結果特徴ベクトル

が得られ、これは、受け取られた結果特徴ベクトル

と同じ次元ｄを有する。さらに、元の結果特徴ベクトル

へのバイパス接続９４が作成されて、情報が失われないことを保証する。上記の説明は、変換１９０など、さらなるレイヤｓに関する変換にも流用することができる。

Claims

アテンションモデルを含むトランスフォーマを用いた点群データからの複数の物体（Ｏ_１、Ｏ_２）の検出のための方法であって、前記複数の物体（Ｏ_１、Ｏ_２）の状態が、特徴空間内で前記アテンションモデル内に記憶され、以下のステップ：
バックボーン（２）によって点群データから特徴ベクトルを計算するステップであり、前記特徴ベクトルが、前記トランスフォーマに関するキーベクトル（ｋ_ｉ）および値ベクトル（ｖ_ｉ）として機能する、ステップ、
前記点群データから、サンプリング法（４）によって、前記トランスフォーマの第１のレイヤ（ｓ_０）に関する第１のアンカ位置
を計算するステップ、
エンコーディング（５）を用いて前記第１のアンカ位置
から特徴ベクトルを算出するステップであり、前記特徴ベクトルが、前記トランスフォーマの前記第１のレイヤ（ｓ_０）に関する物体クエリ
として機能する、ステップ、
前記トランスフォーマのデコーダ（６）の前記第１のレイヤ（ｓ_０）によって、前記物体クエリ
ならびに前記キーベクトル（ｋ_ｉ）および値ベクトル（ｖ_ｉ）から、前記トランスフォーマの前記第１のレイヤ（ｓ_０）の結果特徴ベクトル
を算出するステップ、
前記トランスフォーマの前記第１のレイヤ（ｓ_０）の前記結果特徴ベクトル
に関するボックスパラメータ
を計算（７）するステップ、
前記ボックスパラメータ
の位置差が前記第１のアンカ位置
に加算されることによって、前記トランスフォーマの少なくとも１つのさらなるレイヤ（ｓ）に関して前記アンカ位置
を適合（４０、１４０）させるステップ、
エンコーディング（５０、１５０）によって、前記適合されたアンカ位置
から特徴ベクトルを算出するステップであり、前記特徴ベクトルが、前記トランスフォーマの前記少なくとも１つのさらなるレイヤ（ｓ）に関する物体クエリ
として機能する、ステップ、
前記適合されたアンカ位置
に関する前記第１のレイヤの前記結果特徴ベクトル
を変換（９０）するステップであり、前記変換された結果特徴ベクトル
が、前記トランスフォーマの前記少なくとも１つのさらなるレイヤ（ｓ）に関する物体クエリとして機能する、ステップ、
前記トランスフォーマの前記デコーダ（６０）によって、前記第１のレイヤ（ｓ_０）の前記変換された結果特徴ベクトル
、前記少なくとも１つのさらなるレイヤ（ｓ）の前記計算された物体クエリ
、ならびに前記キーベクトル（ｋ_ｉ）および値ベクトル（ｖ_ｉ）から、前記トランスフォーマの前記少なくとも１つのさらなるレイヤ（ｓ）で結果特徴ベクトル
を算出するステップ
を含む方法。
前記結果特徴ベクトルに関するボックスパラメータ
を計算するステップ、
前記アンカ位置
を適合（１４０）させるステップ、
前記適合されたアンカ位置
から、前記結果特徴ベクトル
のエンコーディング（１５０）および変換（１９０）によって、前記適合されたアンカ位置
に関して特徴ベクトル
を算出するステップ
が、少なくとも１つのさらなるレイヤ（ｓ）に関して実行される
ことを特徴とする請求項１に記載の方法。
前記トランスフォーマを訓練するために、以下のステップ：
各レイヤのデコーダ出力に関して複数のボックスパラメータセットを推定するステップ、
グランドトゥルースのボックスパラメータを、最も近い推定ボックスパラメータに割り当てるステップ、
前記グランドトゥルースの前記ボックスパラメータと前記割り当てられた推定ボックスパラメータとの偏差に中央値回帰を適用するステップ
前記中央値回帰によって前記トランスフォーマを訓練するステップ
が実行されることを特徴とする請求項１に記載の方法。
前記適合されたアンカ位置
に関する前記結果特徴ベクトル
の前記変換（９０、１９０）が、ＲｅＬＵアクティベーションを含む２つのレイヤ（９１、９２）からなるフィードフォワードネットワークによって実現されることを特徴とする請求項１に記載の方法。
前記適合されたアンカ位置
に関して前記結果特徴ベクトル
の前記変換（９０、１９０）を訓練するために、以下のステップ：
前記点群データから結果特徴ベクトルを計算するステップ、
前記結果特徴ベクトルを変換するステップ、
前記ボックスパラメータの推定を、前記結果特徴ベクトル、および前記変換された結果特徴ベクトルのために適用するステップ、
前記ボックスパラメータの位置差がゼロになるまで、前記変換された結果特徴ベクトルを適合させるステップ
が実行されることを特徴とする請求項４に記載の方法。
点群データがＬｉＤＡＲによって取得されたことを特徴とする請求項１に記載の方法。
前記点群データが車両（Ｆ）から記録されたことを特徴とする請求項１に記載の方法。
請求項１から７のいずれか一項に記載の方法の各ステップを実行するように設計されるコンピュータプログラム。
請求項８に記載のコンピュータプログラムが格納される機械可読記憶媒体。
請求項１から７のいずれか一項に記載の方法により、アテンションモデルを含むトランスフォーマを用いた点群データからの複数の物体の検出を実行するように設計された電子制御デバイス。