JP7846830B2 - アテンションモデルを含むトランスフォーマを用いた点群データからの物体の検出のための方法 - Google Patents

アテンションモデルを含むトランスフォーマを用いた点群データからの物体の検出のための方法

Info

Publication number
JP7846830B2
JP7846830B2 JP2025517959A JP2025517959A JP7846830B2 JP 7846830 B2 JP7846830 B2 JP 7846830B2 JP 2025517959 A JP2025517959 A JP 2025517959A JP 2025517959 A JP2025517959 A JP 2025517959A JP 7846830 B2 JP7846830 B2 JP 7846830B2
Authority
JP
Japan
Prior art keywords
feature vector
transformer
layer
aforementioned
steps
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2025517959A
Other languages
English (en)
Other versions
JP2025530550A (ja
Inventor
ルッペル,フェリシア
ファイオン,フロリアン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Publication of JP2025530550A publication Critical patent/JP2025530550A/ja
Application granted granted Critical
Publication of JP7846830B2 publication Critical patent/JP7846830B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S7/00Details of systems according to groups G01S13/00, G01S15/00, G01S17/00
    • G01S7/48Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S17/00
    • G01S7/4802Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S17/00 using analysis of echo signal for target characterisation; Target signature; Target cross-section
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/88Lidar systems specially adapted for specific applications
    • G01S17/89Lidar systems specially adapted for specific applications for mapping or imaging
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • G06T2207/30261Obstacle

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Electromagnetism (AREA)
  • Image Analysis (AREA)

Description

本発明は、アテンションモデルを含むトランスフォーマを用いた点群データからの複数の物体の検出のための方法に関する。
今日、撮像センサにおいて物体検出が行われる。記録された環境には、典型的には複数の物体が存在し、したがって複数の物体の検出が実行される。例えば、センサによる物体検出は、他の車両、他の道路利用者、およびインフラストラクチャを捕捉するために車両に関し使用される。このデータは、(部分)自動または自律運転に使用することができる。
近年、物体検出のためにトランスフォーマを使用するという概念が追求されている。トランスフォーマは、Ashish Vaswaniらの論文「Attention is all you need」arXiv preprint arXiv:1706.03762,2017に、最初は言語処理の文脈で記載されている。物体検出では、各物体に関する測定値から、物体を記述する境界ボックスおよびそのボックスパラメータ、すなわち例えば物体の位置、大きさ、向き、速度、および/またはクラス識別子が算出される。トランスフォーマは、例えば物体追跡、予測、または(パス)計画などの下流の用途にも使用することができる。物体検出にトランスフォーマを使用するとき、後処理で従来適用されていた重複検出の抑制は重視しなくてもよい。これまで、そのようなトランスフォーマは、例えば画像データに適用されていた。それに対し、例えば自律および自動運転の文脈で生じるような大きな点群での使用は知られていない。
本発明は、アテンションモデルを含むトランスフォーマを用いた点群データからの複数の物体の検出のための方法に関する。点群データは、例えばLiDARによって捕捉される。しかし、この方法はLiDARに限定されず、他のセンサタイプも使用することができる。好ましくは、センサまたはセンサシステムは、車両から点群データが記録されるように車両に配置される。
この方法は、以下のステップを含む。まず、点群データから特徴ベクトルが計算される。これは、通常のようにトランスフォーマのエンコーダによって行われるのではなく、バックボーンによって行われる。バックボーンは、測定データから特徴を抽出する、または入力を、後でさらに処理することができる特定の特徴表現にするために使用されるニューラルネットワークである。したがって、トランスフォーマのエンコーダをなくすことができる。好ましくは、バックボーンの出力は、所定の長さを有する特徴ベクトルのシーケンスを得るために再フォーマットされる。バックボーンを使用して特徴ベクトルを計算することによって、セルフアテンションでの入力シーケンスは、トランスフォーマのエンコーダを用いるよりも制限が少なく、PointPillarsなどのグリッドベースのバックボーンでは、十分に小さいセルサイズを選択することができる。そのようにして計算された特徴ベクトルは、次いでトランスフォーマに供給され、クロスアテンションを算出するためのキーベクトルおよび値ベクトルとして機能する。
さらに、例えば最遠点サンプリング(FPS)などのサンプリング法によって、点群データから、トランスフォーマの第1のレイヤに関する第1のアンカ位置が計算される。第1のアンカ位置から、エンコーディング、例えばフーリエエンコーディングを用いて特徴ベクトルが算出される。エンコーディングは、特にフィードフォワードネットワークによって完了することができる。そのようにして計算された特徴ベクトルは、トランスフォーマのデコーダの第1のレイヤに関する物体クエリとして機能する。アンカ位置の物体クエリは、物体の検索のための開始点として機能する。しかし、検索は、これらのアンカ位置に限定されず、これらのアンカ位置から離れている物体も検出される。アンカ位置は、他の検出手法で使用されるアンカボックスに対応しない。したがって、トランスフォーマに関する物体クエリは、通常のように学習されるのではなく、データに依存している。これは、とりわけ疎の点群において有利である。疎の点群では通常、実際にデータを含む位置を見つけるために多くの計算リソースが消費されるからである。このような疎の点群は、特にLiDARを用いた測定で生じる。アンカ位置から算出された物体クエリは、存在し得る物体に関するスロットとして機能する。
トランスフォーマのデコーダは、第1のレイヤで、物体クエリ(すなわち前述した特徴ベクトル)ならびにキーベクトルおよび値ベクトル(すなわち冒頭で述べた特徴ベクトル)から、結果特徴ベクトル(デコーダ出力ベクトルとも呼ばれる)を算出する。
結果特徴ベクトルから、物体を記述する境界ボックスに関するボックスパラメータ、すなわち例えばアンカ位置に対する物体の位置または位置差、大きさ、方向、速度、および/またはクラス識別子が、フィードフォワードネットワークを用いて計算される。これに関して、好ましくは、物体クエリを算出するために、前述したフィードフォワードネットワークとは別のフィードフォワードネットワークが使用され、このフィードフォワードネットワークは重み付けが異なる。
次いで、トランスフォーマの少なくとも1つのさらなるレイヤを処理するために、算出されたボックスパラメータを用いてアンカ位置が適合される。アンカ位置を適合させるとき、トランスフォーマの第1のレイヤの結果特徴ベクトルから計算されたボックスパラメータの位置差が、第1のアンカ位置に加算される。一般に、第1のレイヤの結果特徴ベクトルに関してボックスパラメータを得ることができ、ボックスパラメータは、第1のアンカ位置から遠く離れており、したがって大きい位置差を有する。アンカ位置の適合により、適合されたアンカ位置が得られ、これは、実際の物体により近い。適合されたアンカ位置から、上述したようなエンコーディングを用いて特徴ベクトルが算出され、これが、トランスフォーマの少なくとも1つのさらなるレイヤに関する物体クエリとして機能する。
適合されたアンカ位置に加えて第1のレイヤの高次元結果特徴ベクトルの情報も伝播するために、適合されたアンカ位置に関する第1のレイヤの結果特徴ベクトルの変換が実行される。ここで、結果特徴ベクトルは、適合されたアンカ位置にアライメントされる。有利には、これは、ReLUアクティベーション(Rectified Linear Unit)を含む2つのレイヤからなるフィードフォワードネットワークによって実現される。ここで2つのレイヤを有するフィードフォワードネットワークのみが使用されるので、これはわずかな追加コストしかもたらさない。
上述した、アンカ位置を適合させるステップ、適合されたアンカ位置から特徴ベクトルを算出するステップ、および結果特徴ベクトルを変換するステップを、本明細書では物体クエリの洗練と呼ぶ。
ここで、変換された結果特徴ベクトルおよび計算された物体クエリ、特にそれらのベクトル和は、少なくとも1つのさらなるレイヤに関する入力としてトランスフォーマのデコーダに供給され、そこで、存在し得る物体に関するスロットとして機能する。トランスフォーマのデコーダは、少なくとも1つのさらなるレイヤにおいて、前のレイヤに関して算出された変換された結果特徴ベクトルから、計算された物体クエリ(前述したように適合されたアンカ位置から算出されたもの)から、ならびに冒頭で述べたキーベクトルおよび値ベクトルから、結果特徴ベクトルを算出する。
その結果、少なくとも1つのさらなるレイヤの特徴ベクトル、したがって境界ボックス、および最終的には、少なくとも1つのさらなるレイヤで算出される物体も、第1のレイヤの適合されたアンカ位置の洗練された物体クエリに依存して算出される。ここで通常、洗練された物体クエリの位置は、元の物体クエリの位置よりも実際の物体に近くなる。捕捉が実行される起点となる物体クエリの位置と実際の物体との距離が、それぞれのレイヤでの捕捉の精度に影響を与えることになる。洗練された物体クエリの位置を前のボックスパラメータに適合させることにより、(洗練された)物体クエリの位置と実際の物体との距離が短縮され、したがってより正確な捕捉が実現される。
適合されたアンカ位置に関して結果特徴ベクトルを変換することによって、これは、後続のレイヤでの評価のための物体クエリとして引き続き使用することができる。ここで、結果特徴ベクトルの形状は変更されず、したがって既知のタイプのエンコーディングを使用することができる。特に、これに関して2つのレイヤのみを有する上述したフィードフォワードネットワークが使用されるとき、変換は、わずかな追加コストで実行することができる。さらに、第1のレイヤに関するものと同じ、アンカ位置のエンコーディングが使用され、したがって追加のパラメータを使用する必要はない。
さらに、結果特徴ベクトルは位置ベースのベクトルであり、デコーダによって処理されてアンカ位置に適合されるときに、物体に関するより多くの情報を順次に取得する。物体情報は、従来のように低次元のボックスパラメータのみにエンコーディングされるのではなく、潜在的な特徴空間内でエンコーディングされる。さらなるステップでは、次いで、そのようなベクトルを時間的に伝播させ、例えば物体追跡および予測に使用することができる。その結果、トランスフォーマは、物体認識を前提とし、大きな点群を扱う下流の用途にも使用することができる。
特に物体クエリの第1の洗練の際に距離の大幅な短縮が達成され、したがって、トランスフォーマの第1のレイヤと第2のレイヤとの間だけでも、物体クエリの洗練が既に大きな効果を達成する。好ましくは、結果特徴ベクトルに関するボックスパラメータを計算するステップ、アンカ位置を適合させるステップ、適合されたアンカ位置から結果特徴ベクトルのエンコーディングおよび変換によって、適合されたアンカ位置に関して特徴ベクトルを算出するステップは、第1のレイヤ以外のトランスフォーマの少なくとも1つのさらなるレイヤに関して実行され、上記のステップにおいて、さらなるレイヤが第1のレイヤの代わりに使用される。
「第1のレイヤ」という用語は、本明細書では、この方法が適用されるトランスフォーマの第1のレイヤとして理解されるべきである。この方法をトランスフォーマの第1のレイヤにすぐに適用することが有利であるが、この方法を後続のレイヤから利用することも考えられる。この場合、この後続のレイヤが「第1の」レイヤと解釈される。
トランスフォーマまたはトランスフォーマのモデルを訓練するために、好ましくは、以下のステップが実行される。各レイヤのデコーダ出力に関して、複数のボックスパラメータセット(好ましくは、デコーダの入力で物体クエリが提供されるのと同数のボックスパラメータセット)が算出される。さらに、最も近い推定ボックスパラメータに割り当てられるグランドトゥルースのボックスパラメータが提供される。このために、好ましくは、ハンガリー法が適用される。適していないボックスパラメータは、「非物体」クラスに割り当てられて破棄される。グランドトゥルースのボックスパラメータと割り当てられた推定ボックスパラメータとの偏差に、l損失とも呼ばれる中央値回帰が適用される。最後に、トランスフォーマは、中央値回帰を用いて訓練される。
特に上述したようなフィードフォワードネットワークを使用した、適合されたアンカ位置に関する結果特徴ベクトルの変換の訓練は、トランスフォーマまたはモデルから独立して訓練され、その後、固定の重み付けで使用され得る。変換のための入力データ、およびグランドトゥルースを算出するために、固定の重み付けを有する訓練されたトランスフォーマが使用され、これは、上述したように点群データから結果特徴ベクトルを算出する。次いで、これらは変換に供給され、それにより、変換された結果特徴ベクトルが得られる。グランドトゥルースを得るために、算出された結果特徴ベクトルと、変換された結果特徴ベクトルとの両方にボックスパラメータの推定が適用される。ここで、位置差以外の全てのボックスパラメータは、変更されない。最後に、新たなアンカ位置に対するボックスパラメータの位置差が変換後にゼロになり、したがってボックスパラメータが互いに重なるまで、変換された結果特徴ベクトルが適合される。
コンピュータプログラムは、特に計算デバイスまたは制御デバイス上で実行されるときに、方法の各ステップを実行するように設計される。これにより、構造的な変更を加える必要なく、従来の電子制御デバイスに方法を実装することが可能になる。実装のために、コンピュータプログラムは機械可読記憶媒体に格納される。
従来の電子制御デバイスにコンピュータプログラムをロードすることにより、点群データからの複数の物体の検出を実行するように設計された電子制御ユニットが得られる。
本発明の例示的実施形態を図面に示し、以下の記載でより詳細に説明する。
従来技術による境界ボックスの算出を視覚化する鳥観図である。 本発明による方法の実施形態による境界ボックスの算出を視覚化する鳥観図である。 本発明による方法の実施形態の流れ図である。 本発明による方法に従って、適合されたアンカ位置に関して結果特徴ベクトルを変換する流れ図である。
図1a、図1bは、それぞれ、グランドトゥルースに従った境界ボックスBgt、およびトランスフォーマを用いた物体検出法によって算出された推定境界ボックスB、ならびにそれぞれ算出が行われる起点となる物体クエリの位置Py,0、Py,1を鳥観図で示す。図1aでは、推定境界ボックスBは常に、物体クエリの同じ位置Py,0から始めて算出される。物体クエリの位置Py,0と、物体の位置、すなわちグランドトゥルースに従って境界ボックスBgtが配置されている位置との間の距離により、トランスフォーマのデコーダでの算出に不正確さが生じ、推定境界ボックスBとグランドトゥルースに従った境界ボックスBgtとが大幅に離れている。図1bは、本発明による方法の結果を示す。トランスフォーマの第1のレイヤにおける推定境界ボックスBの算出は、物体クエリの元の位置Py,0から始めて図1aと同様に行われ、これは図1bには示されていない。以下で述べるように、次いで物体クエリの洗練が実行され、これは、第1のレイヤで算出された境界ボックスBに依存する新たなアンカ位置に適合される。トランスフォーマの第2のレイヤでの、ここに示される境界ボックスBの算出は、洗練された物体クエリの新たな位置Py,1から始めて行われる。洗練された物体クエリのこの新たな位置Py,1は、実際の物体、すなわちグランドトゥルースに従って境界ボックスBgtが配置されている位置に近く、したがって、推定境界ボックスBをより良く決定することができ、したがって物体をより正確に検出することができる。
図2は、トランスフォーマの2つのレイヤに関する本発明による方法の流れ図を示す。同じステップは同じ参照符号で示され、一度だけ詳細に述べる。以下、sは、トランスフォーマのデコーダのレイヤの番号を表す。iは特徴ベクトルの制御変数として使用され、M個の特徴ベクトルが提供される。
始めに、車両FのLiDARセンサが環境を捕捉する。この受け取られた点群データの視覚的表現が、1で示されている。点群データから、バックボーン2が特徴ベクトルを計算し、特徴ベクトルは次いで、正弦および余弦を用いた位置エンコーディング3によって増幅され、最終的にキーベクトルkおよび値ベクトルvとしてトランスフォーマのデコーダ6に供給される。
同時に、点群データから、例えば最遠点サンプリングなどのサンプリング法4によって、第1のアンカ位置
が算出され、その後、フーリエエンコーディング5が実行される。
ここで、Bは、正規分布のエントリを有する行列であり、FFNは、フィードフォワードネットワークを表し、ここでは、ReLUアクティベーション(Rectified Linear Unit)を含む2つのレイヤからなる。
は、計算された特徴ベクトルであり、物体クエリとしてトランスフォーマのデコーダ6に供給される。
第1のアンカ位置
から直接算出された特徴ベクトルの第1のセットは、Yで表され、物体クエリ
からなる。各物体クエリ
は、存在し得る物体に関するスロット(図2では個別のボックスによって示される)として機能する。トランスフォーマのデコーダ6は、6つのレイヤsからなり、各レイヤがそれぞれ8つのアテンションヘッドを有する。第1のレイヤs(s=0)では、デコーダ6は、物体クエリ
、ならびにキーベクトルkおよび値ベクトルvから、結果特徴ベクトル
を算出する。物体クエリ
、キーベクトルk、および値ベクトルvの次元は、例えば256である。
これにより、2つの物体OおよびOが検出される。フィードフォワードネットワーク7は、第1のレイヤsの結果特徴ベクトル
から、物体O、Oに関するボックスパラメータ
を計算し、ここで、Δx、Δy、Δzは、3次元でのアンカ位置
に対する位置の差を表し、w、l、hは、3次元での物体O、Oの大きさを表し、γは、物体O、Oの向きであり、v、vは、水平面での物体O、Oの速度を表し、clsは、クラス識別子を表す。物体O、Oが検出され、ここでは、8で示される視覚的表現で示されている。
本発明によれば、物体クエリの洗練VQが実行される。このために、一方で、アンカ位置
の適合40が行われて、デコーダ6のさらなるレイヤsに関する適合されたアンカ位置
を取得する。デコーダ6の第1のレイヤsで算出されたボックスパラメータ
の位置差Δx、Δy、Δzが、第1のアンカ位置
に加算され、それにより、適合されたアンカ位置
が得られる。
結果特徴ベクトル
からボックスパラメータ
を得ることができ、これは、第1のアンカ位置
から遠く離れて位置し、したがって高い位置差Δx、Δy、Δzを有する。アンカ位置の適合40により、適合されたアンカ位置
が得られ、これは、物体により近い。
これらの適合されたアンカの位置
から始めて、さらにエンコーディング50が実行される(これは上記のエンコーディング5に対応しており、それを参照されたい)。それにより、トランスフォーマのデコーダ6のさらなるレイヤsの物体クエリ
として供給される特徴ベクトルが得られる。
一方、アンカアライメントモジュールAAM(anchor alignment module)を用いて第1のレイヤsの結果特徴ベクトル
の変換90が実行され、これについては図3を参照してより詳細に述べる。ここで、変換された結果特徴ベクトル
が得られ、これは、適合されたアンカ位置
にアライメントされる。
変換された結果特徴ベクトル
、およびエンコーディング50によって算出された上記の特徴ベクトル
は、Yとして示される特徴ベクトルのセットとして、デコーダのさらなるレイヤsに供給される。
それぞれ、各物体クエリ
と各変換された結果特徴ベクトル
との和は、存在し得る物体に関するスロット(図2では個別のボックスで表されている)として機能する。したがって、合計でM個のスロットが得られる。デコーダ6は、さらなるレイヤsで、上述したように、適合されたアンカ位置
に依存する現在のレイヤsの物体クエリ
、前のレイヤsの変換された結果特徴ベクトル
、ならびにキーベクトルkおよび値ベクトルvから、結果特徴ベクトル
を算出する。次いで、結果特徴ベクトル
は、同様にファストフォワードネットワーク7にも供給され、ファストフォワードネットワーク7は、物体O、Oに関するボックスパラメータ
を計算する。このとき、物体クエリの洗練VQにより、ここで算出された位置差Δx、Δy、Δzは小さい。
図2には、さらなるレイヤに関する物体クエリのさらなる洗練QVが示されている。問合せ100で、さらなる洗練QVを実行すべきかどうかが決定され、それにより、さらなるレイヤでの検出の精度のさらなる改良を達成することができる。ここで、Sは、洗練QVが実行されるべきレイヤを示す。
の場合、現在のレイヤsの結果特徴ベクトル
は、後続のレイヤ(ここでは図示せず)に関する物体クエリとして使用される。
s∈Sの場合、物体クエリの対応する洗練QVが実行される。上述したように、一方では、アンカ位置
の適合140が行われ、デコーダ6の現在のレイヤsで算出されたボックスパラメータ
の位置差Δx、Δy、Δzがアンカ位置
に加算されることにより、適合されたアンカ位置
が得られる。この適合されたアンカ位置
から始めて、さらにエンコーディング150が実行され(これは上述したエンコーディング5および50に対応する。それらを参照されたい)、それにより特徴ベクトル
が得られる。一方、アンカアライメントモジュールAAM(anchor alignment module)を用いて結果特徴ベクトル
の変換190(これは上述した変換90に対応しており、これについて図3も参照されたい)が実行され、それにより、変換された結果特徴ベクトル
が得られる。
一般に、デコーダ6のレイヤsに供給される特徴ベクトルのセットYは、レイヤの数に依存して、また、これらに関して物体クエリの洗練QVが実行されるかどうかに依存して、以下のように設定される。
ここで、j=max{l|l<s∧l∈S)であり、これは、第2のケース(第2の行)では、エンコーディング5、50、150によって取得された現在の物体クエリ
が常にデコーダ6に供給される。最後の行は、第1のレイヤsに関するケースを示す。
図3は、変換90の流れ図を示す。結果特徴ベクトル
は、ReLUアクティベーションを含む2つのレイヤ91、92からなるファストフォワードネットワークに供給される。ファストフォワードネットワークは、前のアンカ位置との位置差Δx、Δy、Δzがゼロに設定されるように、2つのレイヤ91、92が結果特徴ベクトル
を変化させるように訓練される。レイヤ91、92自体は、学習された重み付けを用いた入力の変形である。第1のレイヤ91の後、次元hを有する中間表現が得られる。第2のレイヤ92の後、変換された結果特徴ベクトル
が得られ、これは、受け取られた結果特徴ベクトル
と同じ次元dを有する。さらに、元の結果特徴ベクトル
へのバイパス接続94が作成されて、情報が失われないことを保証する。上記の説明は、変換190など、さらなるレイヤsに関する変換にも流用することができる。

Claims (10)

  1. アテンションモデルを含むトランスフォーマを用いた点群データからの複数の物体(O、O)の検出のための方法であって、前記複数の物体(O、O)の状態が、特徴空間内で前記アテンションモデル内に記憶され、以下のステップ:
    バックボーン(2)によって点群データから特徴ベクトルを計算するステップであり、前記特徴ベクトルが、前記トランスフォーマに関するキーベクトル(k)および値ベクトル(v)として機能する、ステップ、
    前記点群データから、サンプリング法(4)によって、前記トランスフォーマの第1のレイヤ(s)に関する第1のアンカ位置
    を計算するステップ、
    エンコーディング(5)を用いて前記第1のアンカ位置
    から特徴ベクトルを算出するステップであり、前記特徴ベクトルが、前記トランスフォーマの前記第1のレイヤ(s)に関する物体クエリ
    として機能する、ステップ、
    前記トランスフォーマのデコーダ(6)の前記第1のレイヤ(s)によって、前記物体クエリ
    ならびに前記キーベクトル(k)および値ベクトル(v)から、前記トランスフォーマの前記第1のレイヤ(s)の結果特徴ベクトル
    を算出するステップ、
    前記トランスフォーマの前記第1のレイヤ(s)の前記結果特徴ベクトル
    に関するボックスパラメータ
    を計算(7)するステップ、
    前記ボックスパラメータ
    の位置差が前記第1のアンカ位置
    に加算されることによって、前記トランスフォーマの少なくとも1つのさらなるレイヤ(s)に関して前記アンカ位置
    を適合(40、140)させるステップ、
    エンコーディング(50、150)によって、前記適合されたアンカ位置
    から特徴ベクトルを算出するステップであり、前記特徴ベクトルが、前記トランスフォーマの前記少なくとも1つのさらなるレイヤ(s)に関する物体クエリ
    として機能する、ステップ、
    前記適合されたアンカ位置
    に関する前記第1のレイヤの前記結果特徴ベクトル
    を変換(90)するステップであり、前記変換された結果特徴ベクトル
    が、前記トランスフォーマの前記少なくとも1つのさらなるレイヤ(s)に関する物体クエリとして機能する、ステップ、
    前記トランスフォーマの前記デコーダ(60)によって、前記第1のレイヤ(s)の前記変換された結果特徴ベクトル
    、前記少なくとも1つのさらなるレイヤ(s)の前記計算された物体クエリ
    、ならびに前記キーベクトル(k)および値ベクトル(v)から、前記トランスフォーマの前記少なくとも1つのさらなるレイヤ(s)で結果特徴ベクトル
    を算出するステップ
    を含む方法。
  2. 前記結果特徴ベクトルに関するボックスパラメータ
    を計算するステップ、
    前記アンカ位置
    を適合(140)させるステップ、
    前記適合されたアンカ位
    から、前記結果特徴ベクトル
    のエンコーディング(150)および変換(190)によって、前記適合されたアンカ位置
    に関して特徴ベクトル
    を算出するステップ
    が、少なくとも1つのさらなるレイヤ(s)に関して実行される
    ことを特徴とする請求項1に記載の方法。
  3. 前記トランスフォーマを訓練するために、以下のステップ:
    各レイヤのデコーダ出力に関して複数のボックスパラメータセットを推定するステップ、
    グランドトゥルースのボックスパラメータを、最も近い推定ボックスパラメータに割り当てるステップ、
    前記グランドトゥルースの前記ボックスパラメータと前記割り当てられた推定ボックスパラメータとの偏差に中央値回帰を適用するステップ
    前記中央値回帰によって前記トランスフォーマを訓練するステップ
    が実行されることを特徴とする請求項1に記載の方法。
  4. 前記適合されたアンカ位置
    に関する前記結果特徴ベクトル
    の前記変換(90、190)が、ReLUアクティベーションを含む2つのレイヤ(91、92)からなるフィードフォワードネットワークによって実現されることを特徴とする請求項1に記載の方法。
  5. 前記適合されたアンカ位置
    に関して前記結果特徴ベクトル
    の前記変換(90、190)を訓練するために、以下のステップ:
    前記点群データから結果特徴ベクトルを計算するステップ、
    前記結果特徴ベクトルを変換するステップ、
    前記ボックスパラメータの推定を、前記結果特徴ベクトル、および前記変換された結果特徴ベクトルのために適用するステップ、
    前記ボックスパラメータの位置差がゼロになるまで、前記変換された結果特徴ベクトルを適合させるステップ
    が実行されることを特徴とする請求項4に記載の方法。
  6. 点群データがLiDARによって取得されたことを特徴とする請求項1に記載の方法。
  7. 前記点群データが車両(F)から記録されたことを特徴とする請求項1に記載の方法。
  8. 請求項1から7のいずれか一項に記載の方法の各ステップを実行するように設計されるコンピュータプログラム。
  9. 請求項8に記載のコンピュータプログラムが格納される機械可読記憶媒体。
  10. 請求項1から7のいずれか一項に記載の方法により、アテンションモデルを含むトランスフォーマを用いた点群データからの複数の物体の検出を実行するように設計された電子制御デバイス。
JP2025517959A 2022-09-28 2023-09-12 アテンションモデルを含むトランスフォーマを用いた点群データからの物体の検出のための方法 Active JP7846830B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE102022210248.7A DE102022210248A1 (de) 2022-09-28 2022-09-28 Verfahren zur Objektdetektion
DE102022210248.7 2022-09-28
PCT/EP2023/074993 WO2024068259A1 (de) 2022-09-28 2023-09-12 Verfahren zur objektdetektion aus punktwolken-daten mittels eines transformers mit attention-modell

Publications (2)

Publication Number Publication Date
JP2025530550A JP2025530550A (ja) 2025-09-11
JP7846830B2 true JP7846830B2 (ja) 2026-04-15

Family

ID=88020960

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2025517959A Active JP7846830B2 (ja) 2022-09-28 2023-09-12 アテンションモデルを含むトランスフォーマを用いた点群データからの物体の検出のための方法

Country Status (7)

Country Link
US (1) US20250291033A1 (ja)
EP (1) EP4595019A1 (ja)
JP (1) JP7846830B2 (ja)
KR (1) KR20250076630A (ja)
CN (1) CN119948538A (ja)
DE (1) DE102022210248A1 (ja)
WO (1) WO2024068259A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021097318A1 (en) 2019-11-14 2021-05-20 Magic Leap, Inc. Systems and methods for virtual and augmented reality
US20220299649A1 (en) 2021-03-19 2022-09-22 Qualcomm Incorporated Object detection for a rotational sensor

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021097318A1 (en) 2019-11-14 2021-05-20 Magic Leap, Inc. Systems and methods for virtual and augmented reality
US20220299649A1 (en) 2021-03-19 2022-09-22 Qualcomm Incorporated Object detection for a rotational sensor

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
河▲崎▼太郎,外3名,注目Transformerなど深層学習2023,Interface 第49巻 第4号,CQ出版株式会社,2023年02月28日,第49巻,第4号,p.148-180

Also Published As

Publication number Publication date
KR20250076630A (ko) 2025-05-29
DE102022210248A1 (de) 2024-03-28
WO2024068259A1 (de) 2024-04-04
EP4595019A1 (de) 2025-08-06
JP2025530550A (ja) 2025-09-11
US20250291033A1 (en) 2025-09-18
CN119948538A (zh) 2025-05-06

Similar Documents

Publication Publication Date Title
CN113012203B (zh) 一种复杂背景下高精度多目标跟踪方法
CN114898313B (zh) 驾驶场景的鸟瞰图生成方法、装置、设备及存储介质
CN107481292B (zh) 车载摄像头的姿态误差估计方法和装置
US11935250B2 (en) Method, device and computer-readable storage medium with instructions for processing sensor data
CN110969055B (zh) 用于车辆定位的方法、装置、设备和计算机可读存储介质
CN112085789B (zh) 位姿估计方法、装置、设备及介质
US20230316775A1 (en) Methods and Systems for Object Tracking
CN110068824B (zh) 一种传感器位姿确定方法和装置
US20240177498A1 (en) Method for detecting lane markings
CN117333664A (zh) 一种用于工程测量的自动测量系统
WO2021063756A1 (en) Improved trajectory estimation based on ground truth
CN112733971B (zh) 扫描设备的位姿确定方法、装置、设备及存储介质
CN112085786A (zh) 位姿信息确定方法及装置
JP7846830B2 (ja) アテンションモデルを含むトランスフォーマを用いた点群データからの物体の検出のための方法
CN112097742A (zh) 一种位姿确定方法及装置
CN120426995A (zh) 一种基于大模型驱动的无地图电力巡检机器人导航系统、方法及相关装置
CN113901884A (zh) 基于特征匹配的人脸姿态估计方法、系统、装置及存储介质
CN113343839A (zh) 一种目标纹理识别方法、装置、识别设备和存储介质
CN114998561B (zh) 类别级位姿优化方法及装置
CN117388870A (zh) 应用于激光雷达感知模型的真值生成方法、装置及介质
CN118470687A (zh) 一种基于大模型的目标体系数据智能分析系统及方法
CN117824699A (zh) 一种基于帧间重叠区域点云的激光雷达里程计方法
CN117115472A (zh) 用于对象跟踪的方法、电子控制器和存储介质
CN114140497A (zh) 目标车辆3d实时追踪方法及系统
CN115393811A (zh) 三维目标的热力图生成方法、装置、存储介质及设备

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20250326

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20250326

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20260121

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20260128

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20260326

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20260401

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20260403

R150 Certificate of patent or registration of utility model

Ref document number: 7846830

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150