JP7224682B1

JP7224682B1 - 自律走行のための３次元多重客体検出装置及び方法

Info

Publication number: JP7224682B1
Application number: JP2021198447A
Authority: JP
Inventors: ゴンウーキム、; ホアンユィロク
Original assignee: Chungbuk National Univiversity CBNU
Current assignee: Chungbuk National Univiversity CBNU
Priority date: 2021-08-17
Filing date: 2021-12-07
Publication date: 2023-02-20
Anticipated expiration: 2041-12-07
Also published as: KR102681992B9; JP2023027736A; EP4138044A1; US20230071437A1; KR20230026130A; KR102681992B1

Abstract

【課題】自律走行のための強力なリアルタイム３次元多重客体検出装置を提案することにより、非常に速い推論速度を維持しながら３Ｄ物体検知作業の精度を向上させる。
【解決手段】本発明は、ライダーセンサを用いて３次元多重客体を検出するための単一階層３次元多重客体検出装置に関し、ライダーセンサから未処理の点群データの入力を受けるためのデータ入力モジュールと、前記未処理の点群データからＢＥＶイメージを生成するためのＢＥＶイメージ生成モジュールと、ＢＥＶイメージから細分化した特徴イメージを抽出するためのディープラーニングアルゴリズムベースの学習を実行する学習モジュールと、前記細分化した特徴イメージから３次元客体を検出するための３Ｄ候補ボックスとそれに対応するクラスを見つけるための回帰作業と、ローカリゼーション作業を実行するローカリゼーションモジュールと、を含む。
【選択図】図１

Description

本発明は多重客体検出装置に関し、より詳しくは自律走行のための効率的かつ簡潔な単一階層３次元多重客体検出装置に関する。

無人車両の自律走行のためには、前方の動的物体を感知して物体の動的な動きを推定した後、自律走行経路を生成しなければならない。現在、レーダー、カメラなどを用いた動的物体探知追跡技法に多くの研究が進められており、最近、レーザスキャナの価格下落に支えられ、一般の自動車メーカーもドライバ補助システム（ｄｒｉｖｅｒ－ａｓｓｉｓｔａｎｃｅｓｙｓｔｅｍ）搭載が大衆化している。

レーザスキャナを用いた移動物体探知を行うためには、各レーザポインタを深さ値に換算して搭載車両の周囲に対する点群（Ｐｏｉｎｔｃｌｏｕｄ）を生成する。生成した点群で、それぞれの点は何の意味も持たないため、移動物体探知追跡のためには、まずクラスタリング技法を介して点をまとめて１つの物体として表現する。

このように、自律走行での環境認識は必須であり、複雑な都市シナリオのような複雑な環境では堅牢性を必要とする。

運転者が管理できるすべての道路及び環境条件ですべての運転業務を実行できる自動化した走行システムは、国際ＳＡＥ（ＳｏｃｉｅｔｙｏｆＡｕｔｏｍｏｔｉｖｅＥｎｇｉｎｅｅｒｓ）で最高レベルの自動化に分類される。ＡＤＡ（ＡｄｖａｎｃｅｄＤｒｉｖｉｎｇＡｓｓｉｓｔｓ）は商業的に利用可能であるが、人間の介入が必要であったり特定の環境条件下で動作する場合もある。このような自律性の実現は、多重客体認識及び追跡（ＭｕｌｔｉｐｌｅＯｂｊｅｃｔＤｅｔｅｃｔｉｏｎａｎｄＴｒａｃｋｉｎｇ、ＭＯＤＴ）などのような関連の研究分野に対して巨大な要求事項を提示し、周囲の環境で共存するエンティティの動的特性を理解することが、全般的な自動化を向上させるために重要である。これは、ローカライゼーション（ｌｏｃａｌｉｚａｔｉｏｎ）、マッピング（ｍａｐｐｉｎｇ）、及びモーションプランニング（ｍｏｔｉｏｎｐｌａｎｎｉｎｇ）の品質に直接影響する。

過去１０年の間、カメラに対する認識を通じて数多くのＭＯＤＴアプローチが伝統的に研究されてきており、それについての詳細な検討がなされてきた。これによると、物体は、２Ｄ座標系またはステレオ設定の３Ｄ座標系にて、カメラ基準フレームに感知され、それぞれ２Ｄまたは３Ｄ軌跡を生成する。しかし、不正確なカメラ幾何学を用いて空間情報が算出され、ＦＯＶ（Ｆｉｅｌｄｏｆｖｉｅｗ）は制限的である。さらに、カメラベースのアプローチは、客体の切断、照明条件、高速ターゲット、センサーモーション、及びターゲット間の相互作用を含んで多様な問題に直面している。

自律走行で、３Ｄ客体座標は位置の精度と堅牢性を有さなければならず、ほとんどの客体検出装置は自律車両に組み込まれて動作する。この制約を満たすために、完全自律走行組込みシステムの文脈で効率的かつコンパクトな３Ｄ感知フレームワークが必要である。したがって、点群で小型３Ｄ物体を感知する場合、組込みシステムに優しい自律走行システムを具現することが重要である。

近年、広いパノラマ背景情報を提供するライダー（ＬｉｇｈｔＤｅｔｅｃｔｏｒａｎｄＲａｎｇｉｎｇ、ＬｉＤＡＲ）技術が代替技術としてますます普及している。ライダーは、１０～１５Ｈｚの合理的な速度で最大１００ｍに至る広いパノラミック測定を提供するため、ＭＯＤＴ作業に理想的なセンサである。

多様なセンサの中で、ライダーは３Ｄ客体検出作業に理想的なセンサとして使用されており、多くのモバイルロボットアプリケーション、特に自律走行でロボットビジョンにユビキタスな３Ｄ点群を提供する。さらに、ライダーは、視覚情報とは異なり、３Ｄ現実世界の不均一なサンプリング、有効動作範囲、閉塞、ノイズ、及び視覚センサで制限されるすべての天候に対する相対ポーズなどの要因によって非常にまれな点密度分布を提供する。

韓国登録特許１０－１６５５６０６

本発明は、前記のような問題を解決するために案出されたものであり、点群プロジェクション方法とアンカーフリー方法を用いて、性能面で既存の点群プロジェクション方法より向上した小さくて効率的な３Ｄ客体検出装置フレームワークを提供することをその目的とする。

本発明の目的は、上で述べた目的に限定されず、言及していない他の目的は、下の記載から通常の技術者に明確に理解できるであろう。

このような目的を達成するための本発明は、ライダーセンサを用いて３次元多重客体を検出するための単一階層３次元多重客体検出装置であって、ライダーセンサから未処理の（ｒａｗ）点群データを受信するためのデータ入力モジュール、前記未処理の点群データからＢＥＶ（Ｂｉｒｄ’ｓＥｙｅＶｉｅｗ）イメージを生成するためのＢＥＶイメージ生成モジュール、前記ＢＥＶイメージから細分化した特徴イメージを抽出するためのディープラーニング（ｄｅｅｐｌｅａｒｎｉｎｇ）アルゴリズムベースの学習を実行する学習モジュール、及び、前記細分化した特徴イメージから３次元客体を検出するための３Ｄ候補ボックスとそれに対応するクラスを見つけるための回帰（ｒｅｇｒｅｓｓｉｏｎ）作業とローカリゼーション（ｌｏｃａｌｉｚａｔｉｏｎ）作業を行うローカリゼーションモジュールを含む。

前記ＢＥＶイメージ生成モジュールは、３Ｄの未処理の点群データを２Ｄ擬似（ｐｓｅｕｄｏ）イメージに投影して離散化する方式でＢＥＶイメージを生成することができる。

前記ＢＥＶイメージ生成モジュールは、３Ｄの未処理の点群データをエンコーディングして、高さ、密度、強度及び距離の４つの特徴マップイメージを生成することができる。

前記学習モジュールは、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）ベースの学習を実行する。

本発明のライダーセンサを用いて３次元多重客体を検出するための単一階層３次元多重客体検出装置における単一階層３次元多重客体検出方法において、ライダーセンサから未処理の点群データの入力を受けるためのデータ入力ステップ、前記未処理の点群データからＢＥＤ（Ｂｉｒｄ’ｓＥｙｅＶｉｅｗ）イメージを生成するためのＢＥＶイメージ生成ステップ、前記ＢＥＶイメージから細分化した特徴イメージを抽出するためのディープラーニングアルゴリズムベースの学習を実行する学習ステップ、及び、前記細分化した特徴イメージから３次元客体を検出するための３Ｄ候補ボックスと、それに対応するクラスを見つけるための回帰（ｒｅｇｒｅｓｓｉｏｎ）作業とローカリゼーション（ｌｏｃａｌｉｚａｔｉｏｎ）作業を実行するローカリゼーションステップを含む。

前記ＢＥＶイメージ生成ステップで、３Ｄの未処理の点群データを２Ｄ擬似イメージに投影して離散化する方式でＢＥＶイメージを生成することができる。

前記ＢＥＶイメージ生成ステップで、３Ｄの未処理の点群データをエンコーディングし、高さ、密度、強度及び距離の４つの特徴マップイメージを生成することができる。

前記学習ステップでＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）ベースの学習を行うことができる。

本発明によると、自律走行のための強力なリアルタイム３次元多重物体検出装置を提案することにより、非常に速い推論速度を維持しながら３Ｄ物体検知作業の精度を向上させることができる効果がある。

本発明の一実施例に係る３次元多重客体検出装置の内部構成を示すブロック図である。本発明の一実施例に係る３次元多重客体検出方法を示すフローチャートである。本発明の一実施例に係る３次元多重客体検出装置の全体フレームワークを示す。ＢＥＶ（Ｂｉｒｄ’ｓＥｙｅＶｉｅｗ）特徴マップ生成の詳細構造を示す。トレーニングデータセットサンプルにおける関心領域の平均点群分布を示すグラフである。本発明の一実施例に係る３次元多重客体検出装置の詳細なＣＮＮアーキテクチャ（ａｒｃｈｉｔｅｃｔｕｒｅ）を示す。

本明細書に開示した実施例の利点及び特徴、そしてそれらを達成する方法は、添付の図面と共に後述する実施例を参照すると明らかになるであろう。しかし、本開示で提案しようとする実施例は、下で開示する実施例に限定されるものではなく、互いに異なる多様な形態で具現することができ、単に本実施例は、当技術分野にて通常の知識を有する者に実施例の範疇を完全に知らせるために提供するものにすぎない。

本明細書で使用する用語について簡略に説明し、開示した実施例について具体的に説明する。

本明細書で使用する用語は、開示した実施例の機能を考慮しながら可能な限り現在広く用いられる一般的な用語を選択したが、これは関連分野に従事する技術者の意図または判例、新しい技術の出現などに応じて変わり得る。また、特定の場合は出願人が任意に選定した用語もあり、この場合、該当する明細書の詳細な説明部分に詳しくその意味を記載する。したがって、本開示で用いられる用語は、単純な用語の名称ではなく、その用語が有する意味と本明細書の全体にわたる内容に基づいて定義されるべきである。

本明細書における単数の表現は、文脈上明らかに単数であると特定しない限り、複数の表現を含む。

明細書全体にて、ある部分がある構成要素を「含む」と言うとき、これは、特に反対の記載がない限り、他の構成要素を除外するのではなく、他の構成要素をさらに含み得ることを意味する。さらに、本明細書で使用する「部」という用語は、ソフトウェア、ＦＰＧＡ、またはＡＳＩＣなどのようなハードウェア構成要素を意味し、「部」は任意の役割を果たす。しかしながら、「部」はソフトウェアまたはハードウェアに限定される意味ではない。「部」は、アドレッシング可能な記憶媒体にあるように構成してもよく、１つ、又はそれ以上のプロセッサを再生させるように構成してもよい。したがって、一例として、「部」は、ソフトウェア構成要素、客体指向ソフトウェア構成要素、クラス構成要素、及びタスク構成要素などのような構成要素と、プロセス、関数、属性、プロシージャ、サブルーチン、プログラムコードのセグメント、ドライバ、ファームウェア、マイクロコード、回路、データ、データベース、データ構造、テーブル、アレイ及び変数を含む。構成要素及び「部」内で提供される機能は、より少ない数の構成要素及び「部」に結合したり、追加的な構成要素と「部」にさらに分離したりすることができる。

なお、添付図面を参照して説明するにあたり、図面符号にかかわらず、同一の構成要素には同一の参照符号を付し、これについての重複する説明は省く。本発明を説明するにあたり、関連する公知技術についての具体的な説明が本発明の要旨を不必要に曖昧すると判断した場合、その詳しい説明は省く。

本発明は、ライダーセンサを用いて３次元多重客体を検出するための単一階層３次元多重客体検出装置及び方法に関する。

図１は、本発明の一実施例に係る３次元多重客体検出装置の内部構成を示すブロック図である。

図１を参照すると、本発明の３次元多重客体検出装置１００は、データ入力モジュール１１０、ＢＥＶイメージ生成モジュール１２０、学習モジュール１３０、及びローカリゼーションモジュール１４０を含む。

データ入力モジュール１１０は、ライダーセンサから未処理の（ｒａｗ）点群データの入力を受ける。

ＢＥＶイメージ生成モジュール１２０は、未処理の点群データからＢＥＶ（Ｂｉｒｄ’ｓＥｙｅＶｉｅｗ、俯瞰図）イメージを生成する。

学習モジュール１３０は、ＢＥＶイメージから細分化した特徴イメージを抽出するためにディープラーニング（ｄｅｅｐｌｅａｒｎｉｎｇ）アルゴリズムベースの学習を実行する。

本発明の一実施例では、学習モジュール１３０は、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）ベースの学習を実行することができる。

ローカリゼーションモジュール１４０は、細分化した特徴イメージから３次元客体を検出するための３Ｄ候補ボックスと、それに対応するクラスを見つけるための回帰（ｒｅｇｒｅｓｓｉｏｎ）動作とローカリゼーション（ｌｏｃａｌｉｚａｔｉｏｎ）作業を実行する。

ＢＥＶイメージ生成モジュール１２０は、３Ｄの未処理の点群データを２Ｄ擬似（ｐｓｅｕｄｏ）イメージに投影して離散化する方式でＢＥＶイメージを生成することができる。

ＢＥＶイメージ生成モジュール１２０は、３Ｄの未処理の点群データをエンコーディングし、高さ、密度、強度及び距離の４つの特徴マップイメージを生成することができる。

図２は、本発明の一実施例に係る３次元多重客体検出方法を示すフローチャートである。

図２を参照すると、３次元多重客体検出方法は、ライダーセンサから未処理の点群データの入力を受けるためのデータ入力ステップＳ１１０、未処理の点群データからＢＥＶ（Ｂｉｒｄ’ｓＥｙｅＶｉｅｗ）イメージを生成するためのＢＥＶイメージ生成ステップＳ１２０、ＢＥＶイメージから細分化した特徴イメージを抽出するためのディープラーニング（ｄｅｅｐｌｅａｒｎｉｎｇ）アルゴリズムベースの学習を実行する学習ステップＳ１３０、及び、細分化した特徴イメージから３次元客体を検出するための３Ｄ候補ボックスとそれに対応するクラスを見つけるための回帰（ｒｅｇｒｅｓｓｉｏｎ）作業とローカリゼーション（ｌｏｃａｌｉｚａｔｉｏｎ）作業を実行するローカリゼーションステップＳ１４０を含む。

ＢＥＶイメージ生成ステップＳ１２０では、３Ｄの未処理の点群データを２Ｄ擬似（ｐｓｅｕｄｏ）イメージに投影して離散化する方式でＢＥＶイメージを生成することができる。

ＢＥＶイメージ生成ステップＳ１２０では、３Ｄの未処理の点群データをエンコーディングし、高さ、密度、強度及び距離の４つの特徴マップ（ｆｅａｔｕｒｅｍａｐ）イメージを生成することができる。

学習ステップＳ１３０では、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）ベースの学習を行うことができる。

本発明は、リアルタイムかつ安全なシステムのために効率的かつ簡潔な単一階層３Ｄ多重客体検出装置を提案する。まず、ライダー（ＬｉＤＡＲ）センサーデータの簡潔な２Ｄ表現を活用し、学習作業に対する細分化した機能を抽出するために適したＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）方式が導入される。本発明は、３Ｄバウンディングボックス（ｂｏｕｎｄｉｎｇｂｏｘ）の位置だけでなく、ヘディング角度（ｈｅａｄｉｎｇａｎｇｌｅ）も推定する。

本発明での、簡潔な（ｃｏｍｐａｃｔ）入力生成、適切なＣＮＮアーキテクチャ、及び最終３Ｄ客体候補をローカライズ（ｌｏｃａｌｉｚａｔｉｏｎ）を行うための学習及び推論部分戦略を説明する。

図３は、本発明の一実施例に係る３次元多重客体検出装置の全体フレームワークを示す。

図３を参照すると、本発明の単一階層３次元多重客体装置の全体フレームワーク（ｆｒａｍｅｗｏｒｋ）は、ライダー（ＬｉＤＡＲ）センサから未処理の点群データを受信し（ａ）、圧縮方式で未処理の点群データから４つの特徴イメージを含むＢＥＶ（Ｂｉｒｄ’ｓＥｙｅＶｉｅｗ）擬似（ｐｓｅｕｄｏ）イメージを生成し（ｂ）、多重ヘッドを有する学習タスクのための微細特徴イメージを抽出するＣＮＮベースの学習を行い（ｃ）、３Ｄ候補ボックス及びそれに対応するクラスを見つけるための回帰（ｒｅｇｒｅｓｓｉｏｎ）及びローカライゼーション（ｌｏｃａｌｉｚａｔｉｏｎ）を行うことを含んでいる。

ＢＥＶ（Ｂｉｒｄ’ｓＥｙｅＶｉｅｗ）の生成について説明すると、次の通りである。

図４は、ＢＥＶ（Ｂｉｒｄ’ｓＥｙｅＶｉｅｗ）特徴マップ生成の詳細構造を示す。

図４を参照すると、本発明の３次元多重客体検出装置は、高さ特徴（Ｈｅｉｇｈｔｆｅａｔｕｒｅ）、強度特徴（Ｉｎｔｅｎｓｉｔｙｆｅａｔｕｒｅ）、密度特徴（Ｄｅｎｓｉｔｙｆｅａｔｕｒｅ）、及び距離特徴（Ｄｉｓｔａｎｃｅｆｅａｔｕｒｅ）を含む４つのコンパクトな特徴マップを抽出する。

一般的に、未処理の（ｒａｗ）３Ｄライダー点群データは、標準方式のボクセル（ｖｏｘｅｌ）表現と３Ｄグリッドセル（ｇｒｉｄｃｅｌｌｓ）にエンコーディングし、ここで特徴を抽出するために３ＤＣＮＮが用いられる。しかし、ほとんどの３Ｄ空間は希薄か空であるため、このような方法は最適化したアプローチ方式と見なされず、時間とハードウェアの両方が非効率的である。別の方法では、原始３Ｄライダー点群データはＦＶ（ＦｒｏｎｔＶｉｅｗ）表現でエンコーディングされる。ただし、この方法は簡潔であるが、客体の折り重ねの問題を除去することができない。

ライダーセンサは、３Ｄの点位置（ｘ、ｙ、ｚ）とすべての点の反射率値ｒを提供し、毎秒数千から数百万の点を取得する。

本発明では、新規で簡潔なＢＥＶの生成を提案し、未処理の３Ｄ点群データを２Ｄ擬似（ｐｓｅｕｄｏ）イメージに投影して離散化する。これは時間効率的な事前処理方式と見なされ、客体の物理的形状が明示的に維持される。

３Ｄ環境の全体照射空間（ｉｎｖｅｓｔｉｇａｔｅｄｓｐａｃｅ）でライダー（ＬｉＤＡＲ）スキャナで取得したＬ×Ｗ×Ｈは、単一の高さ、密度、強度、及び距離特徴マップ（ｆｅａｔｕｒｅｍａｐ）にエンコードされる。

高さ特徴（ｆｅａｔｕｒｅ）の各セル値は、セル内の点高さのうちの最大高さで計算される。それから、正規化ステップを適用して正規化した高さ特徴マップを取得する。

密度特徴は、３Ｄ現実世界で多様な点群分布と共にセル内の点密度を表す。下記の式を使用して密度特性を正規化する。ここで、Ｑはセル内の点の量である。

強度特性（ｉｎｔｅｎｓｉｔｙｆｅａｔｕｒｅ）では、ライダー（ＬｉＤＡＲ）強度が記録され、［０，１］間の物体表面値を反映するレーザビームの戻り強度が記録される。本発明における強度特徴は、基準セルで最大高さを有する点の未処理の（ｒａｗ）反射率値である。

ほとんどのセルは希少または空であり、特に遠距離の場合はトレーニングデータセットを調べた結果、ほぼ９７％の点群がＸ方向に沿って一番目の［０，３０ｍ］の範囲に位置することを確認した。トレーニングデータセットの距離による点群分布は図５に明確に示す。

図５は、トレーニングデータセットのサンプルにおける距離による関心領域の平均点群分布を示すグラフである。

図５を参照すると、物理的に点群分布は、ライダースキャン角度とシーンシナリオとの間の差に基づいている。近距離ではビーム角度が小さくてライダーセンサが多くの点を獲得したのに対し、長距離ではビーム角度がより大きくて少ない数の点を得る。本発明で、ＢＥＶ表現を強化する距離情報を補完するために、この距離特徴マップを提案する。距離特徴は、学習作業以外にも、モデルが範囲別の点群分布を学習するのに役立つ。各セルの正規化した距離特性Ｄ_{ｉ＿ｎｏｒｍ}は、次の式によって計算される。

ここで、Ｄ_Ｏ→Ｐ_ｉはライダー原点（０，０，１．７３ｍ）と現在点Ｐ_ｉとの間の距離であり、Ｄ_ｍａｘは調査領域（ｉｎｖｅｓｔｉｇａｔｅｄａｒｅａ）Ψ内で最も遠い点Ｐ_ｍａｘまでのライダー原点であり、（ｘ_Ｐｉ，ｙ_Ｐｉ，ｚ_Ｐｉ）及び（ｘ_ｍａｘ，ｙ_ｍａｘ，ｚ_ｍａｘ）はそれぞれ点Ｐ_ｉ及びＰ_ｍａｘの位置である。

本発明は高速で効率的な３Ｄ多重客体検出装置に関し、本発明で提案したネットワークアーキテクチャはライダー点群の２Ｄ表現を強力に活用して学習し、密集した２ＤＢＥＶ擬似イメージの中で客体を感知して分類しなければならない。トレーニングデータセットの３Ｄ客体及び当該ラベルのエンコーディングと関連し、ネットワークは予め定義した客体アンカーに追加で依存せずに、直接抽出及びエンコードするか、または１番目の層から２番目の層に伝達された地域提案を調整する。全体ネットワークアーキテクチャが図６に示されている。

本発明で提案したネットワークアーキテクチャは、２つのサブネットワークに分けることができる。

第一に、バックボーン（ｂａｃｋｂｏｎｅ）ネットワークは、未処理の（ｒａｗ）ＢＥＶ表現で一般情報を畳み込み特徴マップの形で回収するために使用し、コンパクトで強力な機能表現を学習して活用するための高い表現能力を有する。

第二に、ヘッダー（ｈｅａｄｅｒ）ネットワークはバックボーンネットワークの最後のブロックであり、作業別予測を学習するように設計する。このネットワークには、客体中心点（ｘ，ｙ）、オフセット情報（Δｘ，Δｙ）、拡張Ｚ座標（ｚ）、客体サイズ（ｌ，ｗ，ｈ）、客体回転角度（ｙａｗ）を含む５つの下位作業（ｓｕｂ－ｔａｓｋ）がある。

本発明にて図面を参照してバックボーンネットワークとヘッダーネットワークについて詳しく説明すると、下の通りである。

図６は、本発明の一実施例に係る３次元多重客体検出装置の詳しいＣＮＮアーキテクチャ（ａｒｃｈｉｔｅｃｔｕｒｅ）を示す。

図６を参照すると、本発明の３次元多重客体検出装置のＣＮＮアーキテクチャの全体ネットワークは２つの主要部分に分かれる。

１つ目はバックボーン（Ｂａｃｋｂｏｎｅ）ネットワークとして、次の３つのサブモジュール（ａ、ｂ、ｃ）で構成される。

ａ）修正したＲｅｓＮｅｔブロックモジュール（Ｒｅｓ＿Ｂｌｏｃｋ）として、カーネル（ｋｅｒｎｅｌ）、ダウンサンプリング比（ｄｏｗｎ－ｓａｍｐｌｉｎｇｒａｔｉｏ）及び繰り返し量（ｑｕａｎｔｉｔｙｏｆｒｅｐｅｔｉｔｉｏｎ）を示す。

ｂ）各スケールのアップサンプリング（ｕｐ－ｓａｍｐｌｉｎｇ）ブロックを示すモジュール（ＵＳ＿Ｂｌｏｃｋ）である。

ｃ）ダウンサンプリングモジュール（ＤＳ＿Ｂｌｏｃｋ）。

２つ目は、ヘッドモジュール（Ｈｅａｄ）を含むヘッダー（Ｈｅａｄｅｒ）ネットワークである。ここで、ヘッドモジュールは、学習タスクのための客体中心（ＯｂｊｅｃｔＣｅｎｔｅｒ）、オフセット（ｏｆｆｓｅｔ）、Ｚ次元（Ｚｄｉｍｅｎｓｉｏｎ）、３Ｄ客体サイズ（３ＤＳｉｚｅ）、及び回転角（Ｒｏｔａｔｉｏｎａｎｇｌｅ）の５つの特徴を活用する役割をする。

ディープラーニングベースの客体感知作業で、ＣＮＮは入力情報を畳み込み特徴マップの形で抽出しなければならない。学習作業のために、高解像度には少ないレイヤーを使用し、低解像度にはより多くのレイヤーを使用する基準に基づいて小さくて強力なバックボーンアーキテクチャを設計する。

図６の実施例で具体的に提案したネットワークのブロックは合わせて１０個である。

１番目のブロックは、チャネル番号６４、カーネル７、ストライド３、ダウンサンプリング係数２を有する畳み込みレイヤ（ｃｏｎｖｏｌｕｔｉｏｎｌａｙｅｒ）である。

２番目ないし５番目のブロックは、スキップ（ｓｋｉｐ）接続数がそれぞれ３、８、８、３であるすべてのブロックに対してダウンサンプリング（ｄｏｗｎ－ｓａｍｐｌｉｎｇ）ファクタ（ｆａｃｔｏｒ）が２である修正したレジデュアルレイヤ（ｒｅｓｉｄｕａｌｌａｙｅｒ）で構成する。

１番目のブロックから５番目のブロックまでの総ダウンサンプリングファクターは３２である。

６番目のブロックないし８番目のブロックはトップダウン（ｔｏｐ－ｄｏｗｎ）アップサンプリング（ｕｐ－ｓａｍｐｌｉｎｇ）ブロックであり、最後の２つのブロックはボトムアップ（ｂｏｔｔｏｍ－ｕｐ）ダウンサンプリング（ｄｏｗｎ－ｓａｍｐｌｉｎｇ）ブロックである。そして、最後の３つのブロックがヘッダーネットワークの入力に供給するように選択される。

ヘッダーネットワークは、分類及び３Ｄ客体のローカリゼーションのすべてを処理する多重特定作業を学習するために小さくて効率的に設計する。ヘッダーネットワークには、下記（１）のクラスに該当する客体中心点、下記（２）のオフセット情報、下記（３）の拡張座標、下記（４）の客体サイズ、及び、下記（５）の客体の回転角ファクターを含む５つの下位作業がある。

ここで、本発明の推論段階にて、［－π、π］の範囲内で客体回転角を下記の式で容易にデコーディングすることができる。

最終予測結果は、以前定義したしきい値よりも高い値に設定したすべての選択した下記（１）の中心点に対して下記（２）で構成される。

本発明における学習及び推論過程は、コンパクトかつ効率的であり、安全な組込みシステムに向くように具現され、これについて説明する。

本発明の一実施例に係るアンカーフリー（ａｎｃｈｏｒ－ｆｒｅｅ）単一階層３Ｄ多重客体検出装置は、各候補について合計５つのヘッドを予測するが、キーポイントヒートマップヘッド、ローカルオフセットヘッド、客体方向ヘッド、Ｚ軸位置ヘッド及び３Ｄ個体寸法ヘッドがそれである。このようなヘッドは、推論の段階から最終候補を生成するために必要である。

中心回帰はＣＮＮアーキテクチャを通過した後に中心点を出力し、各点は１つの客体範疇に該当する。中央ヒートマップの形状は下記で定義する。ここで、Ｓはダウンサンプリング比率であり、Ｃは予測されたクラスの数を表す。

キーポイントヒートマップＨは要素Ｒに分かれ、ＢＥＶで客体中心がどこにあるかを見つけるために使用される。下記（１）は検出した中心点であり、下記（２）はバックグラウンドである。

オフセット回帰の主な役割は、予測した客体中心点の精度を強化し、ＢＥＶ生成プロセスで量子化誤差を緩和するものである。このために、オフセット回帰を適用してすべての中心点に対する下記のオフセット特徴マップを予測する。そして、オフセットの学習対象としてＬ１損失を選択する。

安全のために、３次元客体の位置だけでなく進行角度も正確に予測しなければならない。Ｚ軸周りのヘディング角度はヨー（ｙａｗ）角度とみなされ、傾斜した対象の場合はヨー角φを（ｃｏｓ（φ）、ｓｉｎ（φ））にエンコーディングし、推論する間はヨー角φを下記でデコーディングする。

方向回帰（ＯｒｉｅｎｔａｔｉｏｎＲｅｇｒｅｓｓｉｏｎ）は特徴マップを出力する。すべてのシングルセンターポイント（ｓｉｎｇｌｅｃｅｎｔｅｒｐｏｉｎｔ）で下記の条件である場合、Ｌ１損失関数はトレーニングのために次の式のように適用する。

客体中心点は下記（１）で予測し、Ｚ軸に沿った拡張が下記（２）で中心点をローカライズするのに必要である。Ｚ軸位置回帰は、予測した各中心点に対してＺ軸特徴マップ（下記（３））を予測する。

Ｚ軸回帰の結果は、３Ｄバウンディングボックスの位置精度に大きな影響を及ぼすが、多様な個体属性サンプルを有するＺ軸の無限回帰のためである。したがって、予測は異常値（ｏｕｔｌｉｅｒｓ）、特に不均衡トレーニングセットに容易に敏感になるという問題がある。この問題を克服するために、均衡Ｌ１損失（ｌｏｓｓ）を導入して不均衡なトレーニングセットを最小化し、モデルの安定性を向上させる。Ｚ軸回帰学習のために均衡Ｌ１損失が使用される。

ここで、Ｌ_ｂは、Ｌ１損失の定義による均衡Ｌ１損失である。

ここで、ａ、ｂ、γはＬ１均衡損失ハイパーパラメータ（ｈｙｐｅｒ－ｐａｒａｍｅｔｅｒｓ）であり、下記の関係にある。

サイズ回帰（ＳｉｚｅＲｅｇｒｅｓｓｉｏｎ）プロセスは、３Ｄ個体中心座標（ｘ、ｙ、ｚ）に沿って長さｌ、幅ｗ、及び高さｈの３Ｄ物体空間次元を生成する。サイズ回帰プロセス作業で予測しなければいけない３つの値があるため、各中心点に対して下記のサイズ回帰特徴マップを返還する。サイズ回帰はＺ軸回帰と同じ特性を有し、制限のない回帰目標のために異常値に敏感である。したがって、サイズ回帰の学習対象として均衡Ｌ１損失を選択する。

本発明の単一階層３次元多重客体検出装置の総損失関数は、前記ヘッド回帰損失の加重和である。

ここで、χ_ｈｍ、χ_ｏｆｆ、χ_ｙａｗ、χ_Ｚ、χｓｉｚｅは、それぞれ、ヒートマップ中心回帰、オフセット回帰、方向回帰、Ｚ軸位置回帰、及び大きさ回帰に対する均衡係数を表す。

本発明の単一階層３次元多重客体検出装置における推論過程について説明すると、次の通りである。

３Ｄバウンディングボックスの正確な位置を特定するために細分化した特徴マップを抽出した後、接続した８つの隣よりも値が大きいのかを比較して中心キーポイントの存在を確認する。ここで、周辺８つの隣と比較することは、キーポイントを見つけるための最も迅速で正確な方法である。

その後、２つの基準で中心点のみを維持する。中心点値は予め定義した閾値よりも高く、信頼度スコアは感知範囲内で予め定義した個体番号の優先順位に従って感知した中心点番号をフィルタリングする。

下記（１）の環境の客体は（ｃ_ｘ、ｃ_ｙ、ｃ_ｚ、ｒ、ｐ、ｙ、ｌ、ｗ、ｈ）で表すことができる。ここで、（ｃ_ｘ、ｃ_ｙ、ｃ_ｚ）は３Ｄ客体の中心、（ｒ、ｐ、ｙ））はそれぞれロール、ピッチ、ヨー回転角度、（ｌ、ｗ、ｈ）はそれぞれ客体の長さ、幅、高さを表する。

客体が平らな道路平面にあると仮定すると、ｒ＝ｐ＝０であるので、下記（１）の客体は７自由度（ｃ_ｘ、ｃ_ｙ、ｃ_ｚ、ｙ、ｌ、ｗ、ｈ）を有する。推論する間、下記（２）は予測集合であり、ここでｎはクラスＣで感知した中心点の量である。

予測後、ヒートマップ中心点、オフセット、方向角度、Ｚ軸位置及びサイズ次元に対応する下記を得る。

次に、すべての候補ターゲットは下記と同じ形式で融合し、クラスＣに対する正確な３Ｄバウンディングボックスを作成する。

本発明で、このような作業を組込みシステムに向くアプローチで処理する。したがって、本発明では最大プーリング演算を用いて客体中心を求めるので、既存のＮＭＳよりもはるかに速く客体中心を見つけることができる。

以上、本発明をいくつかの好ましい実施例を用いて説明したが、このような実施例は例示的なものであり、限定的なものではない。本発明が属する技術分野で通常の知識を有する者であれば、本発明の思想と添付の特許請求の範囲に提示した権利範囲から逸脱することなく多様な変更と修正を加えられることが理解できるであろう。

１００単一階層３次元多重客体検出装置
１１０データ入力モジュール
１２０ＢＥＶイメージ生成モジュール
１３０ＣＮＮベースの学習モジュール
１４０ローカリゼーションモジュール

Claims

ライダーセンサを用いて３次元多重客体を検出するための３次元多重客体検出装置であって、
ライダーセンサから未処理の点群データの入力を受信するためのデータ入力モジュールと、
前記未処理の点群データからＢＥＶ（Ｂｉｒｄ’ｓＥｙｅＶｉｅｗ）イメージを生成するためのＢＥＶイメージ生成モジュールと、
ＢＥＶイメージから細分化した特徴イメージを抽出するためのディープラーニング（ｄｅｅｐｌｅａｒｎｉｎｇ）アルゴリズムベースの学習を実行する学習モジュールと、
前記細分化した特徴イメージから３次元客体を検出するための３Ｄ候補ボックスとそれに対応するクラスを見つけるための回帰（ｒｅｇｒｅｓｓｉｏｎ）作業とローカリゼーション（ｌｏｃａｌｉｚａｔｉｏｎ）作業を行うローカリゼーションモジュールと、
を含み、
前記ＢＥＶイメージ生成モジュールは、前記未処理の点群データが分割された同じ形状の複数の３次元セルごとに、前記３次元セルにおける高さが最大の点の高さ、前記３次元セルにおける点の密度、前記３次元セルにおける前記高さが最大の点の反射率に対応する強度、及び前記３次元セルにおける原点から最も遠い点までの距離のそれぞれについてエンコーディングした前記複数の３次元セルそれぞれの４つの特徴データを含む２次元の特徴マップである前記ＢＥＶイメージを生成する、３次元多重客体検出装置。
ＢＥＶイメージ生成モジュールは、３Ｄの未処理の点群データを２Ｄ擬似（ｐｓｅｕｄｏ）イメージに投影して離散化する方式でＢＥＶイメージを生成することを特徴とする、
請求項１に記載の３次元多重客体検出装置。
前記学習モジュールは、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）ベースの学習を行うことを特徴とする、
請求項１に記載の３次元多重客体検出装置。
ライダーセンサを用いて３次元多重客体を検出するための３次元多重客体検出装置における３次元多重客体検出方法であって、
ライダーセンサから未処理の点群データの入力を受けるためのデータ入力ステップと、
前記未処理の点群データからＢＥＶ（Ｂｉｒｄ ’ｓＥｙｅＶｉｅｗ）イメージを生成するためのＢＥＶイメージ生成ステップと、
前記ＢＥＶイメージから細分化した特徴イメージを抽出するためにディープラーニング（ｄｅｅｐｌｅａｒｎｉｎｇ）アルゴリズムベースの学習を実行する学習ステップと、
前記細分化した特徴イメージから３次元客体を検出するための３Ｄ候補ボックスとそれに対応するクラスを見つけるための回帰（ｒｅｇｒｅｓｓｉｏｎ）作業とローカリゼーション（ｌｏｃａｌｉｚａｔｉｏｎ）作業を行うローカリゼーションステップと、
を含み、
前記ＢＥＶイメージ生成ステップにおいて、前記未処理の点群データが分割された同じ形状の複数の３次元セルごとに、前記３次元セルにおける高さが最大の点の高さ、前記３次元セルにおける点の密度、前記３次元セルにおける前記高さが最大の点の反射率に対応する強度、及び前記３次元セルにおける原点から最も遠い点までの距離のそれぞれについてエンコーディングした前記複数の３次元セルそれぞれの４つの特徴データを含む２次元の特徴マップである前記ＢＥＶイメージを生成する、３次元多重客体検出方法。
前記ＢＥＶイメージ生成ステップで、３Ｄの未処理の点群データを２Ｄ擬似（ｐｓｅｕｄｏ）イメージに投影して離散化する方式でＢＥＶイメージを生成することを特徴とする、
請求項４に記載の３次元多重客体検出方法。
前記学習ステップでＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）ベースの学習を行うことを特徴とする、
請求項４に記載の３次元多重客体検出方法。