JP2021532442A

JP2021532442A - ターゲット検出方法及び装置、スマート運転方法、装置並びに記憶媒体

Info

Publication number: JP2021532442A
Application number: JP2020567923A
Authority: JP
Inventors: シャオシュワイシー; ジョーワン; シアオガンワン; ホンションリー
Original assignee: センスタイムグループリミテッド
Priority date: 2019-06-17
Filing date: 2019-11-28
Publication date: 2021-11-25
Anticipated expiration: 2039-11-28
Also published as: JP7033373B2; SG11202011959SA; CN112101066A; CN112101066B; WO2020253121A1; US20210082181A1; KR20210008083A

Abstract

本実施例は、ターゲット検出方法、装置、電子機器及びコンピュータ記憶媒体を開示する。該方法は、３Ｄポイントクラウドデータを取得することと、３Ｄポイントクラウドデータに基づいて、３Ｄポイントクラウドデータに対応するポイントクラウドセマンティクス特徴を決定することと、ポイントクラウドセマンティクス特徴に基づいて、前景点の部位位置情報を決定することと、ポイントクラウドデータに基づいて、少なくとも１つの初期３Ｄ枠を抽出することと、ポイントクラウドデータに対応するポイントクラウドセマンティクス特徴、前景点の部位位置情報及び少なくとも１つの初期３Ｄ枠に基づいて、ターゲットの３Ｄ検出枠を決定することと、を含む。従って、３Ｄポイントクラウドデータからポイントクラウドセマンティクス特徴を直接的に取得し、前景点の部位位置情報を決定する。更に、ポイントクラウドセマンティクス特徴、前景点の部位位置情報及び少なくとも１つの３Ｄ枠に基づいて、ターゲットの３Ｄ検出枠を決定する。３Ｄポイントクラウドデータを鳥瞰図に投影して２Ｄ検出技術により鳥瞰図の枠を得る必要がない。計量化時、ポイントクラウドのオリジナル情報の損失を避ける。

Description

（関連出願の相互参照）
本願は、２０１９年６月１８日に中国特許局提出された、出願番号が２０１９１０５２３３４２．４であり、発明名称が「ターゲット検出方法及び装置、スマート運転方法、装置並びに記憶媒体」である中国特許出願に基づく優先権を主張し、該中国特許出願の全内容が参照として本願に組み込まれる。

本願は、ターゲット検出技術に関し、特に、ターゲット検出方法、スマート運転方法、ターゲット検出装置、電子機器並びにコンピュータ記憶媒体に関する。

自動運転又はロボットなどの分野において、周囲の物体を如何に感知するかは、重要な問題である。関連技術において、収集したポイントクラウドデータを鳥瞰図に投影し、二次元（２Ｄ）検出技術により、鳥瞰図の枠を得ることができる。これにより、計量化を行う場合、ポイントクラウドのオリジナル情報を損失してしまう。２Ｄ画像において検出を行う場合、遮蔽された物体の検出は困難である。

本願の実施例は、ターゲット検出の技術的解決手段を提供することが望ましい。

本願の実施例は、ターゲット検出方法を提供する。前記方法は、
三次元（３Ｄ）ポイントクラウドデータを取得することと、
前記３Ｄポイントクラウドデータに基づいて、前記３Ｄポイントクラウドデータに対応するポイントクラウドセマンティクス特徴を決定することと、
前記ポイントクラウドセマンティクス特徴に基づいて、前景点の部位位置情報を決定することであって、前記前景点は、前記ポイントクラウドデータのうち、ターゲットに属するポイントクラウドデータを表し、前記前景点の部位位置情報は、ターゲットにおける、前景点の相対的位置を表すためのものである、ことと、
前記ポイントクラウドデータに基づいて、少なくとも１つの初期３Ｄ枠を抽出することと、
前記ポイントクラウドデータに対応するポイントクラウドセマンティクス特徴、前記前景点の部位位置情報及び前記少なくとも１つの初期３Ｄ枠に基づいて、ターゲットの３Ｄ検出枠を決定することであって、前記検出枠内の領域にターゲットが存在する、ことと、を含む。

本願の実施例は、スマート運転装置に適用されるスマート運転方法を更に提供する。前記スマート運転方法は、
上記いずれか１つのターゲット検出方法により、前記スマート運転装置の周囲の前記ターゲットの３Ｄ検出枠を得ることと、
前記ターゲットの３Ｄ検出枠に基づいて、運転ポリシーンを生成することと、を含む。

本願の実施例は、ターゲット検出装置を更に提供する。前記装置は、取得モジュールと、第１処理モジュールと、第２処理モジュールと、を備え、
取得モジュールは、３Ｄポイントクラウドデータを取得し、前記３Ｄポイントクラウドデータに基づいて、前記３Ｄポイントクラウドデータに対応するポイントクラウドセマンティクス特徴を決定するように構成され、
第１処理モジュールは、前記ポイントクラウドセマンティクス特徴に基づいて、前景点の部位位置情報を決定し、前記前景点は、前記ポイントクラウドデータのうち、ターゲットに属するポイントクラウドデータを表し、前記前景点の部位位置情報は、ターゲットにおける、前景点の相対的位置を表すためのものであり、前記ポイントクラウドデータに基づいて、少なくとも１つの初期３Ｄ枠を抽出するように構成され、
第２処理モジュールは、前記ポイントクラウドデータに対応するポイントクラウドセマンティクス特徴、前記前景点の部位位置情報及び前記少なくとも１つの初期３Ｄ枠に基づいて、ターゲットの３Ｄ検出枠を決定するように構成され、前記検出枠内の領域にターゲットが存在する。

本願の実施例は、電子機器を更に提供する。前記電子機器は、プロセッサと、プロセッサで実行可能なコンピュータプログラムを記憶するように構成されるメモリと、を備え、
前記プロセッサは、前記コンピュータプログラムを実行する時、上記いずれか１つのターゲット検出方法を実行するように構成される。

本願の実施例は、コンピュータ記憶媒体を更に提供する。前記コンピュータ記憶媒体に、コンピュータプログラムが記憶されており、該コンピュータプログラムがプロセッサにより実行される時、上記いずれか１つのターゲット検出方法を実現させる。

本願の実施例は、コンピュータプログラム製品を更に提供する。前記コンピュータプログラム製品は、コンピュータによる実行可能な命令を含み、該コンピュータによる実行可能な命令が実行された後、本願の実施例で提供されるいずれか１つのターゲット検出方法を実現させることができる。

本願の実施例で提供されるターゲット検出方法、スマート運転方法、ターゲット検出装置、電子機器及びコンピュータ記憶媒体において、３Ｄポイントクラウドデータを取得し、前記３Ｄポイントクラウドデータに基づいて、前記３Ｄポイントクラウドデータに対応するポイントクラウドセマンティクス特徴を決定し、前記ポイントクラウドセマンティクス特徴に基づいて、前景点の部位位置情報を決定し、前記前景点は、前記ポイントクラウドデータのうち、ターゲットに属するポイントクラウドデータを表し、前記前景点の部位位置情報は、ターゲットにおける、前景点の相対的位置を表すためのものであり、前記ポイントクラウドデータに基づいて、少なくとも１つの初期３Ｄ枠を抽出し、前記ポイントクラウドデータに対応するポイントクラウドセマンティクス特徴、前記前景点の部位位置情報及び前記少なくとも１つの初期３Ｄ枠に基づいて、ターゲットの３Ｄ検出枠を決定し、前記検出枠内の領域にターゲットが存在する。従って、本願の実施例で提供されるターゲット検出方法は、３Ｄポイントクラウドデータからポイントクラウドセマンティクス特徴を直接的に取得し、前景点の部位位置情報を決定することができる。更に、ポイントクラウドセマンティクス特徴、前景点の部位位置情報及び少なくとも１つの３Ｄ枠に基づいて、ターゲットの３Ｄ検出枠を決定する。３Ｄポイントクラウドデータを鳥瞰図に投影して２Ｄ検出技術により鳥瞰図の枠を得る必要がない。計量化時、ポイントクラウドのオリジナル情報の損失を避け、鳥瞰図への投影による、遮蔽された物体の検出が困難であるという欠点を避ける。

上記の一般的な説明及び後述する細部に関する説明は、例示及び説明のためのものに過ぎず、本願を限定するものではないことが理解されるべきである。

本願の実施例によるターゲット検出方法を示すフローチャートである。本願の適用実施例による３Ｄ部位感知及び集約ニューラルネットワークの総合的フレームワークを示す概略図である。本願の適用実施例によるスパースアップサンプリング及び特徴修正のためのモジュールを示すブロック図である。本願の適用実施例による異なる難易度レベルのＫＩＴＴＩデータセットのＶＡＬ分割セットに対して得られたターゲット部位位置の詳細誤差を示す統計図である。本願の実施例によるターゲット検出装置の構造を示す概略図である。本願の実施例による電子機器のハードウェア構造を示す概略図である。

ここで添付した図面は、明細書に引き入れて本明細書の一部分を構成し、本願に適合する実施例を示し、かつ、明細書とともに本願の技術的解決手段を解釈することに用いられる。

以下、図面及び実施例を参照しながら、本願を更に詳しく説明する。ここで提供される実施例は、本願を解釈するためのものに過ぎず、本願を限定するものではないことを理解すべきである。なお、以下にいて提供される実施例は、本願の一部の実施例を実行するためのものであり、本願の全ての実施例を実行するためのものではない。矛盾しない限り、本願の実施例に記載の技術的解決手段を任意の組み合わせで実行することができる。

本明細書において、用語「含む」、「備える」、またはそれらの他のいずれかの変形は、非排他的包含を包括するように意図される。従って、一連の要素を含む方法又は装置は、明確に記載された要素を含むだけでなく、明確に列挙されていない他の要素も含み、又は、このような方法又は装置に固有の要素も含む。更なる限定が存在しない場合、“・・・を含む”なる文章によって規定される要素は、該要素を有する方法又は装置内に、別の関連要素（例えば、方法における工程又は装置におけるユニットであり、ユニットは、例えば、一部の回路、一部のプロセッサ、一部のプログラム又はソフトウェアなどであってもよい）が更に存在することを排除しない。

例えば、本願の実施例で提供されるターゲット検出方法又はスマート運転方法は、一連の工程を含むが、本願の実施例で提供されるターゲット検出方法又はスマート運転方法は、記載した工程に限定されない。同様に、本願の実施例で提供されるターゲット検出装置は、一連のモジュールを備えるが、本願の実施例で提供される装置は、明確に記載されたモジュールを備えるものに限定されず、関連情報の取得、又は情報に基づく処理に必要なモジュールを更に備えてもよい。

本明細書において、用語「及び／又は」は、関連対象の関連関係を説明するためのものであり、３通りの関係が存在することを表す。例えば、Ａ及び／又はＢは、Ａのみが存在すること、ＡとＢが同時に存在すること、Ｂのみが存在するという３つの場合を表す。また、本明細書において、用語「少なくとも１つ」は、複数のうちのいずれか１つ又は複数のうちの少なくとも２つの任意の組み合わせを表す。例えば、Ａ、Ｂ、Ｃのうちの少なくとも１つを含むことは、Ａ、Ｂ及びＣからなる集合から選ばれるいずれか１つ又は複数の要素を含むことを表す。

本願の実施例は、端末及びサーバからなるコンピュータシステムに適用され、多くの他の汎用又は専用コンピュータシステム環境又は構成と協働することができる。ここで、端末は、シンクライアント、シッククライアント、ハンドヘルド又はラップトップデバイス、マイクロプロセッサベースのシステム、セットトップボックス、プログラマブル消費者向け電子製品、ネットワークパソコン、小型コンピュータシステムなどであってもよい。サーバは、サーバコンピュータシステム、小型コンピュータシステム、大型コンピュータシステム及び上記如何なるシステムを含む分散型クラウドコンピューティング技術などであってもよい。

端末、サーバなどの電子機器は、コンピュータシステムにより実行されるコンピュータシステムによる実行可能な命令（例えば、プログラムモジュール）の一般的な内容で説明できる。一般的には、プログラムモジュールは、ルーチン、プログラム、ターゲットプログラム、ユニット、ロジック、データ構造などを含んでもよい。それらは、特定のタスクを実行するか又は特定の抽象的データタイプを実現させる。コンピュータシステム／サーバは、分散型クラウドコンピューティング環境で実行される。分散型クラウドコンピューティング環境において、タスクは、通信ネットワークを通じてリンクされたリモート処理デバイスによって実行される。分散型クラウドコンピューティング環境において、プログラムモジュールは、記憶装置を含むローカル又はリモートコンピューティングシステム記憶媒体に位置してもよい。

関連技術において、自動運転及びロボット技術の急速な成長に伴い、ポイントクラウドデータに基づく３Ｄターゲット検出技術は、ますます注目されている。ここで、ポイントクラウドデータは、レーダセンサにより取得される。画像においての２Ｄターゲット検出は、重要な成果を得たが、上記２Ｄターゲット検出方法をポイントクラウドに基づく三次元（３Ｄ）ターゲット検出に直接的に適用することは、依然として困難である。その主な原因は、レーザレーダ（ＬｉＤＡＲ）センサにより発生したポイントクラウドデータがスパースで、不規則であることである。如何に不規則な点からポイントクラウドセマンティクス特徴を抽出して認識し、抽出した特徴に基づいて、前景と背景を分割し、３Ｄ検出枠の決定を行うかは、挑戦的な課題である。

自動運転及びロボットなどの分野において、３Ｄターゲット検出は、非常に重要な検討動向である。例えば、３Ｄターゲット検出により、３Ｄ空間での、周囲の車両及び歩行者の具体的な位置、形状やサイズ、移動方向などの重要な情報を決定することができる。これにより、自動運転車両又はロボットによる動作決定を補助する。

現在の関連する３Ｄターゲット検出の技術的解決手段において、一般的には、ポイントクラウドを鳥瞰図に投影し、２Ｄ検出技術を利用して鳥瞰図の枠を得る。又は、直接的に２Ｄ画像を利用して候補枠を選択し、特定の領域のポイントクラウドで対応する３Ｄ枠を回帰する。ここで、２Ｄ検出技術により得られた鳥瞰図の枠は、２Ｄ枠である。２Ｄ枠は、ターゲットのポイントクラウドデータの二次元平面を標識するための枠を表し、２Ｄ枠は、長方形又は他の二次元平面形状の枠であってもよい。

上記から分かるように、鳥瞰図に投影して計量化を行う場合、ポイントクラウドのオリジナル情報を損失してしまう。２Ｄ画像において検出を行う場合、遮蔽されたターゲットの検出は、困難である。なお、上記技術的解決手段を利用して３Ｄ枠の検出を行う場合、単独でターゲットの部位情報を考慮することがない。例えば、自動者にとって、車頭、車尾、車輪などの部位の位置情報は、ターゲットの３Ｄ検出に役立つ。

上記技術的課題について、本願の幾つかの実施例において、ターゲット検出方法を提供する。本願の実施例は、自動運転、ロボットナビゲーションなどのシーンに適用可能である。

図１は、本願の実施例によるターゲット検出方法を示すフローチャートである。図１に示すように、該フローは、以下を含んでもよい。

ステップ１０１において、３Ｄポイントクラウドデータを取得する。

実際の適用において、レーダセンサなどにより、ポイントクラウドデータを収集することができる。

ステップ１０２において、３Ｄポイントクラウドデータに基づいて、３Ｄポイントクラウドデータに対応するポイントクラウドセマンティクス特徴を決定する。

ポイントクラウドデータに対して、前景と背景を分割して前景点の３Ｄターゲット部位位置情報を予測するために、ポイントクラウドデータから、区別的な点ごとの特徴を学習する必要がある。ポイントクラウドデータに対応するポイントクラウドセマンティクス特徴を得るための実現形態について、例示的には、ポイントクラウド全体に対して３Ｄメッシュ化処理を行い、３Ｄメッシュを得て、３Ｄメッシュの非空白メッシュから、前記３Ｄポイントクラウドデータに対応するポイントクラウドセマンティクス特徴を抽出することができる。３Ｄポイントクラウドデータに対応するポイントクラウドセマンティクス特徴は、３Ｄポイントクラウドデータの座標情報などを表すことができる。

実際に実行する時、各メッシュの中心を新たな点とすることで、初期ポイントクラウドと近似的に同等であるメッシュ化ポイントクラウドを得る。上記メッシュ化ポイントクラウドは一般的には、スパースなものである。上記メッシュ化ポイントクラウドを得た後、スパース畳み込み処理に基づいて、上記メッシュ化ポイントクラウドの点ごとの特徴を抽出することができる。ここのメッシュ化ポイントクラウドの点ごとの特徴は、メッシュ化されたポイントクラウドの各点のセマンティクス特徴であり、上記ポイントクラウドデータに対応するポイントクラウドセマンティクス特徴とされてもよい。つまり、３Ｄ空間全体を標準化メッシュとしてメッシュ化処理を行い、続いて、スパース畳み込みにより、非空白メッシュから、ポイントクラウドセマンティクス特徴を抽出することができる。

３Ｄターゲット検出において、ポイントクラウドデータに対して、前景と背景の分割により、前景点及び背景点を得ることができる。前景点は、ターゲットに属するポイントクラウドデータを表し、背景点は、ターゲットに属しないポイントクラウドデータを表す。ターゲットは、車両、人物などの認識する必要がある物体であってもよい。例えば、前景と背景の分割方法は、閾値に基づく分割方法、領域に基づく分割方法、縁に基づく分割方法及び特定の理論に基づく分割方法などを含むが、これらに限定されない。

上記３Ｄメッシュのうちの非空白メッシュは、ポイントクラウドデータを含むメッシュを表す。上記３Ｄメッシュのうちの空白メッシュは、ポイントクラウドデータを含まないメッシュを表す。

ポイントクラウドデータ全体に対して３Ｄスパースメッシュ化を行うための実現形態について、１つの具体的な例において、３Ｄ空間全体のサイズは、７０ｍ＊８０ｍ＊４ｍであり、各メッシュのサイズは、５ｃｍ＊５ｃｍ＊１０ｃｍである。ＫＩＴＴＩデータセットにおける各３Ｄシーンは、一般的には、１６０００個の非空白メッシュを有する。

ステップ１０３において、前記ポイントクラウドセマンティクス特徴に基づいて、前景点の部位位置情報を決定し、前記前景点は、前記ポイントクラウドデータのうち、ターゲットに属するポイントクラウドデータを表し、前記前景点の部位位置情報は、ターゲットにおける、前景点の相対的位置を表すためのものである。

前景点の部位位置情報を予測するための実現形態について、例示的には、上記ポイントクラウドセマンティクス特徴に基づいて、上記ポイントクラウドデータに対して前景と背景の分割を行い、前景点を決定することができる。前景点は、前記ポイントクラウドデータのうち、ターゲットに属するポイントクラウドデータである。

前景点の部位位置情報を予測するためのニューラルネットワークを利用して、決定された前景点を処理し、前景点の部位位置情報を得る。

ここで、上記ニューラルネットワークは、３Ｄ枠のアノテーション情報を含む訓練データセットにより訓練されたものである。３Ｄ枠のアノテーション情報は、少なくとも、前記訓練データセットのポイントクラウドデータの前景点の部位位置情報を含む。

本願の実施例において、前景と背景の分割方法を限定しない。例えば、焦点損失（ｆｏｃａｌｌｏｓｓ）方法で、前景と背景の分割を実現させることができる。

実際の適用において、訓練データセットは、事前取得されたデータセットであってもよい。例えば、ターゲット検出する必要があるシーンに対して、レーダセンサなどを利用してポイントクラウドデータを事前取得し、続いて、ポイントクラウドデータに対して、前景点分割を行い、３Ｄ枠を区画し、３Ｄ枠にアノテーション情報を追加し、訓練データセットを得る。該アノテーション情報は、３Ｄ枠における、前景点の部位位置情報を表すことができる。ここで、訓練データセットにおける３Ｄ枠は、真値（ｇｒｏｕｎｄ−ｔｒｕｔｈ）枠と表記されてもよい。

ここで、３Ｄ枠は、ターゲットのポイントクラウドデータを標識するための立体枠を表す。３Ｄ枠は、長方体又は他の形状の立体枠であってもよい。

例示的には、訓練データセットを得た後、訓練データセットの３Ｄ枠のアノテーション情報に基づいて、バイナリ交差エントロピー損失を部位回帰損失として用いることで、前景点の部位位置情報を予測することができる。任意選択的に、ｇｒｏｕｎｄ−ｔｒｕｔｈ枠内又は枠外の全ての点をいずれも正負サンプルとして訓練を行う。

実際の適用において、上記３Ｄ枠のアノテーション情報は、正確な部位位置情報を含み、情報が豊であるという特徴を有し、且つ無料で取得されることが可能である。つまり、本願の実施例の技術的解決手段は、上記３Ｄ候補枠のアノテーション情報に基づいて推定された無料な監督情報に基づいて、ターゲットにおける前景点の部位位置情報を予測することができる。

上記から分かるように、本願の実施例において、スパース畳み込み処理により、オリジナルポイントクラウドデータの情報を直接的に抽出して前景と背景の分割に用い、各前景点の部位位置情報（即ち、３Ｄ枠におけるターゲットの位置情報）を予測し、各点がターゲットのどの部位に属するかに関わる情報を定量的に表すことができる。これは、関連技術におけるポイントクラウドの、鳥瞰図への投影による計量化損失及び２Ｄ画像検出における遮蔽の課題を避け、ポイントクラウドセマンティクス特徴抽出プロセスをより自然かつ効率的にすることができる。

ステップ１０４において、ポイントクラウドデータに基づいて、少なくとも１つの初期３Ｄ枠を抽出する。

ポイントクラウドデータに基づいて少なくとも１つの初期３Ｄ枠を抽出するための実現形態について、例示的には、領域候補ネットワーク（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ：ＲＰＮ）を利用して少なくとも１つの３Ｄ候補枠を抽出することができる。各３Ｄ候補枠は、初期３Ｄ枠である。上記は、初期３Ｄ枠の抽出形態の例を説明するだけであり、本願の実施例は、これに限定されないことに留意されたい。

本願の実施例において、初期３Ｄ枠の各点の部位位置情報を集約することで、最終的な３Ｄ枠の生成に補助する。つまり、予測された各前景点の部位位置情報は、最終的な３Ｄ枠の生成に寄与する。

ステップ１０５において、ポイントクラウドデータに対応するポイントクラウドセマンティクス特徴、前記前景点の部位位置情報及び前記少なくとも１つの初期３Ｄ枠に基づいて、ターゲットの３Ｄ検出枠を決定し、前記検出枠内の領域にターゲットが存在する。

本ステップの実現形態について、例示的には、各初期３Ｄ枠に対して、前景点の部位位置情報及びポイントクラウドセマンティクス特徴のプーリング処理を行い、プーリングされた各初期３Ｄ枠の部位位置情報及びポイントクラウドセマンティクス特徴を得て、プーリングされた各初期３Ｄ枠の部位位置情報及びポイントクラウドセマンティクス特徴に基づいて、各初期３Ｄ枠の修正及び／又は各初期３Ｄ枠の信頼度決定を行い、前記ターゲットの３Ｄ検出枠を決定することができる。

ここで、各初期３Ｄ枠を修正した後、ターゲット検出を実現させるための最終的な３Ｄ枠を得ることができる。初期３Ｄ枠の信頼度は、初期３Ｄ枠における前景点の部位位置情報の信頼度を表すことができる。更に、初期３Ｄ枠の信頼度決定は、初期３Ｄ枠の修正に寄与する。これにより、最終的な３Ｄ検出枠を得る。

ここで、ターゲットの３Ｄ検出枠は、ターゲット検出のための３Ｄ枠を表すことができる。例示的には、ターゲットの３Ｄ検出枠を決定した後、ターゲットの３Ｄ検出枠に基づいて、画像におけるターゲットの情報を決定することができる。例えば、ターゲットの３Ｄ検出枠に基づいて、画像におけるターゲットの位置、サイズなどの情報を決定することができる。

本願の実施例において、各初期３Ｄ枠における前景点の部位位置情報及びポイントクラウドセマンティクス特徴について、同一の初期３Ｄ枠における全ての点の部位位置情報を集約することで３Ｄ枠の信頼度のスコアリング及び／又は修正を行う必要がある。

１つ目の例において、初期３Ｄ枠内の全ての点の特徴を直接的に取得して集約し、３Ｄ枠の信頼度のスコアリング及び修正に用いることができる。つまり、初期３Ｄ枠の部位位置情報及びポイントクラウドセマンティクス特徴に対して直接的にプーリング処理を行い、更に、初期３Ｄ枠の信頼度のスコアリング及び／又は修正を実現させることができる。ポイントクラウドがスパース性を有するため、上記１つ目の例における方法は、プーリングされた特徴から、初期３Ｄ枠の形状を復元することができず、初期３Ｄ枠の情報を損失する。

２つ目の例において、上記各初期３Ｄ枠を複数のメッシュに均一に分け、各メッシュに対して、前景点の部位位置情報及びポイントクラウドセマンティクス特徴のプーリング処理を行い、プーリングされた各初期３Ｄ枠の部位位置情報及びポイントクラウドセマンティクス特徴を得ることができる。

上記から分かるように、サイズの異なる初期３Ｄ枠について、一定の解像度の３Ｄメッシュ化特徴を発生する。任意選択的に、３Ｄ空間において、設定した解像度に基づいて、各初期３Ｄ枠に対して均一なメッシュ化処理を行うことができる。設定した解像度は、プーリング解像度と表記される。

任意選択的に、上記複数のメッシュのうちのいずれか１つのメッシュが前景点を含まない場合、いずれか１つのメッシュは、空白メッシュである。この場合、前記いずれか１つのメッシュの部位位置情報を空きとマーキングし、上記メッシュのプーリングされた前景点の部位位置情報を得て、前記メッシュのポイントクラウドセマンティクス特徴をセロとし、前記メッシュのプーリングされたポイントクラウドセマンティクス特徴を得ることができる。

上記複数のメッシュのうちのいずれか１つのメッシュが前景点を含む場合、前記メッシュの前景点の部位位置情報に対して平均プーリング処理を行い、上記メッシュのプーリングされた前景点の部位位置情報を得て、前記メッシュの前景点のポイントクラウドセマンティクス特徴を最大プーリング処理し、前記メッシュのプーリングされたポイントクラウドセマンティクス特徴を得ることができる。ここで、平均プーリングは、隣接領域内の前景点の部位位置情報の平均値を該メッシュのプーリングされた前景点の部位位置情報として取ることを指してもよい。最大プーリングは、隣接領域内の前景点の部位位置情報の最大値を該メッシュのプーリングされた前景点の部位位置情報として取ることを指してもよい。

上記から分かるように、前景点の部位位置情報に対して平均プーリング処理を行った後、プーリングされた部位位置情報は、各メッシュの中心位置情報を近似的に表すことができる。

本願の実施例において、上記メッシュのプーリングされた前景点の部位位置情報及び上記メッシュのプーリングされたポイントクラウドセマンティクス特徴を得た後、プーリングされた各初期３Ｄ枠の部位位置情報及びポイントクラウドセマンティクス特徴を得ることができる。ここで、プーリングされた各初期３Ｄ枠の部位位置情報は、初期３Ｄ枠に対応する各メッシュのプーリングされた前景点の部位位置情報を含み、プーリングされた各初期３Ｄ枠のポイントクラウドセマンティクス特徴は、初期３Ｄ枠に対応する各メッシュのプーリングされたポイントクラウドセマンティクス特徴を含む。

各メッシュに対して前景点の部位位置情報及びポイントクラウドセマンティクス特徴のプーリング処理を行う場合、空白メッシュに対しても対応する処理を行う。従って、得られたプーリングされた各初期３Ｄ枠の部位位置情報及びポイントクラウドセマンティクス特徴によれば、初期３Ｄ枠の幾何的情報をより好適に符号化することができる。更に、本願の実施例において、初期３Ｄ枠に敏感なプーリング処理が提供されたと認められる。

本願の実施例で提供された初期３Ｄ枠に敏感なプーリング処理は、サイズの異なる初期３Ｄ枠から、解像度が同じであるプーリングした特徴を得て、プーリングした特徴から、初期３Ｄ枠の形状を復元することができる。なお、プーリングした特徴によれば、初期３Ｄ枠内の部位位置情報の整合を容易に行うことができる。更に、初期３Ｄ枠の信頼度のスコアリング及び初期３Ｄ枠の修正に寄与する。

プーリングされた各初期３Ｄ枠の部位位置情報及びポイントクラウドセマンティクス特徴に基づいて、各初期３Ｄ枠の修正及び／又は各初期３Ｄ枠の信頼度決定を行うための実現形態について、例示的には、上記プーリングされた各初期３Ｄ枠の部位位置情報とポイントクラウドセマンティクス特徴を結合し、結合した特徴に基づいて、各初期３Ｄ枠の修正及び／又は各初期３Ｄ枠の信頼度決定を行うことができる。

本願の実施例において、プーリングされた各初期３Ｄ枠の部位位置情報及びポイントクラウドセマンティクス特徴を同一の特徴次元に変換し、続いて、同一の特徴次元の部位位置情報とポイントクラウドセマンティクス特徴を接続し、同一の特徴次元の部位位置情報とポイントクラウドセマンティクス特徴の結合を実現させることができる。

実際の適用において、プーリングされた各初期３Ｄ枠の部位位置情報及びポイントクラウドセマンティクス特徴は、いずれも特徴マップ（ｆｅａｔｕｒｅｍａｐ）で表されてもよい。従って、プーリングで得られた特徴マップを同一の特徴次元に変換し、続いて、該２つの特徴マップを結合することができる。

本願の実施例において、結合した特徴は、ｍ＊ｎ＊ｋの行列であってもよく、ｍ、ｎ及びｋはいずれも正整数である。結合した特徴は、後続の３Ｄ枠内の部位位置情報の整合に用いられる。更に、初期３Ｄ枠内の部位位置情報の整合により、３Ｄ枠内の部位位置情報の信頼度予測と３Ｄ枠の修正を行うことができる。

関連技術において、一般的には、初期３Ｄ枠のポイントクラウドデータを得た後、直接的にＰｏｉｎｔＮｅｔを利用してポイントクラウドの情報整合を行う。ポイントクラウドがスパース性を有するため、該操作により、初期３Ｄ枠の情報が損失され、３Ｄ部位位置情報の整合に不利である。

本願の実施例において、結合した特徴に基づいて、各初期３Ｄ枠の修正及び／又は各初期３Ｄ枠の信頼度決定を行う過程について、例示的には、下記幾つかの実現形態により実現することができる。

第１実現形態
前記結合した特徴をベクトル化して特徴ベクトルを得る。前記特徴ベクトルに基づいて、各初期３Ｄ枠の修正及び／又は各初期３Ｄ枠の信頼度決定を行う。具体的に実現する時、結合した特徴をベクトル化して特徴ベクトルを得た後、複数の全結合層（Ｆｕｌｌｙ−Ｃｏｎｎｅｃｔｅｄｌａｙｅｒｓ：ＦＣｌａｙｅｒｓ）を追加して、各初期３Ｄ枠の修正及び／又は各初期３Ｄ枠の信頼度決定を行う。ここで、全結合層は、ニューラルネットワークにおける１つの基礎ユニットであり、畳み込み層又はプーリング層における、カテゴリを区別できる局所的情報を整合することができる。

第２実現形態
結合した特徴に対してスパース畳み込み処理を行うことで、スパース畳み込み処理された特徴マップを得る。前記スパース畳み込み処理された特徴マップに基づいて、各初期３Ｄ枠の修正及び／又は各初期３Ｄ枠の信頼度決定を行う。任意選択的に、スパース畳み込み処理された特徴マップを得た後、更に、畳み込み処理により、局所的スケールから全局的スケールまでの特徴を段階的に集約することで、各初期３Ｄ枠の修正及び／又は各初期３Ｄ枠の信頼度決定を実現させる。具体的な例において、プーリング解像度が低い場合、第２実現形態により、各初期３Ｄ枠の修正及び／又は各初期３Ｄ枠の信頼度決定を行うことができる。

第３実現形態
結合した特徴に対してスパース畳み込み処理を行うことで、スパース畳み込み処理された特徴マップを得る。前記スパース畳み込み処理された特徴マップに対してダウンサンプリングを行い、ダウンサンプリングされた特徴マップに基づいて、各初期３Ｄ枠の修正及び／又は各初期３Ｄ枠の信頼度決定を行う。ここで、スパース畳み込み処理された特徴マップに対してダウンサンプリング処理を行うことで、各初期３Ｄ枠の修正及び／又は各初期３Ｄ枠の信頼度決定をより効果的に行うことができ、また演算リソースを節約することができる。

任意選択的に、スパース畳み込み処理された特徴マップを得た後、プーリング処理により、スパース畳み込み処理された特徴マップに対してダウンサンプリングを行うことができる。例えば、ここで、スパース畳み込み処理された特徴マップに対して行われるプーリング処理は、スパース最大プーリング（ｓｐａｒｓｅｍａｘ−ｐｏｏｌｉｎｇ）処理である。

任意選択的に、スパース畳み込み処理された特徴マップに対してダウンサンプリングを行うことで、特徴ベクトルを得て、部位位置情報の整合に用いる。

つまり、本願の実施例において、プーリングされた各初期３Ｄ枠の部位位置情報及びポイントクラウドセマンティクス特徴を基礎として、メッシュ化した特徴を次第にダウンサンプリングし、符号化した特徴ベクトルを得て、３Ｄ部位位置情報の整合に用いることができる。続いて、該符号化した特徴ベクトルを利用して、各初期３Ｄ枠の修正及び／又は各初期３Ｄ枠の信頼度決定を行うことができる。

要するに、本願の実施例は、スパース畳み込み処理に基づく３Ｄ部位位置情報の整合処理を提供する。各初期３Ｄ枠内のプーリングした特徴の３Ｄ部位位置情報を層ごとに符号化することができる。該処理と、初期３Ｄ枠に敏感なプーリング処理と、を組み合わせることで、３Ｄ部位位置情報をより好適に集約して、最終的な初期３Ｄ枠の信頼度予測及び／又は初期３Ｄ枠の修正に用い、ターゲットの３Ｄ検出枠を得ることができる。

実際の適用において、ステップ１０１からステップ１０３は、電子機器のプロセッサにより実現することができる。上記プロセッサは、特定用途向け集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ：ＡＳＩＣ）、デジタル信号プロセッサ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ：ＤＳＰ）、デジタル信号処理装置（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇＤｅｖｉｃｅ：ＤＳＰＤ）、プログラマブルロジックデバイス（ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ：ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ：ＦＰＧＡ）、中央演算装置（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ：ＣＰＵ）、コントローラ、マイクロコントローラ、マイクロプロセッサのうちの少なくとも１つであってもよい。様々な電子機器について、上記プロセッサの機能を実現させるための電子デバイスは、他のものであってもよく、本願の実施例はこれを具体的に限定するものではないことが理解されるべきである。

上記から分かるように、本願の実施例で提供されるターゲット検出方法は、３Ｄポイントクラウドデータからポイントクラウドセマンティクス特徴を直接的に取得し、前景点の部位位置情報を決定することができる。更に、ポイントクラウドセマンティクス特徴、前景点の部位位置情報及び少なくとも１つの３Ｄ枠に基づいて、ターゲットの３Ｄ検出枠を決定する。３Ｄポイントクラウドデータを鳥瞰図に投影して２Ｄ検出技術により鳥瞰図の枠を得る必要がない。計量化時、ポイントクラウドのオリジナル情報の損失を避け、鳥瞰図への投影による、遮蔽された物体の検出が困難であるという欠点を避ける。

上述したターゲット検出方法によれば、本願の実施例は、スマート運転装置に適用されるスマート運転方法を更に提供する。該スマート運転方法は、上記いずれか１つのターゲット検出方法により、前記スマート運転装置の周囲の前記ターゲットの３Ｄ検出枠を得ることと、前記ターゲットの３Ｄ検出枠に基づいて、運転ポリシーンを生成することと、を含む。

一例において、スマート運転装置は、自動運転車両、ロボット、盲導機器などを含む。この場合、スマート運転装置は、生成した運転ポリシーに基づいて運転制御を行うことができる。もう１つの例において、スマート運転装置は、運転支援システムが搭載された車両を含む。この場合、生成した運転ポリシーは、運転者を、車両の運転制御を行うように導くために用いられる。

以下、具体的な適用実施例により、本願を更に説明する。

該適用実施例の技術的解決手段において、オリジナルポイントクラウドからターゲット検出を行う３Ｄ部位感知及び集約ニューラルネットワーク（Ｐａｒｔ−Ａ^２ネットワークと命名されてもよい）を提供する。該ネットワークのフレームワークは、新規な、ポイントクラウドに基づく三次元ターゲット検出の二段階フレームワークである。それは、下記２つの段階からなるものであってもよい。ここで、第１段階は、部位感知段階であり、第２段階は、部位集約段階である。

まず、部位感知段階において、３Ｄ枠のアノテーション情報に基づいて、無料な監督情報を推定すると同時に、初期３Ｄ枠及び正確な部位位置（ｉｎｔｒａ−ｏｂｊｅｃｔｐａｒｔｌｏｃａｔｉｏｎｓ）情報を予測することができる。続いて、同じ枠内の前景点の部位位置情報を集約することで、３Ｄ枠特徴の符号を効果的に表すことができる。部位集約段階において、プーリングされた部位位置情報の空間的関係を整合することによって３Ｄ枠の再度スコアリング（信頼度のスコアリング）及び位置の修正に用いる。ＫＩＴＴＩデータセットに対して大量の実験を行った結果、予測した前景点の部位位置情報は、３Ｄターゲット検出に寄与し、また、３Ｄ部位感知及び集約ニューラルネットワークに基づくターゲット検出方法は、関連技術におけるポイントクラウドを入力フィードとしたターゲット検出方法よりも好適であることが証明された。

本願の幾つかの実施例において、鳥瞰図又は２Ｄ画像からターゲット検出を行うという技術的解決手段と異なっており、前景点に対して分割を行うことで、オリジナルポイントクラウドから初期３Ｄ枠（即ち、３Ｄ候補枠）を直接的に生成するという技術的解決手段を提供する。ここで、分割タグは、訓練データセットにおける３Ｄ枠のアノテーション情報に基づいて得られた。しかしながら、３Ｄ枠のアノテーション情報は、分割マスクを提供するだけでなく、３Ｄ枠内の全ての点の正確な枠内部位位置も提供する。これは、２Ｄ画像における枠アノテーション情報と全く異なる。その原因は、２Ｄ画像における一部の対象が遮蔽される可能性があることである。二次元ｇｒｏｕｎｄ−ｔｒｕｔｈ枠を利用してターゲット検出を行う場合、ターゲット内の各画素で騒音を有する不正確な枠内部位位置を発生する。それに対して、上記３Ｄ枠内の部位位置は正確であり、且つ情報が豊であり、無料で得られるが、３Ｄターゲット検出において全く使用されない。

該重要な発見によれば、幾つかの実施例において、上記Ｐａｒｔ−Ａ^２ネットワークが提出された。具体的には、最初に行われる部位感知段階において、該ネットワークは、学習により、全ての前景点のターゲット部位位置情報を推定する。ここで、部位位置のアノテーション情報及び分割マスクは、手動でアノテーションされた真の情報から直接的に生成される。ここで、手動でアノテーションされた真の情報は、Ｇｒｏｕｎｄ−ｔｒｕｔｈと表記されてもよい。例えば、手動でアノテーションされた真の情報は、手動でアノテーションされた三次元枠であってもよい。実際に実施する時、三次元空間全体を小さなメッシュに分け、スパース畳み込みに基づく三次元ＵＮＥＴ−ｌｉｋｅニューラルネットワーク（Ｕ型ネットワーク構造）を利用して点の特徴を学習することができる。Ｕ型ネットワーク構造にＲＰＮヘッドを追加し、初期３Ｄ候補枠を生成する。更に、これらの部位を集約し、部位集約段階に進む。

部位集約段階の動機は、一組の３Ｄ候補枠における点を与えることである。上記Ｐａｒｔ−Ａ^２ネットワークは、候補枠の品質を評価し、予測した、全てのこれらの点のターゲット部位位置情報の空間的関係を学習することで該候補枠を最適化することができる。従って、同一の３Ｄ枠内の点をグループ化するために、新たな感知ポイントクラウドプーリングモジュールを提出し、ＲｏＩ感知ポイントクラウドプーリングモジュールと表記する。ＲｏＩ感知ポイントクラウドプーリングモジュールは、新たなプーリング処理により、ポイントクラウドで領域プーリングを行う時のぼやけを除去することができる。関連技術のプーリング処理方策において全てのポイントクラウド又は非空白ボクセルでプーリング処理を行うことと異なっており、ＲｏＩ感知ポイントクラウドプーリングモジュールは、３Ｄ枠における全てのメッシュ（非空白メッシュ及び空白メッシュを含む）でプーリング処理を行う。空白メッシュでは３Ｄ枠情報の符号化も行うため、これは、３Ｄ枠のスコアの生成及び位置修正の効果的な表示のためのキーポイントである。プーリング処理を行った後、上記ネットワークは、スパース畳み込み及びプーリング処理により部位位置情報を集約することができる。実験を行った結果、部位特徴を集約することで、候補枠の品質を著しく向上させることができ、三次元検出基準において、最先端の性能を達成することが明らかである。

複数のセンサから取得されたデータに基づく３Ｄターゲット検出と異なっており、本願の適用実施例において、３Ｄ部位感知及び集約ニューラルネットワークは、ポイントクラウドデータのみを入力として用いることで、関連技術と類似した３Ｄ検出結果、ひいてはより好適な３Ｄ検出結果を得ることができる。更に、上記３Ｄ部位感知及び集約ニューラルネットワークのフレームワークにおいて、３Ｄ枠のアノテーション情報により提供される豊かな情報を更に探索し、正確なターゲット部位位置情報を学習して予測し、３Ｄターゲット検出性能を向上させる。更に、本願の適用実施例は、Ｕ型ネットワーク構造のバックボーンネットワークを提供する。それは、スパース畳み込み及び逆畳み込みにより、ポイントクラウド特徴を抽出して認識し、ターゲット部位位置情報予測及び三次元ターゲット検出に用いることができる。

図２は、本願の適用実施例による３Ｄ部位感知及び集約ニューラルネットワークの総合的フレームワークを示す概略図である。図２に示すように、該３Ｄ部位感知及び集約ニューラルネットワークのフレームワークは、部位感知段階及び部位集約段階を含む。ここで、部位感知段階において、オリジナルポイントクラウドデータを新しく設計されたＵ型ネットワーク構造のバックボーンネットワークに入力することで、ターゲット部位位置を正確に推定して３Ｄ候補枠を生成することができる。部位集約段階において、ＲｏＩ感知ポイントクラウドプーリングモジュールに基づくプーリング処理を行う。具体的には、各３Ｄ候補枠内の部位情報をグループ化し、続いて、部位集約ネットワークを利用して各部位間の空間的関係を考慮し、３Ｄ枠に対するスコアリング及び位置修正を行う。

三次元空間における対象は、自然に分離したものであるため、３Ｄターゲット検出のｇｒｏｕｎｄ−ｔｒｕｔｈ枠は、各３Ｄ点のために、正確なターゲット部位位置及び分割マスクを提供する。これは、２Ｄターゲット検出と大きく異なっており、２Ｄターゲット枠が遮蔽されるため、ターゲットの一部のみを含む可能性がある。従って、各２Ｄ画素のために、正確なターゲット部位位置を提供することができない。

本願の実施例のターゲット検出方法は、種々のシーンに適用可能である。１つ目の例において、上記ターゲット検出方法を利用して自動運転シーンにおける３Ｄターゲット検出を行うことができる。周囲のターゲットの位置、大きさ、移動方向などの情報を検出することで、自動運転ポリシーの決定を支援する。２つ目の例において、上記ターゲット検出方法を利用して３Ｄターゲットの追跡を実現させることができる。具体的には、各時刻で、上記ターゲット検出方法を利用して３Ｄターゲット検出を実現させることができる。検出結果を３Ｄターゲット追跡の根拠とすることができる。３つ目の例において、上記ターゲット検出方法を利用して３Ｄ枠内のポイントクラウドのプーリング処理を行うことができる。具体的には、異なる３Ｄ枠内のスパースポイントクラウドをプーリングして、一定の解像度を有する３Ｄ枠の特徴を得ることができる。

該重要な発見によれば、本願の適用実施例において、ポイントクラウドから３Ｄターゲット検出を行うための上記Ｐａｒｔ−Ａ^２ネットワークが提出された。具体的には、我々は、３Ｄ部位位置タグ及び分割タグを付加的監督情報として導入する。これは、３Ｄ候補枠の生成に寄与する。部位集約段階において、各３Ｄ候補枠内の予測した３Ｄターゲット部位位置情報を集約することで、該候補枠に対するスコアリング及び位置修正を行う。

以下、本願の適用実施例のフローを具体的に説明する。

まず、３Ｄ点のターゲット部位位置情報を学習して推定する。具体的には、図２に示すように、本願の適用実施例は、Ｕ型ネットワーク構造を設計した。得られたスパースメッシュにおいてスパース畳み込み及びスパース逆畳み込みを行うことで、前景点の点ごとの特徴表示を学習することができる。図２において、ポイントクラウドデータに対して、ステップ幅が２であるスパース畳み込み処理を３回実行することができる。従って、ポイントクラウドデータの空間解像度をダウンサンプリングにより初期空間解像度の１／８に低下させることができる。各回のスパース畳み込み処理は、複数の部分多様体スパース畳み込みを含む。ここで、スパース畳み込み処理のステップ幅は、ポイントクラウドデータが達成する必要がある空間解像度によって決まってもよい。例えば、ポイントクラウドデータが達成する必要がある空間解像度が低いほど、スパース畳み込み処理のステップ幅は、長く設定される必要がある。ポイントクラウドデータに対して３回のスパース畳み込み処理を実行した後、３回のスパース畳み込み処理の後に得られた特徴に対してスパースアップサンプリング及び特徴修正を行う。本願の実施例において、スパース処理に基づくアップサンプリングブロック（スパースアップサンプリング処理を実行するためのもの）は、融合特徴を修正して演算リソースを節約するために用いられる。

スパースアップサンプリング及び特徴修正は、スパースアップサンプリング及び特徴修正モジュールにより実現することができる。図３は、本願の適用実施例によるスパースアップサンプリング及び特徴修正モジュールを示すブロック図である。該モジュールは、スパース畳み込みに基づくＵ型ネットワーク構造のバックボーンネットワークのデコーダに適用される。図３に示すように、スパース畳み込みにより、まず、横方向特徴と底部特徴を融合し、続いて、スパース逆畳み込みにより、融合した特徴に対して特徴アップサンプリングを行う。図３において、スパース畳み込み３×３×３は、畳み込みカーネルの大きさが３×３×３であるスパース畳み込みを表す。チャネル接続（ｃｏｎｔｃａｔ）は、チャネル方向での、特徴ベクトルの接続を表す。チャネル縮減（ｃｈａｎｎｅｌｒｅｄｕｃｔｉｏｎ）は、チャネル方向での、特徴ベクトルの縮減を表す。

は、特徴ベクトルに応じてチャネル方向で加算を行うことを表す。図３を参照すると、横方向特徴及び底部特徴に対して、スパース畳み込み、チャネル接続、チャネル縮減、スパース逆畳み込み等の処理を行い、横方向特徴及び底部特徴に対する特徴修正を実現させることが明らかである。

図２を参照すると、３回のスパース畳み込み処理後に得られた特徴に対してスパースアップサンプリング及び特徴修正を行った後、スパースアップサンプリング及び特徴修正が行われた特徴に対して、セマンティックセグメンテーション及びターゲット部位位置検出を行うこともできる。

ニューラルネットワークを利用してターゲットを認識して検出する場合、ターゲット内の部位位置情報は不可欠なものである。例えば、車両の側面も、地面に垂直な平面である。２つの車輪は、常に地面に近い。各点の前景分割マスク及びターゲット部位位置を学習して推定することで、ニューラルネットワークは、物体の形状及び姿勢の推定能力を向上させる。これは、３Ｄターゲット検出に寄与する。

具体的に実行する時、上記スパース畳み込みに基づくＵ型ネットワーク構造のバックボーンネットワークに、２つの分岐を付加する。該２つの分岐はそれぞれ、前景点の分割及びそれらの物体部位位置の予測に用いられる。前景点の物体部位位置を予測する場合、訓練データセットの３Ｄ枠のアノテーション情報に基づいて予測を行うことができる。訓練データセットにおいて、ｇｒｏｕｎｄ−ｔｒｕｔｈ枠内又は枠外の全ての点は、いずれも正負サンプルとして訓練される。

３Ｄｇｒｏｕｎｄ−ｔｒｕｔｈ枠は、３Ｄ部位位置タグを自動的に提供する。前景点の部位タグ（ｐ_ｘ，ｐ_ｙ，ｐ_ｚ）は、既知のパラメータである。ここで、（ｐ_ｘ，ｐ_ｙ，ｐ_ｚ）を部位位置タグ（Ｏ_ｘ，Ｏ_ｙ，Ｏ_ｚ）に変換することで、対応するターゲットにおける相対的位置を表す。３Ｄ枠は、（Ｃ_ｘ，Ｃ_ｙ，Ｃ_ｚ，ｈ，ｗ，ｌ，

）で表される。ここで、（Ｃ_ｘ，Ｃ_ｙ，Ｃ_ｚ）は、３Ｄ枠の中心位置を表す。（ｈ，ｗ，ｌ）は、３Ｄ枠に対応する鳥瞰図のサイズを表す。

は、対応する鳥瞰図における、３Ｄの方向を表し、即ち、対応する鳥瞰図における、３Ｄ枠の向きと鳥瞰図のＸ軸方向との挟角を表す。部位位置タグ（Ｏ_ｘ，Ｏ_ｙ，Ｏ_ｚ）は、式（１）により算出される。

（１）

ただし、Ｏ_ｘ，Ｏ_ｙ，Ｏ_ｚ∈[0,1]である。ターゲット中心の部位位置は、（０．５，０．５，０．５）である。ここで、式（１）に係る座標は、ＫＩＴＴＩのレーザレーダ座標系により表される。ここで、ｚ方向は、地面に垂直であり、ｘ及びｙ方向は、水平面にある。

ここで、バイナリ交差エントロピー損失を部位回帰損失として用いることで、３次元に沿った、前景点部位の位置を学習することができる。その表現式は、以下のとおりである。

（２）

ただし、Ｐ_ｕは、シグモイド層（ＳｉｇｍｏｉｄＬａｙｅｒ）の後の予測したターゲット内の部位位置を表す。

は、予測した３Ｄ点の部位位置情報を表す。ここで、前景点のみに対して部位位置予測を行うことができる。

本願の適用実施例において、３Ｄ候補枠を生成することもできる。具体的には、３Ｄターゲット検出により予測したターゲット内の部位位置を集約するために、３Ｄ候補枠を生成して同一のターゲットからの推定した前景点のターゲット部位情報を集約する必要がある。実際に実行する場合、図２に示すように、スパース畳み込みエンコーダにより生成された特徴マップ（即ち、ポイントクラウドデータに対して３回のスパース畳み込み処理を行った後に得られた特徴マップ）に同一のＲＰＮヘッドを付加する。３Ｄ候補枠を生成する場合、特徴マップを８倍サンプリングし、同一の鳥瞰位置の異なる高さでの特徴を集約し、３Ｄ候補枠生成のための２Ｄ鳥瞰特徴マップを生成する。

図２を参照すると、抽出された３Ｄ候補枠に対して、部位集約段階でプーリング処理を行うことができる。プーリング処理の実現形態について、幾つかの実施例において、ポイントクラウド領域プーリング処理が提出された。３Ｄ候補枠における点ごとの特徴に対してプーリング処理を行い、続いて、プーリング処理された特徴マップに基づいて、３Ｄ候補枠を修正することができる。しかしながら、このようなプーリング処理は、３Ｄ候補枠情報を損失する。その原因は、３Ｄ候補枠における点が、規則的に分布しておらず、且つプーリングした点からの３Ｄ枠の復元によるぼやけを有することである。

図４は、本願の適用実施例によるポイントクラウドプーリング処理を示す概略図である。図４に示すように、前のポイントクラウドプーリング処理は、上述したポイントクラウド領域プーリング処理を表す。丸印は、プーリングした点を表す。図面から分かるように、上述したポイントクラウド領域プーリング処理を用いると、異なる３Ｄ候補枠は、同一のプーリングした点を引き起こす。つまり、上述したポイントクラウド領域プーリング処理は、ぼやけを有し、前のポイントクラウドプーリング方法で初期３Ｄ候補枠形状を回復することができない。これは、後続の候補枠修正に悪影響を与えてしまう。

プーリング処理の実現形態について、別の幾つかの実施例において、ＲＯＩ感知ポイントクラウドプーリング処理を提出した。ＲＯＩ感知ポイントクラウドプーリング処理の具体的なプロセスは以下のとおりである。前記各３Ｄ候補枠を複数のメッシュに均一に分け、前記複数のメッシュのうちのいずれか１つのメッシュが前景点を含まない場合、前記いずれか１つのメッシュは、空白メッシュである。この場合、前記いずれか１つのメッシュの部位位置情報を空きとマーキングし、前記いずれか１つのメッシュのポイントクラウドセマンティクス特徴をセロとすることができる。前記各メッシュの前景点の部位位置情報に対して平均プーリング処理を行い、前記各メッシュの前景点のポイントクラウドセマンティクス特徴に対して最大プーリング処理を行い、プーリングされた各３Ｄ候補枠の部位位置情報及びポイントクラウドセマンティクス特徴を得る。

図４を参照すると、ＲＯＩ感知ポイントクラウドプーリング処理は、空白メッシュを残すことで３Ｄ候補枠の形状に対して符号化を行うことができ、スパース畳み込みにより、候補枠の形状（空白メッシュ）を処理することができることが理解されるべきである。

つまり、ＲｏＩ感知ポイントクラウドプーリング処理の具体的な実現形態について、３Ｄ候補枠を、一定の空間的形状（Ｈ＊Ｗ＊Ｌ）を有する規則的なメッシュに均一に分けることができる。ここで、Ｈ、Ｗ及びＬは、それぞれ、各次元での、プーリング解像度の高さ、幅及び長さハイパーパラメータを表し、これらは、３Ｄ候補枠のサイズに関わらない。各メッシュ内の点特徴を集約（例えば、最大プーリング又は平均プーリング）することで、各メッシュの特徴を算出する。上記から分かるように、ＲＯＩ感知ポイントクラウドプーリング処理によれば、異なる３Ｄ候補枠を同一の局所的空間座標に正規化することができる。ここで、各メッシュが３Ｄ候補枠における対応する固定位置の特徴を符号化することは、３Ｄ候補枠の符号化にとって、より有意義であり、また、後続の３Ｄ候補枠のスコアリング及び位置修正に寄与する。

プーリングされた３Ｄ候補枠の部位位置情報及びポイントクラウドセマンティクス特徴を得た後、３Ｄ候補枠修正のための部位位置集約を実行することもできる。

具体的には、１つの３Ｄ候補枠における全ての３Ｄ点の予測したターゲット部位位置の空間的分布を考慮することで、部位位置を集約することで該３Ｄ候補枠の品質を評価することは、合理的であると認められる。部位位置の集約の課題を最適化課題として表し、対応する３Ｄ候補枠における全ての点の予測した部位位置をフィッティングすることで、３Ｄ境界枠のパラメータを直接的に求めることができる。しかしながら、このような数学的方法は、異常値及び予測した部位のオフセットの品質に敏感である。

該課題を解決するために、本願の適用実施例において、学習に基づく方法を提供する。該方法によれば、部位位置情報を確実に集約して、３Ｄ候補枠のスコアリング（即ち、信頼度）及び位置修正に用いることができる。各３Ｄ候補枠について、我々は、それぞれ、３Ｄ候補枠の部位位置情報及びポイントクラウドセマンティクス特徴に対して、提出したＲＯＩ感知ポイントクラウドプーリング処理を適用し、２つのサイズが（１４＊１４＊１４＊４）及び（１４＊１４＊１４＊Ｃ）である特徴マップを生成する。ここで、予測した部位位置情報は、４次元マップに対応する。３個の次元は、ＸＹＺ次元を表し、部位位置を示すためのものである。１つの次元は、前景分割スコアを表す。Ｃは、部位感知段階で得られた点ごとの特徴の特徴サイズを表す。

プーリング処理を行った後、図２に示すように、部位集約段階において、階層化方式で、予測したターゲット部位位置の空間的分布から学習することができる。具体的には、まず、カーネルサイズが３＊３＊３であるスパース畳み込み層を利用して２つのプーリングした特徴マップ（プーリングした３Ｄ候補枠の部位位置情報及びポイントクラウドセマンティクス特徴を含む）を同一の特徴次元に変換する。続いて、該２つの同一の特徴次元の特徴マップを接続する。接続した特徴マップに対して、４つのカーネルサイズが３＊３＊３であるスパース畳み込み層をスタッキングすることでスパース畳み込み処理を行う。受容野の増加に伴い、部位情報を次第に集約することができる。実際に実行する場合、プーリングした特徴マップを同一の特徴次元の特徴マップに変換した後、カーネルサイズが２＊２＊２であってステップ幅が２＊２＊２であるスパース最大化池プーリング処理を行い、特徴マップの解像度を７＊７＊７にダウンサンプリングする。これにより、演算リソース及びパラメータを節約する。４つのカーネルサイズが３＊３＊３であるスパース畳み込み層をスタッキングしてスパース畳み込み処理を行った後、スパース畳み込み処理で得られた特徴マップをベクトル化（図２におけるＦＣに対応する）し、１つの特徴ベクトルを得る。特徴ベクトルを得た後、２つの分岐を付加して最終の３Ｄ候補枠のスコアリング及び３Ｄ候補枠位置修正を行ってもよい。例示的に、３Ｄ候補枠のスコアは、３Ｄ候補枠の信頼度のスコアを表す。３Ｄ候補枠の信頼度のスコアは、少なくとも、３Ｄ候補枠における前景点の部位位置情報のスコアを表す。

プーリングした三次元特徴マップを直接的にベクトル化して特徴ベクトルを得るという方法に比べて、本願の適用実施例で提供される部位集約段階の実行プロセスにおいて、局所的スケールから全局的スケールまで特徴を効果的に集約することができる。従って、予測した部位位置の空間的分布を学習することができる。プーリングしたメッシュが非常にスパースなものであるため、スパース畳み込みを利用することで、大量の演算リソース及びパラメータを節約する。関連技術において、各メッシュを３Ｄ候補枠における１つの特定の位置の特徴と符号化する必要があるため、関連技術において、プーリングしたメッシュが非常にスパースなものであることを無視することができない（つまり、スパース畳み込みにより部位位置集約を行うことができない）。

図２を参照すると、３Ｄ候補枠に対して位置修正を行った後、最終的な３Ｄ枠である、位置修正された３Ｄ枠を得て、３Ｄターゲット検出の実現に用いることが理解されるべきである。

本願の適用実施例において、２つの分岐を、予測した部位位置を集約したベクトル特徴ベクトルに付加することができる。３Ｄ候補枠のスコアリング（即ち、信頼度）分岐について、３Ｄ候補枠と、それに対応するｇｒｏｕｎｄ−ｔｒｕｔｈ枠と、３Ｄ重なり度合い（ＩｎｔｅｒｓｅｃｔｉｏｎＯｖｅｒＵｎｉｏｎ：ＩＯＵ）を３Ｄ候補枠品質評価のソフトタグとして用いることができる。式（２）により、バイナリ交差エントロピー損失を利用して３Ｄ候補枠のスコアリングを学習することもできる。

３Ｄ候補枠の生成及び位置修正について、ターゲット回帰方策により、平滑−Ｌ１（ｓｍｏｏｔｈ−Ｌ１）損失を利用して正規化枠パラメータを回帰することができる。具体的な実現プロセスは、式（３）に示すとおりである。

（３）

ただし、

、

及び

はそれぞれ、３Ｄ枠中心位置のオフセットを表す。

、

及び

はそれぞれ、３Ｄ枠に対応する鳥瞰図のサイズのオフセットを表す。

は、３Ｄ枠に対応する鳥瞰図の方向のオフセットを表す。ｄ^ａは、正規化鳥瞰図における中心オフセットを表す。ｘ^ａ、ｙ^ａ及びｚ^ａは、３Ｄアンカー／候補枠の中心位置を表す。ｈ^ａ、ｗ^ａ及びｌ^ａは、３Ｄアンカー／候補枠に対応する鳥瞰図のサイズを表す。

は、３Ｄアンカー／候補枠に対応する鳥瞰図の方向を表す。ｘ^ｇ、ｙ^ｇ及びｚ^ｇは、対応するｇｒｏｕｎｄ−ｔｒｕｔｈ枠の中心位置を表す。ｈ^ｇ、ｗ^ｇ及びｌ^ｇは、該ｇｒｏｕｎｄ−ｔｒｕｔｈ枠に対応する鳥瞰図のサイズを表す。

は、該ｇｒｏｕｎｄ−ｔｒｕｔｈ枠に対応する鳥瞰図の方向を表す。

関連技術における候補枠修正方法と異なっており、本願の適用実施例において、直接的に３Ｄ候補枠のパラメータの回帰の相対的オフセット又はサイズ比率に基づいて、３Ｄ候補枠の位置修正を行うことができる。その原因は、上記ＲＯＩ感知ポイントクラウドプーリングモジュールが３Ｄ候補枠の全ての共有情報を符号化して、異なる３Ｄ候補枠を同一の正規化空間座標系に伝送したことである。

上記から分かるように、等しい損失重み１を有する部位感知段階において、３つの損失が存在する。該３つの損失は、前景点分割による焦点損失、ターゲット内の部位位置の回帰によるバイナリ交差エントロピー損失及び３Ｄ候補枠生成による平滑−Ｌ１損失を含む。部位集約段階において２つの損失を含み、損失重みが同じである。該２つの損失は、ＩＯＵ回帰によるバイナリ交差エントロピー損失及び位置修正による平滑Ｌ１損失を含む。

したがって、本願の適用実施例は、新たな３Ｄターゲット検出方法を提供する。つまり、上記Ｐａｒｔ−Ａ^２ネットワークを利用してポイントクラウドから三次元ターゲットを検出する。部位感知段階で、３Ｄ枠からの位置タグを利用して、正確なターゲット部位位置の推定を学習する。新たなＲＯＩ感知ポイントクラウドプーリングモジュールにより各ターゲットの予測した部位位置をグループ化する。従って、部位集約段階で、予測したターゲット内の部位位置の空間的関係を考慮して、３Ｄ候補枠をスコアリングし、それらの位置を修正することができる。実験を行った結果、該適用実施例のターゲット検出方法は、挑戦性を有するＫＩＴＴＩ三次元検出基準において、最先端の性能を達成し、該方向の有効性が証明されたことが明らかである。

具体的な実施形態の上記方法において、各ステップの記述順番は、厳しい実行順番として実施過程を限定するものではなく、各ステップの具体的な実行順番はその機能及び考えられる内在的論理により決まることは、当業者であれば理解すべきである。

前記実施例で提供されるターゲット検出方法によれば、本願の実施例は、ターゲット検出装置を提供する。

図５は、本願の実施例によるターゲット検出装置の構造を示す概略図である。図５に示すように、前記装置は、電子機器にある。前記装置は、取得モジュール６０１と、第１処理モジュール６０２と、第２処理モジュール６０３と、を備え、
取得モジュール６０１は、３Ｄポイントクラウドデータを取得し、前記３Ｄポイントクラウドデータに基づいて、前記３Ｄポイントクラウドデータに対応するポイントクラウドセマンティクス特徴を決定するように構成され、
第１処理モジュール６０２は、前記ポイントクラウドセマンティクス特徴に基づいて、前景点の部位位置情報を決定し、前記前景点は、前記ポイントクラウドデータのうち、ターゲットに属するポイントクラウドデータを表し、前記前景点の部位位置情報は、ターゲットにおける、前景点の相対的位置を表すためのものであり、前記ポイントクラウドデータに基づいて、少なくとも１つの初期３Ｄ枠を抽出するように構成され、
第２処理モジュール６０３は、前記ポイントクラウドデータに対応するポイントクラウドセマンティクス特徴、前記前景点の部位位置情報及び前記少なくとも１つの初期３Ｄ枠に基づいて、ターゲットの３Ｄ検出枠を決定するように構成され、前記検出枠内の領域にターゲットが存在する。

一実施形態にいて、前記第２処理モジュール６０３は、各初期３Ｄ枠に対して、前景点の部位位置情報及びポイントクラウドセマンティクス特徴のプーリング処理を行い、プーリングされた各初期３Ｄ枠の部位位置情報及びポイントクラウドセマンティクス特徴を得て、プーリングされた各初期３Ｄ枠の部位位置情報及びポイントクラウドセマンティクス特徴に基づいて、各初期３Ｄ枠の修正及び／又は各初期３Ｄ枠の信頼度決定を行い、前記ターゲットの３Ｄ検出枠を決定するように構成される。

一実施形態において、前記第２処理モジュール６０３は、各初期３Ｄ枠を複数のメッシュに均一に分け、各メッシュに対して、前景点の部位位置情報及びポイントクラウドセマンティクス特徴のプーリング処理を行い、プーリングされた各初期３Ｄ枠の部位位置情報及びポイントクラウドセマンティクス特徴を得て、プーリングされた各初期３Ｄ枠の部位位置情報及びポイントクラウドセマンティクス特徴に基づいて、各初期３Ｄ枠の修正及び／又は各初期３Ｄ枠の信頼度決定を行い、前記ターゲットの３Ｄ検出枠を決定するように構成される。

一実施形態において、前記第２処理モジュール６０３は、各メッシュに対して前景点の部位位置情報及びポイントクラウドセマンティクス特徴のプーリング処理を行う場合、１つのメッシュに前景点が含まれないことに応答して、前記メッシュの部位位置情報を空きとマーキングし、前記メッシュのプーリングされた前景点の部位位置情報を得て、前記メッシュのポイントクラウドセマンティクス特徴をゼロとし、前記メッシュのプーリングされたポイントクラウドセマンティクス特徴を得て、１つのメッシュに前景点が含まれることに応答して、前記メッシュの前景点の部位位置情報に対して平均プーリング処理を行い、前記メッシュのプーリングされた前景点の部位位置情報を得て、前記メッシュの前景点のポイントクラウドセマンティクス特徴に対して最大プーリング処理を行い、前記メッシュのプーリングされたポイントクラウドセマンティクス特徴を得るように構成される。

一実施形態において、前記第２処理モジュール６０３は、各初期３Ｄ枠に対して、前景点の部位位置情報及びポイントクラウドセマンティクス特徴のプーリング処理を行い、プーリングされた各初期３Ｄ枠の部位位置情報及びポイントクラウドセマンティクス特徴を得て、前記プーリングされた各初期３Ｄ枠の部位位置情報とポイントクラウドセマンティクス特徴を結合し、結合した特徴に基づいて、各初期３Ｄ枠の修正及び／又は各初期３Ｄ枠の信頼度決定を行うように構成される。

一実施形態において、前記第２処理モジュール６０３は、結合した特徴に基づいて、各初期３Ｄ枠の修正及び／又は各初期３Ｄ枠の信頼度決定を行う場合、
前記結合した特徴をベクトル化して特徴ベクトルを得て、前記特徴ベクトルに基づいて、各初期３Ｄ枠の修正及び／又は各初期３Ｄ枠の信頼度決定を行うように構成され、
又は、前記結合した特徴に対してスパース畳み込み処理を行うことで、スパース畳み込み処理された特徴マップを得て、前記スパース畳み込み処理された特徴マップに基づいて、各初期３Ｄ枠の修正及び／又は各初期３Ｄ枠の信頼度決定を行うように構成され、
又は、前記結合した特徴に対してスパース畳み込み処理を行うことで、スパース畳み込み処理された特徴マップを得て、前記スパース畳み込み処理された特徴マップに対してダウンサンプリングを行い、ダウンサンプリングされた特徴マップに基づいて、各初期３Ｄ枠の修正及び／又は各初期３Ｄ枠の信頼度決定を行うように構成される。

一実施形態において、前記第２処理モジュール６０３は、前記スパース畳み込み処理された特徴マップに対してダウンサンプリングを行う場合、前記スパース畳み込み処理された特徴マップに対してプーリング処理を行うことで、前記スパース畳み込み処理された特徴マップに対するダウンサンプリング処理を実現させるように構成される。

一実施形態において、前記取得モジュール６０１は、３Ｄポイントクラウドデータを取得し、前記３Ｄポイントクラウドデータに対して３Ｄメッシュ化処理を行い、３Ｄメッシュを得て、前記３Ｄメッシュの非空白メッシュから、前記３Ｄポイントクラウドデータに対応するポイントクラウドセマンティクス特徴を抽出するように構成される。

一実施形態において、前記第１処理モジュール６０２は、前記ポイントクラウドセマンティクス特徴に基づいて前景点の部位位置情報を決定する場合、前記ポイントクラウドセマンティクス特徴に基づいて、前記ポイントクラウドデータに対して前景と背景の分割を行い、前景点を決定し、前景点は、前記ポイントクラウドデータのうち、前景に属するポイントクラウドデータであり、前景点の部位位置情報を予測するためのニューラルネットワークを利用して、決定された前景点を処理し、前景点の部位位置情報を得るように構成され、前記ニューラルネットワークは、３Ｄ枠のアノテーション情報を含む訓練データセットにより訓練されたものであり、前記３Ｄ枠のアノテーション情報は、少なくとも、前記訓練データセットのポイントクラウドデータの前景点の部位位置情報を含む。

また、本願の各実施例における各機能ユニットは一つの処理ユニットに集積されてもよいし、各ユニットが物理的に別個のものとして存在してもよいし、２つ以上のユニットが一つのユニットに集積されてもよい。上記集積したユニットはハードウェアとして実現してもよく、ハードウェアとソフトウェア機能ユニットとの組み合わせて実現してもよい。

上記集積したユニットがソフトウェア機能ユニットの形で実現され、かつ独立した製品として販売または使用されるとき、コンピュータにより読み取り可能な記憶媒体内に記憶されてもよい。このような理解のもと、本願の技術的解決手段は、本質的に、又は、従来技術に対して貢献をもたらした部分又は該技術的解決手段の一部は、ソフトウェア製品の形式で具現することができ、このようなコンピュータソフトウェア製品は、記憶媒体に記憶しても良く、また、コンピュータ機器（パーソナルコンピュータ、サーバ、又はネットワーク装置など）又はｐｒｏｃｅｓｓｏｒ（プロセッサ）に、本願の各実施例に記載の方法の全部又は一部のステップを実行させるための若干の命令を含む。前記の記憶媒体は、ＵＳＢメモリ、リムーバブルハードディスク、読み出し専用メモリ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ：ＲＯＭ）、ランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ：ＲＡＭ）、磁気ディスク、又は光ディスクなど、プログラムコードを記憶可能な各種の媒体を含む。

具体的には、本実施例におけるいずれか１つのターゲット検出方法又はスマート運転方法に対応するコンピュータプログラム命令は、光ディスク、ハードディスク、ＵＳＢメモリなどの記憶媒体に記憶されてもよい。記憶媒体における、いずれか１つのターゲット検出方法又はスマート運転方法に対応するコンピュータプログラム命令が電子機器により読み出されるか又は実行される場合、前記実施例のいずれか１つのターゲット検出方法又はスマート運転方法を実現させる。

前記実施例と同様な技術的構想によれば、図６に示すように、本願の実施例で提供される電子機器７０は、メモリ７１と、プロセッサ７２と、を備えてもよく、
前記メモリ７１は、コンピュータプログラム及びデータを記憶するように構成され、
前記プロセッサ７２は、前記メモリに記憶されたコンピュータプログラムを実行し、前記実施例のいずれか１つのターゲット検出方法又はスマート運転方法を実現させるように構成される。

実際の適用において、上記メモリ７１は、ＲＡＭのような揮発性メモリ（ｖｏｌａｔｉｌｅｍｅｍｏｒｙ）、ＲＯＭ、フラッシュメモリ（ｆｌａｓｈｍｅｍｏｒｙ）、ハードディスク（ＨａｒｄＤｉｓｋＤｒｉｖｅ：ＨＤＤ）又はソリッドステートドライブ（Ｓｏｌｉｄ−ＳｔａｔｅＤｒｉｖｅ：ＳＳＤ）のような不揮発性メモリ、又は上記メモリの組み合わせであってもよい。該メモリは、プロセッサ７２に命令及びデータを提供する。

上記プロセッサ７２は、ＡＳＩＣ、ＤＳＰ、ＤＳＰＤ、ＰＬＤ、ＦＰＧＡ、ＣＰＵ、コントローラ、マイクロコントローラ、マイクロプロセッサのうちのすくなくとも１つであってもよい。様々な機器について、上記プロセッサ機能を実現させるための電子機器は他のものであってもよく、本願の実施例は、これを具体的に限定するものではない。

本願の実施例は、コンピュータ記憶媒体を更に提供する。前記コンピュータ記憶媒体にコンピュータプログラムが記憶されており、該コンピュータプログラムがプロセッサにより実行される場合、上記いずれか１つのターゲット検出方法を実現させる。

幾つかの実施例において、本願の実施例で提供される装置の機能又はモジュールは、上記方法実施例に記載の方法を実行するために用いられ、その具体的な実現は、上記方法実施例の説明を参照されたい。簡潔化のために、ここで詳細な説明を省略する。

各実施例に関する上記説明において、各実施例の相違点を強調する傾向があり、その同一あるいは類似の部分は相互参照することができる。簡潔化のために、ここで詳細な説明を省略する。

なお、矛盾が生じない限り、本願で提供される幾つかの方法実施例で開示された方法を互いに任意に組み合わせて、新たな方法実施例を得ることができる。

矛盾が生じない限り、本願で提供される幾つかの製品実施例で開示された特徴を互いに任意に組み合わせて、新たな製品実施例を得ることができる。

矛盾が生じない限り、本願で提供される幾つかの方法又は装置実施例で開示された特徴を互いに任意に組み合わせて、新たな方法実施例又は装置実施例を得ることができる。

上記実施形態の説明により、上記実施例の方法は、ソフトウェアと必須な汎用ハードウェアプラットフォームとの組み合わせで実現することができ、勿論、ハードウェアにより実現することもできるが、多くの場合、前者は、より好適な実施形態であることを当業者が理解すべきである。このような理解のもと、本願の実施例の技術的解決手段は、本質的に、又は、従来技術に対して貢献をもたらした部分又は該技術的解決手段の一部は、ソフトウェア製品の形式で具現することができ、このようなコンピュータソフトウェア製品は、記憶媒体（例えば、ＲＯＭ／ＲＡＭ、磁気ディスク、光ディスク）に記憶しても良く、また、一台のコンピュータ機器（携帯電話、コンピュータ、サーバ、エアコン、又はネットワーク装置等）に、本願の各実施例に記載の方法を実行させるための若干の命令を含む。

以上は図面を参照しながら、本願の実施形態を説明した。本願は、上記具体的な実施形態に限定されず、上記具体的な実施形態は模式的なものに過ぎず、本願を限定するものではない。当業者は、本願に基づいて、本願の要旨及び特許請求の範囲の保護範囲から逸脱することなく、多くの実施形態を想到しうる。これらは、いずれも本願の保護範囲内に含まれる。

Claims

ターゲット検出方法であって、前記方法は、
三次元（３Ｄ）ポイントクラウドデータを取得することと、
前記３Ｄポイントクラウドデータに基づいて、前記３Ｄポイントクラウドデータに対応するポイントクラウドセマンティクス特徴を決定することと、
前記ポイントクラウドセマンティクス特徴に基づいて、前景点の部位位置情報を決定することであって、前記前景点は、前記ポイントクラウドデータのうち、ターゲットに属するポイントクラウドデータを表し、前記前景点の部位位置情報は、ターゲットにおける、前景点の相対的位置を表すためのものである、ことと、
前記ポイントクラウドデータに基づいて、少なくとも１つの初期３Ｄ枠を抽出することと、
前記ポイントクラウドデータに対応するポイントクラウドセマンティクス特徴、前記前景点の部位位置情報及び前記少なくとも１つの初期３Ｄ枠に基づいて、ターゲットの３Ｄ検出枠を決定することであって、前記検出枠内の領域にターゲットが存在する、ことと、を含む、ターゲット検出方法。
前記ポイントクラウドデータに対応するポイントクラウドセマンティクス特徴、前記前景点の部位位置情報及び前記少なくとも１つの初期３Ｄ枠に基づいて、ターゲットの３Ｄ検出枠を決定することは、
各初期３Ｄ枠に対して、前景点の部位位置情報及びポイントクラウドセマンティクス特徴のプーリング処理を行い、プーリングされた各初期３Ｄ枠の部位位置情報及びポイントクラウドセマンティクス特徴を得ることと、
プーリングされた各初期３Ｄ枠の部位位置情報及びポイントクラウドセマンティクス特徴に基づいて、各初期３Ｄ枠の修正及び／又は各初期３Ｄ枠の信頼度決定を行い、前記ターゲットの３Ｄ検出枠を決定することと、を含むことを特徴とする
請求項１に記載の方法。
各初期３Ｄ枠に対して、前景点の部位位置情報及びポイントクラウドセマンティクス特徴のプーリング処理を行い、プーリングされた各初期３Ｄ枠の部位位置情報及びポイントクラウドセマンティクス特徴を得ることは、
各初期３Ｄ枠を複数のメッシュに均一に分け、各メッシュに対して、前景点の部位位置情報及びポイントクラウドセマンティクス特徴のプーリング処理を行い、プーリングされた各初期３Ｄ枠の部位位置情報及びポイントクラウドセマンティクス特徴を得ることを含むことを特徴とする
請求項２に記載の方法。
各メッシュに対して、前景点の部位位置情報及びポイントクラウドセマンティクス特徴のプーリング処理を行うことは、
１つのメッシュに前景点が含まれないことに応答して、前記メッシュの部位位置情報を空きとマーキングし、前記メッシュのプーリングされた前景点の部位位置情報を得て、前記メッシュのポイントクラウドセマンティクス特徴をゼロとし、前記メッシュのプーリングされたポイントクラウドセマンティクス特徴を得ることと、
１つのメッシュに前景点が含まれることに応答して、前記メッシュの前景点の部位位置情報に対して平均プーリング処理を行い、前記メッシュのプーリングされた前景点の部位位置情報を得て、前記メッシュの前景点のポイントクラウドセマンティクス特徴に対して最大プーリング処理を行い、前記メッシュのプーリングされたポイントクラウドセマンティクス特徴を得ることと、を含むことを特徴とする
請求項３に記載の方法。
プーリングされた各初期３Ｄ枠の部位位置情報及びポイントクラウドセマンティクス特徴に基づいて、各初期３Ｄ枠の修正及び／又は各初期３Ｄ枠の信頼度決定を行うことは、
前記プーリングされた各初期３Ｄ枠の部位位置情報とポイントクラウドセマンティクス特徴を結合し、結合した特徴に基づいて、各初期３Ｄ枠の修正及び／又は各初期３Ｄ枠の信頼度決定を行うことを含むことを特徴とする
請求項２に記載の方法。
結合した特徴に基づいて、各初期３Ｄ枠の修正及び／又は各初期３Ｄ枠の信頼度決定を行うことは、
前記結合した特徴をベクトル化して特徴ベクトルを得て、前記特徴ベクトルに基づいて、各初期３Ｄ枠の修正及び／又は各初期３Ｄ枠の信頼度決定を行うこと、
又は、前記結合した特徴に対してスパース畳み込み処理を行うことで、スパース畳み込み処理された特徴マップを得て、前記スパース畳み込み処理された特徴マップに基づいて、各初期３Ｄ枠の修正及び／又は各初期３Ｄ枠の信頼度決定を行うこと、
又は、前記結合した特徴に対してスパース畳み込み処理を行うことで、スパース畳み込み処理された特徴マップを得て、前記スパース畳み込み処理された特徴マップに対してダウンサンプリングを行い、ダウンサンプリングされた特徴マップに基づいて、各初期３Ｄ枠の修正及び／又は各初期３Ｄ枠の信頼度決定を行うこと、を含むことを特徴とする
請求項５に記載の方法。
前記スパース畳み込み処理された特徴マップに対してダウンサンプリングを行うことは、
前記スパース畳み込み処理された特徴マップに対してプーリング処理を行うことで、前記スパース畳み込み処理された特徴マップに対するダウンサンプリング処理を実現させることを含むことを特徴とする
請求項６に記載の方法。
前記３Ｄポイントクラウドデータに基づいて、前記３Ｄポイントクラウドデータに対応するポイントクラウドセマンティクス特徴を決定することは、
前記３Ｄポイントクラウドデータに対して３Ｄメッシュ化処理を行い、３Ｄメッシュを得て、前記３Ｄメッシュの非空白メッシュから、前記３Ｄポイントクラウドデータに対応するポイントクラウドセマンティクス特徴を抽出することを含むことを特徴とする
請求項１から７のうちいずれか一項に記載の方法。
前記ポイントクラウドセマンティクス特徴に基づいて前景点の部位位置情報を決定することは、
前記ポイントクラウドセマンティクス特徴に基づいて、前記ポイントクラウドデータに対して前景と背景の分割を行い、前景点を決定することであって、前記前景点は、前記ポイントクラウドデータのうち、前景に属するポイントクラウドデータである、ことと、
前景点の部位位置情報を予測するためのニューラルネットワークを利用して、決定された前景点を処理し、前景点の部位位置情報を得ることであって、前記ニューラルネットワークは、３Ｄ枠のアノテーション情報を含む訓練データセットにより訓練されたものであり、前記３Ｄ枠のアノテーション情報は、少なくとも、前記訓練データセットのポイントクラウドデータの前景点の部位位置情報を含む、ことと、を含むことを特徴とする
請求項１から７のうちいずれか一項に記載の方法。
スマート運転方法であって、スマート運転装置に適用され、前記スマート運転方法は、
請求項１から９のうちいずれか一項に記載のターゲット検出方法により、前記スマート運転装置の周囲の前記ターゲットの３Ｄ検出枠を得ることと、
前記ターゲットの３Ｄ検出枠に基づいて、運転ポリシーンを生成することと、を含む、スマート運転方法。
ターゲット検出装置であって、前記装置は、取得モジュールと、第１処理モジュールと、第２処理モジュールと、を備え、
取得モジュールは、３Ｄポイントクラウドデータを取得し、前記３Ｄポイントクラウドデータに基づいて、前記３Ｄポイントクラウドデータに対応するポイントクラウドセマンティクス特徴を決定するように構成され、
第１処理モジュールは、前記ポイントクラウドセマンティクス特徴に基づいて、前景点の部位位置情報を決定し、前記前景点は、前記ポイントクラウドデータのうち、ターゲットに属するポイントクラウドデータを表し、前記前景点の部位位置情報は、ターゲットにおける、前景点の相対的位置を表すためのものであり、前記ポイントクラウドデータに基づいて、少なくとも１つの初期３Ｄ枠を抽出するように構成され、
第２処理モジュールは、前記ポイントクラウドデータに対応するポイントクラウドセマンティクス特徴、前記前景点の部位位置情報及び前記少なくとも１つの初期３Ｄ枠に基づいて、ターゲットの３Ｄ検出枠を決定するように構成され、前記検出枠内の領域にターゲットが存在する、ターゲット検出装置。
前記第２処理モジュールは、各初期３Ｄ枠に対して、前景点の部位位置情報及びポイントクラウドセマンティクス特徴のプーリング処理を行い、プーリングされた各初期３Ｄ枠の部位位置情報及びポイントクラウドセマンティクス特徴を得て、プーリングされた各初期３Ｄ枠の部位位置情報及びポイントクラウドセマンティクス特徴に基づいて、各初期３Ｄ枠の修正及び／又は各初期３Ｄ枠の信頼度決定を行い、前記ターゲットの３Ｄ検出枠を決定するように構成されることを特徴とする
請求項１１に記載の装置。
前記第２処理モジュールは、各初期３Ｄ枠を複数のメッシュに均一に分け、各メッシュに対して、前景点の部位位置情報及びポイントクラウドセマンティクス特徴のプーリング処理を行い、プーリングされた各初期３Ｄ枠の部位位置情報及びポイントクラウドセマンティクス特徴を得て、プーリングされた各初期３Ｄ枠の部位位置情報及びポイントクラウドセマンティクス特徴に基づいて、各初期３Ｄ枠の修正及び／又は各初期３Ｄ枠の信頼度決定を行い、前記ターゲットの３Ｄ検出枠を決定するように構成されることを特徴とする
請求項１２に記載の装置。
前記第２処理モジュールは、各メッシュに対して前景点の部位位置情報及びポイントクラウドセマンティクス特徴のプーリング処理を行う場合、
１つのメッシュに前景点が含まれないことに応答して、前記メッシュの部位位置情報を空きとマーキングし、前記メッシュのプーリングされた前景点の部位位置情報を得て、前記メッシュのポイントクラウドセマンティクス特徴をゼロとし、前記メッシュのプーリングされたポイントクラウドセマンティクス特徴を得て、１つのメッシュに前景点が含まれることに応答して、前記メッシュの前景点の部位位置情報に対して平均プーリング処理を行い、前記メッシュのプーリングされた前景点の部位位置情報を得て、前記メッシュの前景点のポイントクラウドセマンティクス特徴に対して最大プーリング処理を行い、前記メッシュのプーリングされたポイントクラウドセマンティクス特徴を得るように構成されることを特徴とする
請求項１３に記載の装置。
前記第２処理モジュールは、各初期３Ｄ枠に対して、前景点の部位位置情報及びポイントクラウドセマンティクス特徴のプーリング処理を行い、プーリングされた各初期３Ｄ枠の部位位置情報及びポイントクラウドセマンティクス特徴を得て、前記プーリングされた各初期３Ｄ枠の部位位置情報とポイントクラウドセマンティクス特徴を結合し、結合した特徴に基づいて、各初期３Ｄ枠の修正及び／又は各初期３Ｄ枠の信頼度決定を行うように構成されることを特徴とする
請求項１２に記載の装置。
前記第２処理モジュールは、結合した特徴に基づいて、各初期３Ｄ枠の修正及び／又は各初期３Ｄ枠の信頼度決定を行う場合、
前記結合した特徴をベクトル化して特徴ベクトルを得て、前記特徴ベクトルに基づいて、各初期３Ｄ枠の修正及び／又は各初期３Ｄ枠の信頼度決定を行うように構成され、
又は、前記結合した特徴に対してスパース畳み込み処理を行うことで、スパース畳み込み処理された特徴マップを得て、前記スパース畳み込み処理された特徴マップに基づいて、各初期３Ｄ枠の修正及び／又は各初期３Ｄ枠の信頼度決定を行うように構成され、
又は、前記結合した特徴に対してスパース畳み込み処理を行うことで、スパース畳み込み処理された特徴マップを得て、前記スパース畳み込み処理された特徴マップに対してダウンサンプリングを行い、ダウンサンプリングされた特徴マップに基づいて、各初期３Ｄ枠の修正及び／又は各初期３Ｄ枠の信頼度決定を行うように構成されることを特徴とする
請求項１５に記載の装置。
前記第２処理モジュールは、前記スパース畳み込み処理された特徴マップに対してダウンサンプリングを行う場合、
前記スパース畳み込み処理された特徴マップに対してプーリング処理を行うことで、前記スパース畳み込み処理された特徴マップに対するダウンサンプリング処理を実現させるように構成されることを特徴とする
請求項１６に記載の装置。
前記取得モジュールは、３Ｄポイントクラウドデータを取得し、前記３Ｄポイントクラウドデータに対して３Ｄメッシュ化処理を行い、３Ｄメッシュを得て、前記３Ｄメッシュの非空白メッシュから、前記３Ｄポイントクラウドデータに対応するポイントクラウドセマンティクス特徴を抽出するように構成されることを特徴とする
請求項１１から１７のうちいずれか一項に記載の装置。
前記第１処理モジュールは、前記ポイントクラウドセマンティクス特徴に基づいて前景点の部位位置情報を決定する場合、
前記ポイントクラウドセマンティクス特徴に基づいて、前記ポイントクラウドデータに対して前景と背景の分割を行い、前景点を決定し、前景点は、前記ポイントクラウドデータのうち、前景に属するポイントクラウドデータであり、前景点の部位位置情報を予測するためのニューラルネットワークを利用して、決定された前景点を処理し、前景点の部位位置情報を得るように構成され、前記ニューラルネットワークは、３Ｄ枠のアノテーション情報を含む訓練データセットにより訓練されたものであり、前記３Ｄ枠のアノテーション情報は、少なくとも、前記訓練データセットのポイントクラウドデータの前景点の部位位置情報を含むことを特徴とする
請求項１１から１７のうちいずれか一項に記載の装置。
電子機器であって、プロセッサと、プロセッサで実行可能なコンピュータプログラムを記憶するように構成されるメモリと、を備え、
前記プロセッサは、前記コンピュータプログラムを実行する時、請求項１から１０のうちいずれか一項に記載の方法を実行するように構成される、電子機器。
コンピュータ記憶媒体であって、前記コンピュータ記憶媒体に、コンピュータプログラムが記憶されており、該コンピュータプログラムがプロセッサにより実行される時、請求項１から１０のうちいずれか一項に記載の方法を実現させる、コンピュータ記憶媒体。
コンピュータプログラム製品であって、前記コンピュータプログラム製品は、コンピュータによる実行可能な命令を含み、該コンピュータによる実行可能な命令が実行された後、請求項１から１０のうちいずれか一項に記載の方法を実現させることができる、コンピュータプログラム製品。