JP2022515591A - ターゲットオブジェクトの3d検出方法、装置、媒体及び機器 - Google Patents

ターゲットオブジェクトの3d検出方法、装置、媒体及び機器 Download PDF

Info

Publication number
JP2022515591A
JP2022515591A JP2021526222A JP2021526222A JP2022515591A JP 2022515591 A JP2022515591 A JP 2022515591A JP 2021526222 A JP2021526222 A JP 2021526222A JP 2021526222 A JP2021526222 A JP 2021526222A JP 2022515591 A JP2022515591 A JP 2022515591A
Authority
JP
Japan
Prior art keywords
frame
point
information
neural network
target object
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021526222A
Other languages
English (en)
Inventor
シー,シャオシュアイ
リー,ホンシェン
ワン,シャオガン
Original Assignee
ベイジン センスタイム テクノロジー デベロップメント シーオー.,エルティーディー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ベイジン センスタイム テクノロジー デベロップメント シーオー.,エルティーディー filed Critical ベイジン センスタイム テクノロジー デベロップメント シーオー.,エルティーディー
Publication of JP2022515591A publication Critical patent/JP2022515591A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Traffic Control Systems (AREA)
  • Image Processing (AREA)

Abstract

本開示の実施形態は、ターゲットオブジェクトの3D検出方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラムを開示し、ターゲットオブジェクトの3D検出方法は、取得されたシーンの点群データの特徴情報を抽出することと、前記点群データの特徴情報に基づいて、前記点群データに対してセマンティックセグメンテーションを行って、前記点群データにおける複数の点の第1セマンティック情報を取得することと、前記第1セマンティック情報に基づいて、前記複数の点のうち、ターゲットオブジェクトに対応する少なくとも1つの前景点を予測することと、前記第1セマンティック情報に基づいて、前記少なくとも1つの前景点のそれぞれに対応する3D初期枠を生成することと、前記3D初期枠に基づいて、前記シーンにおける前記ターゲットオブジェクトの3D検出枠を決定することと、を含む。【選択図】図1

Description

本開示は、2018年11月29日に中国特許庁に提出された、出願番号201811446588.8、発明の名称「ターゲットオブジェクトの3D検出方法、装置、媒体及び機器」の中国特許出願の優先権を主張するものであり、その全ての内容は、参照により本開示に組み込まれるものとする。
本開示は、コンピュータビジョン技術に関し、特に、ターゲットオブジェクトの3D検出方法及び装置、車両のインテリジェント制御方法及び装置、障害物回避ナビゲーション方法及び装置、電子機器、コンピュータ可読記憶媒体、並びにコンピュータプログラムに関する。
3D検出は、インテリジェント運転及び障害物回避ナビゲーションなどの様々な技術に適用することができる。インテリジェント運転技術では、3D検出により、インテリジェント運転車両の周囲の車両及び歩行者などのターゲットオブジェクトの具体的な位置、形状、大きさ及び移動方向などの情報を取得することができるため、インテリジェント運転車両がインテリジェント運転の意思決定を行うことを支援することができる。
本開示の実施形態は、ターゲットオブジェクトの3D検出、車両のインテリジェント制御運転及び障害物回避ナビゲーションの技術的解決手段を提供する。
本開示の実施形態の一態様に係るターゲットオブジェクトの3D検出方法は、取得されたシーンの点群データの特徴情報を抽出することと、前記点群データの特徴情報に基づいて、前記点群データに対してセマンティックセグメンテーションを行って、前記点群データにおける複数の点の第1セマンティック情報を取得することと、前記第1セマンティック情報に基づいて、前記複数の点のうち、ターゲットオブジェクトに対応する少なくとも1つの前景点を予測することと、前記第1セマンティック情報に基づいて、前記少なくとも1つの前景点のそれぞれに対応する3D初期枠を生成することと、前記3D初期枠に基づいて、前記シーンにおける前記ターゲットオブジェクトの3D検出枠を決定することと、を含む。
本開示の実施形態の別の態様に係る車両のインテリジェント制御方法は、上記ターゲットオブジェクトの3D検出方法を用いてターゲットオブジェクトの3D検出枠を取得することと、前記3D検出枠に基づいて、車両を制御する命令又は早期警報提示情報を生成することと、を含む。
本開示の実施形態の別の態様に係る障害物回避ナビゲーション方法は、上記ターゲットオブジェクトの3D検出方法を用いてターゲットオブジェクトの3D検出枠を取得することと、前記3D検出枠に基づいて、ロボットに対して障害物回避ナビゲーション制御を行う命令又は早期警報提示情報を生成することと、を含む。
本開示の実施形態の別の態様に係るターゲットオブジェクトの3D検出装置は、取得されたシーンの点群データの特徴情報を抽出する特徴抽出モジュールと、前記点群データの特徴情報に基づいて、前記点群データに対してセマンティックセグメンテーションを行って、前記点群データにおける複数の点の第1セマンティック情報を取得する第1セマンティックセグメンテーションモジュールと、前記第1セマンティック情報に基づいて、前記複数の点のうち、ターゲットオブジェクトに対応する少なくとも1つの前景点を予測する前景点予測モジュールと、前記第1セマンティック情報に基づいて、前記少なくとも1つの前景点のそれぞれに対応する3D初期枠を生成する初期枠生成モジュールと、前記3D初期枠に基づいて、前記シーンにおける前記ターゲットオブジェクトの3D検出枠を決定する検出枠決定モジュールとを含む。
本開示の実施形態の別の態様に係る車両のインテリジェント制御装置は、ターゲットオブジェクトの3D検出枠を取得する上記ターゲットオブジェクトの3D検出装置と、前記3D検出枠に基づいて、車両を制御する命令又は早期警報提示情報を生成する第1制御モジュールと、を含む。
本開示の実施形態の別の態様に係る障害物回避ナビゲーション装置は、ターゲットオブジェクトの3D検出枠を取得する上記ターゲットオブジェクトの3D検出装置と、前記3D検出枠に基づいて、ロボットに対して障害物回避ナビゲーション制御を行う命令又は早期警報提示情報を生成する第2制御モジュールと、を含む。
本開示の実施形態の別の態様に係る電子機器は、コンピュータプログラムを記憶するメモリと、前記メモリに記憶されたコンピュータプログラムを実行し、かつ前記コンピュータプログラムを実行すると、本開示のいずれかの方法の実施形態を実現するプロセッサと、を含む。
本開示の実施形態の別の態様に係るコンピュータ可読記憶媒体には、プロセッサにより実行されると、本開示のいずれかの方法の実施形態を実現するコンピュータプログラムが記憶されている。
本開示の実施形態の別の態様に係るコンピュータプログラムは、機器のプロセッサで実行されると、本開示のいずれかの方法の実施形態を実現するコンピュータ命令を含む。
本開示に係るターゲットオブジェクトの3D検出方法及び装置、車両のインテリジェント制御方法及び装置、障害物回避ナビゲーション方法及び装置、電子機器、コンピュータ可読記憶媒体、並びにコンピュータプログラムによれば、本開示における、点群データに対する特徴抽出、及び抽出された特徴情報に基づく点群データに対するセマンティックセグメンテーションは、下位層データの分析に相当し、本開示における、セマンティックセグメンテーション結果に基づくターゲットオブジェクトの3D検出枠の生成及び決定は、上位層データの分析に相当するため、本開示は、ターゲットオブジェクトの3D検出プロセスにおいて、下から上への3D検出枠の生成方式を形成することにより、点群データに対して投影処理を行ってから投影処理後に取得された画像を利用して3D検出枠の検出を行うことに起因する、点群データの元情報の損失現象を回避することができるだけでなく、撮像装置で撮像された2D画像を利用して3D検出枠の検出を行う時に2D画像におけるターゲットオブジェクト(例えば、車両又は障害物など)が遮蔽されるため、3D検出枠の検出に影響を与える現象を回避することもできる。上記説明から分かるように、本開示に係る技術的解決手段は、3D検出枠の検出性能を向上させることに役立つ。
以下、図面及び実施形態により本開示の技術的解決手段をさらに詳細に説明する。
明細書の一部となる図面は、本開示の実施形態を説明し、かつ説明と共に本開示の原理を解釈するためのものである。
図面を参照しながら、以下の詳細な説明に基づいて、本開示をより明確に理解することができる。
本開示のターゲットオブジェクトの3D検出方法の一実施形態のフローチャートである。 本開示のターゲットオブジェクトの3D検出方法の別の実施形態のフローチャートである。 本開示の第1段階ニューラルネットワークの概略構成図である。 本開示の第1段階ニューラルネットワークの別の概略構成図である。 本開示の第2段階ニューラルネットワークの概略構成図である。 本開示の車両のインテリジェント制御方法の一実施形態のフローチャートである。 本開示の障害物回避ナビゲーション方法の一実施形態のフローチャートである。 本開示のターゲットオブジェクトの3D装置の一実施形態の概略構成図である。 本開示の車両のインテリジェント制御装置の一実施形態の概略構成図である。 本開示の障害物回避ナビゲーション装置の一実施形態の概略構成図である。 本開示の実施形態を実現する例示的な機器のブロック図である。
以下、図面を参照しながら、本開示の様々な例示的な実施例を詳細に説明する。特に具体的に説明しない限り、これらの実施例において記載された部品及びステップの相対的配置、数式及び数値は、本開示の範囲を限定するものではないことに留意されたい。
同時に、説明の便宜上、図面に示された各部分の寸法は実際の比例関係に従って描いたものではないことを理解されたい。以下、少なくとも1つの例示的な実施例についての説明は、本質的に例示的なものに過ぎず、決して本開示及びその適用又は使用を限定するものではない。当業者に公知の技術、方法及び機器について詳細に検討していない場合があるが、適切な場合で、前記技術、方法及び機器は、明細書の一部と見なすべきである。
類似の符号及び文字が以下の図面において類似のものを表すため、あるものが1つの図面において定義されれば、後の図面においてそれをさらに検討する必要がないことに留意されたい。本開示の実施例は、端末機器、コンピュータシステム及びサーバなどの電子機器に適用されてよく、多数の他の汎用又は専用のコンピューティングシステム環境又は構成と共に動作可能である。端末機器、コンピュータシステム及びサーバなどの電子機器と共に使用するのに適する周知の端末機器、コンピューティングシステム、環境及び/又は構成の例は、パーソナルコンピュータシステム、サーバコンピュータシステム、シンクライアント、ファットクライアント、手持ち又はラップトップ機器、マイクロプロセッサに基づくシステム、セットトップボックス、プログラマブル消費電子製品、ネットワークパソコン、小型コンピュータシステム、大型コンピュータシステム、及び上記任意のシステムを含む分散型クラウドコンピューティング技術環境などを含むが、これらに限定されない。
端末機器、コンピュータシステム及びサーバなどの電子機器について、コンピュータシステムにより実行されるコンピュータシステム実行可能命令(例えば、プログラムモジュール)の一般的なコンテキストで説明してよい。一般的に、プログラムモジュールは、特定のタスクを実行するか又は特定の抽象データ型を実現するルーチン、プログラム、ターゲットプログラム、コンポーネント、ロジック及びデータ構造などを含んでよい。コンピュータシステム/サーバは、分散型クラウドコンピューティング環境において実施されてよく、分散型クラウドコンピューティング環境において、タスクは、通信ネットワークを介して接続された遠隔処理機器によって実行される。分散型クラウドコンピューティング環境において、プログラムモジュールは、記憶機器を含むローカル又は遠隔コンピューティングシステムの記憶媒体に位置してよい。
例示的な実施例
図1は、本開示のターゲットオブジェクトの3D検出方法の一実施例のフローチャートである。
S100において、取得されたシーンの点群データの特徴情報を抽出する。
好ましい例において、本開示におけるシーンとは、ビジョンに基づく表示画面を指してよい。例えば、撮像装置で撮像された画像とレーザレーダ走査により取得された点群データ(Point Cloud Data)とにより表示されたビジョン画面がいずれもシーンであると考えてよい。
好ましい例において、本開示における点群データとは、一般的に、点の形式で記録された走査情報を指す。例えば、レーザレーダ走査により取得された点群データである。点群データにおける各点は、複数種の情報で記述されてよく、点群データにおける各点は一般的に複数種の情報を含むと考えられてよく、例えば、該点の三次元座標、色情報(例えば、RGB情報など)及び反射強度(Intensity)情報などのうちの1種以上を含んでよいが、これらに限定されない。つまり、点群データにおける1つの点は、三次元座標、色情報、反射強度情報などの1種以上の情報で記述されてよい。
好ましい例において、本開示は、ニューラルネットワークの少なくとも1つの畳み込み層を利用して点群データを処理することにより、点群データの特徴情報(feature map)を形成し、例えば、点群データにおける各点に対して1つの特徴情報をそれぞれ形成してよい。今回形成された点群データの特徴情報は、点群データの全空間範囲内の全ての点を考慮する場合に、各点に対してそれぞれ形成された特徴情報であるため、今回形成された特徴情報は、グローバル特徴情報と呼ばれてよい。
S110において、点群データの特徴情報に基づいて、点群データに対してセマンティックセグメンテーションを行って、点群データにおける複数の点の第1セマンティック情報を取得する。
好ましい例において、本開示は、ニューラルネットワークを利用して点群データに対してセマンティックセグメンテーションを行ってよく、ニューラルネットワークは、点群データにおける一部の点、さらに点群データにおける各点に対して、第1セマンティック情報をそれぞれ形成してよい。例えば、点群データをニューラルネットワークに提供し、かつニューラルネットワークにより点群データの特徴情報を抽出した後、ニューラルネットワークは、点群データの特徴情報を処理し続けて、点群データにおける複数の点の第1セマンティック情報を取得する。
好ましい例において、本開示における点の第1セマンティック情報とは、一般的に、点群データ全体を考慮する場合に、該点に対して生成されたセマンティック特徴(Semantic Feature)を指すため、第1セマンティック情報は、第1セマンティック特徴又はグローバルセマンティック特徴と呼ばれてよい。本開示における点のグローバルセマンティック特徴は、一般的に、複数(例えば、256個)の要素を含む一次元ベクトル配列の形式で表現されてよい。本開示におけるグローバルセマンティック特徴は、グローバルセマンティック特徴ベクトルと呼ばれてよい。
好ましい例において、本開示における前景点及び背景点は、ターゲットオブジェクトに対するものであり、好ましくは、1つのターゲットオブジェクトに属する点は、該ターゲットオブジェクトの前景点であり、該ターゲットオブジェクトに属しない点は、該ターゲットオブジェクトの背景点である。シーンに複数のターゲットオブジェクトが含まれる場合に、そのうちの1つのターゲットオブジェクトについて、該ターゲットオブジェクトに属する点は、該ターゲットオブジェクトの前景点であるが、該点は、他のターゲットオブジェクトに属しないため、該点は、他のターゲットオブジェクトの背景点である。
好ましい例において、点群データにおける点がターゲットオブジェクトの前景点及び該ターゲットオブジェクトの背景点を含む場合に、本開示で取得される複数の点の第1セマンティック情報は、一般的に、該ターゲットオブジェクトの前景点のグローバルセマンティック特徴及び該ターゲットオブジェクトの背景点のグローバルセマンティック特徴を含む。本開示におけるシーンは、1つ以上のターゲットオブジェクトを含んでよい。本開示におけるターゲットオブジェクトは、車両、非自動車両、歩行者及び/又は障害物などを含むが、これらに限定されない。
S120において、第1セマンティック情報に基づいて、複数の点のうち、ターゲットオブジェクトに対応する少なくとも1つの前景点を予測する。
好ましい例において、本開示は、ニューラルネットワークを利用して複数の点のうち、ターゲットオブジェクトに対応する少なくとも1つの前景点を予測してよく、ニューラルネットワークは、点群データにおける一部の点、さらに点群データにおける各点に対して、それぞれ予測を行って、該点が前景点である信頼度を生成してよい。点の信頼度は、該点が前景点である確率を示すことができる。例えば、点群データをニューラルネットワークに提供し、ニューラルネットワークにより点群データの特徴情報を抽出し、かつニューラルネットワークによりセマンティックセグメンテーション処理を行った後、該ニューラルネットワークがグローバルセマンティック特徴を処理し続けて、点群データにおける複数の点がターゲットオブジェクトの前景点である信頼度を予測し、ニューラルネットワークは、各点に対して信頼度をそれぞれ生成してよい。本開示は、ニューラルネットワークにより生成された各信頼度をそれぞれ判定することにより、信頼度が所定値を超える点をターゲットオブジェクトの前景点としてよい。
なお、本開示における信頼度を判定する動作は、S120において実行されてもよく、S130において実行されてもよい。また、信頼度を判定する動作がS120において実行され、かつ判定結果が、信頼度が所定値を超える点が存在せず、すなわち前景点が存在しなければ、該シーンにターゲットオブジェクトが存在しないと考えてよい。
S130において、第1セマンティック情報に基づいて少なくとも1つの前景点のそれぞれに対応する3D初期枠を生成する。
好ましい例において、S120には信頼度を判定する動作が含まれない場合に、本開示は、S110において取得された各点のグローバルセマンティック特徴に基づいて、各点に対して3D初期枠をそれぞれ生成してよい。本開示は、S120において取得された全ての信頼度を判定することにより、ターゲットオブジェクトの前景点を選別し、かつ選別された前景点を利用してS130において生成された3D初期枠から選別することにより、各前景点のそれぞれに対応する3D初期枠を取得してよい。すなわち、S130において生成された各3D初期枠は、一般的に、前景点に対応する3D初期枠と背景点に対応する3D初期枠とを含むため、S130において、生成された全ての3D初期枠から、各前景点に対応する3D初期枠を選別する必要がある。
好ましい例において、S120には信頼度を判定する動作が含まれる場合に、本開示は、上記予測された各前景点のグローバルセマンティック特徴に基づいて3D初期枠をそれぞれ生成することにより、取得された各3D初期枠は、いずれも前景点に対応する3D初期枠である。すなわち、S130において生成された各3D初期枠は、いずれも前景点に対応する3D初期枠であり、つまり、S130において前景点のみに対して3D初期枠を生成してよい。
好ましい例において、本開示における3D初期枠は、3D初期枠の中心点位置情報、3D初期枠の長さ・幅・高さ情報及び3D初期枠の方向情報で記述されてよく、つまり、本開示における3D初期枠は、3D初期枠の中心点位置情報、3D初期枠の長さ・幅・高さ情報及び3D初期枠の方向情報などを含んでよい。3D初期枠は、3D初期枠情報と呼ばれてよい。
好ましい例において、本開示は、ニューラルネットワークを利用して3D初期枠を生成してよい。例えば、点群データをニューラルネットワークに提供し、ニューラルネットワークにより点群データの特徴情報を抽出し、かつニューラルネットワークによりセマンティックセグメンテーション処理を行った後、該ニューラルネットワークがグローバルセマンティック特徴を処理し続けて、複数の点のうちの各点に対して3D初期枠をそれぞれ生成する。また例えば、点群データをニューラルネットワークに提供し、ニューラルネットワークにより点群データの特徴情報を抽出し、ニューラルネットワークによりセマンティックセグメンテーション処理を行い、かつ該ニューラルネットワークによりグローバルセマンティック特徴に対して予測処理を行うことにより、点群データにおける複数の点がターゲットオブジェクトの前景点である信頼度を取得した後、ニューラルネットワークが、信頼度が所定値を超える点のグローバルセマンティック特徴を処理し続けて、各前景点に対して3D初期枠をそれぞれ生成してよい。
点群データが一定の受容野を有するが、セマンティックセグメンテーションが点群データにおける全ての点の特徴情報に基づいて行われるため、セマンティックセグメンテーションにより形成されたセマンティック特徴は、点自体のセマンティック特徴を含むだけでなく、周囲点のセマンティック特徴も含むことにより、本開示における複数の前景点は、セマンティックにシーンにおける同一のターゲットオブジェクトを指してよい。また同一のターゲットオブジェクトを指す異なる前景点のそれぞれに対応する3D初期枠の間に一定の差異があるが、差異が一般的に大きくない。
また、S130において第1セマンティック情報に基づいて生成された3D初期枠には前景点に対応する3D初期枠が存在しなければ、該シーンにターゲットオブジェクトが存在しないと考えてよい。
S140において、3D初期枠に基づいてシーンにおけるターゲットオブジェクトの3D検出枠を決定する。
本開示は、最終的にターゲットオブジェクト毎に1つの3D検出枠を決定する。
好ましい例において、本開示は、上記取得された全ての前景点のそれぞれに対応する3D初期枠に対して冗長処理を行うことにより、ターゲットオブジェクトの3D検出枠、すなわち、点群データに対してターゲットオブジェクトの検出を行って最終的に取得された3D検出枠を取得してよい。好ましくは、本開示は、3D初期枠の間の重なり度を用いて冗長な3D初期枠を除去することにより、ターゲットオブジェクトの3D検出枠を取得してよい。例えば、本開示は、複数の前景点に対応する3D初期枠の間の重なり度を決定し、重なり度が設定閾値より大きい3D初期枠を選別して、重なり度が設定閾値より大きい3D初期枠を取得し、次に選別された3D初期枠からターゲットオブジェクトの3D検出枠を決定してよい。好ましくは、本開示は、NMS(Non-Maximum Suppression、非最大抑制)アルゴリズムを用いて全ての前景点のそれぞれに対応する3D初期枠に対して冗長処理を行うことにより、互いにカバーする冗長な3D検出枠を除去して、最終的な3D検出枠を取得してよい。シーンに複数のターゲットオブジェクト(例えば、1人以上の歩行者、1つ以上の非自動車両、1つ以上の車両など)が含まれる場合に、本開示は、シーンにおける各ターゲットオブジェクトに対して1つの最終的な3D検出枠を取得してよい。
好ましい例において、本開示は、現在取得された前景点のそれぞれに対応する3D初期枠に対して補正(最適化とも呼ばれる)処理を行い、そして、補正後の全ての3D初期枠に対して冗長処理を行うことにより、ターゲットオブジェクトの3D検出枠、すなわち、点群データに対してターゲットオブジェクトの検出を行って最終的に取得された3D検出枠を取得してよい。
好ましい例において、本開示における各前景点のそれぞれに対応する3D初期枠をそれぞれ補正するプロセスは、下記ステップA1、ステップB1及びステップC1を含んでよい。
ステップA1において、点群データにおける、3D初期枠を少なくとも含む部分領域内の点の特徴情報を取得する。
好ましくは、本開示は、3D初期枠を含む3D拡張枠を設定し、かつ点群データにおける3D拡張枠内の各点の特徴情報を取得してよい。本開示における3D拡張枠は、点群データにおける部分領域の実現形態である。本開示における各前景点に対応する3D初期枠は、それぞれ1つの3D拡張枠に対応し、3D拡張枠が占める空間範囲は、一般的に、3D初期枠が占める空間範囲を完全にカバーするかつそれよりも僅かに大きい。一般的な場合に、3D初期枠のいずれか一面は、それに対応する3D拡張枠のいずれか一面と同一の平面内になく、3D初期枠の中心点は、3D拡張枠の中心点と互いに重なり、かつ3D初期枠のいずれか一面は、それに対応する3D拡張枠の対応する面に平行である。このような3D拡張枠と3D初期枠との位置関係が規範的であるため、3D拡張枠を形成する難度を低減することに役立つことにより、本開示の実現難度を低減することに役立つ。当然のことながら、本開示は、2つの中心点が重ならないが、3D初期枠のいずれか一面がいずれもそれに対応する3D拡張枠の対応する面に平行である場合を排除しない。
好ましくは、本開示は、予め設定されたX軸方向の増分(例えば、20センチメートル)、Y軸方向の増分(例えば、20センチメートル)及びZ軸方向の増分(例えば、20センチメートル)のうちの少なくとも1つに基づいて、前景点に対応する3D初期枠に対して3D空間拡張を行うことにより、2つの中心点が互いに重なり、かつ対応する面が互いに平行である、3D初期枠を含む3D拡張枠を形成してよい。
好ましくは、本開示における増分は、実際の必要に応じて設定されてよく、例えば、対応する方向の増分は、3D初期枠の対応する辺長のN(例えば、Nが4などより大きい)分の1などを超えず、好ましくは、X軸方向の増分は、3D初期枠の長さの10分の1を超えず、Y軸方向の増分は、3D初期枠の幅の10分の1を超えず、Z軸方向の増分は、3D初期枠の高さの10分の1を超えない。また、X軸方向の増分、Y軸方向の増分及びZ軸方向の増分は、同じであってもよく、異なってもよい。
好ましくは、i番目の3D初期枠
Figure 2022515591000002
は、
Figure 2022515591000003
として示されてよいと仮定し、ここで、
Figure 2022515591000004
及び
Figure 2022515591000005
は、それぞれi番目の3D初期枠の中心点の座標を示し、
Figure 2022515591000006
及び
Figure 2022515591000007
は、それぞれi番目の3D初期枠の高さ、幅、長さを示し、
Figure 2022515591000008
は、i番目の3D初期枠の方向を示し、例えば、鳥瞰図において、i番目の3D初期枠の長さとX座標軸との夾角が
Figure 2022515591000009
であれば、i番目の3D初期枠に対応する3D拡張枠
Figure 2022515591000010
は、
Figure 2022515591000011
として示されてよく、
ここで、
Figure 2022515591000012
は、増分を示す。
好ましくは、本開示は、ニューラルネットワークを利用して点群データにおける部分領域内の点の特徴情報を取得してよく、例えば、点群データにおける部分領域内の全ての点を入力とし、ニューラルネットワークに提供し、ニューラルネットワークの少なくとも1つの畳み込み層により部分領域内の点群データを処理することにより、部分領域内の各点に対して特徴情報をそれぞれ形成してよい。今回形成された特徴情報は、局所特徴情報と呼ばれてよい。今回形成された点群データの特徴情報は、点群データの部分領域内の全ての点を考慮する場合に、部分領域内の各点に対してそれぞれ形成された特徴情報であるため、今回形成された特徴情報は、局所特徴情報と呼ばれてよい。
ステップB1において、部分領域内の点の特徴情報に基づいて、部分領域内の点に対してセマンティックセグメンテーションを行って、部分領域内の点の第2セマンティック情報を取得する。
好ましくは、本開示における点の第2セマンティック情報とは、3D拡張枠で形成された空間範囲内の全ての点を考慮する場合に、該点に対して形成されたセマンティック特徴ベクトルを指す。本開示における第2セマンティック情報は、第2セマンティック特徴又は局所空間セマンティック特徴と呼ばれてよい。局所空間セマンティック特徴は、同様に、複数(例えば、256個)の要素を含む一次元ベクトル配列の形式で表現されてよい。
本開示は、ニューラルネットワークを利用して3D拡張枠内の全ての点の局所空間セマンティック特徴を取得してよく、ニューラルネットワークを利用して点の局所空間セマンティック特徴を取得する方式は、下記ステップa及びステップbを含んでよい。
a、まず、3D拡張枠の所定のターゲット位置に基づいて、3D拡張枠内に位置する点群データの座標情報に対して座標変換を行って、3D拡張枠内に位置する各点の座標を変位させることにより、3D拡張枠を変位させて回転させ(3D拡張枠の方向を調整し)、さらに該3D拡張枠の所定のターゲット位置に変換する。好ましくは、3D拡張枠の所定のターゲット位置は、3D拡張枠の中心点(すなわち、3D初期枠の中心点)が座標原点に位置し、かつ3D拡張枠の長さがX軸に平行である位置などを含んでよい。好ましくは、上記座標原点及びX軸は、点群データの座標系の座標原点及びX軸であってよく、当然のことながら、他の座標系の座標原点及びX軸であってもよい。
前の例を続けて、i番目の3D初期枠
Figure 2022515591000013
は、
Figure 2022515591000014
として示されてよいと仮定し、ここで、
Figure 2022515591000015
及び
Figure 2022515591000016
は、それぞれi番目の3D初期枠の中心点の座標を示し、
Figure 2022515591000017
及び
Figure 2022515591000018
は、それぞれi番目の3D初期枠の高さ、幅、長さを示し、
Figure 2022515591000019
は、i番目の3D初期枠の方向を示し、例えば、鳥瞰図において、i番目の3D初期枠の長さとX座標軸との夾角が
Figure 2022515591000020
であれば、i番目の3D初期枠を含む3D拡張枠に対して座標変換を行った後、本開示は、新たな3D初期枠
Figure 2022515591000021
を取得し、該新たな3D初期枠
Figure 2022515591000022
は、
Figure 2022515591000023
として示されてよい。
つまり、該新たな3D初期枠
Figure 2022515591000024
の中心点が座標原点に位置し、かつ鳥瞰図において、該新たな3D初期枠
Figure 2022515591000025
の長さとX座標軸との間の夾角が0である。
本開示の上記座標変換方式は、正規化座標変換と呼ばれてよい。本開示は、1つの点に対して座標変換を行う場合に、一般的に該点の座標情報のみを変更し、該点の他の情報を変更しない。本開示は、正規化座標変換の動作を実行することにより、異なる3D初期枠内の各点の座標を1つの大まかな範囲内に集中させることにより、ニューラルネットワークのトレーニングに役立ち、すなわち、ニューラルネットワークによる局所空間セマンティック特徴の形成の正確性を向上させることに役立ち、さらに3D初期枠を補正する正確性を向上させることに役立つ。理解できるように、上記データの座標変換方式は、好ましい例に過ぎず、当業者は、また座標を一定の範囲に変換する他の変換方式を用いてよい。
b、座標変換後の点群データ(すなわち、座標変換後の3D拡張枠内に位置する点群データ)をニューラルネットワークに提供し、ニューラルネットワークにより、受信された点に対してセマンティックセグメンテーション処理を行って、3D拡張枠内に位置する各点に対して局所空間セマンティック特徴をそれぞれ生成する。
好ましくは、本開示は、上記ステップにおいて生成された、前景点である信頼度に基づいて、前景点のマスクを形成してよい(例えば、信頼度が所定値(例えば、0.5など)を超える点を1に設定し、信頼度が所定値を超えない点を0に設定することにより、前景点のマスクを形成する)。本開示は、前景点のマスク及び座標変換後の点群データを一緒にニューラルネットワークに提供して、ニューラルネットワークがセマンティック処理を行う時に前景点のマスクを参照するようにすることにより、局所空間セマンティック特徴の記述の正確性を向上させることに役立つ。
ステップC1において、部分領域内の点の第1セマンティック情報及び第2セマンティック情報に基づいて、補正後の3D初期枠を形成する。
好ましくは、本開示で3D拡張枠内の複数の点のグローバルセマンティック特徴を取得する方式は、以下のとおりであってよい。まず、点群データにおける各点の座標情報に基づいて、各点が3D拡張枠の空間範囲に属するか否か(すなわち、3D拡張枠のいずれかの表面に位置する場合を含んでよい、3D拡張枠内に位置するか否か)を判定し、1つの点について、該点の所在する位置が3D拡張枠の空間範囲に属すれば、該点を3D拡張枠に属する点としてよく、該点の所在する位置が3D拡張枠の空間範囲に属しなければ、該点を3D拡張枠に属する点としない。次に、点群データにおける複数の点(例えば、全ての点)のグローバルセマンティック特徴に基づいて、3D拡張枠に属する全ての点のグローバルセマンティック特徴を決定する。好ましくは、本開示は、1つの点が3D拡張枠に属すると判定した場合に、前述の取得された各点のグローバルセマンティック特徴から該点のグローバルセマンティック特徴を検索することができ、このように類推すれば、本開示は、3D拡張枠に属する全ての点のグローバルセマンティック特徴を取得することができる。
好ましくは、本開示は、ニューラルネットワークにより各点のグローバルセマンティック特徴及び局所セマンティック特徴を処理し、かつニューラルネットワークの処理結果に基づいて補正後の3D初期枠を取得してよい。例えば、ニューラルネットワークは、3D拡張枠内の点のグローバルセマンティック特徴及び局所空間セマンティック特徴に対して、符号化処理を行って、該3D拡張枠内の3D初期枠を記述する特徴を取得し、ニューラルネットワークを介して3D初期枠を記述する特徴に基づいて、3D初期枠がターゲットオブジェクトである信頼度を予測し、ニューラルネットワークを介して3D初期枠を記述する特徴に基づいて3D初期枠を調整することにより、補正後の3D初期枠を取得する。3D初期枠を補正することにより、3D初期枠の正確性に役立つため、3D検出枠の正確性を向上させることに役立つ。
好ましくは、本開示は、3D拡張枠内の各点のグローバルセマンティック特徴と局所空間セマンティック特徴をスティッチングしてよく、例えば、3D拡張枠内のいずれか1つの点に対して、該点のグローバルセマンティック特徴と局所空間セマンティック特徴をスティッチングして、スティッチング後のセマンティック特徴を形成し、各点のスティッチング後のセマンティック特徴をいずれも入力として、ニューラルネットワークに提供することにより、ニューラルネットワークは、スティッチング後のセマンティック特徴に対して符号化処理を行い、ニューラルネットワークは、符号化処理後の、該3D拡張枠内の3D初期枠を記述する特徴(以下、符号化処理後の特徴と略称する)を生成することができる。
好ましくは、ニューラルネットワークは、符号化処理後の特徴を形成した後、入力された各符号化処理後の特徴に対して、該3D初期枠がターゲットオブジェクトである信頼度をそれぞれ予測し、かつ各3D初期枠に対して信頼度をそれぞれ形成してよい。該信頼度は、補正後の3D初期枠がターゲットオブジェクトである確率を示してよい。同時に、ニューラルネットワークは、入力された各符号化処理後の特徴に対して、新たな3D初期枠(すなわち、補正後の3D初期枠)をそれぞれ形成してよい。例えば、ニューラルネットワークは、入力された各符号化処理後の特徴に基づいて、新たな3D初期枠の中心点位置情報、新たな3D初期枠の長さ・幅・高さ情報及び新たな3D初期枠の方向情報などをそれぞれ形成する。
本開示における、補正後の全ての3D初期枠に対して冗長処理を行うことにより、ターゲットオブジェクトの3D検出枠を取得するプロセスについては、上記対応する説明を参照することができるため、ここで詳細に説明しない。
図2に示すように、本開示のターゲットオブジェクトの3D検出方法の一実施形態は、ステップS200及びS210を含む。以下、図2における各ステップをそれぞれ詳細に説明する。
S200において、点群データをニューラルネットワークに提供し、該ニューラルネットワークを介して点群データにおける点に対して特徴抽出処理を行い、抽出された特徴情報に基づいて点群データに対してセマンティックセグメンテーション処理を行って、複数の点のセマンティック特徴を取得し、セマンティック特徴に基づいて、複数の点のうちの前景点を予測し、かつ複数の点のうちの少なくとも一部の点のそれぞれに対応する3D初期枠を生成する。
好ましい例において、本開示におけるニューラルネットワークは、主に、入力された点群データにおける複数の点(例えば、点群データにおける全ての点又は多数の点)に対して3D初期枠をそれぞれ生成することにより、点群データにおける複数の点のうちの各点が1つの3D初期枠に対応する。点群データにおける複数の点(例えば、各点)は、一般的に前景点及び背景点を含むため、本開示のニューラルネットワークにより生成された3D初期情報枠は、一般的に、前景点に対応する3D初期枠と背景点に対応する3D初期枠を含む。
本開示のニューラルネットワークへの入力が点群データあり、ニューラルネットワークが点群データに対して特徴抽出を行い、かつ抽出された特徴情報に基づいて点群データに対してセマンティックセグメンテーションを行うことは、下位層データの分析に相当し、また本開示のニューラルネットワークがセマンティックセグメンテーション結果に基づいて3D初期枠を生成することは、上位層データの分析に相当するため、本開示は、ターゲットオブジェクトの3D検出プロセスにおいて、下から上への3D検出枠の生成方式を形成する。本開示のニューラルネットワークは、下から上への生成方式を用いて3D初期枠を生成することにより、点群データに対して投影処理を行ってから、投影処理後に取得された画像を利用して3D検出枠の検出を行うことに起因する、3D検出枠の検出性能の向上に不利である点群データの元情報の損失現象を回避することができるだけでなく、本開示は、撮像装置で撮像された2D画像を利用して3D検出枠の検出を行う時に2D画像におけるターゲットオブジェクト(例えば、車両又は障害物など)が遮蔽されるため、3D検出枠の検出に影響を与える、同様に3D検出枠の検出性能の向上に不利である現象を回避することもできる。このことから分かるように、本開示のニューラルネットワークは、下から上への生成方式を用いて3D初期枠を生成することにより、3D検出枠の検出性能を向上させることに役立つ。
好ましい例において、本開示におけるニューラルネットワークは、複数の部分に分割されてよく、各部分は、それぞれ1つの小さなニューラルネットワーク(ニューラルネットワークユニット又はニューラルネットワークモジュールなどと呼ばれてもよい)で実現されてよく、すなわち、本開示のニューラルネットワークは、複数の小さなニューラルネットワークで構成される。本開示のニューラルネットワークの一部の構造は、RCNN(Regions with Convolutional Neural Network、領域畳み込みニューラルネットワーク)の構造を用いてよいため、本開示のニューラルネットワークは、PointRCNN(Point Regions with Convolutional Neural Network、点に基づく領域畳み込みニューラルネットワーク)と呼ばれてよい。
好ましい例において、本開示のニューラルネットワークにより生成された3D初期枠は、3D初期枠の中心点位置情報(例えば、中心点の座標)、3D初期枠の長さ・幅・高さ情報及び3D初期枠の方向情報(例えば、3D初期枠の長さとX座標軸との夾角)などを含んでよい。当然のことながら、本開示で形成された3D初期枠は、3D初期枠の底面又は上面の中心点位置情報、3D初期枠の長さ・幅・高さ情報及び3D初期枠の方向情報などを含んでもよい。本開示は、3D初期枠の具体的な表現形式を限定しない。
好ましい例において、本開示のニューラルネットワークは、第1ニューラルネットワーク、第2ニューラルネットワーク及び第3ニューラルネットワークを含んでよい。点群データは、第1ニューラルネットワークに提供され、第1ニューラルネットワークは、受信された点群データにおける複数の点(例えば、全ての点)に対して特徴抽出処理を行うことにより、点群データにおける各点に対してグローバル特徴情報をそれぞれ形成し、かつ複数の点(例えば、全ての点)のグローバル特徴情報に基づいてセマンティックセグメンテーション処理を行うことにより、各点に対してグローバルセマンティック特徴をそれぞれ形成し、第1ニューラルネットワークは、各点のグローバルセマンティック特徴を出力する。好ましくは、点のグローバルセマンティック特徴は、一般的に、複数(例えば、256個)の要素を含む一次元ベクトル配列の形式で表現されてよい。本開示におけるグローバルセマンティック特徴は、グローバルセマンティック特徴ベクトルと呼ばれてもよい。点群データにおける点が前景点及び背景点を含む場合に、第1ニューラルネットワークにより出力された情報は、一般的に、前景点のグローバルセマンティック特徴及び背景点のグローバルセマンティック特徴を含む。
好ましくは、本開示における第1ニューラルネットワークは、Point Cloud Encoder(点群データエンコーダ)及びPoint Cloud Decoder(点群データデコーダ)で実現されてよく、好ましくは、第1ニューラルネットワークは、PointNet++又はPointsiftネットワークモデルなどのネットワーク構造を用いてよい。本開示における第2ニューラルネットワークは、MLP(Multi-Layer Perceptron、多層パーセプトロン)で実現されてよく、かつ第2ニューラルネットワークを実現するMLPの出力次元は、1であってよい。本開示における第3ニューラルネットワークは、MLPで実現されてもよく、かつ第3ニューラルネットワークを実現するMLPの出力次元は、多次元であり、次元の数は、3D検出枠情報に含まれる情報に関連する。
点のグローバルセマンティック特徴を取得した場合に、本開示は、該グローバルセマンティック特徴を利用して前景点の予測及び3D初期枠の生成を実現する必要がある。本開示は、下記2種の方式で前景点の予測及び3D初期枠の生成を実現してよい。
方式1、第1ニューラルネットワークにより出力された各点のグローバルセマンティック特徴を同時に第2ニューラルネットワーク及び第3ニューラルネットワークに提供する(図3に示すとおりである)。第2ニューラルネットワークは、入力された各点のグローバルセマンティック特徴に対して、該点が前景点である信頼度をそれぞれ予測し、かつ各点に対して、信頼度をそれぞれ出力する。第2ニューラルネットワークにより予測された信頼度は、点が前景点である確率を示してよい。第3ニューラルネットワークは、入力された各点のグローバルセマンティック特徴に対して、1つの3D初期枠をそれぞれ生成し、かつ出力する。例えば、第3ニューラルネットワークは、各点のグローバルセマンティック特徴に基づいて、各点に対して3D初期枠の中心点位置情報、3D初期枠の長さ・幅・高さ情報及び3D初期枠の方向情報などをそれぞれ出力する。
第1ニューラルネットワークにより出力された情報は、一般的に、前景点のグローバルセマンティック特徴及び背景点のグローバルセマンティック特徴を含むため、第3ニューラルネットワークにより出力された3D初期枠は、一般的に、前景点に対応する3D初期枠と背景点に対応する3D初期枠を含むが、第3ニューラルネットワーク自体は、出力した各3D初期枠がそれぞれ前景点に対応する3D初期枠であるか背景点に対応する3D初期枠であるかを区別することができない。
方式2、第1ニューラルネットワークにより出力された各点のグローバルセマンティック特徴をまず第2ニューラルネットワークに提供し、第2ニューラルネットワークは、入力された各点のグローバルセマンティック特徴に対して、点が前景点である信頼度をそれぞれ予測し、本開示は、第2ニューラルネットワークにより出力された点が前景点である信頼度が所定値を超えると判定した場合に、該点のグローバルセマンティック特徴を第3ニューラルネットワークに提供してよい(図4に示すとおりである)。第3ニューラルネットワークは、受信した、前景点であると判定された各グローバルセマンティック特徴に対して、1つの3D初期枠をそれぞれ生成し、かつ各前景点のそれぞれに対応する3D初期枠を出力する。本開示は、第2ニューラルネットワークにより出力された点が前景点である信頼度が所定値を超えないと判定した場合に、該点のグローバルセマンティック特徴を第3ニューラルネットワークに提供しないため、第3ニューラルネットワークにより出力された全ての3D初期枠は、いずれも前景点に対応する3D初期枠である。
S210において、複数の点のうちの前景点に対応する3D検出枠情報に基づいて、最終的な3D検出枠を決定する。
好ましい例において、S200において方式1を用いる場合に、本開示は、第2ニューラルネットワークにより出力された各信頼度に基づいて、第3ニューラルネットワークにより出力された各点に対応する3D初期枠がそれぞれ前景点に対応する3D初期枠であるか背景点に対応する3D初期枠であるかを判定してよい。例えば、本開示は、第2ニューラルネットワークにより出力された1番目の点が前景点である信頼度が所定値を超えると判定した場合に、該点を前景点と判定することにより、本開示は、第3ニューラルネットワークにより出力された1番目の点に対応する3D初期枠を、前景点に対応する3D初期枠と判定してよく、このように類推すれば、本開示は、第2ニューラルネットワークにより出力された信頼度に基づいて、第3ニューラルネットワークにより出力された全ての3D初期枠から全ての前景点に対応する3D初期枠を選別してよい。その後、本開示は、選別された全ての前景点に対応する3D初期枠に対して冗長処理を行うことにより、最終的な3D検出枠、すなわち点群データに対して検出された3D検出枠を取得してよい。例えば、本開示は、NMS(Non-Maximum Suppression、非最大抑制)アルゴリズムを用いて、現在選別された全ての前景点のそれぞれに対応する3D検出枠情報に対して冗長処理を行うことにより、互いにカバーする冗長な3D検出枠を除去して、最終的な3D検出枠を取得してよい。
好ましい例において、S200において方式2を用いる場合に、本開示は、第3ニューラルネットワークにより出力された3D初期枠に基づいて、前景点に対応する3D初期枠を直接取得してよいため、本開示は、第3ニューラルネットワークにより出力された全ての3D初期枠に対して冗長処理を直接行うことにより、最終的な3D検出枠、すなわち点群データに対して検出された3D検出枠を取得してよい(上記実施形態における関連説明を参照することができる)。例えば、本開示は、NMSアルゴリズムを用いて、第3ニューラルネットワークにより出力された全ての3D初期枠に対して冗長処理を行うことにより、互いにカバーする冗長な3D初期枠を除去して、最終的な3D検出枠を取得してよい。
好ましい例において、S200において方式1を用いるか方式2を用いるかに関わらず、本開示は、前景点に対応する3D初期枠を取得した後、各前景点のそれぞれに対応する3D初期枠をそれぞれ補正し、かつ補正後の、各前景点のそれぞれに対応する3D初期枠に対して冗長処理を行うことにより、最終的な3D検出枠を取得してよい。つまり、本開示のニューラルネットワークにより3D検出枠を生成するプロセスは、2つの段階に分けられてよく、ニューラルネットワークが第1段階ニューラルネットワークにおいて生成した3D初期枠を第2段階ニューラルネットワークに提供し、第2段階ニューラルネットワークは、第1段階ニューラルネットワークにおいて生成された3D初期枠に対して補正(例えば、位置最適化など)を行い、その後、本開示は、さらに第2段階ニューラルネットワークにより補正された後の3D初期枠に基づいて最終的な3D検出枠を決定する。最終的な3D検出枠は、本開示において点群データに基づいて検出された3D検出枠である。しかしながら、本開示のニューラルネットワークにより3D初期枠を生成するプロセスは、第2段階ニューラルネットワークを含むことなく、第1段階ニューラルネットワークのみを含んでよい。ニューラルネットワークにより3D初期枠を生成するプロセスが第1段階ニューラルネットワークのみを含む場合に、本開示における、第1段階ニューラルネットワークにより生成された3D初期枠に基づいて最終的な3D検出枠を決定することも、完全に実現可能である。補正後の3D初期枠はより正確である場合が多いため、補正後の3D初期枠に基づいて最終的な3D検出枠を決定することは、3D検出枠の検出正確性を向上させることに役立つ。本開示における第1段階ニューラルネットワーク及び第2段階ニューラルネットワークは、いずれも独立して存在することができるニューラルネットワークにより実現されてもよく、1つの完全なニューラルネットワークにおける一部のネットワーク構造ユニットで構成されてもよく、また、説明を容易にするために、関連するニューラルネットワークを、第1ニューラルネットワーク、第2ニューラルネットワーク、第3ニューラルネットワーク、第4ニューラルネットワーク、第5ニューラルネットワーク、第6ニューラルネットワーク又は第7ニューラルネットワークと呼んでもよいが、第1~第7ニューラルネットワークのそれぞれは、いずれも独立したニューラルネットワークであってもよく、大きなニューラルネットワークにおける幾つかのネットワーク構造ユニットで構成されてもよく、本開示はこれを限定しないことを理解されない。
好ましい例において、本開示においてニューラルネットワークを利用して各前景点のそれぞれに対応する3D初期枠をそれぞれ補正するプロセスは、下記ステップA2、ステップB2及びステップC2を含んでよい。
ステップA2において、3D初期枠を含む3D拡張枠を設定し、かつ3D拡張枠内の点のグローバルセマンティック特徴を取得する。
好ましくは、本開示における各3D初期枠は、1つの3D拡張枠に対応し、3D拡張枠が占める空間範囲は、一般的に、3D初期枠が占める空間範囲を完全にカバーする。一般的な場合に、3D初期枠のいずれか一面は、それに対応する3D拡張枠のいずれか一面と同一平面内になく、3D初期枠の中心点は、3D拡張枠の中心点と互いに重なり、かつ3D初期枠のいずれか一面は、それに対応する3D拡張枠の対応する面に平行である。当然のことながら、本開示は、2つの中心点が重ならないが、3D初期枠のいずれか一面がそれに対応する3D拡張枠の対応する面に平行である場合を排除しない。
好ましくは、本開示は、予め設定されたX軸方向の増分(例えば、20センチメートル)、Y軸方向の増分(例えば、20センチメートル)及びZ軸方向の増分(例えば、20センチメートル)のうちの少なくとも1つに基づいて、前景点の3D初期枠に対して3D空間拡張を行うことにより、2つの中心点が互いに重なり、かつ面が互いに平行である、3D初期枠を含む3D拡張枠を形成してよい。
好ましくは、i番目の3D初期枠
Figure 2022515591000026
は、
Figure 2022515591000027
として示されてよいと仮定し、ここで、
Figure 2022515591000028
及び
Figure 2022515591000029
は、それぞれi番目の3D初期枠の中心点の座標を示し、
Figure 2022515591000030
及び
Figure 2022515591000031
は、それぞれi番目の3D初期枠の高さ、幅、長さを示し、
Figure 2022515591000032
は、i番目の3D初期枠の方向を示し、例えば、鳥瞰図において、i番目の3D初期枠の長さとX座標軸との夾角が
Figure 2022515591000033
であれば、i番目の3D初期枠に対応する3D拡張枠
Figure 2022515591000034
は、
Figure 2022515591000035
として示されてよく、
ここで、
Figure 2022515591000036
は、増分を示す。
好ましくは、本開示における局所空間とは、一般的に、3D拡張枠で形成された空間範囲を指す。点の局所空間セマンティック特徴とは、一般的に、3D拡張枠で形成された空間範囲内の全ての点を考慮する場合に、該点に対して形成されたセマンティック特徴ベクトルを指す。局所空間セマンティック特徴は、同様に、複数(例えば、256個)の要素を含む一次元ベクトル配列の形式で表現されてよい。
好ましくは、本開示で3D拡張枠内の複数の点のグローバルセマンティック特徴を取得する方式は、以下のとおりであってよい。まず、点群データにおける各点の座標情報に基づいて、各点が3D拡張枠の空間範囲に属するか否か(すなわち、3D拡張枠のいずれかの表面に位置する場合を含んでよい、3D拡張枠内に位置するか否か)を判定し、1つの点について、該点の所在する位置が3D拡張枠の空間範囲に属すれば、該点を3D拡張枠に属する点としてよく、該点の所在する位置が3D拡張枠の空間範囲に属しなければ、該点を3D拡張枠に属する点としない。次に、点群データにおける複数の点(例えば、全ての点)のグローバルセマンティック特徴に基づいて、3D拡張枠に属する全ての点のグローバルセマンティック特徴を決定する。好ましくは、本開示は、1つの点が3D拡張枠に属すると判定した場合に、前述の取得された各点のグローバルセマンティック特徴から該点のグローバルセマンティック特徴を検索することができ、このように類推すれば、本開示は、3D拡張枠に属する全ての点のグローバルセマンティック特徴を取得することができる。
ステップB2において、3D拡張枠内に位置する点群データをニューラルネットワークにおける第4ニューラルネットワークに提供し、第4ニューラルネットワークを介して3D拡張枠内の点の局所空間セマンティック特徴を生成する。
好ましくは、本開示で3D拡張枠内の全ての点の局所空間セマンティック特徴を取得する方式は、下記ステップa及びステップbを含んでよい。
a、まず、3D拡張枠の所定のターゲット位置に基づいて、3D拡張枠内に位置する点群データの座標情報に対して座標変換を行って、3D拡張枠内に位置する各点の座標を変位させることにより、3D拡張枠を変位させて回転させ(3D拡張枠の方向を調整し)、さらに該3D拡張枠の所定のターゲット位置に変換する。好ましくは、3D拡張枠の所定のターゲット位置は、3D拡張枠の中心点(すなわち、3D初期枠の中心点)が座標原点に位置し、かつ3D拡張枠の長さがX軸に平行である位置などを含んでよい。好ましくは、上記座標原点及びX軸は、点群データの座標系の座標原点及びX軸であってよく、当然のことながら、他の座標系の座標原点及びX軸であってもよい。
前の例を続けて、i番目の3D初期枠
Figure 2022515591000037
は、
Figure 2022515591000038
として示されてよいと仮定し、ここで、
Figure 2022515591000039
及び
Figure 2022515591000040
は、それぞれi番目の3D初期枠の中心点の座標を示し
Figure 2022515591000041
及び
Figure 2022515591000042
は、それぞれi番目の3D初期枠の高さ、幅、長さを示し、
Figure 2022515591000043
は、i番目の3D初期枠の方向を示し、例えば、鳥瞰図において、i番目の3D初期枠の長さとX座標軸との夾角が
Figure 2022515591000044
であれば、i番目の3D初期枠を含む3D拡張枠に対して座標変換を行った後、本開示は、新たな3D初期枠
Figure 2022515591000045
を取得し、該新たな3D初期枠
Figure 2022515591000046
は、
Figure 2022515591000047
として示されてよい。
つまり、該新たな3D初期枠
Figure 2022515591000048
の中心点が座標原点に位置し、かつ鳥瞰図において、該新たな3D初期枠
Figure 2022515591000049
の長さとX座標軸との間の夾角が0である。
b、座標変換後の点群データ(すなわち、座標変換後の3D拡張枠内に位置する点群データ)を、ニューラルネットワークにおける第4ニューラルネットワークに提供し、第4ニューラルネットワークにより、受信された点に対して特徴抽出処理を行い、かつ抽出された局所特徴情報に基づいてセマンティックセグメンテーション処理を行うことにより、3D拡張枠内に位置する各点に対して局所空間セマンティック特徴をそれぞれ生成する。
好ましくは、本開示は、さらに第2ニューラルネットワークにより出力された信頼度に基づいて、前景点のマスクを形成してよい(例えば、信頼度が所定値(例えば、0.5など)を超える点を1に設定し、信頼度が所定値を超えない点を0に設定する)。本開示は、前景点のマスク及び座標変換後の点群データを一緒に第4ニューラルネットワークに提供して、第4ニューラルネットワークが特徴抽出及びセマンティック処理を行う時に前景点のマスクを参照するようにすることにより、局所空間セマンティック特徴の記述の正確性を向上させることに役立つ。
好ましくは、本開示における第4ニューラルネットワークは、MLPで実現されてよく、かつ第4ニューラルネットワークを実現するMLPの出力次元は、一般的に多次元であり、次元の数は、局所空間セマンティック特徴に含まれる情報に関連する。
ステップC2において、ニューラルネットワークにおける第5ニューラルネットワークを介して、3D拡張枠内の点のグローバルセマンティック特徴及び局所空間セマンティック特徴に対して符号化処理を行って、該3D拡張枠内の3D初期枠を記述する特徴を取得し、ニューラルネットワークにおける第6ニューラルネットワークを介して、3D初期枠を記述する特徴に基づいて、3D初期枠がターゲットオブジェクトである信頼度を予測し、ニューラルネットワークにおける第7ニューラルネットワークを介して、3D初期枠を記述する特徴に基づいて3D初期枠を補正することにより、3D初期枠の正確性を向上させることに役立ち、さらに3D検出枠の正確性を向上させることに役立つ。
好ましくは、本開示における第5ニューラルネットワークは、Point Cloud Encoder(点群データエンコーダ)で実現されてよく、好ましくは、第5ニューラルネットワークは、PointNet++又はPointsiftネットワークモデルなどの一部のネットワーク構造を用いてよい。本開示における第6ニューラルネットワークは、MLPで実現されてよく、かつ第6ニューラルネットワークを実現するMLPの出力次元は、1であってよく、次元の数は、ターゲットオブジェクトの種類数に関連してよい。本開示における第7ニューラルネットワークは、MLPで実現されてもよく、かつ第7ニューラルネットワークを実現するMLPの出力次元は、多次元であり、次元の数は、3D検出枠情報に含まれる情報に関連する。本開示における第1ニューラルネットワーク~第7ニューラルネットワークは、いずれも独立して存在することができるニューラルネットワークにより実現されてもよく、1つのニューラルネットワークにおける、独立して存在することができない一部により実現されてもよい。
好ましくは、本開示は、3D拡張枠内の各点のグローバルセマンティック特徴と局所空間セマンティック特徴をスティッチングしてよく、例えば、3D拡張枠内のいずれか1つの点に対して、該点のグローバルセマンティック特徴と局所空間セマンティック特徴をスティッチングして、スティッチング後のセマンティック特徴を形成し、各点のスティッチング後のセマンティック特徴を入力として、第5ニューラルネットワークに提供することにより、第5ニューラルネットワークは、スティッチング後のセマンティック特徴に対して符号化処理を行い、第5ニューラルネットワークは、符号化処理後の、該3D拡張枠内の3D初期枠を記述する特徴(以下、符号化処理後の特徴と略称する)を出力することができる。
好ましくは、第5ニューラルネットワークにより出力された符号化処理後の特徴を同時に第6ニューラルネットワーク及び第7ニューラルネットワークに提供する(図5に示すとおりである)。第6ニューラルネットワークは、入力された各符号化処理後の特徴に対して、該3D初期枠がターゲットオブジェクトである信頼度をそれぞれ予測し、かつ各3D初期枠に対して信頼度をそれぞれ出力する。第6ニューラルネットワークにより予測された信頼度は、補正後の3D初期枠がターゲットオブジェクトである確率を示してよい。ここでのターゲットオブジェクトは、車両又は歩行者などであってよい。第7ニューラルネットワークは、入力された各符号化処理後の特徴に対して新たな3D初期枠(すなわち、補正後の3D初期枠)をそれぞれ形成し、かつ出力する。例えば、第7ニューラルネットワークは、入力された各符号化処理後の特徴に基づいて、新たな3D初期枠の中心点位置情報、新たな3D初期枠の長さ・幅・高さ情報及び新たな3D初期枠の方向情報などをそれぞれ出力する。
なお、本開示では、本開示のニューラルネットワークの実現方式が複数種あり、一実現方式は、図3に示すとおりであり、別の実現方式は、図4に示すとおりであり、他の実現方式は、図3と図5の組み合わせのとおりであり、更なる実現方式は、図4と図5の組み合わせのとおりである。ここでは各実現方式について1つずつ詳細に説明しない。
好ましい例において、本開示のニューラルネットワークは、3Dアノテーション枠付きの複数の点群データサンプルを利用してトレーニングして得られる。例えば、本開示は、トレーニング対象のニューラルネットワークにより生成された信頼度に対応する損失を取得し、かつトレーニング対象のニューラルネットワークにより点群データサンプルに対して生成された3D初期枠が点群データサンプルの3Dアノテーション枠に対して形成した損失を取得することにより、これら2つの損失を利用してトレーニング対象のニューラルネットワークのネットワークパラメータを調整して、ニューラルネットワークのトレーニングを実現してよい。本開示におけるネットワークパラメータは、畳み込みカーネルパラメータ及び重み値などを含むがこれらに限定されない。
本開示のニューラルネットワークにより3D検出枠を形成するプロセスが1つの段階(すなわち、第1段階ニューラルネットワークにより3D検出枠を形成するプロセス)のみを含む場合に、本開示は、第1段階ニューラルネットワークにより生成された信頼度に対応する損失と3D初期枠に対応する損失とを取得し、かつ第1段階ニューラルネットワークの2つの損失を利用して第1段階ニューラルネットワーク(例えば、第1ニューラルネットワーク、第2ニューラルネットワーク及び第3ニューラルネットワーク)のネットワークパラメータを調整し、かつ第1段階ニューラルネットワークのトレーニングが成功して完了した後、ニューラルネットワーク全体のトレーニングが成功して完了する。
本開示のニューラルネットワークにより3D検出枠を形成するプロセスが2つの段階に分けられる場合に、本開示は、第1段階ニューラルネットワークと第2段階ニューラルネットワークに対してそれぞれトレーニングしてよい。例えば、まず、第1段階ニューラルネットワークにより生成された信頼度に対応する損失と3D初期枠に対応する損失とを取得し、かつこれら2つの損失を利用して第1段階ニューラルネットワークのネットワークパラメータを調整する。第1段階ニューラルネットワークのトレーニングが成功して完了した後、第1段階ニューラルネットワークにより出力された、前景点に対応する3D初期枠を入力として、第2段階ニューラルネットワークに提供し、第2段階ニューラルネットワークにより生成された信頼度に対応する損失と補正後の3D初期枠に対応する損失とを取得し、かつ第2段階ニューラルネットワークのこれら2つの損失を利用して第2段階ニューラルネットワーク(例えば、第4ニューラルネットワーク、第5ニューラルネットワーク、第6ニューラルネットワーク及び第7ニューラルネットワーク)のネットワークパラメータを調整し、第2段階ニューラルネットワークのトレーニングが成功して完了した後、ニューラルネットワーク全体のトレーニングが成功して完了する。
本開示における第1段階ニューラルネットワークにより生成された信頼度に対応する損失は、下記式(1)で示されてよい。
Figure 2022515591000050
式(1)
上記式(1)において、点
Figure 2022515591000051
が前景点である場合に、
Figure 2022515591000052
は、前景点
Figure 2022515591000053
の信頼度であり、点
Figure 2022515591000054
が前景点ではない場合に、
Figure 2022515591000055
は、1と前景点
Figure 2022515591000056
の信頼度との差であり、
Figure 2022515591000057
及び
Figure 2022515591000058
は、いずれも定数であり、好ましい例において、
Figure 2022515591000059
=0.25であり、
Figure 2022515591000060
=2である。
本開示における第1段階ニューラルネットワークにより生成された3D初期枠に対応する損失は、下記式(2)で示されてよい。
Figure 2022515591000061
式(2)
上記式(2)において、
Figure 2022515591000062
は、3D検出枠の回帰損失関数を示し、
Figure 2022515591000063
は、前景点の数を示し、
Figure 2022515591000064
は、前景点
Figure 2022515591000065
に対して生成された3D初期枠のビン(bin)損失関数を示し、かつ
Figure 2022515591000066
は、下記式(3)の形式で示されてよく、
Figure 2022515591000067
は、前景点
Figure 2022515591000068
に対して生成された3D初期枠のマージン損失関数を示し、かつ
Figure 2022515591000069
は、下記式(4)の形式で示されてよい。
Figure 2022515591000070
式(3)
上記式(3)において、
Figure 2022515591000071
は、前景点
Figure 2022515591000072
に対して生成された3D初期枠のビン損失関数を示し、
Figure 2022515591000073
及び
Figure 2022515591000074
は、それぞれ中心点の
Figure 2022515591000075
座標、中心点の
Figure 2022515591000076
座標及びターゲットオブジェクトの方向を示し、かつターゲットオブジェクトは、ニューラルネットワークにより生成された3D初期枠であってもよく、点群データサンプル中の3Dアノテーション枠であってもよく、
Figure 2022515591000077
は、クロスエントロピー分類損失関数(Cross-entropy classification loss)を示し、
Figure 2022515591000078
は、前景点
Figure 2022515591000079
に対して生成された3D初期枠の中心点のパラメータ
Figure 2022515591000080
の所在するビンの番号を示し、
Figure 2022515591000081
は、点群データサンプル中の3Dアノテーション枠のパラメータ
Figure 2022515591000082
の所在するビンの番号を示し、
Figure 2022515591000083
及び
Figure 2022515591000084
は、パラメータ
Figure 2022515591000085

Figure 2022515591000086
である場合に、下記式(5)の形式で示されてよく、
Figure 2022515591000087
及び
Figure 2022515591000088
は、パラメータ
Figure 2022515591000089

Figure 2022515591000090
である場合に、下記式(6)の形式で示されてよく、
Figure 2022515591000091
は、平滑L1損失関数(Smooth L1 Loss)を示し、
Figure 2022515591000092
は、前景点
Figure 2022515591000093
に対して生成された3D初期枠のパラメータ
Figure 2022515591000094
の対応するビンでのオフセット量を示し、
Figure 2022515591000095
は、点群データサンプル中の3Dアノテーション枠のパラメータ
Figure 2022515591000096
の対応するビンでのオフセット量を示し、
Figure 2022515591000097
及び
Figure 2022515591000098
は、パラメータ
Figure 2022515591000099

Figure 2022515591000100
又は
Figure 2022515591000101
である場合に、下記式(7)の形式で示されてよい。
点について、本開示におけるビンとは、点周囲の空間範囲を分割して得られるものを指してよく、分割された値域範囲は、ビンと呼ばれ、各ビンは、いずれも対応する番号を有してよく、一般的な場合に、ビンの値域範囲が一定であり、好ましい例において、ビンの値域範囲は、長さ範囲であり、この場合に、ビンは、一定の長さを有し、別の好ましい例において、ビンの値域範囲は、角度範囲であり、この場合に、ビンは、一定の角度区間を有する。好ましくは、x方向又はz方向について、ビンの長さは、0.5mであってよく、この場合に、異なるビンの値域範囲は、0-0.5m及び0.5m-1mなどであってよい。好ましくは、本開示は、
Figure 2022515591000102
を複数の角度区間に均等に分割してよく、1つの角度区間は、1つの値域範囲に対応し、この場合に、ビンの大きさ(すなわち、角度区間)は、45度又は30度などであってよい。
Figure 2022515591000103
式(4)
上記式(4)において、
Figure 2022515591000104
は、前景点
Figure 2022515591000105
に対して生成された3D初期枠のマージン損失関数を示し、
Figure 2022515591000106
及び
Figure 2022515591000107
は、前景点
Figure 2022515591000108
に対して生成された3D初期枠の中心点の
Figure 2022515591000109
座標、前景点
Figure 2022515591000110
に対して生成された3D初期枠の高さ、幅及び長さをそれぞれ示し、
Figure 2022515591000111
は、平滑L1損失関数を示し、パラメータ
Figure 2022515591000112

Figure 2022515591000113
である場合に、
Figure 2022515591000114
は、前景点
Figure 2022515591000115

Figure 2022515591000116
座標の、前景点
Figure 2022515591000117
に対して生成された3D初期枠の中心点の
Figure 2022515591000118
座標に対するオフセット量を示し、式(8)に示すとおりであり、パラメータ
Figure 2022515591000119

Figure 2022515591000120
又は
Figure 2022515591000121
である場合に、
Figure 2022515591000122
は、前景点
Figure 2022515591000123
に対して生成された3D初期枠の高さ、幅及び長さの、対応する所定のパラメータに対するオフセット量を示し、パラメータ
Figure 2022515591000124

Figure 2022515591000125
である場合に、
Figure 2022515591000126
は、前景点
Figure 2022515591000127

Figure 2022515591000128
座標の、3Dアノテーション枠の中心点の
Figure 2022515591000129
座標に対するオフセット量を示し、式(8)に示すとおりであり、パラメータ
Figure 2022515591000130

Figure 2022515591000131
又は
Figure 2022515591000132
である場合に、
Figure 2022515591000133
は、3Dアノテーション枠の高さ、幅及び長さの、対応する所定のパラメータに対するオフセット量を示し、本開示における所定のパラメータは、トレーニングデータにおける各点群データサンプル中の3Dアノテーション枠の長さ、幅及び高さに対して統計計算をそれぞれ行って得られた長さ平均値、幅平均値及び高さ平均値であってよい。
Figure 2022515591000134
式(5)
Figure 2022515591000135
式(6)
上記式(5)及び式(6)において、
Figure 2022515591000136
は、点群データサンプル中の3Dアノテーション枠の中心点のX座標軸方向におけるビンの番号を示し、
Figure 2022515591000137
は、点群データサンプル中の3Dアノテーション枠の中心点のZ座標軸方向におけるビンの番号を示し、
Figure 2022515591000138
は、前景点
Figure 2022515591000139

Figure 2022515591000140
座標及び
Figure 2022515591000141
座標を示し、
Figure 2022515591000142
は、前景点
Figure 2022515591000143
に対して生成された3D初期枠の中心点の
Figure 2022515591000144
座標及び
Figure 2022515591000145
座標を示し、
Figure 2022515591000146
は、ビンの長さを示し、
Figure 2022515591000147
は、
Figure 2022515591000148
軸又は
Figure 2022515591000149
軸上の、前景点
Figure 2022515591000150
を検索する検索距離を示す。
Figure 2022515591000151
式(7)
上記式(7)において、
Figure 2022515591000152
は、
Figure 2022515591000153
軸又は
Figure 2022515591000154
軸上の、前景点
Figure 2022515591000155
を検索する検索距離を示し、つまり、パラメータ
Figure 2022515591000156

Figure 2022515591000157
である場合に、
Figure 2022515591000158
は、前景点
Figure 2022515591000159
に対して生成された3D初期枠の中心点の、
Figure 2022515591000160
軸方向における前景点
Figure 2022515591000161

Figure 2022515591000162
座標との距離を示し、パラメータ
Figure 2022515591000163

Figure 2022515591000164
である場合に、
Figure 2022515591000165
は、前景点
Figure 2022515591000166
に対して生成された3D初期枠の中心点の、
Figure 2022515591000167
軸方向における前景点
Figure 2022515591000168

Figure 2022515591000169
座標との距離を示し、
Figure 2022515591000170
は、ビンの長さを示し、ビンの長さは、定数値であり、例えば、
Figure 2022515591000171
=0.5mであり、
Figure 2022515591000172
は、上記式(5)及び式(6)に示すとおりであり、
Figure 2022515591000173
は、定数値であり、かつ
Figure 2022515591000174
は、ビンの長さに関連してよく、例えば、
Figure 2022515591000175
は、ビンの長さ又はビンの長さの半分に等しい。
Figure 2022515591000176
式(8)
上記式(8)において、
Figure 2022515591000177
は、前景点の
Figure 2022515591000178
座標の対応するビンでのオフセット量を示し、
Figure 2022515591000179
は、前景点
Figure 2022515591000180
に対して生成された3D初期枠の中心点の
Figure 2022515591000181
座標を示し、
Figure 2022515591000182
は、前景点の
Figure 2022515591000183
座標を示す。
好ましい例において、第1~第3ニューラルネットワークに対するトレーニングが所定の反復条件を満たすと、今回のトレーニングプロセスが終了する。本開示における所定の反復条件は、第3ニューラルネットワークにより出力された3D初期枠と点群データサンプルの3Dアノテーション枠との間の差異が所定の差異要求を満たし、かつ第2ニューラルネットワークにより出力された信頼度が所定の要求を満たすことを含んでよい。両者がいずれも要求を満たす場合に、第1~第3ニューラルネットワークに対する今回のトレーニングは、成功して完了する。本開示における所定の反復条件は、第1~第3ニューラルネットワークをトレーニングするために使用される点群データサンプルの数が所定の数量要求を満たすなどを含んでもよい。使用される点群データサンプルの数が所定の数量要求を満たすが、両者が同時に要求を満たさない場合に、第1~第3ニューラルネットワークに対する今回のトレーニングが成功しない。
好ましくは、本開示のニューラルネットワークにより3D検出枠を形成するプロセスが1つの段階を含む場合に、成功してトレーニングされた第1~第3ニューラルネットワークは、ターゲットオブジェクトの3D検出に用いられてよい。
好ましくは、本開示のニューラルネットワークにより3D検出枠を形成するプロセスが2つの段階を含む場合に、成功してトレーニングされた第1~第3ニューラルネットワークは、点群データサンプルに対して、前景点に対応する3D初期枠を生成してもよく、すなわち、本開示は、点群データサンプルを再び、成功してトレーニングされた第1ニューラルネットワークに提供し、かつ第2ニューラルネットワーク及び第3ニューラルネットワークにより出力された情報をそれぞれ記憶することにより、第2段階ニューラルネットワークに入力(すなわち、前景点に対応する3D初期枠)を提供し、その後、第2段階において生成された信頼度に対応する損失と補正後の3D初期枠に対応する損失とを取得し、取得された損失を利用して第4ニューラルネットワーク~第7ニューラルネットワークのネットワークパラメータを調整し、かつ第4~第7ニューラルネットワークのトレーニングが成功して完了した後にニューラルネットワーク全体のトレーニングが成功して完了する。
本開示における第2段階ニューラルネットワークにおける第4~第7ニューラルネットワークのネットワークパラメータの調整に使用される、信頼度に対応する損失と補正後の3D初期枠に対応する損失とを含む損失関数は、下記式(9)で示されてよい。
Figure 2022515591000184
式(9)
上記式(9)において、
Figure 2022515591000185
は、3D初期枠集合を示し、
Figure 2022515591000186
は、3D初期枠集合における3D初期枠の数を示し、
Figure 2022515591000187
は、予測された信頼度を監督するクロスエントロピー損失関数を示し、すなわち、
Figure 2022515591000188
は、クロスエントロピー分類損失関数であり、
Figure 2022515591000189
は、第6ニューラルネットワークにより予測された、補正後のi番目の3D初期枠がターゲットオブジェクトである信頼度を示し、
Figure 2022515591000190
は、i番目の3D初期枠がターゲットオブジェクトであるか否かを示すラベルであり、該ラベルは、計算により取得されてよく、例えば、i番目の3D初期枠と対応する3Dアノテーション枠との重なり度が設定閾値を超える場合に、該ラベルの値が1であり、そうでなければ、該ラベルの値が0であり、
Figure 2022515591000191
は、
Figure 2022515591000192
の部分集合であり、かつ
Figure 2022515591000193
における3D初期枠と対応する3Dアノテーション枠との重なり度が設定閾値を超え、
Figure 2022515591000194
は、該部分集合における3D初期枠の数を示し、
Figure 2022515591000195
は上記
Figure 2022515591000196
と類似し、
Figure 2022515591000197
は上記
Figure 2022515591000198
と類似し、単に
Figure 2022515591000199
(式におけるi番目の3D初期枠
Figure 2022515591000200
を置き換える)及び
Figure 2022515591000201
(式におけるi番目の3Dアノテーション枠情報を置き換える)を利用したものであり、
Figure 2022515591000202

Figure 2022515591000203
は、下記式(10)の形式で示されてよい。
Figure 2022515591000204
Figure 2022515591000205
式(10)
上記式(10)において、
Figure 2022515591000206
は、i番目の3Dアノテーション枠情報であり、
Figure 2022515591000207
は、座標変換後のi番目の3Dアノテーション枠情報を示し、
Figure 2022515591000208
は、補正後のi番目の3D初期枠であり、
Figure 2022515591000209
は、座標変換後のi番目の3D初期枠を示す。
式(9)を計算する時に、上記式(3)を利用する必要があり、かつ式(3)における
Figure 2022515591000210

Figure 2022515591000211
は、下記式(11)の形式に置き換えられてよい。
Figure 2022515591000212
式(11)
上記式(11)において、
Figure 2022515591000213
は、ビンの大きさ、すなわち、ビンの角度区間を示す。
式(9)を計算する時に、上記式(3)を利用する必要があり、かつ式(3)における
Figure 2022515591000214

Figure 2022515591000215
は、下記式(12)の形式に置き換えられてよい。
Figure 2022515591000216
式(12)
ここで、
Figure 2022515591000217
は、ビンの大きさ、すなわち、ビンの角度区間を示す。
好ましい例において、第4~第7ニューラルネットワークに対するトレーニングが所定の反復条件を満たすと、今回のトレーニングプロセスが終了する。本開示における所定の反復条件は、第7ニューラルネットワークにより出力された3D初期枠と点群データサンプルの3Dアノテーション枠との間の差異が所定の差異要求を満たし、かつ第6ニューラルネットワークにより出力された信頼度が所定の要求を満たすことを含んでよい。両者がいずれも要求を満たす場合に、第4~第7ニューラルネットワークに対する今回のトレーニングは、成功して完了する。本開示における所定の反復条件は、第4~第7ニューラルネットワークをトレーニングするために使用される点群データサンプルの数が所定の数量要求を満たすなどを含んでもよい。使用される点群データサンプルの数が所定の数量要求を満たすが、両者が同時に要求を満たさない場合に、第4~第7ニューラルネットワークに対する今回のトレーニングが成功しない。
図6は、本開示の車両のインテリジェント制御方法の一実施例のフローチャートである。
図6に示すように、該実施例の方法は、ステップS600、S610、S620、S630、S640及びS650を含む。以下、図6における各ステップをそれぞれ詳細に説明する。
S600において、取得されたシーンの点群データの特徴情報を抽出する。
S610において、点群データの特徴情報に基づいて、点群データに対してセマンティックセグメンテーションを行って、点群データにおける複数の点の第1セマンティック情報を取得する。
S620において、第1セマンティック情報に基づいて、複数の点のうち、ターゲットオブジェクトに対応する少なくとも1つの前景点を予測する。
S630において、第1セマンティック情報に基づいて、少なくとも1つの前景点のそれぞれに対応する3D初期枠を生成する。
S640において、3D初期枠に基づいて、シーンにおけるターゲットオブジェクトの3D検出枠を決定する。
上記S600~S640の具体的な実現プロセスについては、上記実施形態における関連説明を参照することができるため、ここでは説明を省略する。また、上記S600~S640の実現方式は、点群データをニューラルネットワークに提供し、該ニューラルネットワークを介して点群データにおける点に対して特徴情報抽出処理を行い、抽出された特徴情報に基づいてセマンティックセグメンテーション処理を行って、複数の点のセマンティック特徴を取得し、セマンティック特徴に基づいて、複数の点のうちの前景点を予測し、かつ複数の点のうちの少なくとも一部の点のそれぞれに対応する3D初期枠を生成することであってよい。
S650において、上記3D検出枠に基づいて、車両を制御する命令又は早期警報提示情報を生成する。
好ましくは、本開示は、まず、3D検出枠に基づいて、ターゲットオブジェクトのシーンにおける空間位置、大きさ、車両との距離、車両との相対方位情報のうちの少なくとも1つを含むターゲットオブジェクトの情報を決定してよい。次に、決定された少なくとも1つの情報に基づいて、車両を制御する命令又は早期警報提示情報を生成する。本開示において生成される命令は、例えば、時速を上げる命令、時速を下げる命令、又は急ブレーキをかける命令などである。生成される早期警報提示情報は、例えば、ある方位の車両又は歩行者などのターゲットオブジェクトに注意する提示情報などである。本開示は、3D検出枠に基づいて命令又は早期警報提示情報を生成する具体的な実現方式を限定しない。
図7は、本開示の障害物回避ナビゲーション方法の一実施例のフローチャートである。
図7に示すように、該実施例の方法は、ステップS700、S710、S720、S730、S740及びS750を含む。以下、図7における各ステップをそれぞれ詳細に説明する。
S700において、取得されたシーンの点群データの特徴情報を抽出する。
S710において、点群データの特徴情報に基づいて、点群データに対してセマンティックセグメンテーションを行って、点群データにおける複数の点の第1セマンティック情報を取得する。
S720において、第1セマンティック情報に基づいて、複数の点のうち、ターゲットオブジェクトに対応する少なくとも1つの前景点を予測する。
S730において、第1セマンティック情報に基づいて、少なくとも1つの前景点のそれぞれに対応する3D初期枠を生成する。
S740において、3D初期枠に基づいて、シーンにおけるターゲットオブジェクトの3D検出枠を決定する。
上記S700~S740の具体的な実現プロセスについては、上記実施形態における関連説明を参照することができるため、ここでは説明を省略する。また、上記S700~S740の実現方式は、点群データをニューラルネットワークに提供し、該ニューラルネットワークを介して点群データにおける点に対して特徴情報抽出処理を行い、抽出された特徴情報に基づいてセマンティックセグメンテーション処理を行って、複数の点のセマンティック特徴を取得し、セマンティック特徴に基づいて、複数の点のうちの前景点を予測し、かつ複数の点のうちの少なくとも一部の点のそれぞれに対応する3D初期枠を生成することであってよい。
S750において、上記3D検出枠に基づいて、レーザレーダが位置するロボットに対して障害物回避ナビゲーション制御を行う命令又は早期警報提示情報を生成する。
好ましくは、本開示は、まず、3D検出枠に基づいて、ターゲットオブジェクトのシーンにおける空間位置、大きさ、ロボットとの距離、ロボットとの相対方位情報のうちの少なくとも1つを含むターゲットオブジェクトの情報を決定してよい。次に、決定された少なくとも1つの情報に基づいて、ロボットに対して障害物回避ナビゲーション制御を行う命令又は早期警報提示情報を生成する。本開示において生成される命令は、例えば、行動速度を下げる命令、行動を一時停止させる命令、又は旋回させる命令などである。生成される早期警報提示情報は、例えば、ある方位の障害物(すなわち、ターゲットオブジェクト)に注意する提示情報などである。本開示は、3D検出枠に基づいて命令又は早期警報提示情報を生成する具体的な実現方式を限定しない。
図8は、本開示のターゲットオブジェクトの3D検出装置の一実施例の概略構成図である。図8に示す装置は、特徴抽出モジュール800、第1セマンティックセグメンテーションモジュール810、前景点予測モジュール820、初期枠生成モジュール830及び検出枠決定モジュール840を含む。
特徴抽出モジュール800は、主に、取得されたシーンの点群データの特徴情報を抽出する。第1セマンティックセグメンテーションモジュール810は、主に、点群データの特徴情報に基づいて、点群データに対してセマンティックセグメンテーション処理を行って、点群データにおける複数の点の第1セマンティック情報を取得する。前景点予測モジュール820は、主に、第1セマンティック情報に基づいて複数の点のうち、ターゲットオブジェクトに対応する少なくとも1つの前景点を予測する。初期枠生成モジュール830は、主に、第1セマンティック情報に基づいて、少なくとも1つの前景点のそれぞれに対応する3D初期枠を生成する。検出枠決定モジュール840は、主に、3D初期枠に基づいてシーンにおけるターゲットオブジェクトの3D検出枠を決定する。
好ましい例において、検出枠決定モジュール840は、第1サブモジュール、第2サブモジュール及び第3サブモジュールを含んでよい。第1サブモジュールは、主に、点群データにおける、上記3D初期枠を少なくとも含む部分領域内の点の特徴情報を取得する。第2サブモジュールは、主に、部分領域内の点の特徴情報に基づいて、部分領域内の点に対してセマンティックセグメンテーションを行って、部分領域内の点の第2セマンティック情報を取得する。第3サブモジュールは、主に、部分領域内の点の第1セマンティック情報及び第2セマンティック情報に基づいて、シーンにおけるターゲットオブジェクトの3D検出枠を決定する。
好ましい例において、本開示における第3サブモジュールは、第4サブモジュール及び第5サブモジュールを含んでよい。第4サブモジュールは、主に、部分領域内の点の第1セマンティック情報及び第2セマンティック情報に基づいて、3D初期枠を補正して、補正後の3D初期枠を得る。第5サブモジュールは、主に、補正後の3D初期枠に基づいて、シーンにおけるターゲットオブジェクトの3D検出枠を決定する。
好ましい例において、本開示における第3サブモジュールは、さらに、部分領域内の点の第1セマンティック情報及び第2セマンティック情報に基づいて、3D初期枠がターゲットオブジェクトに対応する信頼度を決定し、3D初期枠及びその信頼度に基づいてシーンにおけるターゲットオブジェクトの3D検出枠を決定してよい。
好ましい例において、本開示における第3サブモジュールは、第4サブモジュール、第6サブモジュール及び第7サブモジュールを含んでよい。第4サブモジュールは、主に、部分領域内の点の第1セマンティック情報及び第2セマンティック情報に基づいて、3D初期枠を補正して、補正後の3D初期枠を得る。第6サブモジュールは、主に、部分領域内の点の第1セマンティック情報及び第2セマンティック情報に基づいて、補正後の3D初期枠がターゲットオブジェクトに対応する信頼度を決定する。第7サブモジュールは、主に、補正後の3D初期枠及びその信頼度に基づいて、シーンにおけるターゲットオブジェクトの3D検出枠を決定する。
好ましい例において、本開示における部分領域は、所定のポリシーに基づいて3D初期枠に対してエッジ拡張を行って得られた3D拡張枠を含む。例えば、3D拡張枠は、予め設定されたX軸方向の増分、Y軸方向の増分及び/又はZ軸方向の増分に基づいて、上記3D初期枠に対して3D空間拡張を行って形成された、3D初期枠を含む3D拡張枠であってよい。
好ましい例において、本開示における第2サブモジュールは、第8サブモジュール及び第9サブモジュールを含んでよい。第8サブモジュールは、主に、3D拡張枠の所定のターゲット位置に基づいて、点群データにおける、3D拡張枠内に位置する点の座標情報に対して座標変換を行って、座標変換後の点の特徴情報を取得する。第9サブモジュールは、主に、座標変換後の点の特徴情報に基づいて、3D拡張枠に基づくセマンティックセグメンテーションを行って、3D拡張枠内の点の第2セマンティック特徴を取得する。
好ましくは、第9サブモジュールは、前景点のマスク及び座標変換後の点の特徴情報に基づいて、3D拡張枠に基づくセマンティックセグメンテーションを行って、点の第2セマンティック特徴を取得してよい。
好ましい例において、前景点が複数ある場合に、本開示における検出枠決定モジュール840は、まず、複数の前景点に対応する3D初期枠の間の重なり度を決定し、次に、検出枠決定モジュール840は、重なり度が設定閾値より大きい3D初期枠を選別し、その後、検出枠決定モジュール840は、選別された3D初期枠に基づいて、シーンにおけるターゲットオブジェクトの3D検出枠を決定してよい。
好ましい例において、本開示における特徴抽出モジュール800、第1セマンティックセグメンテーションモジュール810、前景点予測モジュール820及び初期枠生成モジュール830は、第1段階ニューラルネットワークにより実現されてよい。この場合に、本開示の装置は、さらに第1トレーニングモジュールを含んでよい。第1トレーニングモジュールは、3Dアノテーション枠付きの点群データサンプルを利用してトレーニング対象の第1段階ニューラルネットワークをトレーニングする。
好ましい例において、第1トレーニングモジュールが第1段階ニューラルネットワークをトレーニングするプロセスは、以下を含む。
まず、第1トレーニングモジュールは、点群データサンプルを第1段階ニューラルネットワークに提供し、第1段階ニューラルネットワークに基づいて点群データサンプルの特徴情報を抽出し、第1段階ニューラルネットワークは、抽出された特徴情報に基づいて、点群データサンプルに対してセマンティックセグメンテーション処理を行い、第1段階ニューラルネットワークは、セマンティックセグメンテーション処理により取得された複数の点の第1セマンティック特徴に基づいて、複数の点のうち、ターゲットオブジェクトに対応する少なくとも1つの前景点を予測し、かつ第1セマンティック情報に基づいて少なくとも1つの前景点のそれぞれに対応する3D初期枠を生成する。
次に、第1トレーニングモジュールは、前景点に対応する損失と、3D初期枠がその対応する3Dアノテーション枠に対して生成した損失とを取得し、かつ上記損失に基づいて第1段階ニューラルネットワークのネットワークパラメータを調整する。
好ましくは、第1トレーニングモジュールは、第1段階ニューラルネットワークにより予測された前景点の信頼度に基づいて、前景点の予測結果に対応する第1損失を決定してよい。第1トレーニングモジュールは、前景点に対して生成された3D初期枠内のパラメータの所在するビンの番号と、点群データサンプル中の3Dアノテーション枠情報におけるパラメータの所在するビンの番号とに基づいて、第2損失を生成する。第1トレーニングモジュールは、前景点に対して生成された3D初期枠内のパラメータの対応するビンでのオフセット量と、点群データサンプル中の3Dアノテーション枠情報におけるパラメータの対応するビンでのオフセット量とに基づいて、第3損失を生成する。第1トレーニングモジュールは、前景点に対して生成された3D初期枠内のパラメータの所定のパラメータに対するオフセット量に基づいて第4損失を生成する。第1トレーニングモジュールは、前景点の座標パラメータの、該前景点に対して生成された3D初期枠内の座標パラメータに対するオフセット量に基づいて第5損失を生成する。第1トレーニングモジュールは、取得した第1損失、第2損失、第3損失、第4損失及び第5損失に基づいて、第1段階ニューラルネットワークのネットワークパラメータを調整する。
好ましい例において、本開示における第1サブモジュール、第2サブモジュール及び第3サブモジュールは、第2段階ニューラルネットワークにより実現される。この場合に、本開示の装置は、第2トレーニングモジュールをさらに含み、第2トレーニングモジュールは、3Dアノテーション枠付きの点群データサンプルを利用してトレーニング対象の第2段階ニューラルネットワークをトレーニングする。
好ましい例において、第2トレーニングモジュールが第2段階ニューラルネットワークをトレーニングするプロセスは、以下を含む。
まず、第2トレーニングモジュールは、第1段階ニューラルネットワークを利用して取得した3D初期枠を第2段階ニューラルネットワークに提供し、第2段階ニューラルネットワークに基づいて点群データサンプル中の部分領域内の点の特徴情報を取得し、部分領域内の点の特徴情報に基づいて、部分領域内の点に対してセマンティックセグメンテーションを行って、部分領域内の点の第2セマンティック特徴を取得して、第2段階ニューラルネットワークは、部分領域内の点の第1セマンティック特徴及び第2セマンティック特徴に基づいて、3D初期枠がターゲットオブジェクトである信頼度を決定し、かつ部分領域内の点の第1セマンティック特徴及び第2セマンティック特徴に基づいて、位置補正後の3D初期枠を生成する。
次に、第2トレーニングモジュールは、3D初期枠がターゲットオブジェクトである信頼度に対応する損失と、位置補正後の3D初期枠がその対応する3Dアノテーション枠に対して生成した損失とを取得し、かつ取得された損失に基づいて第2段階ニューラルネットワークのネットワークパラメータを調整する。
好ましくは、第2トレーニングモジュールは、第2段階ニューラルネットワークにより予測された、3D初期枠がターゲットオブジェクトである信頼度に基づいて、予測結果に対応する第6損失を決定してよい。第2トレーニングモジュールは、第2段階ニューラルネットワークにより生成された、対応する3Dアノテーション枠との重なり度が設定閾値を超える、位置補正後の3D初期枠内のパラメータの所在するビンの番号と、点群データサンプル中の3Dアノテーション枠情報におけるパラメータの所在するビンの番号とに基づいて、第7損失を生成し、第2トレーニングモジュールは、第2段階ニューラルネットワークにより生成された、対応する3Dアノテーション枠との重なり度が設定閾値を超える、位置補正後の3D初期枠内のパラメータの対応するビンでのオフセット量と、点群データサンプル中の3Dアノテーション枠情報におけるパラメータの対応するビンでのオフセット量とに基づいて、第8損失を生成し、第2トレーニングモジュールは、第2段階ニューラルネットワークにより生成された、対応する3Dアノテーション枠との重なり度が設定閾値を超える、位置補正後の3D初期枠内のパラメータの所定のパラメータに対するオフセット量に基づいて、第9損失を生成し、第2トレーニングモジュールは、第2段階ニューラルネットワークにより生成された、対応する3Dアノテーション枠との重なり度が設定閾値を超える、位置補正後の3D初期枠内の座標パラメータの、3Dアノテーション枠の中心点の座標パラメータに対するオフセット量に基づいて、第10損失を生成し、第2トレーニングモジュールは、第6損失、第7損失、第8損失、第9損失及び第10損失に基づいて第2段階ニューラルネットワークのネットワークパラメータを調整する。
図9は、本開示の車両のインテリジェント制御装置の一実施例の概略構成図である。図9に示すように、該実施例の装置は、ターゲットオブジェクトの3D検出装置900及び第1制御モジュール910を含む。ターゲットオブジェクトの3D検出装置900は、点群データに基づいてターゲットオブジェクトの3D検出枠を取得する。ターゲットオブジェクトの3D検出装置900の具体的な構造と実行する具体的な動作は、上記装置及び方法の実施形態における説明のとおりであるため、ここで詳細に説明しない。第1制御モジュール910は、主に、3D検出枠に基づいて、車両を制御する命令又は早期警報提示情報を生成する。具体的には、上記方法の実施形態における関連説明を参照することができるため、ここで詳細に説明しない。
図10は、本開示の障害物回避ナビゲーション装置であり、図10に示すように、該実施例の装置は、ターゲットオブジェクトの3D検出装置1000及び第2制御モジュール1010を含む。ターゲットオブジェクトの3D検出装置1000は、点群データに基づいてターゲットオブジェクトの3D検出枠を取得する。ターゲットオブジェクトの3D検出装置1000の具体的な構造と実行する具体的な動作は、上記装置及び方法の実施形態における関連説明のとおりであるため、ここで詳細に説明しない。第2制御モジュール1010は、主に、3D検出枠に基づいて、ロボットに対して障害物回避ナビゲーション制御を行う命令又は早期警報提示情報を生成する。具体的には、上記方法の実施形態における関連説明を参照することができるため、ここで詳細に説明しない。
例示的な機器
図11は、本開示の実現に適する例示的な機器1100を示し、機器1100は、自動車に配置された制御システム/電子システム、移動端末(例えば、スマートフォンなど)、パーソナルコンピュータ(PC、例えば、デスクトップコンピュータ又はノートブックコンピュータなど)、タブレットコンピュータ及びサーバなどであってよい。図11において、機器1100は、1つ以上のプロセッサ、通信部などを含み、上記1つ以上のプロセッサは、1つ以上の中央処理装置(CPU)1101、及び/又は、ニューラルネットワークを利用してビジョントラッキングを行う1つ以上の画像プロセッサ(GPU)1113などであってよく、プロセッサは、読み出し専用メモリ(ROM)1102に記憶された実行可能命令、又は記憶部分1108からランダムアクセスメモリ(RAM)1103にロードされた実行可能命令に基づいて、様々な適切な動作及び処理を実行してよい。通信部1112は、ネットワークカードを含むが、これに限定されず、上記ネットワークカードは、IB(Infiniband)ネットワークカードを含むが、これに限定されない。プロセッサは、読み出し専用メモリ1102及び/又はランダムアクセスメモリ1103と通信して実行可能命令を実行し、バス1104を介して通信部1112に接続され、かつ通信部1112を介して他のターゲット機器と通信することにより、本開示における対応するステップを完了する。上記各命令により実行される動作については、上記方法の実施例における関連説明を参照することができるため、ここで詳細に説明しない。RAM1103には、装置の動作に必要な様々なプログラム及びデータがさらに記憶されてよい。CPU1101、ROM1102、及びRAM1103は、バス1104を介して互いに接続される。
RAM1103がある場合に、ROM1102は、オプションモジュールである。RAM1103は、実行可能命令を記憶するか、又は実行時にROM1102に実行可能命令を書き込み、実行可能な命令は、上記ターゲットオブジェクトの3D検出方法に含まれるステップを中央処理装置1101に実行させる。入力/出力(I/O)インタフェース1105もバス1104に接続される。通信部1112は、集積して設置されてもよく、複数のサブモジュール(例えば、複数のIBネットワークカード)を有し、かつそれぞれバスに接続されるように設置されてもよい。キーボード、マウスなどを含む入力部分1106と、ブラウン管(CRT)、液晶ディスプレイ(LCD)など及びスピーカなどを含む出力部分1107と、ハードディスクなどを含む記憶部分1108と、LANカード、モデムなどのネットワークインタフェースカードを含む通信部分1109とは、I/Oインタフェース1105に接続される。通信部分1109は、インターネットなどのネットワークを介して通信処理を実行する。ドライブ1110も必要に応じてI/Oインタフェース1105に接続される。磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどのリムーバブル媒体1111は、そこから読み出されたコンピュータプログラムが必要に応じて記憶部分1108にインストールされるように、必要に応じてドライブ1110にインストールされる。
なお、図11に示すアーキテクチャは、好ましい実現方式に過ぎず、具体的な実践過程において、実際の必要に応じて上記図11における部品の数及び種類を選択、削除、追加、又は置換してよく、異なる機能部品の設置について、分離設置又は集積設置などの実現方式を採用してもよく、例えば、GPU 1113とCPU 1101が分離して設置されてよく、また、例えば、GPU 1113がCPU 1101に集積されてよく、通信部1112は、分離して設置されてもよく、CPU 1101又はGPU 1113に集積して設置されてもよい。これらの代替的な実施形態は、いずれも本開示の保護範囲に属する。特に、本開示の実施形態によれば、以下にフローチャートを参照して説明されるプロセスは、コンピュータソフトウェアプログラムとして実現されてよく、例えば、本開示の実施形態は、機械可読媒体に有形に含まれるコンピュータプログラムを含むコンピュータプログラム製品を含み、コンピュータプログラムは、フローチャートに示されるステップを実行するプログラムコードを含み、プログラムコードは、本開示に係る方法におけるステップを対応して実行する対応命令を含んでよい。このような実施形態において、該コンピュータプログラムは、通信部分1109によりネットワークからダウンロードされインストールされ、及び/又はリムーバブル媒体1111からインストールされてよい。該コンピュータプログラムが中央処理装置(CPU)1101により実行されると、本開示に記載の、上記対応するステップを実現する命令を実行する。
1つ以上の好ましい実施形態において、本開示の実施例は、実行されると、上記任意の実施例に記載のターゲットオブジェクトの3D検出方法をコンピュータに実行させるコンピュータ可読命令を記憶するコンピュータプログラム製品をさらに提供する。
該コンピュータプログラム製品は、具体的には、ハードウェア、ソフトウェア又はそれらの組み合わせにより実現されてよい。好ましい例において、上記コンピュータプログラム製品は、具体的には、コンピュータ記憶媒体として具現化され、別の好ましい例において、上記コンピュータプログラム製品は、具体的には、例えばソフトウェア開発キット(Software Development Kit、SDK)などのソフトウェア製品として具現化される。
1つ以上の好ましい実施形態において、本開示の実施例は、別のターゲットオブジェクトの3D検出方法及び対応する装置、電子機器、コンピュータ記憶媒体、コンピュータプログラム並びにコンピュータプログラム製品をさらに提供し、ターゲットオブジェクトの3D検出方法は、上記いずれか1つの可能な実施例におけるターゲットオブジェクトの3D検出方法を第2装置に実行させるターゲットオブジェクト3D検出指示を第1装置が第2装置に送信することと、第1の装置が第2の装置から送信されたターゲットオブジェクト3D検出結果を受信することと、を含む。
いくつかの実施例において、該ターゲットオブジェクト3D検出指示は、具体的には、呼び出し命令であってよく、第1装置は、呼び出し方式で、ターゲットオブジェクト3D検出動作を実行するように第2装置に指示することができ、それに応じて、呼び出し命令を受信したことに応答して、第2装置は、上記ターゲットオブジェクトの3D検出方法の任意の実施例におけるステップ及び/又はフローを実行することができる。
本開示の実施例における「第1」、「第2」などの用語は、区別するためのものに過ぎず、本開示の実施例を限定するものと理解すべきではないことを理解されたい。さらに、本開示では、「複数」は、2つ又は2つ以上を指してよく、「少なくとも1つ」は、1つ、2つ又は2つ以上を指してよいことを理解されたい。さらに、本開示で言及された任意の部品、データ又は構造は、明確に限定されるか又は明細書の前後で反対的に示唆された場合でなければ、一般的には1つ又は複数と理解してよいことを理解されたい。さらに、本開示における各実施例についての説明は各実施例の間の相違点を重点として強調し、その同一又は類似する点については互いに参照してよく、簡潔にするために、ここで一つずつ繰り返して説明しないことを理解されたい。
本開示の方法、装置、電子機器及びコンピュータ可読記憶媒体は、様々な形態で実現されてよい。例えば、ソフトウェア、ハードウェア、ファームウェア、又はソフトウェア、ハードウェア、ファームウェアの任意の組み合わせによって本開示の方法、装置、電子機器及びコンピュータ可読記憶媒体を実現することができる。方法のステップのための上記順序は、説明するためのものに過ぎず、本開示の方法のステップは、他の方式で特に説明しない限り、以上で具体的に説明された順序に限定されない。また、いくつかの実施形態において、さらに本開示は、記録媒体に記憶されたプログラムとして実施することができ、これらのプログラムは本開示に係る方法を実現するための機械可読命令を含む。したがって、本開示は、本開示に係る方法を実行するためのプログラムが記憶された記録媒体も含む。
本開示の説明は、例示及び説明のために提示されたものであり、網羅的なものであり、もしくは開示された形式に本開示を限定するというわけでない。多くの修正及び変形は、当業者にとって明らかである。実施形態は、本開示の原理及び実際の適用をよりよく説明し、かつ当業者が本開示の実施例を理解して特定用途に適した様々な修正を加えた様々な実施形態を設計可能にするように選択され説明されたものである。

Claims (43)

  1. 取得されたシーンの点群データの特徴情報を抽出することと、
    前記点群データの特徴情報に基づいて、前記点群データに対してセマンティックセグメンテーションを行って、前記点群データにおける複数の点の第1セマンティック情報を取得することと、
    前記第1セマンティック情報に基づいて、前記複数の点のうち、ターゲットオブジェクトに対応する少なくとも1つの前景点を予測することと、
    前記第1セマンティック情報に基づいて、前記少なくとも1つの前景点のそれぞれに対応する3D初期枠を生成することと、
    前記3D初期枠に基づいて、前記シーンにおける前記ターゲットオブジェクトの3D検出枠を決定することとを含む、ことを特徴とするターゲットオブジェクトの3D検出方法。
  2. 前記3D初期枠に基づいて、前記シーンにおける前記ターゲットオブジェクトの3D検出枠を決定することは、
    前記点群データにおける、前記3D初期枠を少なくとも含む部分領域内の点の特徴情報を取得することと、
    前記部分領域内の点の特徴情報に基づいて、前記部分領域内の点に対してセマンティックセグメンテーションを行って、前記部分領域内の点の第2セマンティック情報を取得することと、
    前記部分領域内の点の第1セマンティック情報及び第2セマンティック情報に基づいて、前記シーンにおける前記ターゲットオブジェクトの3D検出枠を決定することと、を含む、請求項1に記載の方法。
  3. 前記部分領域内の点の第1セマンティック情報及び第2セマンティック情報に基づいて、前記シーンにおける前記ターゲットオブジェクトの3D検出枠を決定することは、
    前記部分領域内の点の第1セマンティック情報及び第2セマンティック情報に基づいて、前記3D初期枠を補正して、補正後の3D初期枠を得ることと、
    補正後の3D初期枠に基づいて、前記シーンにおける前記ターゲットオブジェクトの3D検出枠を決定することと、を含む、請求項2に記載の方法。
  4. 前記部分領域内の点の第1セマンティック情報及び第2セマンティック情報に基づいて、前記シーンにおける前記ターゲットオブジェクトの3D検出枠を決定することは、
    前記部分領域内の点の第1セマンティック情報及び第2セマンティック情報に基づいて、前記3D初期枠がターゲットオブジェクトに対応する信頼度を決定することと、
    前記3D初期枠及びその信頼度に基づいて、前記シーンにおける前記ターゲットオブジェクトの3D検出枠を決定することと、を含む、請求項2に記載の方法。
  5. 前記部分領域内の点の第1セマンティック情報及び第2セマンティック情報に基づいて、前記シーンにおける前記ターゲットオブジェクトの3D検出枠を決定することは、
    前記部分領域内の点の第1セマンティック情報及び第2セマンティック情報に基づいて、前記3D初期枠を補正して、補正後の3D初期枠を得ることと、
    前記部分領域内の点の第1セマンティック情報及び第2セマンティック情報に基づいて、前記補正後の3D初期枠がターゲットオブジェクトに対応する信頼度を決定することと、
    前記補正後の3D初期枠及びその信頼度に基づいて、前記シーンにおける前記ターゲットオブジェクトの3D検出枠を決定することと、を含む、請求項2に記載の方法。
  6. 前記部分領域は、
    所定のポリシーに基づいて3D初期枠に対してエッジ拡張を行って得られた3D拡張枠を含む、ことを特徴とする請求項2~5のいずれか一項に記載の方法。
  7. 前記3D拡張枠は、
    予め設定されたX軸方向の増分、Y軸方向の増分及び/又はZ軸方向の増分に基づいて、前記3D初期枠に対して3D空間拡張を行って形成された、前記3D初期枠を含む3D拡張枠を含む、ことを特徴とする請求項6に記載の方法。
  8. 前記部分領域内の点の特徴情報に基づいて前記部分領域内の点に対してセマンティックセグメンテーションを行って、前記部分領域内の点の第2セマンティック情報を取得することは、
    前記3D拡張枠の所定のターゲット位置に基づいて、点群データにおける、前記3D拡張枠内に位置する点の座標情報に対して座標変換を行って、座標変換後の点の特徴情報を取得することと、
    座標変換後の点の特徴情報に基づいて、前記3D拡張枠に基づくセマンティックセグメンテーションを行って、前記3D拡張枠内の点の第2セマンティック特徴を取得することとを含む、ことを特徴とする請求項6又は7に記載の方法。
  9. 前記座標変換後の点の特徴情報に基づいて、前記3D拡張枠に基づくセマンティックセグメンテーションを行うことは、
    前記前景点のマスク及び座標変換後の点の特徴情報に基づいて、前記3D拡張枠に基づくセマンティックセグメンテーションを行うことを含む、ことを特徴とする請求項8に記載の方法。
  10. 前記前景点は複数あり、前記3D初期枠に基づいて、前記シーンにおける前記ターゲットオブジェクトの3D検出枠を決定することは、
    複数の前記前景点に対応する3D初期枠の間の重なり度を決定することと、
    重なり度が設定閾値より大きい3D初期枠を選別することと、
    選別された3D初期枠に基づいて、前記シーンにおける前記ターゲットオブジェクトの3D検出枠を決定することと、を含む、請求項1に記載の方法。
  11. 前記取得されたシーンの点群データの特徴情報を抽出することと、前記点群データの特徴情報に基づいて、前記点群データに対してセマンティックセグメンテーションを行って、前記点群データにおける複数の点の第1セマンティック情報を取得することと、前記第1セマンティック情報に基づいて、前記複数の点のうち、ターゲットオブジェクトに対応する少なくとも1つの前景点を予測することと、前記第1セマンティック情報に基づいて、前記少なくとも1つの前景点のそれぞれに対応する3D初期枠を生成することとは、第1段階ニューラルネットワークにより実現され、
    前記第1段階ニューラルネットワークは、3Dアノテーション枠付きの点群データサンプルを利用してトレーニングして得られる、ことを特徴とする請求項1~10のいずれか一項に記載の方法。
  12. 前記第1段階ニューラルネットワークのトレーニングプロセスは、
    点群データサンプルを前記第1段階ニューラルネットワークに提供し、前記第1段階ニューラルネットワークに基づいて前記点群データサンプルの特徴情報を抽出し、前記点群データサンプルの特徴情報に基づいて前記点群データサンプルに対してセマンティックセグメンテーションを行い、セマンティックセグメンテーションにより取得された複数の点の第1セマンティック特徴に基づいて前記複数の点のうち、ターゲットオブジェクトに対応する少なくとも1つの前景点を予測し、かつ前記第1セマンティック情報に基づいて前記少なくとも1つの前景点のそれぞれに対応する3D初期枠を生成することと、
    前記前景点に対応する損失と、前記3D初期枠がその対応する3Dアノテーション枠に対して生成した損失とを取得し、かつ前記損失に基づいて前記第1段階ニューラルネットワークのネットワークパラメータを調整することとを含む、ことを特徴とする請求項11に記載の方法。
  13. 前記前景点に対応する損失と、前記3D初期枠がその対応する3Dアノテーション枠に対して生成した損失とを取得し、かつ前記損失に基づいて前記第1段階ニューラルネットワークのネットワークパラメータを調整することは、
    前記第1段階ニューラルネットワークにより予測された前記前景点の信頼度に基づいて、前記前景点の予測結果に対応する第1損失を決定することと、
    前記前景点に対して生成された3D初期枠内のパラメータの所在するビンの番号と、前記点群データサンプル中の3Dアノテーション枠情報における、パラメータの所在するビンの番号とに基づいて、第2損失を生成することと、
    前記前景点に対して生成された3D初期枠内のパラメータの対応するビンでのオフセット量と、前記点群データサンプル中の3Dアノテーション枠情報におけるパラメータの対応するビンでのオフセット量とに基づいて、第3損失を生成することと、
    前記前景点に対して生成された3D初期枠内のパラメータの所定のパラメータに対するオフセット量に基づいて、第4損失を生成することと、
    前記前景点の座標パラメータの、該前景点に対して生成された3D初期枠内の座標パラメータに対するオフセット量に基づいて、第5損失を生成することと、
    前記第1損失、第2損失、第3損失、第4損失及び第5損失に基づいて、前記第1段階ニューラルネットワークのネットワークパラメータを調整することとを含む、ことを特徴とする請求項12に記載の方法。
  14. 前記点群データにおける、部分領域内の点の特徴情報を取得することと、前記部分領域内の点の特徴情報に基づいて、前記部分領域内の点に対してセマンティックセグメンテーションを行って、前記部分領域内の点の第2セマンティック情報を取得することと、前記部分領域内の点の前記第1セマンティック情報及び前記第2セマンティック情報に基づいて、前記シーンにおける前記ターゲットオブジェクトの3D検出枠を決定することとは、第2段階ニューラルネットワークにより実現され、
    前記第2段階ニューラルネットワークは、3Dアノテーション枠付きの点群データサンプルを利用してトレーニングして得られる、ことを特徴とする請求項2~9のいずれか一項に記載の方法。
  15. 前記第2段階ニューラルネットワークのトレーニングプロセスは、
    前記3D初期枠を第2段階ニューラルネットワークに提供し、第2段階ニューラルネットワークに基づいて前記点群データサンプル中の部分領域内の点の特徴情報を取得し、前記点群データサンプル中の部分領域内の点の特徴情報に基づいて前記点群データサンプル中の部分領域内の点に対してセマンティックセグメンテーションを行って、前記点群データサンプル中の部分領域内の点の第2セマンティック特徴を取得して、前記点群データサンプル中の部分領域内の点の第1セマンティック特徴及び第2セマンティック特徴に基づいて、前記3D初期枠がターゲットオブジェクトである信頼度を決定し、かつ前記点群データサンプル中の部分領域内の点の第1セマンティック特徴及び第2セマンティック特徴に基づいて、位置補正後の3D初期枠を生成することと、
    前記3D初期枠がターゲットオブジェクトである信頼度に対応する損失と、前記位置補正後の3D初期枠がその対応する3Dアノテーション枠に対して生成した損失とを取得し、かつ前記損失に基づいて前記第2段階ニューラルネットワークのネットワークパラメータを調整することとを含む、ことを特徴とする請求項14に記載の方法。
  16. 前記3D初期枠がターゲットオブジェクトである信頼度に対応する損失と、前記位置補正後の3D初期枠がその対応する3Dアノテーション枠に対して生成した損失とを取得し、かつ前記損失に基づいて前記第2段階ニューラルネットワークのネットワークパラメータを調整することは、
    第2段階ニューラルネットワークにより予測された、3D初期枠がターゲットオブジェクトである信頼度に基づいて、予測結果に対応する第6損失を決定することと、
    第2段階ニューラルネットワークにより生成された、対応する3Dアノテーション枠との重なり度が設定閾値を超える位置補正後の3D初期枠内のパラメータの所在するビンの番号と、点群データサンプル中の3Dアノテーション枠情報における、パラメータの所在するビンの番号とに基づいて、第7損失を生成することと、
    第2段階ニューラルネットワークにより生成された、対応する3Dアノテーション枠との重なり度が設定閾値を超える位置補正後の3D初期枠内のパラメータの対応するビンでのオフセット量と、点群データサンプル中の3Dアノテーション枠情報におけるパラメータの対応するビンでのオフセット量とに基づいて、第8損失を生成することと、
    第2段階ニューラルネットワークにより生成された、対応する3Dアノテーション枠との重なり度が設定閾値を超える位置補正後の3D初期枠内のパラメータの所定のパラメータに対するオフセット量に基づいて、第9損失を生成することと、
    第2段階ニューラルネットワークにより生成された、対応する3Dアノテーション枠との重なり度が設定閾値を超える位置補正後の3D初期枠内の座標パラメータの、3Dアノテーション枠の中心点の座標パラメータに対するオフセット量に基づいて、第10損失を生成することと、
    前記第6損失、第7損失、第8損失、第9損失及び第10損失に基づいて、前記第2段階ニューラルネットワークのネットワークパラメータを調整することとを含む、ことを特徴とする請求項15に記載の方法。
  17. 請求項1~16のいずれか一項に記載のターゲットオブジェクトの3D検出方法を用いてターゲットオブジェクトの3D検出枠を取得することと、
    前記3D検出枠に基づいて、車両を制御する命令又は早期警報提示情報を生成することとを含む、ことを特徴とする車両のインテリジェント制御方法。
  18. 前記3D検出枠に基づいて、車両を制御する命令又は早期警報提示情報を生成することは、
    前記3D検出枠に基づいて、前記ターゲットオブジェクトのシーンにおける空間位置、大きさ、車両との距離、及び車両との相対方位情報のうちの少なくとも1つを含む前記ターゲットオブジェクトの情報を決定することと、
    決定された前記少なくとも1つの情報に基づいて、前記車両を制御する命令又は早期警報提示情報を生成することとを含む、請求項17に記載の方法。
  19. 請求項1~16のいずれか一項に記載のターゲットオブジェクトの3D検出方法を用いてターゲットオブジェクトの3D検出枠を取得することと、
    前記3D検出枠に基づいて、ロボットに対して障害物回避ナビゲーション制御を行う命令又は早期警報提示情報を生成することとを含む、ことを特徴とする障害物回避ナビゲーション方法。
  20. 前記3D検出枠に基づいて、ロボットに対して障害物回避ナビゲーション制御を行う命令又は早期警報提示情報を生成することは、
    前記3D検出枠に基づいて、前記ターゲットオブジェクトのシーンにおける空間位置、大きさ、ロボットとの距離、ロボットとの相対方位情報のうちの少なくとも1つを含む前記ターゲットオブジェクトの情報を決定することと、
    決定された前記少なくとも1つの情報に基づいて、前記ロボットに対して障害物回避ナビゲーション制御を行う命令又は早期警報提示情報を生成することと、を含む、請求項19に記載の方法。
  21. 取得されたシーンの点群データの特徴情報を抽出する特徴抽出モジュールと、
    前記点群データの特徴情報に基づいて、前記点群データに対してセマンティックセグメンテーションを行って、前記点群データにおける複数の点の第1セマンティック情報を取得する第1セマンティックセグメンテーションモジュールと、
    前記第1セマンティック情報に基づいて、前記複数の点のうち、ターゲットオブジェクトに対応する少なくとも1つの前景点を予測する前景点予測モジュールと、
    前記第1セマンティック情報に基づいて、前記少なくとも1つの前景点のそれぞれに対応する3D初期枠を生成する初期枠生成モジュールと、
    前記3D初期枠に基づいて、前記シーンにおける前記ターゲットオブジェクトの3D検出枠を決定する検出枠決定モジュールとを含む、ことを特徴とするターゲットオブジェクトの3D検出装置。
  22. 前記検出枠決定モジュールは、
    前記点群データにおける、前記3D初期枠を少なくとも含む部分領域内の点の特徴情報を取得する第1サブモジュールと、
    前記部分領域内の点の特徴情報に基づいて、前記部分領域内の点に対してセマンティックセグメンテーションを行って、前記部分領域内の点の第2セマンティック情報を取得する第2サブモジュールと、
    前記部分領域内の点の第1セマンティック情報及び第2セマンティック情報に基づいて、前記シーンにおける前記ターゲットオブジェクトの3D検出枠を決定する第3サブモジュールと、をさらに含む、請求項21に記載の装置。
  23. 前記第3サブモジュールは、
    前記部分領域内の点の第1セマンティック情報及び第2セマンティック情報に基づいて、前記3D初期枠を補正して、補正後の3D初期枠を得る第4サブモジュールと、
    補正後の3D初期枠に基づいて、前記シーンにおける前記ターゲットオブジェクトの3D検出枠を決定する第5サブモジュールと、を含む、請求項22に記載の装置。
  24. 前記第3サブモジュールは、さらに、
    前記部分領域内の点の第1セマンティック情報及び第2セマンティック情報に基づいて、前記3D初期枠がターゲットオブジェクトに対応する信頼度を決定し、
    前記3D初期枠及びその信頼度に基づいて、前記シーンにおける前記ターゲットオブジェクトの3D検出枠を決定する、請求項22に記載の装置。
  25. 前記第3サブモジュールは、
    前記部分領域内の点の第1セマンティック情報及び第2セマンティック情報に基づいて、前記3D初期枠を補正して、補正後の3D初期枠を得る第4サブモジュールと、
    前記部分領域内の点の第1セマンティック情報及び第2セマンティック情報に基づいて、前記補正後の3D初期枠がターゲットオブジェクトに対応する信頼度を決定する第6サブモジュールと、
    前記補正後の3D初期枠及びその信頼度に基づいて、前記シーンにおける前記ターゲットオブジェクトの3D検出枠を決定する第7サブモジュールと、を含む、請求項22に記載の装置。
  26. 前記部分領域は、
    所定のポリシーに基づいて3D初期枠に対してエッジ拡張を行って得られた3D拡張枠を含む、ことを特徴とする請求項22~25のいずれか一項に記載の装置。
  27. 前記3D拡張枠は、
    予め設定されたX軸方向の増分、Y軸方向の増分及び/又はZ軸方向の増分に基づいて、前記3D初期枠に対して3D空間拡張を行って形成された、前記3D初期枠を含む3D拡張枠を含む、ことを特徴とする請求項26に記載の装置。
  28. 前記第2サブモジュールは、
    前記3D拡張枠の所定のターゲット位置に基づいて、点群データにおける、前記3D拡張枠内に位置する点の座標情報に対して座標変換を行って、座標変換後の点の特徴情報を取得する第8サブモジュールと、
    座標変換後の点の特徴情報に基づいて、前記3D拡張枠に基づくセマンティックセグメンテーションを行って、前記3D拡張枠内の点の第2セマンティック特徴を取得する第9サブモジュールとを含む、ことを特徴とする請求項26又は27に記載の装置。
  29. 前記第9サブモジュールは、さらに、
    前記前景点のマスク及び座標変換後の点の特徴情報に基づいて、前記3D拡張枠に基づくセマンティックセグメンテーションを行う、ことを特徴とする請求項28に記載の装置。
  30. 前記前景点は複数あり、前記検出枠決定モジュールは、さらに、
    複数の前記前景点に対応する3D初期枠の間の重なり度を決定し、
    重なり度が設定閾値より大きい3D初期枠を選別し、
    選別された3D初期枠に基づいて前記シーンにおける前記ターゲットオブジェクトの3D検出枠を決定する、請求項21に記載の装置。
  31. 前記特徴抽出モジュール、第1セマンティックセグメンテーションモジュール、前景点予測モジュール及び初期枠生成モジュールは、第1段階ニューラルネットワークにより実現され、かつ前記第1段階ニューラルネットワークは、第1トレーニングモジュールが3Dアノテーション枠付きの点群データサンプルを利用してトレーニングして得るものである、ことを特徴とする請求項21~30のいずれか一項に記載の装置。
  32. 前記第1トレーニングモジュールは、
    点群データサンプルを前記第1段階ニューラルネットワークに提供し、前記第1段階ニューラルネットワークに基づいて前記点群データサンプルの特徴情報を抽出し、前記点群データサンプルの特徴情報に基づいて前記点群データサンプルに対してセマンティックセグメンテーションを行い、セマンティックセグメンテーションにより取得された複数の点の第1セマンティック特徴に基づいて前記複数の点のうち、ターゲットオブジェクトに対応する少なくとも1つの前景点を予測し、かつ前記第1セマンティック情報に基づいて前記少なくとも1つの前景点のそれぞれに対応する3D初期枠を生成し、
    前記前景点に対応する損失と、前記3D初期枠がその対応する3Dアノテーション枠に対して生成した損失とを取得し、かつ前記損失に基づいて前記第1段階ニューラルネットワークのネットワークパラメータを調整する、ことを特徴とする請求項31に記載の装置。
  33. 前記第1トレーニングモジュールは、さらに、
    前記第1段階ニューラルネットワークにより予測された前記前景点の信頼度に基づいて、前記前景点の予測結果に対応する第1損失を決定し、
    前記前景点に対して生成された3D初期枠内のパラメータの所在するビンの番号と、前記点群データサンプル中の3Dアノテーション枠情報における、パラメータの所在するビンの番号とに基づいて、第2損失を生成し、
    前記前景点に対して生成された3D初期枠内のパラメータの対応するビンでのオフセット量と、前記点群データサンプル中の3Dアノテーション枠情報におけるパラメータの対応するビンでのオフセット量とに基づいて、第3損失を生成し、
    前記前景点に対して生成された3D初期枠内のパラメータの所定のパラメータに対するオフセット量に基づいて、第4損失を生成し、
    前記前景点の座標パラメータの、該前景点に対して生成された3D初期枠内の座標パラメータに対するオフセット量に基づいて、第5損失を生成し、
    前記第1損失、第2損失、第3損失、第4損失及び第5損失に基づいて、前記第1段階ニューラルネットワークのネットワークパラメータを調整する、ことを特徴とする請求項32に記載の装置。
  34. 前記第1サブモジュール、第2サブモジュール及び第3サブモジュールは、第2段階ニューラルネットワークにより実現され、かつ前記第2段階ニューラルネットワークは、第2トレーニングモジュールが3Dアノテーション枠付きの点群データサンプルを利用してトレーニングして得るものである、ことを特徴とする請求項22~29のいずれか一項に記載の装置。
  35. 前記第2トレーニングモジュールは、
    前記3D初期枠を第2段階ニューラルネットワークに提供し、第2段階ニューラルネットワークに基づいて前記点群データサンプル中の部分領域内の点の特徴情報を取得し、前記点群データサンプル中の部分領域内の点の特徴情報に基づいて前記点群データサンプル中の部分領域内の点に対してセマンティックセグメンテーションを行って、点群データサンプル中の部分領域内の点の第2セマンティック特徴を取得して、前記点群データサンプル中の部分領域内の点の第1セマンティック特徴及び第2セマンティック特徴に基づいて、前記3D初期枠がターゲットオブジェクトである信頼度を決定し、かつ前記点群データサンプル中の部分領域内の点の第1セマンティック特徴及び前記第2セマンティック特徴に基づいて、位置補正後の3D初期枠を生成し、
    前記3D初期枠がターゲットオブジェクトである信頼度に対応する損失と、前記位置補正後の3D初期枠がその対応する3Dアノテーション枠に対して生成した損失とを取得し、かつ前記損失に基づいて前記第2段階ニューラルネットワークのネットワークパラメータを調整する、ことを特徴とする請求項34に記載の装置。
  36. 前記第2トレーニングモジュールは、さらに、
    第2段階ニューラルネットワークにより予測された、3D初期枠がターゲットオブジェクトである信頼度に基づいて、予測結果に対応する第6損失を決定し、
    第2段階ニューラルネットワークにより生成された、対応する3Dアノテーション枠との重なり度が設定閾値を超える位置補正後の3D初期枠内のパラメータの所在するビンの番号と、点群データサンプル中の3Dアノテーション枠情報における、パラメータの所在するビンの番号とに基づいて、第7損失を生成し、
    第2段階ニューラルネットワークにより生成された、対応する3Dアノテーション枠との重なり度が設定閾値を超える位置補正後の3D初期枠内のパラメータの対応するビンでのオフセット量と、点群データサンプル中の3Dアノテーション枠情報におけるパラメータの対応するビンでのオフセット量とに基づいて、第8損失を生成し、
    第2段階ニューラルネットワークにより生成された、対応する3Dアノテーション枠との重なり度が設定閾値を超える位置補正後の3D初期枠内のパラメータの所定のパラメータに対するオフセット量に基づいて、第9損失を生成し、
    第2段階ニューラルネットワークにより生成された、対応する3Dアノテーション枠との重なり度が設定閾値を超える位置補正後の3D初期枠内の座標パラメータの、3Dアノテーション枠の中心点の座標パラメータに対するオフセット量に基づいて、第10損失を生成し、
    前記第6損失、第7損失、第8損失、第9損失及び第10損失に基づいて、前記第2段階ニューラルネットワークのネットワークパラメータを調整する、ことを特徴とする請求項35に記載の装置。
  37. ターゲットオブジェクトの3D検出枠を取得する請求項21~36のいずれか一項に記載のターゲットオブジェクトの3D検出装置と、
    前記3D検出枠に基づいて、車両を制御する命令又は早期警報提示情報を生成する第1制御モジュールとを含む、ことを特徴とする車両のインテリジェント制御装置。
  38. 前記第1制御モジュールは、さらに、
    前記3D検出枠に基づいて、前記ターゲットオブジェクトのシーンにおける空間位置、大きさ、車両との距離、車両との相対方位情報のうちの少なくとも1つを含む前記ターゲットオブジェクトの情報を決定し、
    決定された前記少なくとも1つの情報に基づいて、前記車両を制御する命令又は早期警報提示情報を生成する、請求項37に記載の装置。
  39. ターゲットオブジェクトの3D検出枠を取得する請求項21~36のいずれか一項に記載のターゲットオブジェクトの3D検出装置と、
    前記3D検出枠に基づいて、ロボットに対して障害物回避ナビゲーション制御を行う命令又は早期警報提示情報を生成する第2制御モジュールとを含む、ことを特徴とする障害物回避ナビゲーション装置。
  40. 前記第2制御モジュールは、さらに、
    前記3D検出枠に基づいて、前記ターゲットオブジェクトのシーンにおける空間位置、大きさ、ロボットとの距離、ロボットとの相対方位情報のうちの少なくとも1つを含む前記ターゲットオブジェクトの情報を決定し、
    決定された前記少なくとも1つの情報に基づいて、前記ロボットに対して障害物回避ナビゲーション制御を行う命令又は早期警報提示情報を生成する、請求項39に記載の装置。
  41. コンピュータプログラムを記憶するメモリと、
    前記メモリに記憶されたコンピュータプログラムを実行し、かつ前記コンピュータプログラムを実行すると、上記請求項1~20のいずれか一項に記載の方法を実現するプロセッサと、を含む、電子機器。
  42. プロセッサにより実行されると、上記請求項1~20のいずれか一項に記載の方法を実現するコンピュータプログラムが記憶されているコンピュータ可読記憶媒体。
  43. 機器のプロセッサで実行されると、上記請求項1~20のいずれか一項に記載の方法を実現するコンピュータ命令を含むコンピュータプログラム。
JP2021526222A 2018-11-29 2019-11-13 ターゲットオブジェクトの3d検出方法、装置、媒体及び機器 Pending JP2022515591A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201811446588.8 2018-11-29
CN201811446588.8A CN109635685B (zh) 2018-11-29 2018-11-29 目标对象3d检测方法、装置、介质及设备
PCT/CN2019/118126 WO2020108311A1 (zh) 2018-11-29 2019-11-13 目标对象3d检测方法、装置、介质及设备

Publications (1)

Publication Number Publication Date
JP2022515591A true JP2022515591A (ja) 2022-02-21

Family

ID=66070171

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021526222A Pending JP2022515591A (ja) 2018-11-29 2019-11-13 ターゲットオブジェクトの3d検出方法、装置、媒体及び機器

Country Status (4)

Country Link
JP (1) JP2022515591A (ja)
KR (1) KR20210078529A (ja)
CN (1) CN109635685B (ja)
WO (1) WO2020108311A1 (ja)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635685B (zh) * 2018-11-29 2021-02-12 北京市商汤科技开发有限公司 目标对象3d检测方法、装置、介质及设备
CN112101066B (zh) * 2019-06-17 2024-03-08 商汤集团有限公司 目标检测方法和装置及智能驾驶方法、设备和存储介质
WO2020258218A1 (zh) * 2019-06-28 2020-12-30 深圳市大疆创新科技有限公司 可移动平台的障碍物检测方法、装置及可移动平台
CN110458112B (zh) * 2019-08-14 2020-11-20 上海眼控科技股份有限公司 车辆检测方法、装置、计算机设备和可读存储介质
CN112444784B (zh) * 2019-08-29 2023-11-28 北京市商汤科技开发有限公司 三维目标检测及神经网络的训练方法、装置及设备
CN110751090B (zh) * 2019-10-18 2022-09-20 宁波博登智能科技有限公司 一种三维点云标注方法、装置及电子设备
CN110991468B (zh) * 2019-12-13 2023-12-19 深圳市商汤科技有限公司 三维目标检测和智能行驶方法、装置、设备
CN111179247A (zh) * 2019-12-27 2020-05-19 上海商汤智能科技有限公司 三维目标检测方法及其模型的训练方法及相关装置、设备
CN111507973B (zh) * 2020-04-20 2024-04-12 上海商汤临港智能科技有限公司 目标检测方法及装置、电子设备和存储介质
CN111539347B (zh) * 2020-04-27 2023-08-08 北京百度网讯科技有限公司 用于检测目标的方法和装置
CN111860373B (zh) * 2020-07-24 2022-05-20 浙江商汤科技开发有限公司 目标检测方法及装置、电子设备和存储介质
CN111968133A (zh) * 2020-07-31 2020-11-20 上海交通大学 自动驾驶场景下的三维点云数据实例分割方法及系统
CN112200768A (zh) * 2020-09-07 2021-01-08 华北水利水电大学 一种基于地理位置的点云信息提取系统
CN111931727A (zh) * 2020-09-23 2020-11-13 深圳市商汤科技有限公司 点云数据标注方法、装置、电子设备和存储介质
US11756317B2 (en) * 2020-09-24 2023-09-12 Argo AI, LLC Methods and systems for labeling lidar point cloud data
CN112183330B (zh) * 2020-09-28 2022-06-28 北京航空航天大学 基于点云的目标检测方法
WO2022088676A1 (zh) * 2020-10-29 2022-05-05 平安科技(深圳)有限公司 三维点云语义分割方法、装置、设备及介质
CN112598635B (zh) * 2020-12-18 2024-03-12 武汉大学 一种基于对称点生成的点云3d目标检测方法
CN112766206B (zh) * 2021-01-28 2024-05-28 深圳市捷顺科技实业股份有限公司 一种高位视频车辆检测方法、装置、电子设备和存储介质
CN112862953B (zh) * 2021-01-29 2023-11-28 上海商汤临港智能科技有限公司 一种点云数据的处理方法、装置、电子设备及存储介质
CN112800971A (zh) * 2021-01-29 2021-05-14 深圳市商汤科技有限公司 神经网络训练及点云数据处理方法、装置、设备和介质
CN112907760B (zh) * 2021-02-09 2023-03-24 浙江商汤科技开发有限公司 三维对象的标注方法及装置、工具、电子设备和存储介质
CN115035359A (zh) * 2021-02-24 2022-09-09 华为技术有限公司 一种点云数据处理方法、训练数据处理方法及装置
CN112990200A (zh) * 2021-03-31 2021-06-18 上海商汤临港智能科技有限公司 一种数据标注方法、装置、计算机设备及存储介质
CN113516013B (zh) * 2021-04-09 2024-05-14 阿波罗智联(北京)科技有限公司 目标检测方法、装置、电子设备、路侧设备和云控平台
CN113298163A (zh) * 2021-05-31 2021-08-24 国网湖北省电力有限公司黄石供电公司 一种基于LiDAR点云数据的目标识别监测方法
CN113537316B (zh) * 2021-06-30 2024-04-09 南京理工大学 一种基于4d毫米波雷达点云的车辆检测方法
CN113570535A (zh) * 2021-07-30 2021-10-29 深圳市慧鲤科技有限公司 视觉定位方法及相关装置、设备
CN113984037B (zh) * 2021-09-30 2023-09-12 电子科技大学长三角研究院(湖州) 一种基于任意方向目标候选框的语义地图构建方法
CN113822277B (zh) * 2021-11-19 2022-02-18 万商云集(成都)科技股份有限公司 基于深度学习目标检测的违规广告图片检测方法及系统
CN114298581A (zh) * 2021-12-30 2022-04-08 广州极飞科技股份有限公司 质量评估模型生成方法、质量评估方法、装置、电子设备和可读存储介质
CN114241110B (zh) * 2022-02-23 2022-06-03 北京邮电大学 基于邻域聚合蒙特卡罗失活的点云语义不确定度感知方法
CN115880470B (zh) * 2023-03-08 2023-06-02 深圳佑驾创新科技有限公司 3d图像数据的生成方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008012635A (ja) * 2006-07-07 2008-01-24 Toyota Motor Corp 人物識別システム
WO2018170472A1 (en) * 2017-03-17 2018-09-20 Honda Motor Co., Ltd. Joint 3d object detection and orientation estimation via multimodal fusion

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9218529B2 (en) * 2012-09-11 2015-12-22 Southwest Research Institute 3-D imaging sensor based location estimation
US10733651B2 (en) * 2014-01-01 2020-08-04 Andrew S Hansen Methods and systems for identifying physical objects
CN105976400B (zh) * 2016-05-10 2017-06-30 北京旷视科技有限公司 基于神经网络模型的目标跟踪方法及装置
CN108122245B (zh) * 2016-11-30 2021-11-30 华为技术有限公司 一种目标行为描述方法、装置和监控设备
CN108509820B (zh) * 2017-02-23 2021-12-24 百度在线网络技术(北京)有限公司 障碍物分割方法及装置、计算机设备及可读介质
CN108470174B (zh) * 2017-02-23 2021-12-24 百度在线网络技术(北京)有限公司 障碍物分割方法及装置、计算机设备及可读介质
CN107622244B (zh) * 2017-09-25 2020-08-28 华中科技大学 一种基于深度图的室内场景精细化解析方法
CN108171217A (zh) * 2018-01-29 2018-06-15 深圳市唯特视科技有限公司 一种基于点融合网络的三维物体检测方法
CN108895981B (zh) * 2018-05-29 2020-10-09 南京怀萃智能科技有限公司 一种三维测量方法、装置、服务器和存储介质
CN109635685B (zh) * 2018-11-29 2021-02-12 北京市商汤科技开发有限公司 目标对象3d检测方法、装置、介质及设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008012635A (ja) * 2006-07-07 2008-01-24 Toyota Motor Corp 人物識別システム
WO2018170472A1 (en) * 2017-03-17 2018-09-20 Honda Motor Co., Ltd. Joint 3d object detection and orientation estimation via multimodal fusion

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
XIAOZHI CHEN ET AL.: "Multi-view 3D Object Detection Network for Autonomous Driving", 2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), JPN7022003632, 21 July 2017 (2017-07-21), ISSN: 0005001293 *

Also Published As

Publication number Publication date
KR20210078529A (ko) 2021-06-28
WO2020108311A1 (zh) 2020-06-04
CN109635685B (zh) 2021-02-12
CN109635685A (zh) 2019-04-16

Similar Documents

Publication Publication Date Title
JP2022515591A (ja) ターゲットオブジェクトの3d検出方法、装置、媒体及び機器
US11915502B2 (en) Systems and methods for depth map sampling
US11216971B2 (en) Three-dimensional bounding box from two-dimensional image and point cloud data
US11024041B2 (en) Depth and motion estimations in machine learning environments
JP7101255B2 (ja) 目標対象の運動の向きを予測するための方法、車両制御方法及び装置
US11205274B2 (en) High-performance visual object tracking for embedded vision systems
KR102292559B1 (ko) 단안 이미지 깊이 추정 방법 및 장치, 기기, 프로그램 및 저장 매체
WO2020232174A1 (en) Distributed pose estimation
KR20200022001A (ko) 희귀 인스턴스 분류기들
CN113284163B (zh) 基于车载激光雷达点云的三维目标自适应检测方法及系统
JP7091485B2 (ja) 運動物体検出およびスマート運転制御方法、装置、媒体、並びに機器
WO2020250020A9 (en) Lidar and radar based tracking and mapping system and method thereof
JP2021536071A (ja) 障害物検出方法、知的運転制御方法、装置、媒体、及び機器
CN113887400B (zh) 障碍物检测方法、模型训练方法、装置及自动驾驶车辆
US11790661B2 (en) Image prediction system
US20220301099A1 (en) Systems and methods for generating object detection labels using foveated image magnification for autonomous driving
CN115147798A (zh) 可行驶区域预测方法、模型、装置及车辆
CN114815851A (zh) 机器人跟随方法、装置、电子设备以及存储介质
JP2022035033A (ja) 情報処理システム、情報処理方法、プログラムおよび車両制御システム
KR20240012426A (ko) 비제약 이미지 안정화
Gokarn et al. Lightweight Collaborative Perception at the Edge
KR102587234B1 (ko) 동영상 중 실시간 손동작 인식을 위한 tsn 기반의 딥러닝 방법 및 장치
CN116698051A (zh) 高精度车辆定位、矢量化地图构建及定位模型训练方法
CN114926534A (zh) 障碍物感知方法、装置、可读存储介质及电子设备
CN116844134A (zh) 目标检测方法、装置、电子设备、存储介质及车辆

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210608

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210608

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220624

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220728

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230228