JP2022524262A - 目標対象物の検出方法、目標対象物の検出装置、電子機器、記憶媒体及びコンピュータプログラム - Google Patents
目標対象物の検出方法、目標対象物の検出装置、電子機器、記憶媒体及びコンピュータプログラム Download PDFInfo
- Publication number
- JP2022524262A JP2022524262A JP2021537177A JP2021537177A JP2022524262A JP 2022524262 A JP2022524262 A JP 2022524262A JP 2021537177 A JP2021537177 A JP 2021537177A JP 2021537177 A JP2021537177 A JP 2021537177A JP 2022524262 A JP2022524262 A JP 2022524262A
- Authority
- JP
- Japan
- Prior art keywords
- point cloud
- target object
- dimensional
- sampling
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
- G06T2207/10012—Stereo images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
Abstract
本開示は、目標対象物の検出方法、装置、機器及び記憶媒体に関する。前記方法は、対象シーンの3次元点群に対して特徴抽出を行って、特徴抽出結果を得ることと、前記特徴抽出結果に基づいて、前記3次元点群に対して目標対象物のカテゴリ予測及び位置予測を行って、前記対象シーンにおける目標対象物の少なくとも1つの候補領域を決定することと、少なくとも1つの前記候補領域において、前記目標対象物を検出して検出結果を得ることと、を含む。【選択図】図1
Description
本開示は、コンピュータビジョン技術分野に関し、特に、目標対象物の検出方法、装置、機器及び記憶媒体に関する。
3次元物体検出(3D Object Detection)タスクは、コンピュータビジョン及びスマートシーン理解分野の重要な問題であり、多くの重要な分野に応用することができ、例えば無人運転、ロボット、拡張現実などの面で重要な研究意義と応用価値を持つ。
3次元物体検出では、3次元点群と対象物モデルをマッチングすることで、3次元点群に目標対象物が含まれているか否かを決定できる。3次元点群に複数の異なる目標対象物が含まれている場合、複数の異なる対象物モデルのそれぞれとのマッチングが必要になる可能性があり、時間がかかるとともに、検出の精度も低下する。
本開示は、目標対象物の検出の手段を提供する。
本開示の一態様によれば、対象シーンの3次元点群に対して特徴抽出を行って、特徴抽出結果を得ることと、前記特徴抽出結果に基づいて、前記3次元点群に対して目標対象物のカテゴリ予測及び位置予測を行って、前記対象シーンにおける目標対象物の少なくとも1つの候補領域を決定することと、少なくとも1つの前記候補領域において、前記目標対象物を検出して検出結果を得ることと、を含む目標対象物の検出方法が提供される。
可能な一実現形態では、対象シーンの3次元点群に対して特徴抽出を行って、特徴抽出結果を得ることは、前記3次元点群をサンプリングして、第1サンプリング点を得ることと、前記3次元点群において、前記第1サンプリング点を中心とするサンプリング領域を構築することと、前記サンプリング領域に対して特徴抽出を行って、前記サンプリング領域の特徴ベクトルを得ることと、前記サンプリング領域の特徴ベクトルに基づいて、前記3次元点群に含まれる3次元点の特徴ベクトルを前記特徴抽出結果として決定することと、を含む。
可能な一実現形態では、前記特徴抽出結果に基づいて、前記3次元点群に対して目標対象物のカテゴリ予測及び位置予測を行って、前記対象シーンにおける目標対象物の少なくとも1つの候補領域を決定することは、前記特徴抽出結果に基づいて、前記3次元点群に対して目標対象物のカテゴリ予測を行って、前記3次元点群に含まれる3次元点が属する目標対象物のカテゴリを示すカテゴリ予測結果を得ることと、前記特徴抽出結果に基づいて、前記3次元点群に対して目標対象物の位置予測を行って、前記3次元点群内の、目標対象物の位置する3次元点の位置を示す位置予測結果を得ることと、前記カテゴリ予測結果及び前記位置予測結果に基づいて、前記対象シーンに含まれる前記目標対象物の少なくとも1つの候補領域を決定することと、を含む。
可能な一実現形態では、前記特徴抽出結果に基づいて、前記3次元点群に対してカテゴリ予測を行って、カテゴリ予測結果を得ることは、カテゴリ予測畳み込みネットワークで前記特徴抽出結果を処理して、前記3次元点群に含まれる3次元点が属する目標対象物のカテゴリを得ることを含む。
可能な一実現形態では、前記特徴抽出結果に基づいて、前記3次元点群に対して位置予測を行って、位置予測結果を得ることは、位置予測畳み込みネットワークで前記特徴抽出結果を処理して、前記3次元点群に含まれる3次元点と、1つ以上の所定の検出フレームのうちの少なくとも1つとの間の残差量を得ることと、前記残差量に基づいて、前記3次元点にマッチングする少なくとも1つの検出フレームを前記位置予測結果として得ることと、を含む。
可能な一実現形態では、前記位置予測畳み込みネットワークは、3次元点群サンプル、前記3次元点群サンプルにおけるサンプル対象物の第1位置及び前記サンプル対象物のカテゴリに対応する第1特徴ベクトルを含むトレーニングデータによってトレーニングが行われたものであり、前記トレーニングは、前記3次元点群サンプル及び初期位置予測畳み込みネットワークによって、第1位置予測結果を得ることと、前記第1位置予測結果と前記第1位置との間の誤差に基づいて、第1誤差損失を得ることと、前記3次元点群サンプルに含まれる3次元点の特徴ベクトルと、前記第1特徴ベクトルとの間の距離に基づいて、第2誤差損失を得ることと、前記第1誤差損失及び/又は第2誤差損失に基づいて、前記初期位置予測畳み込みネットワークをトレーニングすることとを含む。
可能な一実現形態では、前記カテゴリ予測結果及び前記位置予測結果に基づいて、前記対象シーンに含まれる前記目標対象物の少なくとも1つの候補領域を決定することは、前記位置予測結果に含まれる少なくとも1つの検出フレームを取得することと、前記検出フレームに含まれる3次元点のカテゴリ予測結果に基づいて、前記少なくとも1つの検出フレームの予測スコアをそれぞれ得ることと、前記予測スコアがスコア閾値よりも大きい検出フレームを前記目標対象物の候補領域とすることと、を含む。
可能な一実現形態では、前記少なくとも1つの候補領域において、前記目標対象物を検出して検出結果を得る前に、前記少なくとも1つの候補領域に含まれる3次元点からなる3次元サブ点群を決定することと、前記3次元サブ点群に含まれる3次元点の座標を前記3次元サブ点群の空間座標として取得することと、前記3次元サブ点群に含まれる3次元点の特徴ベクトルを、前記3次元サブ点群の特徴ベクトルとして取得することと、前記3次元サブ点群の空間座標及び前記3次元サブ点群の特徴ベクトルに基づいて、前記3次元サブ点群の特徴行列を得ることと、をさらに含む。
可能な一実現形態では、前記少なくとも1つの候補領域において、前記目標対象物を検出して検出結果を得ることは、前記少なくとも1つの候補領域のうちのいずれか1つの候補領域である第1候補領域に含まれる3次元サブ点群をサンプリングして、前記第1候補領域に含まれる第2サンプリング点を得ることと、前記第1候補領域に含まれる3次元サブ点群の特徴行列に基づいて、前記第1候補領域に含まれる第2サンプリング点の注意特徴ベクトルを得ることと、融合畳み込みネットワークによって、前記第1候補領域に含まれる第2サンプリング点の注意特徴ベクトルを融合して、前記第1候補領域の特徴融合結果を得ることと、前記第1候補領域の特徴融合結果を前記第1候補領域の検出結果とすることと、を含む。
可能な一実現形態では、前記第1候補領域に含まれる3次元サブ点群の特徴行列に基づいて、前記第1候補領域に含まれる第2サンプリング点の注意特徴ベクトルを得ることは、前記第1候補領域に含まれる3次元サブ点群の特徴行列に基づいて、前記第2サンプリング点に対して特徴抽出を行って、前記第2サンプリング点の初期特徴ベクトルを得ることと、前記第2サンプリング点の初期特徴ベクトルに対して平均プーリングを行って、前記第1候補領域のグローバル特徴ベクトルを得ることと、前記第2サンプリング点の初期特徴ベクトルと前記グローバル特徴ベクトルとをつなぎ合わせて、前記第2サンプリング点の拡張特徴ベクトルを得ることと、前記第2サンプリング点の拡張特徴ベクトルに基づいて、前記第2サンプリング点の注意係数を得ることと、前記第2サンプリング点の注意係数と前記第2サンプリング点の初期特徴ベクトルとを乗算して、前記第2サンプリング点の注意特徴ベクトルを得ることと、を含む。
本開示の一態様によれば、対象シーンの3次元点群に対して特徴抽出を行って、特徴抽出結果を得るための特徴抽出モジュールと、前記特徴抽出結果に基づいて、前記3次元点群に対して目標対象物のカテゴリ予測及び位置予測を行って、前記対象シーンにおける目標対象物の少なくとも1つの候補領域を決定するための候補領域決定モジュールと、少なくとも1つの前記候補領域において、前記目標対象物を検出して検出結果を得るための検出モジュールと、を含む目標対象物の検出装置が提供される。
可能な一実現形態では、前記特徴抽出モジュールは、前記3次元点群をサンプリングして、第1サンプリング点を得ることと、前記3次元点群において、前記第1サンプリング点を中心とするサンプリング領域を構築することと、前記サンプリング領域に対して特徴抽出を行って、前記サンプリング領域の特徴ベクトルを得ることと、前記サンプリング領域の特徴ベクトルに基づいて、前記3次元点群に含まれる3次元点の特徴ベクトルを前記特徴抽出結果として決定することに用いられる。
可能な一実現形態では、前記候補領域決定モジュールは、前記特徴抽出結果に基づいて、前記3次元点群に対して目標対象物のカテゴリ予測を行って、前記3次元点群に含まれる3次元点が属する目標対象物のカテゴリを示すカテゴリ予測結果を得ることと、前記特徴抽出結果に基づいて、前記3次元点群に対して目標対象物の位置予測を行って、前記3次元点群内の、目標対象物の位置する3次元点の位置を示す位置予測結果を得ることと、前記カテゴリ予測結果及び前記位置予測結果に基づいて、前記対象シーンに含まれる前記目標対象物の少なくとも1つの候補領域を決定することに用いられる。
可能な一実現形態では、前記候補領域決定モジュールは、さらに、カテゴリ予測畳み込みネットワークで前記特徴抽出結果を処理して、前記3次元点群に含まれる3次元点が属する目標対象物のカテゴリを得ることに用いられる。
可能な一実現形態では、前記候補領域決定モジュールは、さらに、位置予測畳み込みネットワークで前記特徴抽出結果を処理して、前記3次元点群に含まれる3次元点と、1つ以上の所定の検出フレームのうちの少なくとも1つとの間の残差量を得ることと、前記残差量に基づいて、前記3次元点にマッチングする少なくとも1つの検出フレームを前記位置予測結果として得ることに用いられる。
可能な一実現形態では、前記位置予測畳み込みネットワークは、3次元点群サンプル、前記3次元点群サンプルにおけるサンプル対象物の第1位置及び前記サンプル対象物のカテゴリに対応する少なくとも1つの第1特徴ベクトルを含むトレーニングデータによってトレーニングが行われたものであり、前記トレーニングは、前記3次元点群サンプル及び初期位置予測畳み込みネットワークによって、第1位置予測結果を得ることと、前記第1位置予測結果と前記第1位置との間の誤差に基づいて、第1誤差損失を得ることと、前記3次元点群サンプルに含まれる3次元点の特徴ベクトルと、前記第1特徴ベクトルとの間の距離に基づいて、第2誤差損失を得ることと、前記第1誤差損失及び/又は第2誤差損失に基づいて、前記初期位置予測畳み込みネットワークをトレーニングすることとを含む。
可能な一実現形態では、前記候補領域決定モジュールは、さらに、前記位置予測結果に含まれる少なくとも1つの検出フレームを取得することと、前記検出フレームに含まれる3次元点のカテゴリ予測結果に基づいて、前記少なくとも1つの検出フレームの予測スコアをそれぞれ得ることと、前記予測スコアがスコア閾値よりも大きい検出フレームを前記目標対象物の候補領域とすることに用いられる。
可能な一実現形態では、前記検出モジュールの前に、前記候補領域決定モジュールは、さらに、前記少なくとも1つの候補領域に含まれる3次元点からなる3次元サブ点群を決定することと、前記3次元サブ点群に含まれる3次元点の座標を、前記3次元サブ点群の空間座標として取得することと、前記3次元サブ点群に含まれる3次元点の特徴ベクトルを前記3次元サブ点群の特徴ベクトルとして取得することと、前記3次元サブ点群の空間座標及び前記3次元サブ点群の特徴ベクトルに基づいて、前記3次元サブ点群の特徴行列を得ることに用いられる。
可能な一実現形態では、前記検出モジュールは、前記少なくとも1つの候補領域のうちのいずれか1つの候補領域である第1候補領域に含まれる3次元サブ点群をサンプリングして、前記第1候補領域に含まれる第2サンプリング点を得ることと、前記第1候補領域に含まれる3次元サブ点群の特徴行列に基づいて、前記第1候補領域に含まれる第2サンプリング点の注意特徴ベクトルを取得することと、融合畳み込みネットワークによって、前記第1候補領域に含まれる第2サンプリング点の注意特徴ベクトルを融合して、前記第1候補領域の特徴融合結果を得ることと、前記第1候補領域の特徴融合結果を前記第1候補領域の検出結果とすることに用いられる。
可能な一実現形態では、前記検出モジュールは、さらに、前記第1候補領域に含まれる3次元サブ点群の特徴行列に基づいて、前記第2サンプリング点に対して特徴抽出を行って、前記第2サンプリング点の初期特徴ベクトルを得ることと、前記第2サンプリング点の初期特徴ベクトルに対して平均プーリングを行って、前記第1候補領域のグローバル特徴ベクトルを得ることと、前記第2サンプリング点の初期特徴ベクトルと前記グローバル特徴ベクトルとをつなぎ合わせて、前記第2サンプリング点の拡張特徴ベクトルを得ることと、前記第2サンプリング点の拡張特徴ベクトルに基づいて、前記第2サンプリング点の注意係数を得ることと、前記第2サンプリング点の注意係数と前記第2サンプリング点の初期特徴ベクトルとを乗算して、前記第2サンプリング点の注意特徴ベクトルを得ることに用いられる。
本開示の一態様によれば、
プロセッサと、
プロセッサが実行可能な命令を記憶するためのメモリと、を含み、
前記プロセッサは、上記目標対象物の検出方法を実行するように構成される電子機器が提供される。
プロセッサと、
プロセッサが実行可能な命令を記憶するためのメモリと、を含み、
前記プロセッサは、上記目標対象物の検出方法を実行するように構成される電子機器が提供される。
本開示の一態様によれば、コンピュータプログラム命令が記憶されているコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラム命令はプロセッサによって実行されると、上記目標対象物の検出方法を実現させるコンピュータ読み取り可能な記憶媒体が提供される。
本開示の一態様によれば、コンピュータ読み取り可能なコードを含み、前記コンピュータ読み取り可能なコードが電子機器で実行されると、前記電子機器のプロセッサに、上記目標対象物の検出方法を実現するための命令を実行させるコンピュータプログラムが提供される。
本開示の実施例では、対象シーンの3次元点群に対して特徴抽出を行って特徴抽出結果を得、特徴抽出結果に基づいて、3次元点群に対して目標対象物のカテゴリ予測及び位置予測を行って、目標対象物の少なくとも1つの候補領域を決定し、少なくとも1つの候補領域において目標対象物を検出して検出結果を得る。上記のプロセスで、特徴抽出結果に基づいて、カテゴリ予測と位置予測の組み合わせにより、対象シーンにおいて目標対象物が含まれている少なくとも1つの候補領域を決定することができる。このようにして、候補領域が同時に目標対象物の位置及びカテゴリに基づいて決定されることは、より高い精度を有しており、さらに各候補領域のいずれにおいても目標対象物を検出して検出結果を得ることができるようにする。これにより、検出結果の精度を向上させるとともに、シーンにおいて複数又は複数種類の異なる目標対象物を含む場合、モデル比較方式ではなく同様の検出方式でこれらの目標対象物が検出されたことによって、対象物検出の利便性及び効率を向上させ、対象物検出の精度をさらに向上させることもできる。
なお、上述した概略的な説明及び次の詳細な説明は、例示的及び解釈的なものに過ぎず、本開示を限定するものではない。以下、図面を参照しながら例示的な実施例を詳細に説明することによって、本開示の他の特徴及び方面は明瞭になるであろう。
ここで、本明細書の一部として組み込まれる図面は、本開示の実施例に適し、明細書と共に本開示の技術的手段の説明に用いられる。
本開示の一実施例に係る目標対象物の検出方法を示すフローチャートである。
本開示の一実施例に係る目標対象物の検出装置を示すブロック図である。
本開示の一応用例を示す模式図である。
本開示の一応用例を示す模式図である。
本開示の一応用例を示す模式図である。
本開示の実施例に係る電子機器を示すブロック図である。
本開示の実施例に係る電子機器を示すブロック図である。
以下、図面を参照しながら本開示の様々な例示的な実施例、特徴、及び方面を詳細に説明する。図面における同じ符号は、同じ又は類似する機能の要素を示す。図面において実施例の様々な方面を示したが、特に断らない限り、比例に従って図面を描く必要がない。
ここでの用語「例示的」とは、「例、実施例として用いられることまたは説明的なもの」を意味する。ここで「例示的」に説明されるいかなる実施例は他の実施例より好ましいまたは優れるものであると理解すべきではない。
本明細書における用語「及び/又は」は、単に関連対象との関連関係を記述するものであり、3つの関係が存在可能であることを示し、例えば、A及び/又はBは、Aのみが存在し、AとBの両方が存在し、Bのみが存在するという3つの場合を示してもよい。また、本明細書における用語「少なくとも1つ」は複数のうちのいずれか1つ、又は複数のうちの少なくとも2つの任意の組み合わせを示し、例えば、A、B、Cのうちの少なくとも1つを含むことは、A、B及びCからなる集合から選択されたいずれか1つ又は複数の要素を含むことを示してもよい。
また、本開示をより効果的に説明するために、以下の具体的な実施形態において様々な具体的な詳細を示す。当業者であれば、本開示は何らかの具体的な詳細がなくても同様に実施できると理解すべきである。いくつかの実施例では、本開示の趣旨を強調するために、当業者が熟知している方法、手段、要素および回路について詳細な説明を行わない。
図1は、本開示の一実施例に係る目標対象物の検出方法を示すフローチャートである。この方法は、端末機器、サーバ又は他の処理装置などに適用することができる。ここで、端末機器は、ユーザ側装置(User Equipment、UE)、携帯機器、ユーザ端末、端末、セルラーホン、コードレスフォン電話機、パーソナル・デジタル・アシスタント(Personal Digital Assistant、PDA)、ハンドヘルドデバイス、計算装置、車載装置、ウェアラブル装置などであり得る。一例では、この目標対象物の検出方法は、人工知能プロセッサなどのチップデバイスに適用することができる。
いくつかの可能な実現形態では、この目標対象物の検出方法は、プロセッサがメモリに記憶されているコンピュータ読み取り可能な命令を呼び出すことによって実現されてもよい。
図1に示すように、前記目標対象物の検出方法は、
対象シーンの3次元点群に対して特徴抽出を行って、特徴抽出結果を得るステップS11と、
特徴抽出結果に基づいて、3次元点群に対して目標対象物のカテゴリ予測及び位置予測を行って、対象シーンにおける目標対象物の少なくとも1つの候補領域を決定するステップS12と、
少なくとも1つの候補領域において、目標対象物を検出して検出結果を得るステップS13と、を含むことができる。
対象シーンの3次元点群に対して特徴抽出を行って、特徴抽出結果を得るステップS11と、
特徴抽出結果に基づいて、3次元点群に対して目標対象物のカテゴリ予測及び位置予測を行って、対象シーンにおける目標対象物の少なくとも1つの候補領域を決定するステップS12と、
少なくとも1つの候補領域において、目標対象物を検出して検出結果を得るステップS13と、を含むことができる。
ここで、3次元点群は、複数の3次元点のすべてからなる点集合を含むことができる。3次元点群を構成する3次元点の数は、限定されず、実情に応じて柔軟に決定することができる。3次元点は、空間において3次元座標によって定義される3次元空間点であってもよく、具体的な3次元座標の定義方式は限定されない。一例では、3次元座標は、x、y及びzの3つの次元から構成される座標であってもよい。
対象シーンは、目標対象物の検出のニーズがあるシーンであってもよく、目標対象物は、検出のニーズがある任意の物体であってもよく、検出の実情に応じて柔軟に決定される。例えば、室内における物体の検出では、目標対象物は、ソファ、机、又は椅子などの室内における物体であってもよく、歩行者検出では、目標対象物は、歩行者であってもよく、顔認識では、目標対象物は、人の顔であってもよく、自動車認識では、目標対象物は、車両のナンバープレートなどであってもよい。シーンは、対象物の検出のニーズがある任意のシーンであってもよく、目標対象物及び実際の検出のニーズに応じて柔軟に決定される。一例では、目標対象物が室内における物体である場合、シーンは、寝室空間、ホーム空間、又は教室空間などの室内空間であってもよい。一例では、目標対象物が歩行者である場合、シーンは、歩行者が含まれている道路シーンであってもよい。一例では、目標対象物が顔である場合、シーンは、教室、広場、又は映画館など、複数の人がいるシーンであってもよい。一例では、目標対象物が車両のナンバープレートである場合、シーンは、車線などであってもよい。本開示の実施例ではこれについて限定されない。
上記開示の実施例では、特徴抽出結果に基づいて決定されるシーンにおける候補領域の数は、シーンにおいて目標対象物を含む実情に応じて柔軟に決定することができるが、1つであってもよく、複数であってもよい。少なくとも1つの候補領域において検出された目標対象物の結果も、実情に応じて決定することができ、即ち少なくとも1つの候補領域において1つ又は1種類の目標対象物が含まれてもよいし、複数又は複数種類の目標対象物が含まれてもよい。可能な一実現形態では、1つの候補領域には複数の目標対象物が含まれ、即ち複数の目標対象物が1つの候補領域に対応してもよいが、1つの目標対象物が複数の候補領域に対応し、即ち3次元点群に、それぞれが複数の異なる候補領域に存在する複数の同一の目標対象物が含まれてもよい。
可能な一実現形態では、上記開示の実施例で言及した特徴抽出プロセスと目標対象物の検出プロセスは、いずれもトレーニングされたニューラルネットワークによって実現することができる。具体的にどのようなニューラルネットワークを採用するか、対応する特徴抽出及び目標対象物の検出プロセスをどのように実現するか、及びその実現方式が実情に応じて柔軟に選択できることについて、各開示の実施例において詳細な説明は後述するので、ここでは詳述しない。
上記開示の実施例から分かるように、可能な一実現形態では、目標対象物を検出する際に、特徴抽出結果に基づいて、カテゴリ予測と位置予測の組み合わせにより、対象シーンにおいて目標対象物が含まれている少なくとも1つの候補領域を決定することができる。このようにして、候補領域が同時に目標対象物の位置及びカテゴリに基づいて決定されることは、より高い精度を有しており、さらに少なくとも1つの候補領域のいずれにおいても目標対象物を検出して検出結果を得ることができるようにする。これにより、検出結果の精度を向上させるとともに、シーンにおいて複数又は複数種類の異なる目標対象物を含む場合、モデル比較方式ではなく同様の検出方式でこれらの目標対象物が検出されたことによって、対象物検出の利便性及び効率を向上させ、対象物検出の精度をさらに向上させることもできる。
上記開示の実施例では、対象シーンの3次元点群を取得する方式は限定されない。目標対象物が存在するシーンの3次元点群を取得してこれら3次元点群の座標を決定できる方式であれば、3次元点群を取得する方式とすることができ、以下の開示の実施例によって限定されない。可能な一実現形態では、3次元点群を取得する方式は、上記開示の実施例で言及したユーザ側装置、携帯機器又はユーザ端末などの端末機器を介して、対象物の検出が必要なシーンを走査することで、目標対象物が存在するシーンに含まれる3次元点群を取得し、シーンにおいて対応する座標系を確立して、確立された座標系におけるこれら3次元点群の座標を得るようにしてもよい。
対象シーンに含まれる3次元点群を取得して対応する3次元点の空間座標を得た後、ステップS11により、これらの3次元点群に対して特徴抽出を行って、特徴抽出結果を得ることができる。具体的な特徴抽出方式は本開示の実施例では限定されない。可能な一実現形態では、ステップS11は、
3次元点群をサンプリングして、第1サンプリング点を得るステップS111と、
3次元点群において、第1サンプリング点を中心とするサンプリング領域を構築するステップS112と、
サンプリング領域に対して特徴抽出を行って、サンプリング領域の特徴ベクトルを得るステップS113と、
サンプリング領域の特徴ベクトルに基づいて、3次元点群に含まれる3次元点の特徴ベクトルを特徴抽出結果として決定するステップS114とを、含むことができる。
3次元点群をサンプリングして、第1サンプリング点を得るステップS111と、
3次元点群において、第1サンプリング点を中心とするサンプリング領域を構築するステップS112と、
サンプリング領域に対して特徴抽出を行って、サンプリング領域の特徴ベクトルを得るステップS113と、
サンプリング領域の特徴ベクトルに基づいて、3次元点群に含まれる3次元点の特徴ベクトルを特徴抽出結果として決定するステップS114とを、含むことができる。
上記開示の実施例から分かるように、可能な一実現形態では、3次元点群を複数のサンプリング領域に分割し、少なくとも1つのサンプリング領域の特徴抽出結果に基づいて、3次元点群全体の特徴抽出結果を得ることができる。具体的にはどのようにサンプリング領域を分割するか、及び分割するサンプリング領域の数について、実情に応じて柔軟に決定することができる。ステップS111及びステップS112から分かるように、可能な一実現形態では、3次元点群を複数のサンプリング領域に分割する方式は、まず3次元点群から第1サンプリング点を選択し、次にこれらの第1サンプリング点に基づいてサンプリング領域を得ることであってもよい。第1サンプリング点の選択方式は限定されない。可能な一実現形態では、3次元点群において最遠点サンプリング(FPS、Farthest Point Sampling)アルゴリズムを採用したサンプリング層(Sampling Layer)を用いることによって、少なくとも1つの第1サンプリング点を得ることができる。一例では、FPSアルゴリズムによって第1サンプリング点を決定するプロセスは、3次元点群のうち1つの点をランダムサンプリング点としてランダムに選定し、この選定されたランダムサンプリング点から最も遠い点を始点として選択して、反復していくとともに、その都度、選定された全ての第1サンプリング点からの距離の和が最も遠い点を選択し、選定された第1サンプリング点の数が閾値に達するまで、第1サンプリング点の選択を終了することであってもよい。ここで、第1サンプリング点の数の閾値は、実情に応じて設定することができ、本開示の実施例では限定されない。
第1サンプリング点が決定された後、ステップS112により、3次元点群において第1サンプリング点を中心とする少なくとも1つのサンプリング領域を構築することができる。可能な一実現形態では、ステップS112は、1つのグルーピング層(Grouping Layer)によって実現されてもよい。一例では、グルーピング層によってサンプリング領域を構築するプロセスは、第1サンプリング点を中心として、第1サンプリング点の周囲における近接点を選択して局所領域を構築し、これらの局所領域をサンプリング領域とすることであってもよい。ここで、近接点は、3次元点群において第1サンプリング点との距離が距離閾値内である3次元点であってもよい。具体的な距離閾値の設定は、同様に実情に応じて柔軟に選択してもよいが、本開示の実施例では限定されない。
複数のサンプリング領域が得られた後、ステップS113により、少なくとも1つのサンプリング領域の特徴ベクトルをそれぞれ得ることができる。ステップS113の実現方式は限定されず、即ちサンプリング領域に対して特徴抽出を行う方式は限定されない。可能な一実現形態では、サンプリング領域に対して点群特徴抽出層(Pointnet Layer)によって特徴ベクトルを得ることができる。点群特徴抽出層の実現方式は実情に応じて柔軟に決定することができる。一例では、多層パーセプトロン(MLP、Multi-Layer Perceptron)を点群特徴層の実現方式とすることで、サンプリング領域の特徴ベクトルを抽出することができる。
少なくとも1つのサンプリング領域の特徴ベクトルが得られた後、ステップS114により、これらの特徴ベクトルに基づいて、3次元点群における3次元点の特徴ベクトルをそれぞれ得ることができる。ステップS114の実現方式は、限定されず、可能な一実現形態では、アップサンプリング層(Upsampling Layer)によって実現されてもよい。一例では、アップサンプリング層を用いて3次元点群における3次元点の特徴ベクトルを得る方式は、少なくとも1つのサンプリング領域において、該サンプリング領域に含まれる3次元点のサンプリング領域における空間位置に基づいて、補間の方法によってアップサンプリングを実現して、補間計算結果を得、補間計算結果と該サンプリング領域の特徴ベクトルとを組み合わせて、該サンプリング領域における3次元点の特徴ベクトルを得、サンプリング領域が3次元点群における分割された領域であるため、少なくとも1つのサンプリング領域に含まれる3次元点の特徴ベクトルを得ると、3次元点群に含まれる3次元点の特徴ベクトルを得ることができるようにしてもよい。ここで、補間計算の具体的な実現方式は限定されず、一例では、バイリニア補間によって補間計算を実現してもよい。
第1サンプリング点を中心とする複数のサンプリング領域を構築し、これらのサンプリング領域の特徴ベクトルをそれぞれ抽出し、さらに抽出した特徴ベクトルに基づいて3次元点群における3次元点の特徴ベクトルを特徴抽出結果として得るプロセスによって、3次元点の特徴抽出プロセスを3次元対象特徴学習処理メカニズムにより実現される特徴抽出プロセスに変換することができ、即ち3次元点の特徴抽出プロセスを特徴抽出層又は特徴抽出ネットワークによって実現されるバッチの特徴抽出プロセスに変換することができる。これは、特徴抽出の効率を大幅に向上させ、さらに対象物検出プロセスの効率を向上させる。
3次元点群における3次元点の特徴ベクトルを特徴抽出結果として得た後、ステップS12によって、3次元点群を、対象物検出を実現するための複数の候補領域に分割することができる。具体的にどのように候補領域の分割を実現するかについて、その実現方式は限定されない。可能な一実現形態では、ステップS12は、
特徴抽出結果に基づいて、3次元点群に対して目標対象物のカテゴリ予測を行って、3次元点群に含まれる3次元点が属する目標対象物のカテゴリを示すカテゴリ予測結果を得るステップS121と、
特徴抽出結果に基づいて、3次元点群に対して目標対象物の位置予測を行って、3次元点群内の、目標対象物の位置する3次元点の位置を示す位置予測結果を得るステップS122と、
カテゴリ予測結果及び位置予測結果に基づいて、シーンに含まれる目標対象物の少なくとも1つの候補領域を決定するステップS123と、を含むことができる。
特徴抽出結果に基づいて、3次元点群に対して目標対象物のカテゴリ予測を行って、3次元点群に含まれる3次元点が属する目標対象物のカテゴリを示すカテゴリ予測結果を得るステップS121と、
特徴抽出結果に基づいて、3次元点群に対して目標対象物の位置予測を行って、3次元点群内の、目標対象物の位置する3次元点の位置を示す位置予測結果を得るステップS122と、
カテゴリ予測結果及び位置予測結果に基づいて、シーンに含まれる目標対象物の少なくとも1つの候補領域を決定するステップS123と、を含むことができる。
ここで、カテゴリ予測は、目標対象物が属するカテゴリの予測であってもよい。目標対象物については、複数のカテゴリに分割される可能性があり、例えば、目標対象物が室内における物体である場合、目標対象物は、そのカテゴリによって、机、椅子、ソファ、エアコン又は室内における他のカテゴリに属する物体などに分割されてもよい。可能な一実現形態では、カテゴリ予測は、目標対象物の属性の予測であってもよい。1種類の目標対象物については、さらに複数の属性に分割される可能性があり、一例では、目標対象物が歩行者である場合、目標対象物は、その状態に応じて、歩いている歩行者、立っている歩行者又は他の状態にある歩行者などのカテゴリに分割されてもよく、その着用特徴に応じて、帽子をかぶっている歩行者、スニーカーを履いている歩行者又はパーカーを着ている歩行者などのカテゴリに分割されてもよく、目標対象物が人の顔である場合、そのラベルに応じて、喜び、悲しみ、大笑い又は泣きなどのカテゴリに分割されてもよく、目標対象物が車両のナンバープレートである場合、さらに自動車のナンバープレート、オートバイのナンバープレート又は他のナンバープレートなどのカテゴリに分割されてもよい。具体的なカテゴリ予測に含まれる種類及び分割の根拠は、実情に応じて柔軟に決定することができ、本開示の実施例では限定されない。
位置予測は、3次元点群における目標対象物の位置する位置の予測であってもよい。可能な一実現形態では、3次元点群における目標対象物の座標、即ち目標対象物が3次元点群におけるどの位置に位置するかと、目標対象物の大きさ、即ち3次元点群における目標対象物のカバレッジとの両方の予測を含むことができる。上記開示の実施例から分かるように、可能な一実現形態では、目標対象物の位置予測は、3次元点群におけるどの3次元点が目標対象物のカバレッジ内にあるかを予測するようにしてもよい。
なお、本開示の実施例では、3次元点群のカテゴリ予測及び位置予測は、その実現プロセスの順序が制限されなく、別々に行われてもよいし、同時に行われてもよい。別々に行われる場合、両者の実行順序も制限されず、実情に応じて柔軟に選択すればよい。
上記開示の実施例から分かるように、可能な一実現形態では、3次元点群における3次元点の特徴ベクトルに基づいて、それぞれ3次元点群のカテゴリ予測及び位置予測を行い、カテゴリ予測及び位置予測の結果に基づいて、3次元点群に含まれる目標対象物の少なくとも1つの候補領域を総合的に決定することができる。カテゴリ予測及び位置予測が畳み込みニューラルネットワークなどの形で実現することができるため、上記構成により、対象物検出のプロセスをニューラルネットワークモデルによるプロセスに変換することができ、個別にモデリングしてマッチングする方式に比べて、対象物検出の効率及び精度を大幅に向上させることができる。そして、候補領域がカテゴリ検出及び位置検出の結果を用いて協同して決定されるため、候補領域により決定された目標対象物の特徴ベクトルが異なるカテゴリ間のカテゴリ間特徴ベクトルと見なすことができ、即ち本開示の実施例では候補領域内の目標対象物の特徴表現形態は、カテゴリ間特徴ベクトルの方式を用いて学習された異なるカテゴリ対象物の特徴表現と見なすことができる。これは、ニューラルネットワークが異なるカテゴリの対象物の高次元特徴表現を学習するように制御して、3次元点群における対象物特徴を効率よく抽出することができる一方、最終的に得られた対象物検出結果には、複数のカテゴリの対象物が含まれ、即ちシーンにおける複数の目標対象物に対してバッチ及び複数種類の対象物検出を同時に実現できるようにして、対象物検出の効率を大幅に向上させる。
具体的には、3次元点群のカテゴリ予測及び位置予測をどのように実現するかについて、その実現方式は実情に応じて柔軟に決定することができ、以下の開示の実施例に限定されない。可能な一実現形態では、ステップS121は、
カテゴリ予測畳み込みネットワークで特徴抽出結果を処理して、3次元点群に含まれる3次元点のカテゴリ予測結果を得ることを含むことができる。
カテゴリ予測畳み込みネットワークで特徴抽出結果を処理して、3次元点群に含まれる3次元点のカテゴリ予測結果を得ることを含むことができる。
上記開示の実施例から分かるように、可能な一実現形態では、カテゴリ予測畳み込みネットワークによって、3次元点群に含まれる3次元点が目標対象物のどのカテゴリに属するかの予測を実現することができる。カテゴリ予測畳み込みネットワークの実現方式は限定されず、3次元点が属するカテゴリの予測を実現できるニューラルネットワークであれば、カテゴリ予測畳み込みネットワークの実現形態とすることができる。可能な一実現形態では、カテゴリ予測ネットワークは、複数のカテゴリ予測分岐によって実現されてもよく、各カテゴリ予測分岐のそれぞれは3次元点群に含まれる目標対象物の1つのカテゴリを予測して、3次元点がこのカテゴリに属する確率を出力するためのものである。具体的なカテゴリ予測分岐の数は本開示の実施例では限定されず、実情に応じて柔軟に決定することができる。各カテゴリ予測分岐の実際の実現方式も限定されず、一例では、1次元畳み込みを各カテゴリ分岐の実現形態とし、3次元点群における3次元点の座標及び特徴ベクトルを入力として、それぞれ1次元畳み込みによる少なくとも1つのカテゴリ分岐によって、3次元点群における3次元点が少なくとも1つのカテゴリに属する確率を得ることができる。
カテゴリ予測畳み込みネットワークによって3次元点群に含まれる3次元点のカテゴリ予測結果を得、ニューラルネットワークを用いて3次元点群のカテゴリ予測を実現することができ、カテゴリ予測の実現の利便性及び信頼性を大幅に向上させるとともに、バッチ操作に適して、カテゴリ予測の効率を向上させ、さらに対象物検出プロセスの効率を向上させる。
可能な一実現形態では、ステップS122は、
位置予測畳み込みネットワークで特徴抽出結果を処理して、3次元点群に含まれる3次元点と、1つ以上の所定の検出フレームのうちの少なくとも1つとの間の残差量を得るステップS1221と、
残差量に基づいて、3次元点にマッチングする少なくとも1つの検出フレームを位置予測結果として得るステップS1222と、を含むことができる。
位置予測畳み込みネットワークで特徴抽出結果を処理して、3次元点群に含まれる3次元点と、1つ以上の所定の検出フレームのうちの少なくとも1つとの間の残差量を得るステップS1221と、
残差量に基づいて、3次元点にマッチングする少なくとも1つの検出フレームを位置予測結果として得るステップS1222と、を含むことができる。
上記開示の実施例では、位置予測畳み込みネットワークは、3次元点群における3次元点と所定の検出フレームとの間のマッチングの度合いを予測するためのニューラルネットワークであってもよく、その実現方式は限定されず、実情に応じて柔軟に決定することができる。所定の検出フレームは、必要に応じて定義されるアンカーフレーム(anchor)としてもよく、3次元点群の対象物検出は、3次元点群にある対象物又はいくつかの対象物が含まれるか否かを検出するようにしてもよい。そのため、含まれているこれらの対象物の実情に応じて、予め大きさ及び形状が目標対象物にマッチングするアンカーフレームを所定の検出フレームとして設定することで、3次元点群における3次元点の座標及び特徴ベクトルを入力として、位置予測畳み込みネットワークによって、3次元点と少なくとも1つの所定の検出フレームとの間のマッチングの度合いに基づいて、この3次元点がそのうちのある目標対象物又はあるカテゴリの目標対象物に属するかを決定することができる。
所定の検出フレームの数及び実現方式は限定されない。一例では、対象物検出は、3次元点群にA個の異なる目標対象物のうちの1つ又は複数が含まれているか否かを検出することができる。この場合、まず、A個の異なる所定の検出フレームを予め設定し、このA個の異なる目標対象物の実情に応じて、このA個の所定の検出フレームの大きさをそれぞれ定義することができ、定義される大きさは同じであってもよく異なってもよいが、実情に応じて柔軟に決定すればよい。さらに、上記開示の実施例で言及したように、さらに目標対象物が複数のカテゴリに分割できるので、目標対象物が属するカテゴリの数Bに応じて、所定の検出フレームをB個の次元に設定できる。一例では、目標対象物は7つのカテゴリに分割され得るため、所定の検出フレームを(x、y、z、h、w、l、ry)の7つの次元に設定することができ、ここで、x、y及びzはx、y及びzの3つの次元における検出フレームの中心点の空間座標をそれぞれ表し、h、w及びlは検出フレームに対応する目標対象物の高さ、幅及び長さをそれぞれ表し、ryは検出フレームに対応する目標対象物のz軸での回転角度を表すことができる。このように、3次元点群の特徴抽出結果が位置予測畳み込みネットワークによって処理されて、3次元点と少なくとも1つの所定の検出フレームとの間で予測された7つの次元における残差量をそれぞれ得、この残差量に基づいて、3次元点がある所定の検出フレーム又はいくつかの所定の検出フレームにマッチングするか否かを決定でき、さらに3次元点と所定の検出フレームとの間のマッチング関係に基づいて、3次元点群から所定の検出フレームの大きさ及び位置を修正して、3次元点にマッチングする少なくとも1つの検出フレームを位置予測結果として得、ステップS133における候補領域の決定プロセスに用いる。
特徴抽出結果が位置予測畳み込みネットワークによって処理されて、3次元点群に含まれる3次元点と少なくとも1つの所定の検出フレームとの間の残差量を得、この残差量に基づいて、さらに3次元点群において3次元点にマッチングする検出フレームを位置予測検出結果として決定する。上記プロセスにより、目標対象物のカテゴリに基づいて検出フレームの大きさ及び次元を設定できることで、位置予測畳み込みネットワークによって決定された検出フレームが目標対象物のカテゴリと位置の両方を持って、より正確な検出結果を得るようにすることができる。これにより、決定される候補領域の精度を向上させ、さらに対象物検出の精度を向上させる。
上記開示の実施例で言及したように、位置予測畳み込みネットワークによって3次元点群に含まれる目標対象物の位置予測結果を得ることができる。可能な一実現形態では、位置予測畳み込みネットワークは、トレーニングデータによってトレーニングされるニューラルネットワークであってもよい。具体的なトレーニングプロセスは実情に応じて柔軟に決定することができる。可能な一実現形態では、位置予測畳み込みネットワークは、3次元点群サンプル、3次元点群サンプルにおけるサンプル対象物の第1位置及びサンプル対象物のカテゴリに対応する少なくとも1つの第1特徴ベクトルを含むトレーニングデータによってトレーニングすることができ、トレーニングプロセスは、
3次元点群サンプル及び初期位置予測畳み込みネットワークによって、第1位置予測結果を得ることと、
第1位置予測結果と第1位置との間の誤差に基づいて、第1誤差損失を得ることと、
3次元点群サンプルに含まれる3次元点の特徴ベクトルと、第1特徴ベクトルとの間の距離に基づいて、第2誤差損失を得ることと、
第1誤差損失及び/又は第2誤差損失に基づいて、初期位置予測畳み込みネットワークをトレーニングすることと、を含むことができる。
3次元点群サンプル及び初期位置予測畳み込みネットワークによって、第1位置予測結果を得ることと、
第1位置予測結果と第1位置との間の誤差に基づいて、第1誤差損失を得ることと、
3次元点群サンプルに含まれる3次元点の特徴ベクトルと、第1特徴ベクトルとの間の距離に基づいて、第2誤差損失を得ることと、
第1誤差損失及び/又は第2誤差損失に基づいて、初期位置予測畳み込みネットワークをトレーニングすることと、を含むことができる。
ここで、初期位置予測畳み込みネットワークは、位置予測畳み込みネットワークの初期形態であってもよく、3次元点群サンプルは、初期位置予測畳み込みネットワークに入力して、該初期位置予測畳み込みネットワークをトレーニングするための1つ又は複数の既知の3次元点群である。サンプル対象物は3次元点群サンプルに含まれる対象物であってもよく、その実現形態は上記目標対象物の実現形態を参照すればよく、ここでは詳細な説明を省略する。第1位置は、該3次元点群サンプルに含まれるサンプル対象物の該3次元点群サンプルにおける実際の位置であってもよい。サンプル対象物のカテゴリに対応する少なくとも1つの第1特徴ベクトルは、初期位置予測畳み込みネットワークの学習のために定義される特徴ベクトルであってもよく、定義の方式は実情に応じて柔軟に決定することができる。可能な一実現形態では、第1特徴ベクトルは、サンプル対象物のカテゴリに1対1で対応することができ、即ちサンプル対象物が属するカテゴリの種類に応じて、少なくとも1つのカテゴリの目標対象物に対して、学習・トレーニングのための特徴ベクトルをそれぞれ定義することができる。
可能な一実現形態では、初期位置予測畳み込みネットワークをトレーニングする際に、3次元点群サンプルが初期予測畳み込みネットワークによって処理された結果に基づいて、初期位置予測畳み込みネットワークの誤差損失を決定して、初期位置予測畳み込みネットワークのパラメータを調整し、より正確な位置予測畳み込みネットワークを得ることができる。上記開示の実施例から分かるように、可能な一実現形態では、誤差損失は、第1誤差損失及び第2誤差損失が含まれている。ここで、第1誤差損失は、3次元点群サンプルが初期位置予測畳み込みネットワークによって処理された位置予測結果と、3次元点群におけるサンプル対象物の実際の第1位置との間の偏差に基づいた誤差損失であり、第2誤差損失は、3次元点群サンプルにおける3次元点をトレーニングする特徴ベクトルと、サンプル対象物のカテゴリに対応する第1特徴ベクトルとの間の距離によって共同して構成される誤差損失であってもよい。可能な一実現形態では、第1誤差損失及び第2誤差損失を同時に誤差損失として初期位置予測畳み込みネットワークをトレーニングしてもよい。可能な一実現形態では、その中のいずれかの誤差損失だけを考慮してトレーニングしてもよいが、実情に応じて柔軟に選択すればよい。
上記トレーニングプロセスにより、トレーニングデータにおける異なるサンプル対象物のカテゴリ間のカテゴリ間特徴ベクトルを十分に用いることができ、トレーニングされた位置予測畳み込みネットワークに異なるカテゴリ目標の特徴表現を学習させることができる。これにより、該位置予測畳み込みネットワークは3次元点群における対象特徴を効率よく抽出して、より正確な位置予測結果を得るようにすることで、後続の対象物検出の精度を向上させる。そして、このようなトレーニング方式は、エンドツーエンドの形で実現することによって、位置予測の結果がより正確になり、様々な影響要因を効率よく最適化することができる。
上記各開示の実施例によれば、3次元点群のカテゴリ予測結果及び位置予測結果を得ることができる。さらに、ステップS123により、カテゴリ予測結果及び位置予測結果に基づいて、3次元点群における少なくとも1つの候補領域を決定し、即ち3次元点群における目標対象物が含まれている少なくとも1つの候補領域を決定する。
ステップS123の実現方式は限定されない。可能な一実現形態では、ステップS123は、
位置予測結果に含まれる少なくとも1つの検出フレームを取得するステップS1231と、
検出フレームに含まれる3次元点のカテゴリ予測結果に基づいて、少なくとも1つの検出フレームの予測スコアを得るステップS1232と、
予測スコアがスコア閾値よりも大きい検出フレームを、目標対象物の少なくとも1つの初期候補領域とするステップS1233と、を含むことができる。
位置予測結果に含まれる少なくとも1つの検出フレームを取得するステップS1231と、
検出フレームに含まれる3次元点のカテゴリ予測結果に基づいて、少なくとも1つの検出フレームの予測スコアを得るステップS1232と、
予測スコアがスコア閾値よりも大きい検出フレームを、目標対象物の少なくとも1つの初期候補領域とするステップS1233と、を含むことができる。
上記開示実施例で言及したように、カテゴリ予測を行った後、3次元点にマッチングする少なくとも1つの検出フレームを、位置予測結果として得ることができるため、ステップS123では、さらに、これらの検出フレームに基づいて候補領域を決定することができる。
ステップS1232~ステップS1233から分かるように、可能な一実現形態では、検出フレームが3次元点群における目標対象物の位置を大まかに示すことができるので、さらに検出フレームに基づいて該検出フレームにどのような目標対象物が含まれているかを決定することができる。可能な一実現形態では、まず、検出フレームに含まれる3次元点のカテゴリ予測結果に基づいて、少なくとも1つの検出フレームの予測スコアを得、即ち検出フレームにおける3次元点の少なくとも1つのカテゴリでの確率に基づいて、検出フレームの少なくとも1つのカテゴリでのスコアをそれぞれ計算することができる。具体的なスコア計算ルールは、実情に応じて柔軟に設定することができ、本開示の実施例では限定されない。検出フレームの少なくとも1つのカテゴリでの予測スコアをそれぞれ得た後、少なくとも1つのカテゴリでのスコア閾値との比較を行うことにより、該検出フレームに該カテゴリでの目標対象物が含まれるか否かを判断できる。スコア閾値も実情に応じて設定することができ、異なるカテゴリのスコア閾値は同じであってもよく異なってもよく、ここでは限定されない。予測スコアがあるカテゴリのスコア閾値よりも大きい場合、該検出フレームに該カテゴリの目標対象物が含まれていると見なし、そうでなければ該検出フレームに含まれる目標対象物が現在予測されているカテゴリに属さないと見なすようにしてもよい。予測スコアとスコア閾値との比較により、3次元点群から少なくとも1つの検出フレームを候補領域として決定することができる。
いくつかの可能な実施形態では、選択された検出フレームが重複するか又は重なり度が高い場合があるので、ステップS1234により、決定された候補領域における重複した検出フレームを削除してもよい。ここで、重複した検出フレームは完全に重なり合う検出フレームであってもよく、重なり度が設定された重なり度閾値よりも高い検出フレームであってもよい。具体的な重なり度閾値の数値は、実情に応じて柔軟に設定することができ、本開示の実施例では限定されない。重複した検出フレームをどのように検出して削除するかについて、その実現方式は限定されない。可能な一実現形態では、非極大値抑制(NMS、Non maximum suppression)方法により、その中の重複した検出フレームを取り除いて、最終的な検出フレームを目標対象物の候補領域として得ることができる。
上記プロセスにより、カテゴリ予測及び位置予測の結果を十分に組み合わせることができるため、決定される候補領域は、目標対象物の位置を表すとともに目標対象物のアイデンティティを表すことができるようにしている。この候補領域に基づくさらなる対象物検出の結果は、より高い精度を有することができる。
さらに、3次元点群における候補領域を決定した後、該候補領域に位置する3次元点の点群集合も選別して、候補領域における候補点群集合の空間座標及び特徴ベクトルを得ることによって、ステップS13に進むための準備を行う。具体的な決定及び取得方式は限定されない。そのため、可能な一実現形態では、ステップS13の前に、
少なくとも1つの候補領域に含まれる3次元点からなる3次元サブ点群を決定することと、
3次元サブ点群に含まれる3次元点の座標を3次元サブ点群の空間座標として取得することと、
3次元サブ点群に含まれる3次元点の特徴ベクトルを3次元サブ点群の特徴ベクトルとして取得することと、
3次元サブ点群の空間座標及び3次元サブ点群の特徴ベクトルに基づいて、3次元サブ点群の特徴行列を得ることと、をさらに含むことができる。
少なくとも1つの候補領域に含まれる3次元点からなる3次元サブ点群を決定することと、
3次元サブ点群に含まれる3次元点の座標を3次元サブ点群の空間座標として取得することと、
3次元サブ点群に含まれる3次元点の特徴ベクトルを3次元サブ点群の特徴ベクトルとして取得することと、
3次元サブ点群の空間座標及び3次元サブ点群の特徴ベクトルに基づいて、3次元サブ点群の特徴行列を得ることと、をさらに含むことができる。
候補領域が3次元点群から選択された領域であるため、候補領域は3次元点群内に位置する。そのため、候補領域に含まれる3次元点からなる点群集合は、上記開示の実施例における3次元サブ点群とすることができる。さらに、3次元点群における3次元点の座標及び特徴ベクトルが既知であるので、3次元サブ点群における3次元点の座標及び特徴ベクトルが既知である。これにより、3次元サブ点群の空間座標及び特徴ベクトルを容易に決定することができ、これらの空間座標及び特徴ベクトルを行列状に表現して、3次元サブ点群の特徴行列を構成する。
上記プロセスにより、候補領域が決定された場合、候補領域の特徴行列をさらに決定することができることによって、候補領域に基づいて対象物検出を行うための十分な準備を行って、対象物検出プロセスの円滑な実現を保証する。
候補領域が決定された後、ステップS13により、決定された候補領域に基づいて目標対象物を検出することができる。具体的な検出プロセスは、実情に応じて柔軟に決定することができる。可能な一実現形態では、ステップS13は、
少なくとも1つの候補領域のうちのいずれか1つである第1候補領域に含まれる3次元サブ点群をサンプリングして、第1候補領域に含まれる第2サンプリング点を得るステップS131と、
第1候補領域に含まれる3次元サブ点群の特徴行列に基づいて、第1候補領域に含まれる第2サンプリング点の注意特徴ベクトルを得るステップS132と、
融合畳み込みネットワークによって、第1候補領域に含まれる第2サンプリング点の注意特徴ベクトルを融合して、第1候補領域の特徴融合結果を得るステップS133と、
第1候補領域の特徴融合結果を第1候補領域の検出結果とするステップS134と、を含むことができる。
少なくとも1つの候補領域のうちのいずれか1つである第1候補領域に含まれる3次元サブ点群をサンプリングして、第1候補領域に含まれる第2サンプリング点を得るステップS131と、
第1候補領域に含まれる3次元サブ点群の特徴行列に基づいて、第1候補領域に含まれる第2サンプリング点の注意特徴ベクトルを得るステップS132と、
融合畳み込みネットワークによって、第1候補領域に含まれる第2サンプリング点の注意特徴ベクトルを融合して、第1候補領域の特徴融合結果を得るステップS133と、
第1候補領域の特徴融合結果を第1候補領域の検出結果とするステップS134と、を含むことができる。
ここで、3次元サブ点群は、上記開示の実施例で言及したように、候補領域に含まれる3次元点のすべてからなるサブ点群であるため、ここでは詳細な説明を省略する。第2サンプリング点は、少なくとも1つの候補領域をサンプリングして得られたサンプリング点であってもよいが、本開示の実施例では、第1サンプリング点及び第2サンプリング点における「第1」及び「第2」は、該当するサンプリング点をサンプリングされたサンプリングオブジェクトを区別するだけであり、即ち第1サンプリング点が3次元点群をサンプリングして得られたサンプリング点であり、第2サンプリング点が3次元サブ点群をサンプリングして得られたサンプリング点であるが、両者のサンプリング方式を限定するものではなく、即ち第1サンプリング点及び第2サンプリング点のサンプリング方式が同じであってもよく異なっていてもよいことを留意されたい。
第1候補領域は、上記開示の実施例で得られた候補領域に含まれるある候補領域又はいくつかの候補領域であってもよい。可能な一実現形態では、得られた少なくとも1つの候補領域のそれぞれを第1候補領域として、少なくとも1つの候補領域に対応する検出結果をそれぞれ得ることができる。
上記開示の実施例から分かるように、可能な一実現形態では、候補領域の対象物検出中、候補領域をさらにサンプリングして、少なくとも1つの第2サンプリング点を得、この第2サンプリング点の注意特徴ベクトルに基づいて、候補領域の注意特徴ベクトルの特徴融合結果を候補領域における対象物検出の検出結果として得ることができる。上記プロセスにより、注意メカニズムを用いて候補領域内の点群特徴を処理し、検出結果への対象物外の干渉点特徴による影響を抑制して、対象物検出の精度を向上させる。
可能な一実現形態では、第1候補領域に含まれる3次元サブ点群をサンプリングして第2サンプリング点を得るプロセスは、3次元点群をサンプリングして第1サンプリング点を得るプロセスと同じであってもよく、ここでは詳細な説明を省略する。
第2サンプリング点が得られた後、第2サンプリング点の注意特徴ベクトルを取得することができる。具体的な取得方式は限定されない。可能な一実現形態では、ステップS132は、
第1候補領域に含まれる3次元サブ点群の特徴行列に基づいて、第2サンプリング点に対して特徴抽出を行って、第2サンプリング点の初期特徴ベクトルを得るステップS1321と、
第2サンプリング点の初期特徴ベクトルに対して平均プーリングを行って、第1候補領域のグローバル特徴ベクトルを得るステップS1322と、
第2サンプリング点の初期特徴ベクトルとグローバル特徴ベクトルとをつなぎ合わせて、第2サンプリング点の拡張特徴ベクトルを得るステップS1323と、
第2サンプリング点の拡張特徴ベクトルに基づいて、第2サンプリング点の注意係数を得るステップS1324と、
第2サンプリング点の注意係数と第2サンプリング点の初期特徴ベクトルとを乗算して、第2サンプリング点の注意特徴ベクトルを得るステップS1325と、を含むことができる。
第1候補領域に含まれる3次元サブ点群の特徴行列に基づいて、第2サンプリング点に対して特徴抽出を行って、第2サンプリング点の初期特徴ベクトルを得るステップS1321と、
第2サンプリング点の初期特徴ベクトルに対して平均プーリングを行って、第1候補領域のグローバル特徴ベクトルを得るステップS1322と、
第2サンプリング点の初期特徴ベクトルとグローバル特徴ベクトルとをつなぎ合わせて、第2サンプリング点の拡張特徴ベクトルを得るステップS1323と、
第2サンプリング点の拡張特徴ベクトルに基づいて、第2サンプリング点の注意係数を得るステップS1324と、
第2サンプリング点の注意係数と第2サンプリング点の初期特徴ベクトルとを乗算して、第2サンプリング点の注意特徴ベクトルを得るステップS1325と、を含むことができる。
上記開示の実施例から分かるように、可能な一実現形態では、第2サンプリング点の注意特徴ベクトルを取得するプロセスは、第2サンプリング点に対して特徴抽出を行って、その初期特徴ベクトルを得るようにしてもよい。特徴抽出のプロセスは、各上記開示の実施例を参照すればよく、ここでは詳細な説明を省略する。上記開示実施例で言及したように、候補領域を決定すると同時に候補領域に含まれる3次元サブ点群の特徴行列が得られるので、可能な一実現形態では、特徴行列から第2サンプリング点に対応する特徴ベクトルを第2サンプリング点の初期特徴ベクトルとして抽出することもできる。そして、第2サンプリング点を平均プーリング層で処理して、候補領域のグローバル特徴ベクトルを得、次に、得られたグローバル特徴ベクトルと第2サンプリング点自体の初期特徴ベクトルとをつなぎ合わせて、第2サンプリング点の拡張特徴ベクトルを得るようにしてもよい。第2サンプリング点の拡張特徴ベクトルが得られた後、ステップS1324により、この拡張特徴ベクトルに基づいて第2サンプリング点の注意特徴を得ることができ、具体的にはどのように得るかについて、その方式は実情に応じて柔軟に決定することができる。可能な一実現形態では、第2サンプリング点の拡張特徴ベクトルがMLPによって処理されて、第2サンプリング点の注意係数を得ることができる。このようにして、第2サンプリング点の注意係数と該第2サンプリング点自体の初期特徴ベクトルとを乗算して得られた特徴ベクトルを第2サンプリング点の注意特徴ベクトルと見なすことができる。
上記プロセスにより、第2サンプリング点の注意特徴ベクトルを比較的簡便に得て、さらに、この注意特徴ベクトルに基づいて目標対象物の検出結果を得ることができ、対象物検出プロセス全体の利便性及び精度を向上させる。
第1候補領域に含まれる第2サンプリング点の注意特徴ベクトルが得られた後、融合畳み込みネットワークによって第1候補領域に含まれる第2サンプリング点の注意特徴ベクトルをそれぞれ融合して、特徴融合結果を該候補領域の対象物検出結果とすることができる。このようにして、全ての第1候補領域の対象物検出結果を統計することで、3次元点群全体に対応する対象物検出結果を得ることができる。ここで、融合畳み込みネットワークの実現方式は、限定されず、注意特徴ベクトルに基づいて検出結果を得ることができるニューラルネットワークであれば、融合畳み込みネットワークの実現形態とすることができる。一例では、予測層によって上記融合プロセスを実現して、目標対象物の検出を完了させることができる。
図2は、本開示の実施例に係る目標対象物の検出装置のブロック図である。図2に示すように、目標対象物の検出装置20は、
対象シーンの3次元点群に対して特徴抽出を行って、特徴抽出結果を得るための特徴抽出モジュール21と、
特徴抽出結果に基づいて、3次元点群に対して目標対象物のカテゴリ予測及び位置予測を行って、対象シーンにおける目標対象物の少なくとも1つの候補領域を決定するための候補領域決定モジュール22と、
少なくとも1つの候補領域において、目標対象物を検出して検出結果を得るための検出モジュール23と、を含む。
対象シーンの3次元点群に対して特徴抽出を行って、特徴抽出結果を得るための特徴抽出モジュール21と、
特徴抽出結果に基づいて、3次元点群に対して目標対象物のカテゴリ予測及び位置予測を行って、対象シーンにおける目標対象物の少なくとも1つの候補領域を決定するための候補領域決定モジュール22と、
少なくとも1つの候補領域において、目標対象物を検出して検出結果を得るための検出モジュール23と、を含む。
可能な一実現形態では、特徴抽出モジュールは、3次元点群をサンプリングして、少なくとも1つの第1サンプリング点を得ることと、3次元点群において、第1サンプリング点を中心とする少なくとも1つのサンプリング領域を構築することと、サンプリング領域に対して特徴抽出を行って、サンプリング領域の特徴ベクトルを得ることと、サンプリング領域の特徴ベクトルに基づいて、3次元点群に含まれる3次元点の特徴ベクトルを特徴抽出結果としてそれぞれ決定することに用いられる。
可能な一実現形態では、候補領域決定モジュールは、特徴抽出結果に基づいて、3次元点群に対して目標対象物のカテゴリ予測を行って、3次元点群に含まれる3次元点が属する目標対象物のカテゴリを示すカテゴリ予測結果を得ることと、特徴抽出結果に基づいて、3次元点群に対して目標対象物の位置予測を行って、3次元点群内の、目標対象物の位置する3次元点の位置を示す位置予測結果を得ることと、カテゴリ予測結果及び前記位置予測結果に基づいて、シーンに含まれる目標対象物の少なくとも1つの候補領域を決定することに用いられる。
可能な一実現形態では、候補領域決定モジュールは、さらに、カテゴリ予測畳み込みネットワークで特徴抽出結果を処理して、3次元点群に含まれる3次元点が属する目標対象物のカテゴリを得ることに用いられる。
可能な一実現形態では、候補領域決定モジュールは、さらに、位置予測畳み込みネットワークで特徴抽出結果を処理して、3次元点群に含まれる3次元点と、1つ以上の所定の検出フレームのうちの少なくとも1つの所定の検出フレームとの間の残差量を得ることと、残差量に基づいて、3次元点にマッチングする少なくとも1つの検出フレームを位置予測結果として得ることに用いられる。
可能な一実現形態では、位置予測畳み込みネットワークは、3次元点群サンプル、3次元点群サンプルにおけるサンプル対象物の第1位置及びサンプル対象物のカテゴリに対応する第1特徴ベクトルを含むトレーニングデータによってトレーニングが行われたものであり、トレーニングは、3次元点群サンプル及び初期位置予測畳み込みネットワークによって、第1位置予測結果を得ることと、第1位置予測結果と第1位置との間の誤差に基づいて、第1誤差損失を得ることと、3次元点群サンプルに含まれる3次元点の特徴ベクトルと、第1特徴ベクトルとの間の距離に基づいて、第2誤差損失を得ることと、第1誤差損失及び/又は第2誤差損失に基づいて、初期位置予測畳み込みネットワークをトレーニングすることと、を含む。
可能な一実現形態では、候補領域決定モジュールは、さらに、位置予測結果に含まれる少なくとも1つの検出フレームを取得することと、検出フレームに含まれる3次元点のカテゴリ予測結果に基づいて、少なくとも1つの検出フレームの予測スコアをそれぞれ得ることと、予測スコアがスコア閾値よりも大きい検出フレームを、目標対象物の候補領域とすることに用いられる。
可能な一実現形態では、検出モジュールの前に、候補領域決定モジュールは、さらに、少なくとも1つの候補領域に含まれる3次元点からなる3次元サブ点群を決定することと、3次元サブ点群に含まれる3次元点の座標を3次元サブ点群の空間座標として取得することと、3次元サブ点群に含まれる3次元点の特徴ベクトルを3次元サブ点群の特徴ベクトルとして取得することと、3次元サブ点群の空間座標及び3次元サブ点群の特徴ベクトルに基づいて、3次元サブ点群の特徴行列を得ることに用いられる。
可能な一実現形態では、検出モジュールは、少なくとも1つの候補領域のうちのいずれか1つである第1候補領域に含まれる3次元サブ点群をサンプリングして、第1候補領域に含まれる第2サンプリング点を得ることと、第1候補領域に含まれる3次元サブ点群の特徴行列に基づいて、第1候補領域に含まれる第2サンプリング点の注意特徴ベクトルを得ることと、融合畳み込みネットワークによって、第1候補領域に含まれる第2サンプリング点の注意特徴ベクトルを融合して、第1候補領域の特徴融合結果を得ることと、第1候補領域の特徴融合結果を第1候補領域の検出結果とすることに用いられる。
可能な一実現形態では、検出モジュールは、さらに、第1候補領域に含まれる3次元サブ点群の特徴行列に基づいて、第2サンプリング点に対して特徴抽出を行って、第2サンプリング点の初期特徴ベクトルを得ることと、第2サンプリング点の初期特徴ベクトルに対して平均プーリングを行って、第1候補領域のグローバル特徴ベクトルを得ることと、第2サンプリング点の初期特徴ベクトルとグローバル特徴ベクトルとをつなぎ合わせて、第2サンプリング点の拡張特徴ベクトルを得ることと、第2サンプリング点の拡張特徴ベクトルに基づいて、第2サンプリング点の注意係数を得ることと、第2サンプリング点の注意係数と第2サンプリング点の初期特徴ベクトルとを乗算して、第2サンプリング点の注意特徴ベクトルを得ることに用いられる。
論理に違反しない限り、本願のそれぞれの実施例は相互に組み合わせることができ、異なる実施例において重点として説明されるものが異なって、重点として説明されていない部分については他の実施例の記載を参照すればよい。
本開示のいくつかの実施例では、本開示の実施例に係る装置が備える機能又はモジュールは、上述した方法の実施例に説明される方法を実行するために利用でき、その具体的な実現及び技術的効果について、上述した方法の実施例の説明を参照すればよく、簡素化のために、ここで詳細な説明を省略する。
応用シーンの例
対象物認識タスクがますます複雑になることにつれて、室内空間に含まれる各種類の物品の認識効果をいかに効果的に向上させるかが、早急に解決すべき問題となっている。
対象物認識タスクがますます複雑になることにつれて、室内空間に含まれる各種類の物品の認識効果をいかに効果的に向上させるかが、早急に解決すべき問題となっている。
図3~図5は、本開示の一応用例に係る模式図を示す。図に示すように、本開示の実施例は、目標対象物の検出方法を提供している。この目標対象物の検出方法の具体的なプロセスは以下のとおりである。
図3は、目標対象物の検出の全体的なプロセスを示す。図3から分かるように、本開示の応用例では、複数種類の目標対象物を含む室内空間の3次元点群に対して特徴抽出(即ち、図3のカテゴリ間特徴ベクトルに基づく3次元点群特徴抽出プロセス)を行って、3次元点群における各3次元点の特徴ベクトルを特徴抽出結果として得、特徴抽出結果が得られた後、特徴抽出結果に基づいて、目標対象物の位置予測(即ち、図3の位置予測)を行うとともに、目標対象物のカテゴリ予測(即ち、図3のカテゴリ予測)を行うことにより、対象シーンにおける目標対象物の少なくとも1つの候補領域を決定し、同時に候補領域の特徴ベクトル(即ち、図3の連携予測特徴)を得ることができ、候補領域が決定された後、注意メカニズムに基づいて候補領域における目標対象物を検出して、目標対象物の検出結果を得ることができる。本開示の応用例では、目標対象物の検出結果には、3次元点群における目標対象物が位置する位置及び目標対象物の具体的なカテゴリが含まれているようにしてもよい。
上記開示の応用例で言及した特徴抽出のプロセスは、図4を参照することができる。図4から分かるように、本開示の応用例では、3次元点群に対して特徴抽出を行って特徴ベクトルを得るプロセスは、特徴抽出のニューラルネットワークによって実現することができる。この特徴抽出のニューラルネットワークは、サンプリング層、グルーピング層、点群特徴抽出層及びアップサンプリング層の4層に分けることができる。ここで、サンプリング層は、入力された3次元点群からFPSアルゴリズムを用いて一連の第1サンプリング点を選択することで、サンプリング領域の中心を定義することができる。FPSアルゴリズムの基本的なプロセスは、まず、1つの点をランダムに選択し、次に、その点から最も遠い点を始点として選択し、必要な個数が選択されるまで反復し続けることである。グルーピング層は、第1サンプリング点を中心として、近接点を用いて局所領域を構築し、さらに特徴を抽出することができる。点群特徴抽出層は、MLPを用いてサンプリング領域に対して特徴抽出を行うことができる。アップサンプリング層は、補間の方法によって第1サンプリング点を用いて3次元点群における各3次元点の特徴ベクトルを得ることができる。
図4に示すように、一例では、N個の3次元点を含む3次元点群について、各3次元点の空間座標からなる空間座標行列はdで表され、これに含まれるいくつかの3次元点の特徴ベクトルからなる特徴行列はCで表される。特徴抽出によって該3次元点群における各3次元点の特徴ベクトルからなる特徴行列C4を得るために、図に示すように、3次元点群に含まれる3次元点をサンプリング及びグルーピングし、サンプリングされた後、3次元点群に含まれる3次元点の数をNからN1に変更するとともに、グルーピングされた後、複数のサンプリング領域を得ることができ、各サンプリング領域に含まれる3次元点の数をKと記することができる。このとき、各サンプリング領域に対してそれぞれ特徴抽出を行って、各サンプリング領域の特徴ベクトルを得、3次元点群の特徴行列C1を構成することができる。3次元点群の特徴行列C1が得られた後、補間により各サンプリング領域における各3次元点の特徴ベクトルを得、さらに3次元点群における各3次元点の特徴ベクトルを得ることができる。本開示の応用例では、1回のサンプリング及びグルーピングの後にサンプリング領域の数が多すぎる可能性もあるため、さらに、再度1回のサンプリング及びグルーピングを行い、さらに2回選別されたサンプリング領域を得ることによって、この2回選別されたサンプリング領域に基づいて特徴抽出を行って、特徴行列C2を得、この特徴行列C2に基づいて補間を行い、補間した結果をC1とマージしてC3とし、その後、再度補間し、補間結果を初期の特徴行列Cとマージして、3次元点群における各3次元点の特徴ベクトルからなる特徴行列C4を得ることができる。
3次元点群における各3次元点の特徴ベクトルが得られた後、さらに、これらの特徴ベクトルに基づいて3次元点群における候補領域を決定することができる。図5は、候補領域を決定する方式を示す。図5及び図3の両方から分かるように、候補領域を決定するプロセスにおいて、3次元点群における各3次元点の座標及び特徴ベクトルに基づいて、3次元点群に対してそれぞれ位置予測及びカテゴリ予測を行い、位置予測及びカテゴリ予測の結果を組み合わせることで、3次元点群における候補領域を効果的に決定することができる。
本開示の応用例では、ニューラルネットワークによってカテゴリ予測及び位置予測を実現することができる。一例では、カテゴリ予測及び位置予測の分岐はいずれも1次元畳み込みによって実現することができる。カテゴリ予測分岐について、畳み込みネットワークによる出力チャネル数がカテゴリ数である。位置の予測について、本開示の応用例でanchorの方法を用いて予測する。一例では、A個のanchorの大きさを予め定義し、各anchorについて(x、y、z、h、w、l、ry)の7つの次元(即ち、目標対象物に対応し得る7つのカテゴリ)の残差量を予測して、予備予測フレームを得る。さらに、得られた予備予測フレームについて、それに含まれる各3次元点のカテゴリ分岐におけるカテゴリ予測結果から得られたスコア(score)に基づいて、スコアがスコア閾値よりも大きい検出フレームを選択し、NMS後処理を行って、最終的な候補領域を得ることができる。各候補領域について、さらに該空間領域内の3次元点群サブ集合を3次元サブ点群として選別することができ、該3次元サブ点群の空間座標及び特徴ベクトルが該候補領域の特徴行列を構成する。
ここで、位置の予測ニューラルネットワークをトレーニングするプロセスでは、各目標対象物のカテゴリに学習可能な特徴ベクトルをそれぞれ定義し、トレーニングデータにおける各3次元点の特徴ベクトルと、対応する目標対象物のカテゴリの学習可能な特徴ベクトルとの距離を計算し、計算した距離を罰項(即ち、誤差損失)としてネットワークトレーニングのプロセスに加え、即ち位置の予測ニューラルネットワークのトレーニングプロセスでは、各目標対象物のカテゴリにおける3次元点の特徴ベクトル距離を計算することにより、各目標対象物のカテゴリにおける位置予測ニューラルネットワークのトレーニングを実現することができる。
候補領域が決定された後、上記開示の応用例で得られた各候補領域の特徴行列に基づいて、各候補領域における目標対象物を検出することができる。一例では、候補領域内の3次元サブ点群についても、上記開示の応用例と同様のサンプリング方式を用いて、候補領域内の第2サンプリング点をさらに抽出して、その特徴ベクトルを得ることができる。そして、全ての第2サンプリング点の特徴ベクトルを用いて、平均プール層により候補領域のグローバル特徴ベクトルを得、グローバル特徴ベクトルと第2サンプリング点自体の特徴ベクトルとをつなぎ合わせて、第2サンプリング点特徴ベクトルの拡張を実現する。各第2サンプリング点は、拡張された特徴ベクトルを用いてMLPで対応する注意係数が得られ、注意係数と自体の特徴ベクトルとを乗算して、各第2サンプリング点の注意特徴ベクトルを得る。最後に、得られた全ての第2サンプリング点の注意特徴ベクトルに対して、さらに畳み込みネットワークを用いて融合し、各候補領域に対応する目標対象物のカテゴリ及び位置結果を3次元点群全体の対象物検出結果として予測し、即ち室内空間に含まれる各物品(即ち目標対象物)のカテゴリ及び位置を検出結果として予測することができる。
本開示の応用例で提案された目標対象物の検出方法は、室内の物品の認識タスクに適用できることに加えて、目標対象物の検出のニーズがある他のタスクにも適用することができる。
本開示で言及される上記各方法の実施例は、原理と論理に違反しない限り、相互に組み合わせて実施例を形成することができることが理解すべきである。紙数に限りがあるので、本開示では詳細な説明を省略する。
また、当業者であれば、具体的な実施形態に係る上記の方法では、各ステップの記載順序は、実行順序を厳密に限定して実施の過程を限定するものではなく、各ステップの実行順序がその機能と内部の論理によって具体的に決定されることが理解すべきである。
本開示の実施例では、コンピュータプログラム命令が記憶されているコンピュータ可読記憶媒体であって、前記コンピュータプログラム命令はプロセッサによって実行されると、上記の方法を実現させるコンピュータ可読記憶媒体がさらに提供される。当該コンピュータ可読記憶媒体は、不揮発性のコンピュータ可読記憶媒体であってもよい。
本開示の実施例では、プロセッサと、プロセッサにより実行可能な命令を記憶するメモリと、を含み、前記プロセッサは、上記の方法を実行するように構成される電子機器がさらに提供される。
本開示の実施例では、コンピュータ可読コードを含むコンピュータプログラムであって、前記コンピュータ可読コードは電子機器において動作すると、前記電子機器のプロセッサに上記方法を実現するための命令を実行させるコンピュータプログラムがさらに提供される。
実際の応用では、上記メモリは、RAMなどの揮発性メモリ(volatile memory)、又はROM、フラッシュメモリ(flash memory)、ハードディスク(Hard Disk Drive、HDD)又はソリッドステートドライブ(Solid-State Drive、SSD)などの不揮発性メモリ(non-volatile memory)、又は上記種類のメモリの組み合わせであり、プロセッサに命令及びデータを供給することができる。
上記プロセッサは、ASIC、DSP、DSPD、PLD、FPGA、CPU、コントローラ、マイクロコントローラ、マイクロプロセッサのうちの少なくとも1つであってもよい。異なる装置については、上記プロセッサ機能を実現するための電子デバイスも他のものであってもよいことが理解すべきであるが、本開示の実施例では特に限定されない。
電子機器は、端末、サーバ又は他の形態の機器として提供されてもよい。
本開示の実施例では、前述の実施例と同じ技術的構想に基づいて、プロセッサによって実行されると上記方法を実現させるコンピュータプログラムがさらに提供される。
図6は、本開示の実施例の電子機器800のブロック図を示す。例えば、電子機器800は携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信機器、ゲームコンソール、タブレット型機器、医療機器、フィットネス機器、パーソナル・デジタル・アシスタント等の端末であってもよい。
図6を参照すると、電子機器800は、処理コンポーネント802、メモリ804、電源コンポーネント806、マルチメディアコンポーネント808、オーディオコンポーネント810、入力/出力(I/O)のインタフェース812、センサコンポーネント814、および通信コンポーネント816のうちの一つ以上を含んでもよい。
処理コンポーネント802は通常、電子機器800の全体的な動作、例えば表示、電話の呼び出し、データ通信、カメラ動作および記録動作に関連する動作を制御する。処理コンポーネント802は、上記方法の全てまたは一部のステップを実行するために、命令を実行する一つ以上のプロセッサ820を含んでもよい。また、処理コンポーネント802は、他のコンポーネントとのインタラクションのための一つ以上のモジュールを含んでもよい。例えば、処理コンポーネント802は、マルチメディアコンポーネント808とのインタラクションのために、マルチメディアモジュールを含んでもよい。
メモリ804は電子機器800での動作をサポートするための様々なタイプのデータを記憶するように構成される。これらのデータは、例として、電子機器800において操作するあらゆるアプリケーションプログラムまたは方法の命令、連絡先データ、電話帳データ、メッセージ、ピクチャー、ビデオなどを含む。メモリ804は、例えば静的ランダムアクセスメモリ(SRAM)、電気的消去可能プログラマブル読み取り専用メモリ(EEPROM)、消去可能なプログラマブル読み取り専用メモリ(EPROM)、プログラマブル読み取り専用メモリ(PROM)、読み取り専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクなどの様々なタイプの揮発性または不揮発性記憶装置またはそれらの組み合わせによって実現できる。
電源コンポーネント806は電子機器800の各コンポーネントに電力を供給する。電源コンポーネント806は電源管理システム、一つ以上の電源、および電子機器800のための電力生成、管理および配分に関連する他のコンポーネントを含んでもよい。
マルチメディアコンポーネント808は前記電子機器800とユーザとの間で出力インタフェースを提供するスクリーンを含む。いくつかの実施例では、スクリーンは液晶ディスプレイ(LCD)およびタッチパネル(TP)を含んでもよい。スクリーンがタッチパネルを含む場合、ユーザからの入力信号を受信するタッチスクリーンとして実現してもよい。タッチパネルは、タッチ、スライドおよびタッチパネルでのジェスチャーを検知するように、一つ以上のタッチセンサを含む。前記タッチセンサはタッチまたはスライド動きの境界を検知するのみならず、前記タッチまたはスライド操作に関連する持続時間および圧力を検出するようにしてもよい。いくつかの実施例では、マルチメディアコンポーネント808は前面カメラおよび/または背面カメラを含む。電子機器800が動作モード、例えば撮影モードまたは撮像モードになる場合、前面カメラおよび/または背面カメラは外部のマルチメディアデータを受信するようにしてもよい。各前面カメラおよび背面カメラは、固定された光学レンズ系、または焦点距離および光学ズーム能力を有するものであってもよい。
オーディオコンポーネント810はオーディオ信号を出力および/または入力するように構成される。例えば、オーディオコンポーネント810は、一つのマイク(MIC)を含み、マイク(MIC)は、電子機器800が動作モード、例えば呼び出しモード、記録モードおよび音声認識モードになる場合、外部のオーディオ信号を受信するように構成される。受信されたオーディオ信号はさらにメモリ804に記憶されるか、または通信コンポーネント816を介して送信されてもよい。いくつかの実施例では、オーディオコンポーネント810はさらに、オーディオ信号を出力するためのスピーカーを含む。
I/Oインタフェース812は処理コンポーネント802と周辺インタフェースモジュールとの間でインタフェースを提供し、上記周辺インタフェースモジュールはキーボード、クリックホイール、ボタンなどであってもよい。これらのボタンはホームボタン、音量ボタン、スタートボタンおよびロックボタンを含んでもよいが、これらに限定されない。
センサコンポーネント814は電子機器800の各方面の状態評価のために一つ以上のセンサを含む。例えば、センサコンポーネント814は電子機器800のオン/オフ状態、例えば電子機器800の表示装置およびキーパッドのようなコンポーネントの相対的位置決めを検出でき、センサコンポーネント814はさらに、電子機器800または電子機器800のあるコンポーネントの位置の変化、ユーザと電子機器800との接触の有無、電子機器800の方位または加減速および電子機器800の温度変化を検出できる。センサコンポーネント814は、いかなる物理的接触もない場合に近傍の物体の存在を検出するように構成される近接センサを含んでもよい。センサコンポーネント814はさらに、CMOSまたはCCDイメージセンサのような、イメージングアプリケーションにおいて使用するための光センサを含んでもよい。いくつかの実施例では、該センサコンポーネント814はさらに、加速度センサ、ジャイロセンサ、磁気センサ、圧力センサまたは温度センサを含んでもよい。
通信コンポーネント816は電子機器800と他の機器との有線または無線通信を実現するように構成される。電子機器800は通信規格に基づく無線ネットワーク、例えばWiFi、2Gまたは3G、またはそれらの組み合わせにアクセスできる。一例示的実施例では、通信コンポーネント816は放送チャネルを介して外部の放送管理システムからの放送信号または放送関連情報を受信する。一例示的実施例では、前記通信コンポーネント816はさらに、近距離通信を促進させるために、近距離無線通信(NFC)モジュールを含む。例えば、NFCモジュールは、無線周波数識別(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(登録商標/BT)技術および他の技術によって実現できる。
例示的な実施例では、電子機器800は一つ以上の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタルシグナルプロセッサ(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサまたは他の電子要素によって実現され、上記方法を実行するために用いられることができる。
例示的な実施例では、さらに、不揮発性コンピュータ読み取り可能記憶媒体、例えばコンピュータプログラム命令を含むメモリ804が提供され、上記コンピュータプログラム命令は、電子機器800のプロセッサ820によって実行されと、上記方法を実行させることができる。
図7は、本開示の実施例の電子機器1900のブロック図を示す。例えば、電子機器1900はサーバとして提供されてもよい。図7を参照すると、電子機器1900は、一つ以上のプロセッサを含む処理コンポーネント1922、および、処理コンポーネント1922によって実行可能な命令例えばアプリケーションプログラムを記憶するための、メモリ1932を代表とするメモリ資源を含む。メモリ1932に記憶されているアプリケーションプログラムは、それぞれが1つの命令群に対応する一つ以上のモジュールを含んでもよい。また、処理コンポーネント1922は命令を実行することによって上記方法を実行するように構成される。
電子機器1900はさらに、電子機器1900の電源管理を実行するように構成される電源コンポーネント1926、電子機器1900をネットワークに接続するように構成される有線または無線ネットワークインタフェース1950、および入出力(I/O)インタフェース1958を含んでもよい。電子機器1900はメモリ1932に記憶されているオペレーティングシステム、例えばWindows(登録商標) ServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTMまたは類似するものに基づいて動作できる。
例示的な実施例では、さらに、不揮発性コンピュータ可読記憶媒体、例えばコンピュータプログラム命令を含むメモリ1932が提供され、上記コンピュータプログラム命令は、電子機器1900の処理コンポーネント1922によって実行されと、上記方法を実行させることができる。
本開示はシステム、方法および/またはコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、プロセッサに本開示の各方面を実現させるためのコンピュータ可読プログラム命令が有しているコンピュータ可読記憶媒体を含んでもよい。
コンピュータ可読記憶媒体は、命令実行機器に使用される命令を保存および記憶可能な有形装置であってもよい。コンピュータ可読記憶媒体は例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置、または上記の任意の適当な組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のさらに具体的な例(非網羅的リスト)としては、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、静的ランダムアクセスメモリ(SRAM)、携帯型コンパクトディスク読み取り専用メモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピーディスク、例えば命令が記憶されているせん孔カードまたはスロット内突起構造のような機械的符号化装置、および上記の任意の適当な組み合わせを含む。ここで使用されるコンピュータ可読記憶媒体は、瞬時信号自体、例えば無線電波または他の自由に伝播される電磁波、導波路または他の伝送媒体を経由して伝播される電磁波(例えば、光ファイバーケーブルを通過するパルス光)、または電線を経由して伝送される電気信号と解釈されるものではない。
ここで記述したコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から各計算/処理機器にダウンロードされてもよいし、またはネットワーク、例えばインターネット、ローカルエリアネットワーク、広域ネットワークおよび/または無線ネットワークを介して外部のコンピュータまたは外部記憶装置にダウンロードされてもよい。ネットワークは銅伝送ケーブル、光ファイバー伝送、無線伝送、ルーター、ファイアウォール、交換機、ゲートウェイコンピュータおよび/またはエッジサーバを含んでもよい。各計算/処理機器内のネットワークアダプタカードまたはネットワークインタフェースはネットワークからコンピュータ可読プログラム命令を受信し、該コンピュータ可読プログラム命令を転送し、各計算/処理機器内のコンピュータ可読記憶媒体に記憶させる。
本開示の動作を実行するためのコンピュータプログラム命令はアセンブリ命令、命令セットアーキテクチャ(ISA)命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはSmalltalk、C++などのオブジェクト指向プログラミング言語、および「C」言語または類似するプログラミング言語などの一般的な手続き型プログラミング言語を含める一つ以上のプログラミング言語の任意の組み合わせで書かれたソースコードまたは目標コードであってもよい。コンピュータ可読プログラム命令は、完全にユーザのコンピュータにおいて実行されてもよく、部分的にユーザのコンピュータにおいて実行されてもよく、スタンドアロンソフトウェアパッケージとして実行されてもよく、部分的にユーザのコンピュータにおいてかつ部分的にリモートコンピュータにおいて実行されてもよく、または完全にリモートコンピュータもしくはサーバにおいて実行されてもよい。リモートコンピュータに関与する場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)または広域ネットワーク(WAN)を含む任意の種類のネットワークを経由してユーザのコンピュータに接続されてもよく、または、(例えばインターネットサービスプロバイダを利用してインターネットを経由して)外部コンピュータに接続されてもよい。いくつかの実施例では、コンピュータ可読プログラム命令の状態情報を利用して、例えばプログラマブル論理回路、フィールドプログラマブルゲートアレイ(FPGA)またはプログラマブル論理アレイ(PLA)などの電子回路をパーソナライズし、該電子回路によりコンピュータ可読プログラム命令を実行することにより、本開示の各方面を実現するようにしてもよい。
ここで本開示の実施例に係る方法、装置(システム)およびコンピュータプログラム製品のフローチャートおよび/またはブロック図を参照しながら本開示の各態様を説明したが、フローチャートおよび/またはブロック図の各ブロックおよびフローチャートおよび/またはブロック図の各ブロックの組み合わせは、いずれもコンピュータ可読プログラム命令によって実現できることを理解すべきである。
これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサへ提供され、これらの命令がコンピュータまたは他のプログラマブルデータ処理装置のプロセッサによって実行されると、フローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作を実現ように、装置を製造してもよい。これらのコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体に記憶され、コンピュータ、プログラマブルデータ処理装置および/または他の機器を決定の方式で動作させるようにしてもよい。これにより、命令が記憶されているコンピュータ可読記憶媒体は、フローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作の各方面を実現する命令を有する製品を含む。
コンピュータ可読プログラム命令は、コンピュータ、他のプログラマブルデータ処理装置、または他の機器にロードされ、コンピュータ、他のプログラマブルデータ処理装置または他の機器に一連の動作ステップを実行させることにより、コンピュータにより実施なプロセスを生成するようにしてもよい。このようにして、コンピュータ、他のプログラマブルデータ処理装置、または他の機器において実行される命令により、フローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作を実現する。
図面のうちフローチャートおよびブロック図は、本開示の複数の実施例に係るシステム、方法およびコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能および動作を示す。この点では、フローチャートまたはブロック図における各ブロックは一つのモジュール、プログラムセグメントまたは命令の一部分を代表することができ、前記モジュール、プログラムセグメントまたは命令の一部分は指定された論理機能を実現するための一つ以上の実行可能命令を含む。いくつかの代替としての実現形態では、ブロックに表記される機能は、図面に付した順序と異なって実現してもよい。例えば、連続的な二つのブロックは実質的に並列に実行してもよく、また、係る機能によって、逆な順序で実行してもよい。なお、ブロック図および/またはフローチャートにおける各ブロック、およびブロック図および/またはフローチャートにおけるブロックの組み合わせは、指定される機能または動作を実行するハードウェアに基づく専用システムによって実現してもよいし、または専用ハードウェアとコンピュータ命令との組み合わせによって実現してもよいことにも注意すべきである。
以上、本開示の各実施例を記述したが、上記説明は例示的なものに過ぎず、網羅的なものではなく、かつ披露された各実施例に限定されるものでもない。当業者にとって、説明された各実施例の範囲および精神から逸脱することなく、様々な修正および変更が自明である。本明細書に選ばれた用語は、各実施例の原理、実際の適用または既存技術に対する改善を好適に解釈するか、または他の当業者に本文に披露された各実施例を理解させるためのものである。
Claims (21)
- 対象シーンの3次元点群に対して特徴抽出を行って、特徴抽出結果を得ることと、
前記特徴抽出結果に基づいて、前記3次元点群に対して目標対象物のカテゴリ予測及び位置予測を行って、前記対象シーンにおける目標対象物の少なくとも1つの候補領域を決定することと、
前記少なくとも1つの候補領域において、前記目標対象物を検出して検出結果を得ることと、を含む、
ことを特徴とする目標対象物の検出方法。 - 対象シーンの3次元点群に対して特徴抽出を行って、特徴抽出結果を得ることは、
前記3次元点群をサンプリングして、第1サンプリング点を得ることと、
前記3次元点群において、前記第1サンプリング点を中心とするサンプリング領域を構築することと、
前記サンプリング領域に対して特徴抽出を行って、前記サンプリング領域の特徴ベクトルを得ることと、
前記サンプリング領域の特徴ベクトルに基づいて、前記3次元点群に含まれる3次元点の特徴ベクトルを前記特徴抽出結果として決定することと、を含む、
ことを特徴とする請求項1に記載の方法。 - 前記特徴抽出結果に基づいて、前記3次元点群に対して目標対象物のカテゴリ予測及び位置予測を行って、前記対象シーンにおける目標対象物の少なくとも1つの候補領域を決定することは、
前記特徴抽出結果に基づいて、前記3次元点群に対して目標対象物のカテゴリ予測を行って、前記3次元点群に含まれる3次元点が属する目標対象物のカテゴリを示すカテゴリ予測結果を得ることと、
前記特徴抽出結果に基づいて、前記3次元点群に対して目標対象物の位置予測を行って、前記3次元点群内の、目標対象物の位置する3次元点の位置を示す位置予測結果を得ることと、
前記カテゴリ予測結果及び前記位置予測結果に基づいて、前記対象シーンに含まれる前記目標対象物の少なくとも1つの候補領域を決定することと、を含む、
ことを特徴とする請求項1又は2に記載の方法。 - 前記特徴抽出結果に基づいて、前記3次元点群に対してカテゴリ予測を行って、カテゴリ予測結果を得ることは、
カテゴリ予測畳み込みネットワークで前記特徴抽出結果を処理して、前記3次元点群に含まれる3次元点が属する目標対象物のカテゴリを得ることを含む、
ことを特徴とする請求項3に記載の方法。 - 前記特徴抽出結果に基づいて、前記3次元点群に対して位置予測を行って、位置予測結果を得ることは、
位置予測畳み込みネットワークで前記特徴抽出結果を処理して、前記3次元点群に含まれる3次元点と、1つ以上の所定の検出フレームのうちの少なくとも1つとの間の残差量を得ることと、
前記残差量に基づいて、前記3次元点にマッチングする少なくとも1つの検出フレームを前記位置予測結果として得ることと、を含む、
ことを特徴とする請求項3又は4に記載の方法。 - 前記位置予測畳み込みネットワークは、3次元点群サンプル、前記3次元点群サンプルにおけるサンプル対象物の第1位置及び前記サンプル対象物のカテゴリに対応する第1特徴ベクトルを含むトレーニングデータによってトレーニングが行われたものであり、前記トレーニングは、
前記3次元点群サンプル及び初期位置予測畳み込みネットワークによって、第1位置予測結果を得ることと、
前記第1位置予測結果と前記第1位置との間の誤差に基づいて、第1誤差損失を得ることと、
前記3次元点群サンプルに含まれる3次元点の特徴ベクトルと、前記第1特徴ベクトルとの間の距離に基づいて、第2誤差損失を得ることと、
前記第1誤差損失及び/又は第2誤差損失に基づいて、前記初期位置予測畳み込みネットワークをトレーニングすることと、を含む、
ことを特徴とする請求項5に記載の方法。 - 前記カテゴリ予測結果及び前記位置予測結果に基づいて、前記対象シーンに含まれる前記目標対象物の少なくとも1つの候補領域を決定することは、
前記位置予測結果に含まれる少なくとも1つの検出フレームを取得することと、
前記検出フレームに含まれる3次元点のカテゴリ予測結果に基づいて、前記少なくとも1つの検出フレームの予測スコアをそれぞれ得ることと、
前記予測スコアがスコア閾値よりも大きい検出フレームを前記目標対象物の候補領域とすることと、を含む、
ことを特徴とする請求項3~6のいずれか一項に記載の方法。 - 前記少なくとも1つの候補領域において、前記目標対象物を検出して検出結果を得る前に、
前記少なくとも1つの候補領域に含まれる3次元点からなる3次元サブ点群を決定することと、
前記3次元サブ点群に含まれる3次元点の座標を前記3次元サブ点群の空間座標として取得することと、
前記3次元サブ点群に含まれる3次元点の特徴ベクトルを前記3次元サブ点群の特徴ベクトルとして取得することと、
前記3次元サブ点群の空間座標及び前記3次元サブ点群の特徴ベクトルに基づいて、前記3次元サブ点群の特徴行列を得ることと、をさらに含む、
ことを特徴とする請求項3~7のいずれか一項に記載の方法。 - 前記少なくとも1つの候補領域において、前記目標対象物を検出して検出結果を得ることは、
前記少なくとも1つの候補領域のうちのいずれか1つである第1候補領域に含まれる3次元サブ点群をサンプリングして、前記第1候補領域に含まれる第2サンプリング点を得ることと、
前記第1候補領域に含まれる3次元サブ点群の特徴行列に基づいて、前記第1候補領域に含まれる第2サンプリング点の注意特徴ベクトルを得ることと、
融合畳み込みネットワークによって、前記第1候補領域に含まれる第2サンプリング点の注意特徴ベクトルを融合して、前記第1候補領域の特徴融合結果を得ることと、
前記第1候補領域の特徴融合結果を前記第1候補領域の検出結果とすることと、を含む、
ことを特徴とする請求項1~8のいずれか一項に記載の方法。 - 前記第1候補領域に含まれる3次元サブ点群の特徴行列に基づいて、前記第1候補領域に含まれる第2サンプリング点の注意特徴ベクトルを得ることは、
前記第1候補領域に含まれる3次元サブ点群の特徴行列に基づいて、前記第2サンプリング点に対して特徴抽出を行って、前記第2サンプリング点の初期特徴ベクトルを得ることと、
前記第2サンプリング点の初期特徴ベクトルに対して平均プーリングを行って、前記第1候補領域のグローバル特徴ベクトルを得ることと、
前記第2サンプリング点の初期特徴ベクトルと前記グローバル特徴ベクトルとをつなぎ合わせて、前記第2サンプリング点の拡張特徴ベクトルを得ることと、
前記第2サンプリング点の拡張特徴ベクトルに基づいて、前記第2サンプリング点の注意係数を得ることと、
前記第2サンプリング点の注意係数と前記第2サンプリング点の初期特徴ベクトルとを乗算して、前記第2サンプリング点の注意特徴ベクトルを得ることと、を含む、
ことを特徴とする請求項9に記載の方法。 - 対象シーンの3次元点群に対して特徴抽出を行って、特徴抽出結果を得るための特徴抽出モジュールと、
前記特徴抽出結果に基づいて、前記3次元点群に対して目標対象物のカテゴリ予測及び位置予測を行って、前記対象シーンにおける目標対象物の少なくとも1つの候補領域を決定するための候補領域決定モジュールと、
少なくとも1つの前記候補領域において、前記目標対象物を検出して検出結果を得るための検出モジュールと、を含む、
ことを特徴とする目標対象物の検出装置。 - 前記特徴抽出モジュールは、
前記3次元点群をサンプリングして、第1サンプリング点を得ることと、
前記3次元点群において、前記第1サンプリング点を中心とするサンプリング領域を構築することと、
前記サンプリング領域に対して特徴抽出を行って、前記サンプリング領域の特徴ベクトルを得ることと、
前記サンプリング領域の特徴ベクトルに基づいて、前記3次元点群に含まれる3次元点の特徴ベクトルを前記特徴抽出結果として決定することに用いられる、
ことを特徴とする請求項11に記載の装置。 - 前記候補領域決定モジュールは、
前記特徴抽出結果に基づいて、前記3次元点群に対して目標対象物のカテゴリ予測を行って、前記3次元点群に含まれる3次元点が属する目標対象物のカテゴリを示すカテゴリ予測結果を得ることと、
前記特徴抽出結果に基づいて、前記3次元点群に対して目標対象物の位置予測を行って、前記3次元点群内の、目標対象物の位置する3次元点の位置を示す位置予測結果を得ることと、
前記カテゴリ予測結果及び前記位置予測結果に基づいて、前記対象シーンに含まれる前記目標対象物の少なくとも1つの候補領域を決定することに用いられる、
ことを特徴とする請求項11又は12に記載の装置。 - 前記候補領域決定モジュールは、さらに、
位置予測畳み込みネットワークで前記特徴抽出結果を処理して、前記3次元点群に含まれる3次元点と、1つ以上の所定の検出フレームのうちの少なくとも1つとの間の残差量を得ることと、
前記残差量に基づいて、前記3次元点にマッチングする少なくとも1つの検出フレームを前記位置予測結果として得ることに用いられる、
ことを特徴とする請求項13に記載の装置。 - 前記位置予測畳み込みネットワークは、3次元点群サンプル、前記3次元点群サンプルにおける目標対象物の第1位置及び前記目標対象物のカテゴリに対応する少なくとも1つの第1特徴ベクトルを含むトレーニングデータによってトレーニングが行われたものであり、前記トレーニングは、
前記3次元点群サンプル及び初期位置予測畳み込みネットワークによって、第1位置予測結果を得ることと、
前記第1位置予測結果と前記第1位置との間の誤差に基づいて、第1誤差損失を得ることと、
前記3次元点群サンプルに含まれる3次元点の特徴ベクトルと、前記第1特徴ベクトルとの間の距離に基づいて、第2誤差損失を得ることと、
前記第1誤差損失及び/又は第2誤差損失に基づいて、前記初期位置予測畳み込みネットワークをトレーニングすることと、を含む、
ことを特徴とする請求項14に記載の装置。 - 前記候補領域決定モジュールは、さらに、
前記位置予測結果に含まれる少なくとも1つの検出フレームを取得することと、
前記検出フレームに含まれる3次元点のカテゴリ予測結果に基づいて、前記少なくとも1つの検出フレームの予測スコアをそれぞれ得ることと、
前記予測スコアがスコア閾値よりも大きい検出フレームを前記目標対象物の候補領域とすることに用いられる、
ことを特徴とする請求項13~15のいずれか一項に記載の装置。 - 前記検出モジュールは、
前記少なくとも1つの候補領域のうちのいずれか1つの候補領域である第1候補領域に含まれる3次元サブ点群をサンプリングして、前記第1候補領域に含まれる第2サンプリング点を得ることと、
前記第1候補領域に含まれる3次元サブ点群の特徴行列に基づいて、前記第1候補領域に含まれる第2サンプリング点の注意特徴ベクトルを得ることと、
融合畳み込みネットワークによって、前記第1候補領域に含まれる第2サンプリング点の注意特徴ベクトルを融合して、前記第1候補領域の特徴融合結果を得ることと、
前記第1候補領域の特徴融合結果を前記第1候補領域の検出結果とすることに用いられる、
ことを特徴とする請求項11~16のいずれか一項に記載の装置。 - 前記検出モジュールは、さらに、
前記第1候補領域に含まれる3次元サブ点群の特徴行列に基づいて、前記第2サンプリング点に対して特徴抽出を行って、前記第2サンプリング点の初期特徴ベクトルを得ることと、
前記第2サンプリング点の初期特徴ベクトルに対して平均プーリングを行って、前記第1候補領域のグローバル特徴ベクトルを得ることと、
前記第2サンプリング点の初期特徴ベクトルと前記グローバル特徴ベクトルとをつなぎ合わせて、前記第2サンプリング点の拡張特徴ベクトルを得ることと、
前記第2サンプリング点の拡張特徴ベクトルに基づいて、前記第2サンプリング点の注意係数を得ることと、
前記第2サンプリング点の注意係数と前記第2サンプリング点の初期特徴ベクトルとを乗算して、前記第2サンプリング点の注意特徴ベクトルを得ることに用いられる、
ことを特徴とする請求項17に記載の装置。 - プロセッサと、
プロセッサが実行可能な命令を記憶するためのメモリと、を含み、
前記プロセッサは、前記メモリに記憶されている命令を呼び出して、請求項1~10のいずれか一項に記載の方法を実行するように構成される、
ことを特徴とする電子機器。 - コンピュータプログラム命令が記憶されているコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータプログラム命令はプロセッサによって実行されると、請求項1~10のいずれか一項に記載の方法を実現させる、
ことを特徴とするコンピュータ読み取り可能な記憶媒体。 - コンピュータ読み取り可能なコードを含み、前記コンピュータ読み取り可能なコードが電子機器で実行されると、前記電子機器のプロセッサに、請求項1~10のいずれか一項に記載の方法を実現するための命令を実行させる、
コンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010108527.1A CN111340766B (zh) | 2020-02-21 | 目标对象的检测方法、装置、设备和存储介质 | |
CN202010108527.1 | 2020-02-21 | ||
PCT/CN2021/071295 WO2021164469A1 (zh) | 2020-02-21 | 2021-01-12 | 目标对象的检测方法、装置、设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022524262A true JP2022524262A (ja) | 2022-05-02 |
Family
ID=71184254
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021537177A Pending JP2022524262A (ja) | 2020-02-21 | 2021-01-12 | 目標対象物の検出方法、目標対象物の検出装置、電子機器、記憶媒体及びコンピュータプログラム |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP2022524262A (ja) |
KR (1) | KR20210114952A (ja) |
WO (1) | WO2021164469A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024095380A1 (ja) * | 2022-11-02 | 2024-05-10 | 三菱電機株式会社 | 点群識別装置、学習装置、点群識別方法、および、学習方法 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113761238B (zh) * | 2021-08-27 | 2022-08-23 | 广州文远知行科技有限公司 | 点云存储方法、装置、设备及存储介质 |
CN113988164B (zh) * | 2021-10-21 | 2023-08-08 | 电子科技大学 | 一种面向代表点自注意力机制的轻量级点云目标检测方法 |
KR102405818B1 (ko) * | 2021-11-15 | 2022-06-07 | 국방과학연구소 | 노이즈 제거 방법, 노이즈 제거 장치 및 상기 방법을 실행시키기 위하여 기록매체에 저장된 컴퓨터 프로그램 |
CN115018910A (zh) * | 2022-04-19 | 2022-09-06 | 京东科技信息技术有限公司 | 点云数据中目标的检测方法、装置和计算机可读存储介质 |
CN115273154B (zh) * | 2022-09-26 | 2023-01-17 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 基于边缘重构的热红外行人检测方法、系统及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018072198A (ja) * | 2016-10-31 | 2018-05-10 | 富士通株式会社 | 位置姿勢推定装置、位置姿勢推定方法、及び位置姿勢推定プログラム |
JP2019020953A (ja) * | 2017-07-14 | 2019-02-07 | エーティーラボ株式会社 | 境界推定装置、境界推定方法および境界推定プログラム |
CN109345510A (zh) * | 2018-09-07 | 2019-02-15 | 百度在线网络技术(北京)有限公司 | 物体检测方法、装置、设备、存储介质及车辆 |
CN110032962A (zh) * | 2019-04-03 | 2019-07-19 | 腾讯科技(深圳)有限公司 | 一种物体检测方法、装置、网络设备和存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6507046B2 (ja) * | 2015-06-26 | 2019-04-24 | 株式会社東芝 | 立体物検知装置及び立体物認証装置 |
CN109410307B (zh) * | 2018-10-16 | 2022-09-20 | 大连理工大学 | 一种场景点云语义分割方法 |
CN110059608B (zh) * | 2019-04-11 | 2021-07-06 | 腾讯科技(深圳)有限公司 | 一种物体检测方法、装置、电子设备和存储介质 |
CN110443842B (zh) * | 2019-07-24 | 2022-02-15 | 大连理工大学 | 基于视角融合的深度图预测方法 |
-
2021
- 2021-01-12 JP JP2021537177A patent/JP2022524262A/ja active Pending
- 2021-01-12 KR KR1020217021886A patent/KR20210114952A/ko not_active Application Discontinuation
- 2021-01-12 WO PCT/CN2021/071295 patent/WO2021164469A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018072198A (ja) * | 2016-10-31 | 2018-05-10 | 富士通株式会社 | 位置姿勢推定装置、位置姿勢推定方法、及び位置姿勢推定プログラム |
JP2019020953A (ja) * | 2017-07-14 | 2019-02-07 | エーティーラボ株式会社 | 境界推定装置、境界推定方法および境界推定プログラム |
CN109345510A (zh) * | 2018-09-07 | 2019-02-15 | 百度在线网络技术(北京)有限公司 | 物体检测方法、装置、设备、存储介质及车辆 |
CN110032962A (zh) * | 2019-04-03 | 2019-07-19 | 腾讯科技(深圳)有限公司 | 一种物体检测方法、装置、网络设备和存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024095380A1 (ja) * | 2022-11-02 | 2024-05-10 | 三菱電機株式会社 | 点群識別装置、学習装置、点群識別方法、および、学習方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2021164469A1 (zh) | 2021-08-26 |
CN111340766A (zh) | 2020-06-26 |
KR20210114952A (ko) | 2021-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2022524262A (ja) | 目標対象物の検出方法、目標対象物の検出装置、電子機器、記憶媒体及びコンピュータプログラム | |
CN109829433B (zh) | 人脸图像识别方法、装置、电子设备及存储介质 | |
US11436449B2 (en) | Method and electronic apparatus for processing image and training image tag classification model | |
TWI747325B (zh) | 目標對象匹配方法及目標對象匹配裝置、電子設備和電腦可讀儲存媒介 | |
CN109670397B (zh) | 人体骨骼关键点的检测方法、装置、电子设备及存储介质 | |
JP2021508388A (ja) | キーポイント検出方法及び装置、電子機器並びに記憶媒体 | |
KR20210102180A (ko) | 이미지 처리 방법 및 장치, 전자 기기 및 기억 매체 | |
JP2021517649A (ja) | 位置姿勢推定方法、装置、電子機器及び記憶媒体 | |
JP7096888B2 (ja) | ネットワークモジュール、割り当て方法及び装置、電子機器並びに記憶媒体 | |
JP2022522551A (ja) | 画像処理方法及び装置、電子機器並びに記憶媒体 | |
CN111783986A (zh) | 网络训练方法及装置、姿态预测方法及装置 | |
CN111881827B (zh) | 目标检测方法及装置、电子设备和存储介质 | |
CN112906484B (zh) | 一种视频帧处理方法及装置、电子设备和存储介质 | |
CN111401230A (zh) | 姿态估计方法及装置、电子设备和存储介质 | |
CN113781518B (zh) | 神经网络结构搜索方法及装置、电子设备和存储介质 | |
JP2022524254A (ja) | 画像処理方法及び装置、電子機器並びに記憶媒体 | |
CN116824533A (zh) | 一种基于注意力机制的远小目标点云数据特征增强方法 | |
CN114429641A (zh) | 一种时序动作检测方法、装置、存储介质及终端 | |
JP7266667B2 (ja) | ジェスチャー認識方法、ジェスチャー処理方法及び装置 | |
CN111046780A (zh) | 神经网络训练及图像识别方法、装置、设备和存储介质 | |
CN115035596B (zh) | 行为检测的方法及装置、电子设备和存储介质 | |
CN111340766B (zh) | 目标对象的检测方法、装置、设备和存储介质 | |
CN114387622A (zh) | 动物重识别方法及装置、电子设备和存储介质 | |
CN114821799A (zh) | 基于时空图卷积网络的动作识别方法、装置和设备 | |
CN111650930B (zh) | 基于遗传算法的自动泊车路径规划方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210624 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210624 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220705 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20230214 |