JP2022546201A - ターゲット検出方法および装置、電子機器並びに記憶媒体 - Google Patents
ターゲット検出方法および装置、電子機器並びに記憶媒体 Download PDFInfo
- Publication number
- JP2022546201A JP2022546201A JP2022505272A JP2022505272A JP2022546201A JP 2022546201 A JP2022546201 A JP 2022546201A JP 2022505272 A JP2022505272 A JP 2022505272A JP 2022505272 A JP2022505272 A JP 2022505272A JP 2022546201 A JP2022546201 A JP 2022546201A
- Authority
- JP
- Japan
- Prior art keywords
- point cloud
- target
- cloud data
- frame
- detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 483
- 230000004927 fusion Effects 0.000 claims description 25
- 238000000605 extraction Methods 0.000 claims description 23
- 238000004590 computer program Methods 0.000 claims description 17
- 238000000034 method Methods 0.000 abstract description 67
- 238000012545 processing Methods 0.000 description 43
- 238000010586 diagram Methods 0.000 description 25
- 230000008569 process Effects 0.000 description 21
- 238000004891 communication Methods 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 238000005457 optimization Methods 0.000 description 6
- 230000009471 action Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000012937 correction Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 108050005509 3D domains Proteins 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 244000144980 herd Species 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2210/00—Indexing scheme for image generation or computer graphics
- G06T2210/12—Bounding box
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
本発明は、ターゲット検出方法および装置、電子機器並びに記憶媒体に関し、前記方法は、ターゲットシーンのt番目のフレームの点群データに対してターゲット検出を実行して、前記t番目のフレームの点群データ内のターゲットの第1候補ブロックを決定することであって、tは1より大きい整数であることと、前記t番目のフレームの点群データ、前記第1候補ブロックおよび、前記t番目のフレームの点群データ内のターゲットに対する予測候補ブロックに従って、前記t番目のフレームの点群データの第1検出結果を決定することと、を含み、前記第1検出結果は、前記t番目のフレームの点群データ内のターゲットの第1検出ブロックを含み、ここで、前記予測候補ブロックは、前記t番目のフレームの点群データ前のt-1フレームの点群データの検出結果に従って予測して得られたものであり、このようにして、マルチフレームの点群データを介して検出ブロックを予測して、ターゲット検出の精度を向上させることができる。
【選択図】図1A
【選択図】図1A
Description
(関連出願の相互参照)
本願は、2020年7月28日に中国特許局に提出された、出願番号が202010738105.2である、中国特許出願に基づいて提出されるものであり、当該中国特許出願の優先権を主張し、当該中国特許出願の全ての内容が参照によって本願に組み込まれる。
本願は、2020年7月28日に中国特許局に提出された、出願番号が202010738105.2である、中国特許出願に基づいて提出されるものであり、当該中国特許出願の優先権を主張し、当該中国特許出願の全ての内容が参照によって本願に組み込まれる。
本発明は、コンピュータ技術分野に関し、特に、ターゲット検出方法および装置、電子機器並びに記憶媒体に関する。
ターゲット検出は、コンピュータビジョンにおける非常に重要なタスクであり、センサの入力データを介して、視野範囲内のターゲット(例えば人または物体)のポーズ、スケールなどの情報を推定することができる。関連技術において、ターゲット検出方法は、通常、各フレームの入力を別々に処理するため、検出の精度が低くなる。
本発明は、ターゲット検出のための技術的解決策を提案する。
本発明の一態様によれば、ターゲット検出方法を提供し、前記方法は、ターゲットシーンのt番目(tは1より大きい整数である)のフレームの点群データに対してターゲット検出を実行して、前記t番目のフレームの点群データ内のターゲットの第1候補ブロックを決定することと、前記t番目のフレームの点群データ、前記第1候補ブロックおよび前記t番目のフレームの点群データ内のターゲットに対する予測候補ブロックに従って、前記t番目のフレームの点群データの第1検出結果を決定することと、を含み、前記第1検出結果は、前記t番目のフレームの点群データ内のターゲットの第1検出ブロックを含み、ここで、前記予測候補ブロックは、前記t番目のフレームの点群データ前のt-1フレームの点群データの検出結果に従って予測して得られたものである。このようにして、マルチフレームの点群データを介して検出ブロックを予測して、ターゲット検出の精度を向上させることができる。
一可能な実施形態において、前記ターゲットシーンのt番目のフレームの点群データに対してターゲット検出を実行して、前記t番目のフレームの点群データ内のターゲットの第1候補ブロックを決定することは、前記t番目のフレームの点群データ内のターゲットの予測確率マップに従って、前記t番目のフレームの点群データを、ターゲットの存在する第1領域、ターゲットの存在しない第2領域およびターゲットが存在するか否かが決定されていない第3領域に分割することと、前記第1領域および前記第3領域に対してターゲット検出を実行して、前記t番目のフレームの点群データ内のターゲットの第1候補ブロックを決定することと、を含む。このようにして、ターゲット検出によって処理される点群データのデータ量を減らし、検出速度を向上させることができる。
一可能な実施形態において、前記方法は、前記t番目のフレームの点群データの前にあるt-1フレームの点群データの第2検出結果を取得することと、前記t番目のフレームの点群データの前にあるt-1フレームの点群データの第2検出結果に従って、前記t番目のフレームの点群データの第1検出結果を補正して、前記t番目のフレームの点群データの第2検出結果を決定することと、をさらに含む。このようにして、第1検出結果をさらに補正することにより、第1検出結果の精度をさらに向上させることができる。
一可能な実施形態において、前記方法は、前記t番目のフレームの点群データの前にあるt-1フレームの点群データの第2検出結果に従って、前記t番目のフレームの点群データ内のターゲットの動き状態を予測して、前記t番目のフレームの点群データ内のターゲットの予測候補ブロックを決定することをさらに含む。このようにして、前のマルチフレームの点群データに基づいて、t番目のフレームの点群データ内のターゲットの予測候補ブロックを予測して、予測の精度を向上させることができる。
一可能な実施形態において、前記方法は、前記t番目のフレームの点群データ内のターゲットの予測候補ブロック、およびt-1番目のフレームの点群データに従って、前記t-1番目のフレームの点群データ内のターゲットの予測確率マップを更新して、前記t番目のフレームの点群データ内のターゲットの予測確率マップを決定することをさらに含む。このようにして、前のマルチフレームの点群データに基づいて、予測確率マップを更新して、ターゲットの出現確率を予測して、最終的に得られた予測確率マップの精度を向上させることができる。
一可能な実施形態において、前記第1領域および前記第3領域に対してターゲット検出を実行して、前記t番目のフレームの点群データ内のターゲットの第1候補ブロックを決定することは、前記第1領域および前記第3領域の点群データに対して特徴抽出を実行して、第1点群特徴を取得することと、前記第1点群特徴に対してターゲット検出を実行して、前記t番目のフレームの点群データ内のターゲットの第2候補ブロックを決定することと、各第2候補ブロックの信頼度に従って、前記第2候補ブロックからプリセット数の第1候補ブロックを決定することと、を含む。このようにして、サンプリングされた点群データを特徴抽出ネットワークに入力して処理して、第1点群特徴を取得して、検出速度をさらに向上させることができる。
一可能な実施形態において、前記t番目のフレームの点群データ、前記第1候補ブロックおよび前記t番目のフレームの点群データ内のターゲットに対する予測候補ブロックに従って、前記t番目のフレームの点群データの第1検出結果を決定することは、前記t番目のフレームの点群データ内の各ターゲットの予測候補ブロックをそれぞれ拡張して、各ターゲットの第3候補ブロックを決定することと、前記第3候補ブロックおよび前記第1候補ブロックをそれぞれマッチングして、各第1候補ブロックに対応するターゲットを決定することと、前記第1候補ブロックと、前記第1候補ブロックが位置する領域に対応する第1領域点群データ、および前記第3候補ブロックと前記第3候補ブロックが位置する領域に対応する第2領域点群データに従って、前記t番目のフレームの点群データ内の各ターゲットに対して、候補ブロック融合をそれぞれ実行して、前記t番目のフレームの点群データ内の各ターゲットの第1検出ブロックを取得することと、を含む。このようにして、第1候補ブロックにマッチングする確率を向上させて、検出結果の安定性を向上させることができる。
一可能な実施形態において、前記第3候補ブロックおよび前記第1候補ブロックをそれぞれマッチングして、各第1候補ブロックに対応するターゲットを決定することは、各第3候補ブロックと、各第1候補ブロックとのIoU(Intersection over Union)をそれぞれ決定することと、第1候補ブロックとのIoUが、IoU閾値より大きいか等しい第3候補ブロックを、第1候補ブロックにマッチングする第3候補ブロックとして決定することと、第1候補ブロックにマッチングする第3候補ブロックに対応するターゲットを、前記第1候補ブロックに対応するターゲットとして決定することと、を含む。このようにして、IoUが比較的に大きい候補ブロックを、マッチングする候補ブロックとして決定することにより、予測候補ブロックの精度を向上させることができる。
一可能な実施形態において、各第2検出結果は、ターゲットの第2検出ブロックを含み、前記t番目のフレームの点群データの前にあるt-1フレームの点群データの第2検出結果に従って、前記t番目のフレームの点群データの第1検出結果を補正して、前記t番目のフレームの点群データの第2検出結果を決定することは、第1ターゲットの検出ブロックセットを決定することであって、前記第1ターゲットは、前記t番目のフレームの点群データ内の任意の1つのターゲットであり、前記第1ターゲットの検出ブロックセットは、t-1フレームの点群データの第2検出結果における前記第1ターゲットの第2検出ブロック、およびt番目のフレームの点群データの第1検出結果における前記第1ターゲットの第1検出ブロックを含むことと、前記第1ターゲットの検出ブロックセット内の任意の1つの検出ブロックに対して、前記検出ブロックセットにおける前記検出ブロックとの誤差が誤差閾値より小さいか等しい検出ブロックを、前記検出ブロックの内点ブロックとして決定することと、前記第1ターゲットの検出ブロックセットから、内点ブロック数が最も多い第3検出ブロックを決定することと、前記第3検出ブロックおよび前記第3検出ブロックのすべての内点ブロックを融合して、前記t番目のフレームの点群データ内の第1ターゲットの第2検出ブロックを決定することと、を含む。このようにして、より豊富なターゲット情報を検出することができる。
一可能な実施形態において、前記方法は、前記t-1フレームの点群データの第2検出結果、および前記t番目のフレームの点群データの第2検出結果に従って、t+1番目のフレームの点群データ内のターゲットの動き状態を予測して、前記t+1番目のフレームの点群データ内のターゲットの予測候補ブロックを決定することをさらに含む。このようにして、前のフレームの点群データの検出結果を介して、後のフレームの点群データ内のターゲットの動き状態を予測することができ、さらに、後のフレームの点群データ内のターゲットの検出を実現することができる。
一可能な実施形態において、前記方法は、前記t+1番目のフレームの点群データ内のターゲットの予測候補ブロック、およびt番目のフレームの点群データに従って、前記t番目のフレームの点群データ内のターゲットの予測確率マップを更新して、前記t+1番目のフレームの点群データ内のターゲットの予測確率マップを決定することをさらに含む。このようにして、t+1番目のフレームの点群データ内のターゲットの予測確率マップを取得することにより、後続で処理するときに、t+1番目のフレームの点群データのために複数の領域を分割することを容易にし、それにより、ターゲット検出の速度を向上させることができる。
一可能な実施形態において、前記ターゲットシーンのt番目のフレームの点群データに対してターゲット検出を実行して、前記t番目のフレームの点群データ内のターゲットの第1候補ブロックを決定することは、前記t番目のフレームの点群データに対して特徴抽出を実行して、第2点群特徴を取得することと、前記第2点群特徴に対してターゲット検出を実行して、前記t番目のフレームの点群データ内のターゲットの第4候補ブロックを決定することと、各第4候補ブロックの信頼度に従って、前記第4候補ブロックからプリセット数の第1候補ブロックを決定することと、を含む。このようにして、t番目のフレームの点群データに対して領域分割を実行していない場合に、t番目のフレームの点群データに対してターゲット検出を実行することができる。
一可能な実施形態において、前記第1検出結果は、さらに、前記t番目のフレームの点群データ内のターゲットのカテゴリを含み、前記t番目のフレームの点群データ、前記第1候補ブロックおよび、前記t番目のフレームの点群データ内のターゲットに対する予測候補ブロックに従って、前記t番目のフレームの点群データの第1検出結果を決定することは、第2ターゲットの第1検出ブロックが位置する領域に対応する第3領域点群データに従って、前記第2ターゲットを分類して、前記第2ターゲットのカテゴリを決定することを含み、前記第2ターゲットは、前記t番目のフレームの点群データのうちの任意の1つのターゲットである。このようにして、t番目のフレームの点群データ内の任意の1つのターゲットに対して、当該第2ターゲットの第1検出ブロックを介して、t番目のフレームの点群データから第1検出ブロックが位置する領域に対応する第3領域点群データを分割することができ、それにより、比較的に高い精度でt番目のフレームの点群データ内の任意の1つのターゲットの検出を実現することができる。
一可能な実施形態において、前記ターゲットシーンは屋内シーンを含み、前記t番目のフレームの点群データ内のターゲットは物体を含み、前記t番目のフレームの点群データ内のターゲットの第1検出ブロックは三次元領域ブロックを含む。
本発明の一態様によれば、ターゲット検出装置を提供し、前記装置は、
ターゲットシーンのt番目(tは1より大きい整数である)のフレームの点群データに対してターゲット検出を実行して、前記t番目のフレームの点群データ内のターゲットの第1候補ブロックを決定するように構成される、第1検出モジュールと、
前記t番目のフレームの点群データ、前記第1候補ブロックおよび、前記t番目のフレームの点群データ内のターゲットに対する予測候補ブロックに従って、前記t番目のフレームの点群データの第1検出結果を決定するように構成される、第2検出モジュールと、を備え、前記第1検出結果は、前記t番目のフレームの点群データ内のターゲットの第1検出ブロックを含み、
ここで、前記予測候補ブロックは、前記t番目のフレームの点群データ前のt-1フレームの点群データの検出結果に従って予測して得られたものである。
ターゲットシーンのt番目(tは1より大きい整数である)のフレームの点群データに対してターゲット検出を実行して、前記t番目のフレームの点群データ内のターゲットの第1候補ブロックを決定するように構成される、第1検出モジュールと、
前記t番目のフレームの点群データ、前記第1候補ブロックおよび、前記t番目のフレームの点群データ内のターゲットに対する予測候補ブロックに従って、前記t番目のフレームの点群データの第1検出結果を決定するように構成される、第2検出モジュールと、を備え、前記第1検出結果は、前記t番目のフレームの点群データ内のターゲットの第1検出ブロックを含み、
ここで、前記予測候補ブロックは、前記t番目のフレームの点群データ前のt-1フレームの点群データの検出結果に従って予測して得られたものである。
一可能な実施形態において、前記第1検出モジュールは、前記t番目のフレームの点群データ内のターゲットの予測確率マップに従って、前記t番目のフレームの点群データを、ターゲットの存在る第1領域、ターゲットの存在しない第2領域およびターゲットが存在するか否かが決定されていない第3領域に分割するように構成される、領域分割サブモジュールと、前記第1領域および前記第3領域に対してターゲット検出を実行して、前記t番目のフレームの点群データ内のターゲットの第1候補ブロックを決定するように構成される、第1検出サブモジュールと、を備える。
一可能な実施形態において、前記装置は、さらに、前記t番目のフレームの点群データの前にあるt-1フレームの点群データの第2検出結果を取得し、前記t番目のフレームの点群データの前にあるt-1フレームの点群データの第2検出結果に従って、前記t番目のフレームの点群データの第1検出結果を補正して、前記t番目のフレームの点群データの第2検出結果を決定するように構成される、補正モジュールを備える。
一可能な実施形態において、前記装置は、さらに、前記t番目のフレームの点群データの前にあるt-1フレームの点群データの第2検出結果に従って、前記t番目のフレームの点群データ内のターゲットの動き状態を予測して、前記t番目のフレームの点群データ内のターゲットの予測候補ブロックを決定するように構成される、第1動き予測モジュールを備える。
一可能な実施形態において、前記装置は、さらに、前記t番目のフレームの点群データ内のターゲットの予測候補ブロック、およびt-1番目のフレームの点群データに従って、前記t-1番目のフレームの点群データ内のターゲットの予測確率マップを更新して、前記t番目のフレームの点群データ内のターゲットの予測確率マップを決定するように構成される、第1確率マップ更新モジュールを備える。
一可能な実施形態において、前記第1検出サブモジュールは、前記第1領域および前記第3領域の点群データに対して特徴抽出を実行して、第1点群特徴を取得し、前記第1点群特徴に対してターゲット検出を実行して、前記t番目のフレームの点群データ内のターゲットの第2候補ブロックを決定し、各第2候補ブロックの信頼度に従って、前記第2候補ブロックからプリセット数の第1候補ブロックを決定するように構成される。
一可能な実施形態において、前記第2検出モジュールは、前記t番目のフレームの点群データ内の各ターゲットの予測候補ブロックをそれぞれ拡張して、各ターゲットの第3候補ブロックを決定するように構成される、候補ブロック拡張サブモジュールと、前記第3候補ブロックおよび前記第1候補ブロックをそれぞれマッチングして、各第1候補ブロックに対応するターゲットを決定するように構成される、候補ブロックマッチングサブモジュールと、前記第1候補ブロックと、前記第1候補ブロックが位置する領域に対応する第1領域点群データ、および前記第3候補ブロックと、前記第3候補ブロックが位置する領域に対応する第2領域点群データに従って、前記t番目のフレームの点群データ内の各ターゲットに対して、候補ブロック融合をそれぞれ実行して、前記t番目のフレームの点群データ内の各ターゲットの第1検出ブロックを取得するように構成される、候補ブロック融合サブモジュールと、を備える。
一可能な実施形態において、前記候補ブロックマッチングサブモジュールは、各第3候補ブロックと各第1候補ブロックとのIoUをそれぞれ決定し、第1候補ブロックとのIoUが、IoU閾値より大きいか等しい第3候補ブロックを、第1候補ブロックにマッチングする第3候補ブロックとして決定し、第1候補ブロックにマッチングする第3候補ブロックに対応するターゲットを、前記第1候補ブロックに対応するターゲットとして決定するように構成される。
一可能な実施形態において、各第2検出結果は、ターゲットの第2検出ブロックを含み、前記補正モジュールは、第1ターゲットの検出ブロックセットを決定するように構成される、セット決定サブモジュールであって、前記第1ターゲットは、前記t番目のフレームの点群データ内の任意の1つのターゲットであり、前記第1ターゲットの検出ブロックセットは、t-1フレームの点群データの第2検出結果における前記第1ターゲットの第2検出ブロック、およびt番目のフレームの点群データの第1検出結果における前記第1ターゲットの第1検出ブロックを含む、セット決定サブモジュールと、前記第1ターゲットの検出ブロックセット内の任意の1つの検出ブロックに対して、前記検出ブロックセットにおける前記検出ブロックとの誤差が誤差閾値より小さいか等しい検出ブロックを、前記検出ブロックの内点ブロックとして決定するように構成される、内点ブロック決定サブモジュールと、前記第1ターゲットの検出ブロックセットから、内点ブロック数が最も多い第3検出ブロックを決定するように構成される、検出ブロック選択サブモジュールと、前記第3検出ブロックおよび前記第3検出ブロックのすべての内点ブロックを融合して、前記t番目のフレームの点群データ内の第1ターゲットの第2検出ブロックを決定するように構成される、内点ブロック融合サブモジュールと、を備える。
一可能な実施形態において、前記装置は、さらに、前記t-1フレームの点群データの第2検出結果、および前記t番目のフレームの点群データの第2検出結果に従って、t+1番目のフレームの点群データ内のターゲットの動き状態を予測して、前記t+1番目のフレームの点群データ内のターゲットの予測候補ブロックを決定するように構成される、第2動き予測モジュールを備える。
一可能な実施形態において、前記装置は、さらに、前記t+1番目のフレームの点群データ内のターゲットの予測候補ブロック、およびt番目のフレームの点群データに従って、前記t番目のフレームの点群データ内のターゲットの予測確率マップを更新して、前記t+1番目のフレームの点群データ内のターゲットの予測確率マップを決定するように構成される、第2確率マップ更新モジュールを備える。
一可能な実施形態において、前記第1検出モジュールは、前記t番目のフレームの点群データに対して特徴抽出を実行して、第2点群特徴を取得するように構成される、特徴抽出サブモジュールと、前記第2点群特徴に対してターゲット検出を実行して、前記t番目のフレームの点群データ内のターゲットの第4候補ブロックを決定するように構成される、第2検出サブモジュールと、各第4候補ブロックの信頼度に従って、前記第4候補ブロックからプリセット数の第1候補ブロックを決定するように構成される、選択サブモジュールと、を備える。
一可能な実施形態において、前記第1検出結果は、さらに、前記t番目のフレームの点群データ内のターゲットのカテゴリを含み、前記第2検出モジュールは、第2ターゲットの第1検出ブロックが位置する領域に対応する第3領域点群データに従って、前記第2ターゲットを分類して、前記第2ターゲットのカテゴリを決定するように構成される、分類サブモジュールを備え、前記第2ターゲットは、前記t番目のフレームの点群データのうちの任意の1つのターゲットである。
一可能な実施形態において、前記ターゲットシーンは屋内シーンを含み、前記t番目のフレームの点群データ内のターゲットは物体を含み、前記t番目のフレームの点群データ内のターゲットの第1検出ブロックは三次元領域ブロックを含む。
本発明の一態様によれば、電子機器を提供し、前記電子機器は、プロセッサと、プロセッサ実行可能命令を記憶するように構成される、メモリと、を備え、ここで、前記プロセッサは、前記メモリによって記憶された命令を呼び出して、上記の方法を実行するように構成される。
本発明の一態様によれば、コンピュータプログラム命令を記憶する、コンピュータ可読記憶媒体を提供し、前記コンピュータプログラム命令がプロセッサによって実行されるとき、上記の方法を実現する。
本発明の実施例によれば、t番目のフレームの点群データ内のターゲットの第1候補ブロックを検出し、履歴検出結果によって予測された予測候補ブロックを介して、第1候補ブロックを補正して、t番目のフレームの点群データの検出結果を取得し、それにより、ターゲット検出の精度を向上させることができる。
上記した一般的な説明及び後述する詳細な説明は、単なる例示及び説明に過ぎず、本発明を限定するものではないことを理解されたい。以下、図面を参照した例示的な実施例に対する詳細な説明によれば、本開示の他の特徴および態様は明らかになる。
ここでの図面は、本明細書に組み込まれてその一部を構成し、これらの図面は、本発明と一致する実施例を示すものであり、明細書とともに本発明の実施例の技術的解決策を説明するために使用される。
本発明の実施例に係るターゲット検出方法のフローチャートを示す。
本発明の実施例のターゲット検出方法のネットワークアーキテクチャの概略図を示す。
本発明の実施例に係るターゲット検出方法の処理プロセスの概略図を示す。
ターゲットシーンの画像の概略図を示す。
ターゲットの検出結果の概略図を示す。
本発明の一実施例に係るターゲット検出装置のブロック図を示す。
本発明の実施例に係る電子機器のブロック図を示す。
本発明の実施例に係る電子機器のブロック図を示す。
以下は、本発明の様々な例示的な実施例、特徴及び態様を図面を参照して詳細に説明する。図面内の同じ参照番号は、同じまたは類似の機能の要素を表示する。実施例の様々な態様を図面に示したが、特に明記しない限り、縮尺通りに図面を描く必要がない。
ここで専用の用語「例示的」とは、「例、実施例または説明用として使用される」ことを意味する。ここで、「例示的」として説明される任意の実施例は、他の実施例より優れるまたはより好ましいと解釈する必要はない。
本明細書における「及び/または」という用語は、関連付けられた対象を説明する単なる関連付けであり、3種類の関係が存在し得ることを表示し、例えば、A及び/またはBは、Aが独立で存在する場合、AとBが同時に存在する場合、Bが独立で存在する場合などの3つの場合を表示する。さらに、本明細書における「少なくとも1つ」という用語は、複数のうちの1つまたは複数のうちの少なくとも2つの任意の組み合わせを示し、例えば、A、B、Cのうちの少なくとも1つを含むことは、A、B及びCで構成されるセットから選択された任意の1つまたは複数の要素を含むことを示す。
さらに、本発明の実施例をよりよく説明するために、以下の具体的な実施形態において多くの特定の詳細が与えられる。当業者は、特定のいくつかの詳細なしに、本発明を同様に実施することができることを理解するはずである。いくつかの例において、当業者に周知の方法、手段、要素及び回路は、本開示の要旨を強調するために、詳細に説明しない。
図1Aは、本発明の実施例に係るターゲット検出方法のフローチャートを示し、図1Aに示されたように、前記ターゲット検出方法は、以下のステップを含む。
ステップS11において、ターゲットシーンのt番目のフレームの点群データに対してターゲット検出を実行して、前記t番目のフレームの点群データ内のターゲットの第1候補ブロックを決定する。
本発明の実施例において、tは、1より大きい整数である。
ステップS12において、前記t番目のフレームの点群データ、前記第1候補ブロックおよび前記t番目のフレームの点群データ内のターゲットに対する予測候補ブロックに従って、前記t番目のフレームの点群データの第1検出結果を決定し、前記第1検出結果は、前記t番目のフレームの点群データ内のターゲットの第1検出ブロックを含む。
ここで、前記予測候補ブロックは、前記t番目のフレームの点群データ前のt-1フレームの点群データの検出結果に従って予測して得られたものである。
一可能な実施形態において、前記ターゲット検出方法は、端末機器またはサーバなどの電子機器によって実行されることができ、端末機器は、ユーザ機器(UE:User Equipment)、モバイル機器、ユーザ端末、端末、携帯電話、コードレス電話、パーソナルデジタル処理(PDA:Personal Digital Assistant)、ハンドヘルド機器、コンピューティング機器、車載機器、ウェアラブル機器などであり得、前記方法は、プロセッサがメモリに記憶されたコンピュータ可読命令を呼び出す方式を介して実現することができる。または、サーバによって前記方法を実行することができる。
例を挙げると、ターゲットシーンは、ショッピングモール、病院、展示ホールなどの屋内シーンを含んでもよいし、交通機関のハブ、都市の街路などの室外シーンを含んでもよい。ターゲットシーンには、物体、標識、建物、歩行者、車両などの様々なカテゴリのターゲットが含まれる可能性がある。本発明は、ターゲットシーンのタイプおよびターゲットのカテゴリに対して限定しない。
一可能な実施形態において、ターゲットシーン内のターゲットを検出するとき、検知データ内のターゲットを分析するために、検知機器を介して、ターゲットシーンの検知データを収集することができる。三次元ターゲット検出を実行する場合、検知機器は、例えば、レーザーレーダー、赤・緑・青の深度(RGB-D:Red Green Blue-Depth)収集機器などを含み得、収集された検知データは、点群データ、RGB-D画像データなどを含み得る。本発明は、検知機器のタイプおよび収集された検知データの具体的なタイプに対して限定しない。
一可能な実施形態において、ターゲットシーンのマルチフレームの検知データを継続的に収集し、電子機器を介して、各フレームの検知データに対して順次にターゲット検出を実行することができる。ここで、検知データが点群データである場合、直接に処理することができ、検知データがRGB-D画像データである場合、RGB-D画像データに対して逆投影変換を実行して、点群データを取得した後に処理することができる。
一可能な実施形態において、マルチフレームの点群データのうちの第1フレームについて、ステップS11で第1フレームの点群データに対して直接にターゲット検出を実行して、第1フレームの点群データ内のターゲットの第1候補ブロックを取得し、ステップS12で第1候補ブロックを直接に融合して、第1フレームの点群データのターゲットの第1検出ブロックを取得することができる。
一可能な実施形態において、マルチフレームの点群データのうちのt番目のフレーム(tは1より大きい整数である)について、ステップS11でt番目のフレームの点群データに対してターゲット検出を実行して、t番目のフレームの点群データ内のターゲットの第1候補ブロックを決定することができる。第1候補ブロックの情報は、第1候補ブロックの中心点の三次元座標(x0,y0,z0)、長さ、幅、高さおよび回転角度などの情報を含み得る。
一可能な実施形態において、事前にトレーニングされたターゲット検出ネットワークを介して、ターゲット検出のプロセスを実現することができ、当該ターゲット検出ネットワークは、例えば、畳み込みニューラルネットワーク(CNN:Convolutional Neural Networks)および領域生成ネットワーク(RPN:Region Proposal Network)を含み得、本発明は、ターゲット検出ネットワークの具体的なネットワーク構造に対して限定しない。
一可能な実施形態において、ステップS11およびS12の前に、t-1番目のフレームの点群データの検出結果を取得した後、t番目のフレームの点群データの前のt-1フレームの点群データの検出結果に従って、前のt-1フレームの点群データ内の検出されたターゲットにおいて、t番目のフレームの点群データにおける位置を予測して、t番目のフレームの点群データにおけるこれらのターゲットの予測候補ブロックを取得することができる。
一可能な実施形態において、ステップS12において、t番目のフレームの点群データの第1候補ブロックおよび予測候補ブロックに従って、各第1候補ブロックに対応するターゲットを決定することができる。例えば、各第1候補ブロックと各予測候補ブロックとのIoUに従って、第1候補ブロックおよび予測候補ブロックをマッチングし、マッチングされた予測候補ブロックがある第1候補ブロックについて、相互にマッチングされる予測候補ブロックに対応するターゲットを、当該第1候補ブロックに対応するターゲットとして決定し、マッチングされる予測候補ブロックがない第1候補ブロックについて、当該第1候補ブロックに対応する新しいターゲットを決定する。
一可能な実施形態において、任意のターゲットについて、当該ターゲットの第1候補ブロックおよび第1候補ブロックに対応する領域点群データと、当該ターゲットの予測候補ブロックおよび予測候補ブロックに対応する領域点群データに従って、候補ブロック融合処理を実行して、ターゲットの実際の検出ブロック(第1検出ブロックと称し得る)を決定することができる。
一可能な実施形態において、事前にトレーニングされた融合ネットワークを介して候補ブロック融合を実現することができ、即ち、ターゲットの第1候補ブロックおよび第1候補ブロックに対応する領域点群データと、当該ターゲットの予測候補ブロックおよび予測候補ブロックに対応する領域点群データを、融合ネットワークに入力して処理して、ターゲットの第1検出ブロックを出力する。当該融合ネットワークは、例えば、領域畳み込みニューラルネットワーク(RCNN:Region Convolutional Neural Networks)を含み得、本発明は、融合ネットワークの具体的なネットワーク構造に対して限定しない。
一可能な実施形態において、t番目のフレームの点群データ内のすべてのターゲットを処理した後、t番目のフレームの点群データの第1検出結果を取得することができ、当該第1検出結果は、t番目のフレームの点群データ内の各ターゲットの第1検出ブロックを含む。
本発明の実施例によれば、t番目のフレームの点群データ内のターゲットの第1候補ブロックを検出し、履歴検出結果によって予測された予測候補ブロックを介して、第1候補ブロックを補正して、t番目のフレームの点群データの検出結果を取得し、それにより、ターゲット検出の精度を向上させることができる。
一可能な実施形態において、ステップS11は、
前記t番目のフレームの点群データ内のターゲットの予測確率マップに従って、前記t番目のフレームの点群データを、ターゲットの存在する第1領域、ターゲットの存在しない第2領域およびターゲットが存在するか否かが決定されていない第3領域に分割することと、
前記t番目のフレームの点群データの第1領域および第3領域に対してターゲット検出を実行して、前記t番目のフレームの点群データ内のターゲットの第1候補ブロックを決定することと、を含み得る。
前記t番目のフレームの点群データ内のターゲットの予測確率マップに従って、前記t番目のフレームの点群データを、ターゲットの存在する第1領域、ターゲットの存在しない第2領域およびターゲットが存在するか否かが決定されていない第3領域に分割することと、
前記t番目のフレームの点群データの第1領域および第3領域に対してターゲット検出を実行して、前記t番目のフレームの点群データ内のターゲットの第1候補ブロックを決定することと、を含み得る。
例を挙げると、t-1番目のフレームの点群データの検出結果を取得した後、前のt-1フレームの点群データの検出結果に従って、t番目のフレームの点群データ内のターゲットに対する予測候補ブロックを予測することができる。当該予測候補ブロックに従って、t番目のフレームの点群データの各位置でのターゲットの出現確率を予測して、t番目のフレームの点群データ内のターゲットの予測確率マップを取得することができる。
一可能な実施形態において、第1確率閾値および第2確率閾値を事前に設定することができ、第2確率閾値は第1確率閾値より小さい。点群データ内の任意の位置について、当該位置でのターゲットの出現確率が第1確率閾値より大きい場合、当該位置にターゲットが存在すると見なすことができ、当該位置でのターゲットの出現確率が第2確率閾値より小さい場合、当該位置にターゲットが存在しないと見なすことができ、当該位置でのターゲットの出現確率が、第1確率閾値と第2確率閾値との間にある場合、検出していない位置、または、検出したがターゲットが存在するか否かを決定できない位置など、当該位置にターゲットが存在するか否かが決定されていない。本発明は、第1確率閾値および第2確率閾値の具体的な値に対して限定しない。
一可能な実施形態において、t番目のフレームの点群データ内のターゲットの予測確率マップに従って、第1確率閾値および第2確率閾値に基づいて、t番目のフレームの点群データを、ターゲットの存在する第1領域、ターゲットの存在しない第2領域およびターゲットが存在するか否かが決定されていない第3領域に分割することができる。
分割された後、第2領域にはターゲットが存在しないと、第2領域の点群データに対してターゲット検出を実行しなくてもよい。即ち、前記t番目のフレームの点群データの第1領域および第3領域に対してターゲット検出を実行して、t番目のフレームの点群データ内のターゲットの第1候補ブロックを決定する。
このような方式を介して、ターゲット検出によって処理される点群データのデータ量を減らし、検出速度を向上させることができる。
一可能な実施形態において、前記t番目のフレームの点群データの第1領域および第3領域に対してターゲット検出を実行して、t番目のフレームの点群データ内のターゲットの第1候補ブロックを決定するステップは、
前記第1領域および前記第3領域の点群データに対して特徴抽出を実行して、第1点群特徴を取得することと、
前記第1点群特徴に対してターゲット検出を実行して、前記t番目のフレームの点群データ内のターゲットの第2候補ブロックを決定することと、
各第2候補ブロックの信頼度に従って、前記第2候補ブロックからプリセット数の第1候補ブロックを決定することと、を含み得る。
前記第1領域および前記第3領域の点群データに対して特徴抽出を実行して、第1点群特徴を取得することと、
前記第1点群特徴に対してターゲット検出を実行して、前記t番目のフレームの点群データ内のターゲットの第2候補ブロックを決定することと、
各第2候補ブロックの信頼度に従って、前記第2候補ブロックからプリセット数の第1候補ブロックを決定することと、を含み得る。
例を挙げると、第1領域および第3領域の点群データをターゲット検出ネットワークの特徴抽出ネットワークに入力して特徴抽出を実行して、点群データの第1点群特徴を取得することができる。当該特徴抽出ネットワークは、例えば、複数の畳み込み層を含み、本発明は、特徴抽出ネットワークの構造に対して限定しない。
一可能な実施形態において、特徴抽出の前に、第1領域および第3領域の点群データをサンプリングして、処理されるデータ量を減らすことができる。例えば、ランダムサンプリングを介して、N個の点を有する点群データを、N/4個の点を有する点群データにサンプリングする。サンプリングされた点群データを特徴抽出ネットワークに入力して処理して、第1点群特徴を取得する。このような方式を介して、検出速度をさらに向上させることができる。
一可能な実施形態において、第1点群特徴をターゲット検出ネットワークの領域生成ネットワーク(RPN)に入力して処理して、t番目のフレームの点群データ内のターゲットの第2候補ブロックを取得することができる。
一可能な実施形態において、第2候補ブロックの数が大きければ、さらに処理することができる。各第2候補ブロックの信頼度に従って、例えば、非最大抑制(NMS:Non-maximum suppression)方式を介して、第2候補ブロックからプリセット数の第1候補ブロックを決定することができる。当該プリセット数は、例えば、50個に取ることができ、本発明は、これに対して限定しない。
このような方式を介して、点群データから、ターゲットに対応する候補ブロックを初歩的に推定して、後続の処理を実行することができる。
一可能な実施形態において、ステップS11は、
前記t番目のフレームの点群データに対して特徴抽出を実行して、第2点群特徴を取得することと、
前記第2点群特徴に対してターゲット検出を実行して、前記t番目のフレームの点群データ内のターゲットの第4候補ブロックを決定することと、
各第4候補ブロックの信頼度に従って、前記第4候補ブロックからプリセット数の第1候補ブロックを決定することと、を含み得る。
前記t番目のフレームの点群データに対して特徴抽出を実行して、第2点群特徴を取得することと、
前記第2点群特徴に対してターゲット検出を実行して、前記t番目のフレームの点群データ内のターゲットの第4候補ブロックを決定することと、
各第4候補ブロックの信頼度に従って、前記第4候補ブロックからプリセット数の第1候補ブロックを決定することと、を含み得る。
例を挙げると、t番目のフレームの点群データに対して領域を分割していない場合に、t番目のフレームの点群データに対して直接にターゲット検出を実行することができる。t番目のフレームの点群データをターゲット検出ネットワークの特徴抽出ネットワークに入力して特徴抽出を実行して、t番目のフレームの点群データの第2点群特徴を取得することができる。当該特徴抽出ネットワークは、例えば、複数の畳み込み層を含み、本発明は、特徴抽出ネットワークの構造に対して限定しない。
一可能な実施形態において、特徴抽出の前に、t番目のフレームの点群データをサンプリングして、処理されるデータ量を減らすことができる。例えば、ランダムサンプリングを介して、M個の点を有する点群データをM/4個の点を有する点群データにサンプリングする。サンプリングされた点群データを特徴抽出ネットワークに入力して処理して、第2点群特徴を取得する。このような方式を介して、検出速度をさらに向上させることができる。
一可能な実施形態において、第2点群特徴をターゲット検出ネットワークの領域生成ネットワーク(RPN)に入力して処理して、t番目のフレームの点群データ内のターゲットの第4候補ブロックを取得することができる。
一可能な実施形態において、第4候補ブロックの数が大きければ、さらに処理することができる。各第4候補ブロックの信頼度に従って、例えば、非最大抑制(NMS:Non-maximum suppression)方式を介して、第4候補ブロックからプリセット数の第1候補ブロックを決定することができる。当該プリセット数は、例えば、50個に取ることができ、本発明は、これに対して限定しない。
このような方式を介して、点群データから、ターゲットに対応する候補ブロックを初歩的に推定して、後続の処理を実行することができる。
一可能な実施形態において、ステップS12は、
前記t番目のフレームの点群データ内の各ターゲットの予測候補ブロックをそれぞれ拡張して、各ターゲットの第3候補ブロックを決定することと、
前記第3候補ブロックおよび前記第1候補ブロックをそれぞれマッチングして、各第1候補ブロックに対応するターゲットを決定することと、
前記第1候補ブロックと、前記第1候補ブロックが位置する領域に対応する第1領域点群データ、および前記第3候補ブロックと、前記第3候補ブロックが位置する領域に対応する第2領域点群データに従って、前記t番目のフレームの点群データ内の各ターゲットに対して、候補ブロック融合をそれぞれ実行して、前記t番目のフレームの点群データ内の各ターゲットの第1検出ブロックを取得することと、を含み得る。
前記t番目のフレームの点群データ内の各ターゲットの予測候補ブロックをそれぞれ拡張して、各ターゲットの第3候補ブロックを決定することと、
前記第3候補ブロックおよび前記第1候補ブロックをそれぞれマッチングして、各第1候補ブロックに対応するターゲットを決定することと、
前記第1候補ブロックと、前記第1候補ブロックが位置する領域に対応する第1領域点群データ、および前記第3候補ブロックと、前記第3候補ブロックが位置する領域に対応する第2領域点群データに従って、前記t番目のフレームの点群データ内の各ターゲットに対して、候補ブロック融合をそれぞれ実行して、前記t番目のフレームの点群データ内の各ターゲットの第1検出ブロックを取得することと、を含み得る。
例を挙げると、t番目のフレームの点群データを予測するとき、t番目のフレームの点群データの第1領域内のターゲットに、1つの予測候補ブロックを予測し、即ち、第1領域内の各ターゲットを1つの予測候補ブロックに対応させる。ステップS12の処理では、まず、各ターゲットの予測候補ブロックをそれぞれ拡張して、候補ブロックの数を増加させることができる。
一可能な実施形態において、t番目のフレームの点群データにおけるターゲットの予測候補ブロックに従って、ターゲットのポーズおよびスケールを決定することができ、ターゲットのポーズおよびスケールの確率分布に従って、特定の分散および平均値でサンプリングし、拡張して当該ターゲットの複数の第3候補ブロックを取得することができる。このようにして、予測候補ブロックの誤差による後続処理への影響を減らし、第1候補ブロックにマッチングする確率を向上させて、検出結果の安定性を向上させ、検出精度を向上させることができ。
一可能な実施形態において、第3候補ブロックおよび第1候補ブロックをそれぞれマッチングして、各第1候補ブロックに対応するターゲットを決定することができる。ここで、当該ステップは、
各第3候補ブロックと、各第1候補ブロックとのIoUをそれぞれ決定することと、
第1候補ブロックとのIoUが、IoU閾値より大きいか等しい第3候補ブロックを、第1候補ブロックにマッチングする第3候補ブロックとして決定することと、
第1候補ブロックにマッチングする第3候補ブロックに対応するターゲットを、前記第1候補ブロックに対応するターゲットとして決定することと、を含み得る。
各第3候補ブロックと、各第1候補ブロックとのIoUをそれぞれ決定することと、
第1候補ブロックとのIoUが、IoU閾値より大きいか等しい第3候補ブロックを、第1候補ブロックにマッチングする第3候補ブロックとして決定することと、
第1候補ブロックにマッチングする第3候補ブロックに対応するターゲットを、前記第1候補ブロックに対応するターゲットとして決定することと、を含み得る。
つまり、IoUを介して第3候補ブロックおよび第1候補ブロックをマッチングすることができる。各第3候補ブロックと、各第1候補ブロックとのIoU(Intersection-over-Union)をそれぞれ決定することができる。IoU閾値(例えば0.5)をプリセットすることができ、任意の1つの第1候補ブロックについて、当該第1候補ブロックとのIoUがIoU閾値より大きいか等しい第3候補ブロックが存在する場合、当該第3候補ブロックを当該第1候補ブロックにマッチングする候補ブロックとして決定し、当該第3候補ブロックに対応するターゲットを、当該第1候補ブロックに対応するターゲットとして決定することができる。当該第3候補ブロックに対応するターゲットの識別子(ID:Identity Document)を、当該第1候補ブロックに割り当て、即ち、マッチングする2つの候補ブロックが同じターゲットに対応すると見なす。
一可能な実施形態において、任意の1つの第1候補ブロックについて、当該第1候補ブロックとのIoUがIoU閾値より大きいか等しい第3候補ブロックが存在しない場合、第1候補ブロックに対応するターゲットが、これまでに出現されたことのない新しいターゲットであると見なすことができる。この場合、第1候補ブロックに対応するターゲットに新しいIDを与えることができる。
このような方式を介して、同じ識別子のターゲットの候補ブロックを融合するために、各第1候補ブロックに対応するターゲットの識別子を決定することができる。
一可能な実施形態において、前記第1候補ブロックと、前記第1候補ブロックが位置する領域に対応する第1領域点群データ、および前記第3候補ブロックと、前記第3候補ブロックが位置する領域に対応する第2領域点群データに従って、前記t番目のフレームの点群データ内の各ターゲットに対して、候補ブロック融合をそれぞれ実行して、前記t番目のフレームの点群データ内の各ターゲットの第1検出ブロックを取得する。
一可能な実施形態において、t番目のフレームの点群データ内の任意の1つのターゲットについて、当該ターゲットに第1候補ブロックおよび第3候補ブロックが存在する場合、t番目のフレームの点群データから、当該ターゲットの第1候補ブロックが位置する領域に対応する第1領域点群データを分割し、当該ターゲットの第3候補ブロックが位置する領域に対応する第2領域点群データを分割することができる。当該ターゲットの第1候補ブロックおよび第1領域点群データ、第3候補ブロックおよび第2領域点群データを、事前にトレーニングされた融合ネットワークに入力して処理して、当該ターゲットの第1検出ブロックを出力する。当該第1検出ブロックは、三次元の領域ブロックを含む。
一可能な実施形態において、t番目のフレームの点群データ内の任意の1つのターゲットについて、当該ターゲットに第1候補ブロックのみが存在する場合、t番目のフレームの点群データから、当該ターゲットの第1候補ブロックが位置する領域に対応する第1領域点群データを分割することができる。当該ターゲットの第1候補ブロックおよび第1領域点群データを、事前にトレーニングされた融合ネットワークに入力して処理して、当該ターゲットの第1検出ブロックを出力する。
一可能な実施形態において、t番目のフレームの点群データ内のすべてのターゲットに対して上記の処理を実行して、t番目のフレームの点群データ内のすべてのターゲットの第1検出ブロックを取得することができる。
一可能な実施形態において、t番目のフレームの点群データ内のすべてのターゲットの第1検出ブロックを、t番目のフレームの点群データの検出結果(第1検出結果と称し得る)として使用することができ、他の処理を実行して(例えば、ターゲットを分類する)、t番目のフレームの点群データの検出結果により多くのコンテンツが含まれるようにすることもできる。本発明は、これに対して限定しない。
このような方式を介して、t番目のフレームの点群データ内のすべてのターゲットの第1検出ブロックを決定して、t番目のフレームの点群データ内のターゲットを正確に検出することができる。
一可能な実施形態において、前記第1検出結果は、さらに、前記t番目のフレームの点群データ内のターゲットのカテゴリを含み、ステップS12は、
第2ターゲットの第1検出ブロックが位置する領域に対応する第3領域点群データに従って、前記第2ターゲットを分類して、前記第2ターゲットのカテゴリを決定することを含み、前記第2ターゲットは、前記t番目のフレームの点群データのうちの任意の1つのターゲットである。
第2ターゲットの第1検出ブロックが位置する領域に対応する第3領域点群データに従って、前記第2ターゲットを分類して、前記第2ターゲットのカテゴリを決定することを含み、前記第2ターゲットは、前記t番目のフレームの点群データのうちの任意の1つのターゲットである。
例を挙げると、ステップS12で、t番目のフレームの点群データ内のターゲットを分類することができる。t番目のフレームの点群データ内の任意の1つのターゲット(第2ターゲットと称し得る)について、当該第2ターゲットの第1検出ブロックに従って、t番目のフレームの点群データから、第1検出ブロックが位置する領域に対応する第3領域点群データを分割することができる。
一可能な実施形態において、当該第3領域点群データを事前にトレーニングされた分類ネットワークに入力して処理して、第2ターゲットが属するカテゴリを決定することができる。当該分類ネットワークは、例えば、畳み込み層、全結合層などを含み得、本発明は、分類ネットワークの具体的なネットワーク構造に対して限定しない。
一可能な実施形態において、t番目のフレームの点群データ内のすべてのターゲットに対して上記の処理を実行して、t番目のフレームの点群データ内のすべてのターゲットのカテゴリを取得することにより、ターゲットのカテゴリをt番目のフレームの点群データの第1検出結果に追加することができる。
このような方式を介して、検出されることができるターゲット情報はより豊富である。
ステップS12でt番目のフレームの点群データの第1検出結果を取得した後、さらに、当該第1検出結果を、前の履歴検出結果と組み合わせて、t番目のフレームの点群データの検出結果をさらに最適化することができる。
一可能な実施形態において、本発明の実施例に係るターゲット検出方法は、
まず、前記t番目のフレームの点群データの前にあるt-1フレームの点群データの第2検出結果を取得し、その後、前記t番目のフレームの点群データの前にあるt-1フレームの点群データの第2検出結果に従って、前記t番目のフレームの点群データの第1検出結果を補正して、前記t番目のフレームの点群データの第2検出結果を決定することをさらに含み得る。
まず、前記t番目のフレームの点群データの前にあるt-1フレームの点群データの第2検出結果を取得し、その後、前記t番目のフレームの点群データの前にあるt-1フレームの点群データの第2検出結果に従って、前記t番目のフレームの点群データの第1検出結果を補正して、前記t番目のフレームの点群データの第2検出結果を決定することをさらに含み得る。
つまり、前のt-1フレームの点群データは、前の処理で最終的な検出結果(第2検出結果と称し得る)を取得しており、各第2検出結果は、ターゲットの第2検出ブロックを含み、t番目のフレームの点群データ内のターゲットは、t-1フレームの点群データの第2検出結果で対応する第2検出ブロックが存在する可能性がある。
一可能な実施形態において、t番目のフレームの点群データ内の任意の1つのターゲットについて、前のt-1フレームの点群データの第2検出結果に、当該ターゲットの第2検出ブロックが存在する場合、前のt-1フレームの点群データにおける当該ターゲットの第2検出ブロックに従って、t番目のフレームの点群データにおける当該ターゲットの第1検出ブロックを補正して、補正された検出ブロックを取得することができ、第2検出ブロックと称する。
一可能な実施形態において、前のt-1フレームの点群データの第2検出結果に、当該ターゲットの第2検出ブロックが存在しない場合、t番目のフレームの点群データにおける当該ターゲットの第1検出ブロックを、第2検出ブロックとして直接に使用することができる。
一可能な実施形態において、t番目のフレームの点群データ内のすべてのターゲットに対して上記の処理を実行して、t番目のフレームの点群データ内のすべてのターゲットの第2検出ブロックを取得し、それにより、t番目のフレームの点群データの第2検出結果を取得することができる。
このような方式を介して、ターゲット検出の精度をさらに向上させることができる。
一可能な実施形態において、前記t番目のフレームの点群データの前にあるt-1フレームの点群データの第2検出結果に従って、前記t番目のフレームの点群データの第1検出結果を補正して、前記t番目のフレームの点群データの第2検出結果を決定するステップは、
第1ターゲットの検出ブロックセットを決定することであって、前記第1ターゲットは、前記t番目のフレームの点群データ内の任意の1つのターゲットであり、前記第1ターゲットの検出ブロックセットは、t-1フレームの点群データの第2検出結果における前記第1ターゲットの第2検出ブロック、およびt番目のフレームの点群データの第1検出結果における前記第1ターゲットの第1検出ブロックを含むことと、
前記第1ターゲットの検出ブロックセット内の任意の1つの検出ブロックに対して、前記検出ブロックセットにおける前記検出ブロックとの誤差が誤差閾値より小さいか等しい検出ブロックを、前記検出ブロックの内点ブロックとして決定することと、
前記第1ターゲットの検出ブロックセットから、内点ブロック数が最も多い第3検出ブロックを決定することと、
前記第3検出ブロックおよび前記第3検出ブロックのすべての内点ブロックを融合して、前記t番目のフレームの点群データ内の第1ターゲットの第2検出ブロックを決定することと、を含み得る。
第1ターゲットの検出ブロックセットを決定することであって、前記第1ターゲットは、前記t番目のフレームの点群データ内の任意の1つのターゲットであり、前記第1ターゲットの検出ブロックセットは、t-1フレームの点群データの第2検出結果における前記第1ターゲットの第2検出ブロック、およびt番目のフレームの点群データの第1検出結果における前記第1ターゲットの第1検出ブロックを含むことと、
前記第1ターゲットの検出ブロックセット内の任意の1つの検出ブロックに対して、前記検出ブロックセットにおける前記検出ブロックとの誤差が誤差閾値より小さいか等しい検出ブロックを、前記検出ブロックの内点ブロックとして決定することと、
前記第1ターゲットの検出ブロックセットから、内点ブロック数が最も多い第3検出ブロックを決定することと、
前記第3検出ブロックおよび前記第3検出ブロックのすべての内点ブロックを融合して、前記t番目のフレームの点群データ内の第1ターゲットの第2検出ブロックを決定することと、を含み得る。
例を挙げると、t番目のフレームの点群データ内の任意の1つのターゲット(第1ターゲットと称する)について、当該第1ターゲットの検出ブロックセットを取得することができる。当該検出ブロックセットは、t-1フレームの点群データの第2検出結果における第1ターゲットの第2検出ブロック、およびt番目のフレームの点群データの第1検出結果における第1ターゲットの第1検出ブロックを含む。
一可能な実施形態において、第1ターゲットの検出ブロックセット内の任意の1つの検出ブロックについて、検出ブロックセットのうちの他の検出ブロックと、当該検出ブロックとの誤差を決定することができる。誤差閾値をプリセットすることができ、当該検出ブロックとの誤差が当該誤差閾値より小さいか等しい検出ブロックを、当該検出ブロックの内点ブロックとして決定することができ、逆に、当該検出ブロックとの誤差が当該誤差閾値より大きい検出ブロックを、当該検出ブロックの外側ブロックとして決定することができる。本発明は、誤差閾値の具体的な値に対して限定しない。
一可能な実施形態において、第1ターゲットの検出ブロックセットから内点ブロック数が最も多い第3検出ブロックを決定し、当該第3検出ブロックを初期推定された検出ブロックとして使用することができる。第3検出ブロックおよび第3検出ブロックのすべての内点ブロックに対して融合最適化を実行して、第1ターゲットの位置情報の最適な推定、即ち、補正された第2検出ブロックを取得することができる。
一可能な実施形態において、最小二乗の方式を介して、第3検出ブロックおよび第3検出ブロックのすべての内点ブロックに対して融合最適化を実行することができ、カルマンフィルタリング(Kalman filtering)の方式を介して、第3検出ブロックおよび第3検出ブロックのすべての内点ブロックに対して融合最適化を実行することもでき、本発明は、融合最適化の具体的な方式に対して限定しない。
一可能な実施形態において、t番目のフレームの点群データ内のすべてのターゲットに対して上記の処理を実行して、t番目のフレームの点群データ内のすべてのターゲットの第2検出ブロックを取得し、それにより、t番目のフレームの点群データの第2検出結果を取得することができる。
このような方式を介して、検出結果を前の履歴検出結果と組み合わせて、t番目のフレームの点群データの検出結果をさらに最適化し、ターゲット検出の精度を向上させることができる。
一可能な実施形態において、前記方法は、
前記t-1フレームの点群データの第2検出結果、および前記t番目のフレームの点群データの第2検出結果に従って、t+1番目のフレームの点群データ内のターゲットの動き状態を予測して、前記t+1番目のフレームの点群データ内のターゲットの予測候補ブロックを決定することをさらに含む。
前記t-1フレームの点群データの第2検出結果、および前記t番目のフレームの点群データの第2検出結果に従って、t+1番目のフレームの点群データ内のターゲットの動き状態を予測して、前記t+1番目のフレームの点群データ内のターゲットの予測候補ブロックを決定することをさらに含む。
例を挙げると、t番目のフレームの点群データの第2検出結果を取得した後、履歴検出結果に従って、t+1番目のフレームの点群データを予測して、t+1番目のフレームの点群データのターゲット検出を支援することができる。
一可能な実施形態において、t番目のフレームの点群データ内の任意の1つのターゲット(第3ターゲットと称し得る)について、tフレームの点群データの第2検出結果における当該第3ターゲットの第2検出ブロックを取得することができる。当該第3ターゲットに複数の第2検出ブロックが存在する場合、隣接フレームの各第2検出ブロック間の誤差に従って、t+1番目のフレームの点群データ内のターゲットの動き状態を予測して、t+1番目のフレームの点群データにおける当該第3ターゲットの位置を予測して、t+1番目のフレームの点群データにおける当該第3ターゲットの予測候補ブロックを取得することができる。
一可能な実施形態において、カルマンフィルタリングまたは最小二乗の方式を介して、動き状態の予測を実現することができ、本発明は、これに対して限定しない。
一可能な実施形態において、当該第3ターゲットに1つの第2検出ブロックのみが存在する場合、即ち、第3ターゲットがt番目のフレームの点群データに新しく出現されたターゲットである場合、当該第3ターゲットの近くの他のターゲットに従って予測することができ、t番目のフレームの点群データにおける他のターゲットの第2検出ブロックと、t+1番目のフレームの点群データにおける予測候補ブロックとの誤差によって、t+1番目のフレームの点群データにおける当該第3ターゲットの予測候補ブロックを予測することができる。
このようにして、t番目のフレームの点群データ内のすべてのターゲットを予測して、t+1番目のフレームの点群データにおける検出した領域内のターゲットの予測候補ブロックを決定することができる。
このような方式を介して、t+1番目のフレームの点群データ内のターゲットの予測候補ブロックを取得して、t+1番目のフレームの点群データのターゲット検出を支援して、検出精度を向上させることができる。
一可能な実施形態において、前記方法は、
前記t+1番目のフレームの点群データ内のターゲットの予測候補ブロック、およびt番目のフレームの点群データに従って、前記t番目のフレームの点群データ内のターゲットの予測確率マップを更新して、前記t+1番目のフレームの点群データ内のターゲットの予測確率マップを決定することをさらに含む。
前記t+1番目のフレームの点群データ内のターゲットの予測候補ブロック、およびt番目のフレームの点群データに従って、前記t番目のフレームの点群データ内のターゲットの予測確率マップを更新して、前記t+1番目のフレームの点群データ内のターゲットの予測確率マップを決定することをさらに含む。
例を挙げると、t+1番目のフレームの点群データ内のターゲットの予測候補ブロックを取得した後、当該予測候補ブロックおよびt番目のフレームの点群データに従って、t番目のフレームの点群データ内のターゲットの予測確率マップを更新することができる。即ち、t番目のフレームの点群データにおけるターゲットの位置およびt+1番目のフレームの点群データにおける位置(予測候補ブロック)に従って、予測確率マップにおける各位置にターゲットが存在するか否かを決定し、各位置にターゲットが出現される可能性がある確率を更新して、t+1番目のフレームの点群データ内のターゲットの予測確率マップを取得する。
このような方式を介して、t+1番目のフレームの点群データ内のターゲットの予測確率マップを取得することにより、後続で処理するときに、t+1番目のフレームの点群データのために複数の領域を分割し、それにより、ターゲット検出の速度を向上させることができる。
一可能な実施形態において、前記方法は、
前記t番目のフレームの点群データの前にあるt-1フレームの点群データの第2検出結果に従って、前記t番目のフレームの点群データ内のターゲットの動き状態を予測して、前記t番目のフレームの点群データ内のターゲットの予測候補ブロックを決定することをさらに含む。
前記t番目のフレームの点群データの前にあるt-1フレームの点群データの第2検出結果に従って、前記t番目のフレームの点群データ内のターゲットの動き状態を予測して、前記t番目のフレームの点群データ内のターゲットの予測候補ブロックを決定することをさらに含む。
つまり、t-1番目のフレームの点群データの第2検出結果を取得した後、履歴検出結果に従って、t番目のフレームの点群データを予測して、t番目のフレームの点群データのターゲット検出を支援することができる。t-1番目のフレームの点群データ内の任意の1つのターゲットについて、前のt-1フレームの点群データの第2検出結果における当該ターゲットの第2検出ブロックを取得し、t番目のフレームの点群データ内のターゲットの動き状態を予測し、t番目のフレームの点群データにおける当該ターゲットの位置を予測して、t番目のフレームの点群データにおける当該ターゲットの予測候補ブロックを取得することができる。当該予測プロセスは、t+1番目のフレームの点群データを予測するプロセスと類似し、ここでは繰り返して説明しない。
このような方式を介して、t番目のフレームの点群データ内のターゲットの予測候補ブロックを取得して、t番目のフレームの点群データのターゲット検出を支援して、検出精度を向上させることができる。
一可能な実施形態において、前記方法は、
t番目のフレームの点群データ内のターゲットの予測候補ブロック、およびt-1番目のフレームの点群データに従って、前記t-1番目のフレームの点群データ内のターゲットの予測確率マップを更新して、前記t番目のフレームの点群データ内のターゲットの予測確率マップを決定することをさらに含む。
t番目のフレームの点群データ内のターゲットの予測候補ブロック、およびt-1番目のフレームの点群データに従って、前記t-1番目のフレームの点群データ内のターゲットの予測確率マップを更新して、前記t番目のフレームの点群データ内のターゲットの予測確率マップを決定することをさらに含む。
つまり、t番目のフレームの点群データ内のターゲットの予測候補ブロックを取得した後、当該予測候補ブロックおよびt-1番目のフレームの点群データに従って、t-1番目のフレームの点群データ内のターゲットの予測確率マップを更新して、t番目のフレームの点群データ内のターゲットの予測確率マップを取得することができる。当該更新プロセスは、t+1番目のフレームの点群データの予測確率マップを更新するプロセスと類似し、ここでは繰り返して説明しない。
このような方式を介して、t番目のフレームの点群データ内のターゲットの予測確率マップを取得することにより、後続で処理するときに、t番目のフレームの点群データのために複数の領域を分割し、それにより、ターゲット検出の速度を向上させることができる。
本発明の実施例において、図1Bに示されたネットワークアーキテクチャを介して、再構築される対象に対する三次元再構築を実現することができ、図1Bは、本発明の実施例のターゲット検出方法のネットワークアーキテクチャの概略図を示し、当該ネットワークアーキテクチャは、ユーザ端末201、ネットワーク202およびターゲット検出端末203を備える。例示的な適用をサポートするために、ユーザ端末201とターゲット検出203は、ネットワーク202を介して通信接続を確立し、ユーザ端末201は、検出されるターゲットを含むターゲットシーンのt番目のフレームの点群データに対してターゲット検出を実行するとき、まず、ターゲットシーンのt番目のフレームの点群データを、ネットワーク202を介してターゲット検出端末203に送信し、その後、ターゲット検出端末203が、当該ターゲットの検出ブロックを予測して、第1候補ブロックを取得し、最後に、ターゲット検出端末203が、当該第1候補ブロックを介して、t番目のフレームの点群データ内のターゲットを検出して、当該ターゲットの検出結果を取得する必要がある。このようにして、マルチフレームの点群データを介して検出ブロックを予測して、ターゲット検出の精度を向上させることができる。
図2は、本発明の実施例に係るターゲット検出方法の処理プロセスの概略図を示す。図2に示されたように、現在のフレームに対してターゲット検出処理を実行するプロセスをフロントエンドと称し、履歴結果を記録し、履歴結果に従って現在のフレームを補正して、次のフレームを予測するプロセスをバックエンドと称し得、バックエンドの処理は、ターゲット追跡および融合とも称し得る。ここで、現在のフレームはt番目のフレームである。
例において、前のt-1番目のフレームのフロントエンド処理で、t-1番目のフレームの点群データの第1検出結果を取得し(未図示)、当該第1検出結果を前のt-2フレームの履歴検出結果に関連付け、t-1番目のフレームのバックエンドのステップ211で、カルマンフィルタリングまたは最小二乗の方式を介して検出ブロックの融合最適化を実行して、検出結果を補正し、t-1番目のフレームの点群データの第2検出結果を取得する(未図示)。
例において、t-1番目のフレームのバックエンド処理において、前のt-1フレームの履歴検出結果に従って、t番目のフレーム内のターゲットに対して動き予測212を実行して、t番目のフレームの点群データ内のターゲットの予測候補ブロック213を取得し、予測候補ブロック213およびt-1番目のフレームの点群データに従って(未図示)、ステップ214で、t-1番目のフレームの予測確率マップを更新して、t番目のフレームの点群データ内のターゲットの予測確率マップ215を取得し、それにより、t-1番目のフレームのすべての処理プロセスを完了する。
例において、t番目のフレームのフロントエンド処理において、予測確率マップ215に従って、前記t番目のフレームの点群データ221を、ターゲットの存在する第1領域、ターゲットの存在しない第2領域およびターゲットが存在するか否かが決定されていない第3領域に分割して、領域を分割した後の点群データ222を取得する。点群データ222の第1領域および第3領域をターゲット検出ネットワーク223に入力して、ターゲット検出を実行して、プリセット数の第1候補ブロックを取得することができる。t番目のフレームの点群データ内のターゲットの予測候補ブロック213を第1候補ブロックとマッチングして、各第1候補ブロックに対応するターゲット識別子を決定して、処理されるすべての候補ブロック224を取得する(各ターゲットは複数のブロックに対応する)。ターゲットのすべての候補ブロック224および候補ブロック224に対応する領域点群データを、融合ネットワーク225に入力して処理して、ターゲットの第1検出ブロックを取得して(各ターゲットは1つのブロックに対応する)、t番目のフレームの点群データの第1検出結果226として使用する。ステップ227で、第1検出結果226を前のt-1フレームの履歴検出結果に関連付けることができる。
例において、t番目のフレームのバックエンド処理において、ステップ231で、カルマンフィルタリングまたは最小二乗の方式を介して検出ブロックの融合最適化を実行して、検出結果を補正して、t番目のフレームの点群データ内の各ターゲットの第2検出ブロックを取得して、t番目のフレームの点群データの第2検出結果230、即ち、最終的な出力結果として使用することができる。
例において、t番目のフレームのバックエンド処理において、前のtフレームの第2検出結果に従って、t+1番目のフレーム内のターゲットに対して動き予測232を実行して、t+1番目のフレームの点群データ内のターゲットの予測候補ブロック233を取得し、予測候補ブロック233およびt番目のフレームの点群データ221に従って、ステップ234で、t番目のフレームの予測確率マップ215を更新して、t+1番目のフレームの点群データ内のターゲットの予測確率マップ235を取得し、それにより、t番目のフレームのすべての処理プロセスを完了することができる。
図3aは、ターゲットシーンの画像の概略図を示し、図3bは、ターゲットの検出結果の概略図を示す。図3aに示されたように、ターゲットシーンには複数の椅子が含まれ、椅子は、検出されるターゲットとして使用することができる。図3bに示されたように、検出ブロック31は、関連技術の単一フレーム処理のターゲット検出方法に従って得られた検出結果であり、検出ブロック32は、ターゲットの実の三次元画像ブロックであり、検出ブロック33は、本発明の実施例のターゲット検出方法に従って得られた検出結果である。
これから分かるように、本発明の実施例のターゲット検出方法によって得られた検出結果の精度が比較的に高い。ターゲットが、部分的に遮蔽された場合、関連技術の検出結果は明らかに悪くなり、本発明の実施例のターゲット検出方法は、仍然として比較的に高い精度を維持することができる。
本発明の実施例のターゲット検出方法によれば、ターゲットシーンの連続するマルチフレームの点群データに対して三次元ターゲット検出を実行する場合、履歴検出結果を効果的に利用して、三次元ターゲットの検出および追跡を実行することができ、履歴検出結果を介して、現在のフレーム内のターゲットの候補ブロック、および現在のフレーム内の知られている領域に3D物体が出現する可能性のある確率の分布図を予測し、現在のフレームのターゲット検出プロセスにフィードバックすることができ、現在のフレームがターゲット検出を実行するときに、予測された確率分布図を利用して領域を分割するようにし、それにより、処理のデータ量を減らし、ターゲット検出の速度を向上させ、予測された候補ブロックを以前のバウンディングボックス(prior bounding box)として使用して、各フレームがすべてのシーンに対してターゲット検索を実行することを回避し、さらに、以前のバウンディングボックスに従って、より正確な候補ブロックを取得し、ターゲット検出の精度を効果的に向上させ、検出ミスの発生を回避することができる。
本発明の実施例のターゲット検出方法によれば、ターゲットを追跡と融合を実行して、連続時間における各3Dターゲットのすべての検出ブロックを、当該3D物体の履歴検出ブロックに格納し、各フレームですべて、各3Dターゲットのすべての履歴検出ブロックとそれぞれ融合および最適化して、現在のフレームの3Dターゲットの位置の最適推定を取得し、それにより、3D検出ブロックの安定性を効果的に向上させ、ターゲットが遮蔽されるか切り捨てられた場合の検出誤差を減らし、ターゲット検出の精度およびロバスト性を明らかに向上させることができる。
本発明の実施例のターゲット検出方法によれば、増強現実(AR)、屋内ナビゲーションなどのアプリケーションシーンに適用され、3Dターゲットの推定と検出を実現することができる。関連技術の処理方式は、連続フレームにおける同じ物体の位置情報の関係を考慮せず、連続時間における情報を利用しないため、3D検出ブロックのジッターが発生しやすくなる。例えば、屋内シーンでは、物体スケールがより大きいため、検出ブロックのジッターがより深刻になる。しかし、本発明の実施例のターゲット検出方法によれば、連続フレーム内の位置情報の関係および連続時間における情報を利用することにより、より安定な3D検出ブロックを出力し、検出誤差を減らすことができる。
本発明で述べた上述の各方法の実施例は、原理及び論理に違反することなく、互いに組み合わせて、組み合わせされた実施例を生成することができ、スペースの制限により、本発明には繰り返さないことを理解されたい。当業者は、具体的な実施形態の上記方法において、各ステップの具体的な実行順序は、その機能と可能性に基づくべきであることを理解することができる。
加えて、本発明は、さらに、ターゲット検出装置、電子機器、コンピュータ可読記憶媒体、プログラムを提供し、上記は、すべて本発明で提供された任意のターゲット検出方法を実現することができ、対応する技術的解決策と説明および方法部分を参照した対応する記載は繰り返しない。
図4は、本発明の実施例に係るターゲット検出装置のブロック図を示し、図4に示されたように、前記装置は、
ターゲットシーンのt番目(tは1より大きい整数である)のフレームの点群データに対してターゲット検出を実行して、前記t番目のフレームの点群データ内のターゲットの第1候補ブロックを決定するように構成される、第1検出モジュール41と、
前記t番目のフレームの点群データ、前記第1候補ブロックおよび、前記t番目のフレームの点群データ内のターゲットに対する予測候補ブロックに従って、前記t番目のフレームの点群データの第1検出結果を決定するように構成される、第2検出モジュール42と、を備え、前記第1検出結果は、前記t番目のフレームの点群データ内のターゲットの第1検出ブロックを含み、ここで、前記予測候補ブロックは、前記t番目のフレームの点群データ前のt-1フレームの点群データの検出結果に従って予測して得られたものである。
ターゲットシーンのt番目(tは1より大きい整数である)のフレームの点群データに対してターゲット検出を実行して、前記t番目のフレームの点群データ内のターゲットの第1候補ブロックを決定するように構成される、第1検出モジュール41と、
前記t番目のフレームの点群データ、前記第1候補ブロックおよび、前記t番目のフレームの点群データ内のターゲットに対する予測候補ブロックに従って、前記t番目のフレームの点群データの第1検出結果を決定するように構成される、第2検出モジュール42と、を備え、前記第1検出結果は、前記t番目のフレームの点群データ内のターゲットの第1検出ブロックを含み、ここで、前記予測候補ブロックは、前記t番目のフレームの点群データ前のt-1フレームの点群データの検出結果に従って予測して得られたものである。
一可能な実施形態において、前記第1検出モジュールは、前記t番目のフレームの点群データ内のターゲットの予測確率マップに従って、前記t番目のフレームの点群データを、ターゲットの存在する第1領域、ターゲットの存在しない第2領域およびターゲットが存在するか否かが決定されていない第3領域に分割するように構成される、領域分割サブモジュールと、前記第1領域および前記第3領域に対してターゲット検出を実行して、前記t番目のフレームの点群データ内のターゲットの第1候補ブロックを決定するように構成される、第1検出サブモジュールと、を備える。
一可能な実施形態において、前記装置は、さらに、前記t番目のフレームの点群データの前にあるt-1フレームの点群データの第2検出結果を取得し、前記t番目のフレームの点群データの前にあるt-1フレームの点群データの第2検出結果に従って、前記t番目のフレームの点群データの第1検出結果を補正して、前記t番目のフレームの点群データの第2検出結果を決定するように構成される、補正モジュールを備える。
一可能な実施形態において、前記装置は、さらに、前記t番目のフレームの点群データの前にあるt-1フレームの点群データの第2検出結果に従って、前記t番目のフレームの点群データ内のターゲットの動き状態を予測して、前記t番目のフレームの点群データ内のターゲットの予測候補ブロックを決定するように構成される、第1動き予測モジュールを備える。
一可能な実施形態において、前記装置は、さらに、前記t番目のフレームの点群データ内のターゲットの予測候補ブロック、およびt-1番目のフレームの点群データに従って、前記t-1番目のフレームの点群データ内のターゲットの予測確率マップを更新して、前記t番目のフレームの点群データ内のターゲットの予測確率マップを決定するように構成される、第1確率マップ更新モジュールを備える。
一可能な実施形態において、前記第1検出サブモジュールは、前記第1領域および前記第3領域の点群データに対して特徴抽出を実行して、第1点群特徴を取得し、前記第1点群特徴に対してターゲット検出を実行して、前記t番目のフレームの点群データ内のターゲットの第2候補ブロックを決定し、各第2候補ブロックの信頼度に従って、前記第2候補ブロックからプリセット数の第1候補ブロックを決定するように構成される。
一可能な実施形態において、前記第2検出モジュールは、前記t番目のフレームの点群データ内の各ターゲットの予測候補ブロックをそれぞれ拡張して、各ターゲットの第3候補ブロックを決定するように構成される、候補ブロック拡張サブモジュールと、前記第3候補ブロックおよび前記第1候補ブロックをそれぞれマッチングして、各第1候補ブロックに対応するターゲットを決定するように構成される、候補ブロックマッチングサブモジュールと、前記第1候補ブロックと、前記第1候補ブロックが位置する領域に対応する第1領域点群データ、および前記第3候補ブロックと、前記第3候補ブロックが位置する領域に対応する第2領域点群データに従って、前記t番目のフレームの点群データ内の各ターゲットに対して、候補ブロック融合をそれぞれ実行して、前記t番目のフレームの点群データ内の各ターゲットの第1検出ブロックを取得するように構成される、候補ブロック融合サブモジュールと、を備える。
一可能な実施形態において、前記候補ブロックマッチングサブモジュールは、第3候補ブロックと、各第1候補ブロックとのIoUをそれぞれ決定し、第1候補ブロックとのIoUが、IoU閾値より大きいか等しい第3候補ブロックを、第1候補ブロックにマッチングする第3候補ブロックとして決定し、第1候補ブロックにマッチングする第3候補ブロックに対応するターゲットを、前記第1候補ブロックに対応するターゲットとして決定するように構成される。
一可能な実施形態において、各第2検出結果は、ターゲットの第2検出ブロックを含み、前記補正モジュールは、第1ターゲットの検出ブロックセットを決定するように構成される、セット決定サブモジュールであって、前記第1ターゲットは、前記t番目のフレームの点群データ内の任意の1つのターゲットであり、前記第1ターゲットの検出ブロックセットは、t-1フレームの点群データの第2検出結果における前記第1ターゲットの第2検出ブロック、およびt番目のフレームの点群データの第1検出結果における前記第1ターゲットの第1検出ブロックを含む、セット決定サブモジュールと、前記第1ターゲットの検出ブロックセット内の任意の1つの検出ブロックに対して、前記検出ブロックセットにおける前記検出ブロックとの誤差が誤差閾値より小さいか等しい検出ブロックを、前記検出ブロックの内点ブロックとして決定するように構成される、内点ブロック決定サブモジュールと、前記第1ターゲットの検出ブロックセットから、内点ブロック数が最も多い第3検出ブロックを決定するように構成される、検出ブロック選択サブモジュールと、前記第3検出ブロックおよび前記第3検出ブロックのすべての内点ブロックを融合して、前記t番目のフレームの点群データ内の第1ターゲットの第2検出ブロックを決定するように構成される、内点ブロック融合サブモジュールと、を備える。
一可能な実施形態において、前記装置は、さらに、前記t-1フレームの点群データの第2検出結果、および前記t番目のフレームの点群データの第2検出結果に従って、t+1番目のフレームの点群データ内のターゲットの動き状態を予測して、前記t+1番目のフレームの点群データ内のターゲットの予測候補ブロックを決定するように構成される、第2動き予測モジュールを備える。
一可能な実施形態において、前記装置は、さらに、前記t+1番目のフレームの点群データ内のターゲットの予測候補ブロック、およびt番目のフレームの点群データに従って、前記t番目のフレームの点群データ内のターゲットの予測確率マップを更新して、前記t+1番目のフレームの点群データ内のターゲットの予測確率マップを決定するように構成される、第2確率マップ更新モジュールを備える。
一可能な実施形態において、前記第1検出モジュールは、前記t番目のフレームの点群データに対して特徴抽出を実行して、第2点群特徴を取得するように構成される、特徴抽出サブモジュールと、前記第2点群特徴に対してターゲット検出を実行して、前記t番目のフレームの点群データ内のターゲットの第4候補ブロックを決定するように構成される、第2検出サブモジュールと、各第4候補ブロックの信頼度に従って、前記第4候補ブロックからプリセット数の第1候補ブロックを決定するように構成される、選択サブモジュールと、を備える。
一可能な実施形態において、前記第1検出結果は、さらに、前記t番目のフレームの点群データ内のターゲットのカテゴリを含み、前記第2検出モジュールは、第2ターゲットの第1検出ブロックが位置する領域に対応する第3領域点群データに従って、前記第2ターゲットを分類して、前記第2ターゲットのカテゴリを決定するように構成される、分類サブモジュールを備え、前記第2ターゲットは、前記t番目のフレームの点群データのうちの任意の1つのターゲットである。
一可能な実施形態において、前記ターゲットシーンは屋内シーンを含み、前記t番目のフレームの点群データ内のターゲットは物体を含み、前記t番目のフレームの点群データ内のターゲットの第1検出ブロックは三次元領域ブロックを含む。
いくつかの実施例において、本発明の実施例による装置が備える機能または構成されたモジュールは、上記の方法の実施例で説明される方法を実行するために使用され得、特定の実現は、上記の方法の実施例における説明を参照することができ、簡潔にするために、ここで再び説明しない。
本発明の実施例は、さらに、コンピュータプログラム命令が記憶される、コンピュータ可読記憶媒体を提案し、前記コンピュータプログラム命令は、プロセッサによって実行されるとき、上記の方法を実現する。コンピュータ可読記憶媒体は、不揮発性コンピュータ可読記憶媒体であり得る。
本発明の実施例は、さらに、プロセッサと、プロセッサ実行可能命令を記憶するように構成されるメモリと、を備える、電子機器を提案し、ここで、前記プロセッサは、前記メモリによって記憶される命令を呼び出して、上記の方法を実行するように構成される。
本発明の実施例は、さらに、コンピュータ可読コードを含むコンピュータプログラム製品を提供し、コンピュータ可読コードが機器で実行されるとき、機器内のプロセッサは上記の任意の実施例によるターゲット検出方法を実現するための命令を実行する。
本発明の実施例は、さらに、コンピュータ可読命令を記憶するために使用される、別のコンピュータプログラム製品を提供し、命令が実行されるときに、コンピュータに、上記の任意の実施例によるターゲット検出方法の操作を実行させる。
電子機器は、端末、サーバまたはその他の形態の機器として提供できる。
図5は、本発明の実施例に係る電子機器800のブロック図を示す。例えば、電子機器800は、携帯電話、コンピュータ、デジタル放送端末、メッセージングデバイス、ゲームコンソール、タブレットデバイス、医療機器、フィットネス機器、携帯情報端末などの端末であり得る。
図5を参照すると、電子機器800は、処理コンポーネント802、メモリ804、電力コンポーネント806、マルチメディアコンポーネント808、オーディオコンポーネント810、入力/出力(I/O)インターフェース812、センサコンポーネント814、及び通信コンポーネント816のうちの1つまたは複数のコンポーネントを含み得る。
処理コンポーネント802は、一般的に、ディスプレイ、電話の呼び出し、データ通信、カメラ操作及び記録操作に関する操作などの、電子機器800の全般的な操作を制御する。処理コンポーネント802は、前記方法のステップのすべてまたは一部を完成するために、1つまたは複数のプロセッサ820を備えて命令を実行することができる。加えて、処理コンポーネント802は、1つまたは複数のモジュールを備えて、処理コンポーネント802と他のコンポーネントとの相互作用を容易にすることができる。例えば、処理コンポーネント802は、マルチメディアモジュールを備えて、マルチメディアコンポーネント808と、処理コンポーネント802との相互作用を容易にすることができる。
メモリ804は、機器800における操作をサポートするために、様々なタイプのデータを記憶するように構成される。これらのデータの例には、電子機器800で動作する、任意のアプリケーションまたは方法の命令、連絡先データ、電話帳データ、メッセージ、写真、ビデオ等が含まれる。メモリ804は、スタティックランダムアクセスメモリ(SRAM)、電気的に消去可能なプログラム可能な読み取り専用メモリ(EEPROM)、消去可能なプログラム可能な読み取り専用メモリ(EPROM)、プログラム可能な読み取り専用メモリ(PROM)、読み取り専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクなど、あらゆるタイプの揮発性または不揮発性ストレージデバイス、またはそれらの組み合わせで実装することができる。
電力コンポーネント806は、電子機器800の様々なコンポーネントに電力を提供する。電力コンポーネント806は、電力管理システム、1つまたは複数の電源、及び電子機器800のために、電力を生成、管理及び割り当てに関連付けられる、他のコンポーネントを含み得る。
マルチメディアコンポーネント808は、前記電子機器800とユーザとの間に、出力インターフェースを提供するスクリーンを含む。いくつかの実施例において、スクリーンは、液晶ディスプレイ(LCD)およびタッチパネル(TP)を含み得る。スクリーンにタッチパネルが含まれる場合、スクリーンは、ユーザからの入力信号を受信するためのタッチスクリーンとして実現されることができる。タッチパネルは、タッチ、スワイプ及びタッチパネルにおけるジェスチャを検知するための1つまたは複数のタッチセンサを含む。前記タッチセンサは、タッチまたはスワイプの操作の境界を感知するだけでなく、前記タッチまたはスワイプ動作に関する、持続時間及び圧力も検知することができる。いくつかの実施例において、マルチメディアコンポーネント808は、1つのフロントカメラ及び/またはリアカメラを備える。電子機器800が、撮影モードまたはビデオモードなどの動作モードにいるとき、フロントカメラ及び/またはリアカメラは、外部のマルチメディアデータを受信し得る。各フロントカメラ及びリアカメラは、固定光学レンズシステムであり得、または焦点距離と光学ズーム機能を有することができる。
オーディオコンポーネント810は、オーディオ信号を出力及び/または入力するように構成される。例えば、オーディオコンポーネント810は、1つのマイク(MIC)を備え、電子機器800が、通話モード、録音モード及び音声認識モードなどの動作モードにいる場合、マイクは、外部オーディオ信号を受信するように構成される。受信されたオーディオ信号は、さらにメモリ804に記憶され、または通信コンポーネント816を介して送信されることができる。いくつかの実施例において、オーディオコンポーネント810は、オーディオ信号を出力するように構成される、スピーカも備える。
I/Oインターフェース812は、処理コンポーネント802と周辺インターフェースモジュールとの間にインターフェースを提供し、前記周辺インターフェースモジュールは、キーボード、クリックホイール、ボタンなどであってもよい。これらのボタンは、ホームボタン、ボリュームボタン、スタートボタン、ロックボタンを含み得るが、これらに限定されない。
センサコンポーネント814は、電子機器800に各態様の状態評価を提供するための1つまたは複数のセンサを備える。例えば、センサコンポーネント814は、電子機器800のオン/オフ状態、電子機器800のディスプレイとキーパッドなどのコンポーネントの、相対的な位置を検知することができ、センサコンポーネント814は、電子機器800または電子機器800の1つのコンポーネントの位置の変化、ユーザと電子機器800との接触の有無、電子機器800の方位または加速/減速、及び電子機器800の温度の変化も検知することができる。センサコンポーネント814は、近接センサを備えることができ、物理的接触なしに近くの物体の存在を検知するように構成される。センサコンポーネント814は、さらに、相補型金属酸化膜半導体(CMOS)または電荷結合装置(CCD)画像センサなどの光センサを備えることもでき、イメージングアプリケーションのために使用される。いくつかの実施例において、当該センサコンポーネント814は、さらに、加速度センサ、ジャイロスコープセンサ、磁気センサ、圧力センサまたは温度センサを含み得る。
通信コンポーネント816は、電子機器800と他の機器の間の有線、または無線方式の通信を容易にするように構成される。電子機器800は、ワイヤレス・フィディリティ(WiFi)、二世代モバイル通信技術(2G)または三世代モバイル通信技術(3G)、またはそれらの組み合わせなどの通信規格に基づく無線ネットワークにアクセスすることができる。一例示的な実施例において、通信コンポーネント816は、放送チャンネルを介して、外部放送管理システムからの放送信号または放送関連情報を受信する。一例示的な実施例において、前記通信コンポーネント816は、さらに、短距離通信を促進するために、近距離通信(NFC)モジュールを備える。例えば、NFCモジュールは、無線周波数認識(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(BT)技術及び他の技術に基づいて実現されることができる。
例示的な実施例において、電子機器800は、上記の方法を実行するために、1つまたは複数の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号処理装置(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサ、または他の電子素子によって実現されることができる。
例示的な実施例において、さらに、コンピュータプログラム命令を含むメモリ804などの、不揮発性コンピュータ可読記憶媒体を提供し、前記コンピュータプログラム命令は、電子機器800のプロセッサ820によって実行されて、上記の方法を完成することができる。
図6は、本発明の実施例に係る電子機器1900のブロック図を示す。例えば、電子機器1900は、サーバとして提供されることができる。図6を参照すると、電子機器1900は、処理コンポーネント1922を含み、1つまたは複数のプロセッサ、及びメモリ1932によって表されるメモリリソースををさらに含み、アプリケーションプログラムなど、処理コンポーネント1922によって、実行される命令を記憶するために使用される。メモリ1932に記憶されるアプリケーションプログラムは、1つまたは1つ以上の1セットの命令に対応する各モジュールを備えることができる。加えて、処理コンポーネント1922は、命令を実行するように構成されて、上記の方法を実行する。
電子機器1900は、さらに、電子機器1900の電源管理を実行するように構成される、1つの電力コンポーネント1926と、電子機器1900をネットワークに接続させるように構成される、1つの有線または無線ネットワークインターフェース1950と、1つの入力/出力(I/O)インターフェース1958とを含み得る。電子機器1900は、マイクロソフトサーバ動作システム(Windows ServerTM)、アップル会社によって導入されたグラフィカルユーザインターフェースオペレーティングシステム(Mac OS XTM)、マルチユーザおよびマルチプロセスコンピュータオペレーティングシステム(UnixTM)、フリーでオープンソースのUnixのようなオペレーティングシステム(LinuxTM)、オープンソースのUnixのようなオペレーティングシステム(FreeBSDTM)または類似するものなど、メモリ1932に記憶された動作システムを動作することができる。
例示的な実施例において、さらに、コンピュータプログラム命令を含むメモリ1932などの、揮発性コンピュータ可読記憶媒体を提供し、前記コンピュータプログラム命令は、電子機器1900の処理コンポーネント1922によって実行されて、上記の方法を完成することができる。
本発明は、システム、方法及び/またはコンピュータプログラム製品であり得る。コンピュータプログラム製品は、プロセッサに本発明の様々な態様を実現させるために使用される、コンピュータ可読プログラム命令がロードされる、コンピュータ可読記憶媒体を含み得る。
コンピュータ可読記憶媒体は、命令実行機器によって使用される命令を保持および記憶することができる有形の機器であり得る。コンピュータ可読記憶媒体は、例えば、電気記憶機器、磁気記憶機器、光学記憶機器、電磁記憶機器、半導体貯蔵機器、または前記任意の適切な組み合わせであり得るが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例(非網羅的リスト)には、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、スタティックランダムアクセスメモリ(SRAM)、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピーディスク、機械的エンコーディング機器、例えば命令が記憶されるパンチカードまたは溝の突出構造、および、前記の任意の適切な組み合わせを含む。ここで使用されるコンピュータ可読記憶媒体は、無線電波または他の自由に伝播する電磁波、導波管または他の伝送媒体を介して伝播する電磁波(例えば、光ファイバケーブルを介する光パルス)、またはワイヤーを介して伝送される電気信号などの、過渡信号自体として解釈されない。
本明細書に記載のコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から様々なコンピューティング/処理機器にダウンロードするか、またはインターネット、ローカルエリアネットワーク、ワイドエリアネットワーク、及び/またはワイヤレスネットワークなどのネットワークを介して、外部コンピュータまたは外部記憶機器にダウンロードすることができる。ネットワークは、銅線伝送ケーブル、光ファイバ伝送、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ、及び/またはエッジサーバを含み得る。各コンピューティング/処理機器における、ネットワークアダプタカードまたはネットワークインターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、前記コンピュータ可読プログラム命令を転送して、各コンピューティング/処理機器におけるコンピュータ可読記憶媒体に記憶される。
本開示の操作を実行するために使用されるコンピュータプログラム命令は、コンポーネント命令、命令セットアーキテクチャ(ISA)命令、機械命令、機械関連命令、マイクロコード、ファームウェア命令、ステータス設定データ、または1つまたは複数のプログラミング言語の任意の組み合わせで記述される、ソースコードまたはオブジェクトコードであり得、前記プログラミング言語は、Smalltalk、C++など、対象指向のプログラミング言語、及び「C」言語または同様のプログラミング言語など、従来の手続き型プログラミング言語とを含む。コンピュータ可読プログラム命令は、完全にユーザのコンピュータで実行でき、部分的にユーザのコンピュータで実行でき、スタンドアロンパッケージとして実行でき、ユーザのコンピュータで一部、リモートコンピュータで一部実行でき、または、完全にリモートコンピュータまたはサーバで実行できる。リモートコンピュータに関するシナリオにおいて、リモートコンピュータは、ローカルエリアネットワーク(LAN)またはワイドエリアネットワーク(WAN)を含む、任意の種類のネットワークを介して、ユーザのコンピュータにアクセスでき、または、リモートコンピュータにアクセスできる(例えば、インターネットサービスプロバイダーを使用してインターネットを介してアクセスする)。いくつかの実施例において、コンピュータ可読プログラム命令のステータス情報を使用することを介して、プログラマブルロジック回路、フィールドプログラマブルゲートアレイ(FPGA)、またはプログラマブルロジックアレイ(PLA)などの電子回路を、パーソナライズにスタマイズし、前記電子回路は、コンピュータ可読プログラム命令を実行して、本開示の様々な態様を実現することができる。
本明細書では、本発明の実施例による方法、装置(システム)、及びコンピュータプログラム製品のフローチャート及び/またはブロック図を参照して本発明の様々な態様を説明する。フローチャート及び/またはブロック図の各ブロック、及びフローチャート及び/またはブロック図内の各ブロックの組み合わせは、コンピュータ可読プログラム命令によって実現されることを理解されたい。
これらのコンピュータ可読プログラム命令は、汎用コンピュータ、固有コンピュータ、または他のプログラマブルデータ処理装置のプロセッサに提供することができ、それにより、デバイスが作成され、これらの命令が、コンピュータ、または他のプログラマブルデータ処理装置のプロセッサによって実行されるとき、フローチャート及び/またはブロック図内の1つまたは複数のブロックの指定される機能/アクションを実現させる。これらのコンピュータ可読プログラム命令を、コンピュータ可読記憶媒体に記憶することもあり得、これらの命令は、コンピュータ、プログラマブルデータ処理装置及び/または他の機器を特定の方式で作業するようにし、従って、命令が記憶されるコンピュータ可読媒体は、フローチャート及び/またはブロック図内の1つまたは複数のブロックの指定される機能/アクションを実現する様々な態様の命令を含む製造品を含む。
コンピュータ可読プログラム命令を、コンピュータ、他のプログラマブルデータ処理装置、または他の機器にロードすることもでき、コンピュータ、他のプログラマブルデータ処理装置、または他の機器で一連の操作ステップを実行して、コンピュータ実現のプロセスを生成させ、これにより、コンピュータ、他のプログラマブルデータ処理装置、または他の機器で実行する命令を、フローチャート及び/またはブロック図内の1つまたは複数のブロックの指定される機能/アクションを実現させる。
図面におけるプロセス図及びブロック図は、本発明の複数の実施例によるシステム、方法及びコンピュータプログラム製品の実現可能なアーキテクチャ、機能、及び操作を示す。この点について、フローチャートまたはブロック図内の各ブロックは、1つのモジュール、プログラムセグメント、または命令の一部を表すことができ、前記モジュール、プログラムセグメント、または命令の一部は、1つまたは複数の指定される論理機能を実現するために使用される実行可能な命令を含む。いくつかの代替実現において、ブロックのマークされる機能は、図面でマークされる順序とは異なる順序で発生することもできる。例えば、関する機能によって、2つの連続するブロックは、実際に基本的に並行して実行でき、時には逆の順序で実行できる。ブロック図及び/またはフローチャート中の各ブロック、及びブロック図及び/またはフローチャートのブロックの組み合わせは、指定される機能またはアクションを実行する、専用のハードウェアベースのシステムによって実現されるか、または、ハードウェアとコンピュータ命令の組み合わせを使用して、実現されることもできることを留意する必要がある。
当該コンピュータプログラム製品は、具体的に、ハードウェア、ソフトウェアまたはそれらを組み合わせる方式を介して実現されることができる。1つの例示的な実施例において、前記コンピュータプログラム製品は、具体的には、コンピュータ記憶媒体として具現され、別の例示的な実施例において、コンピュータプログラム製品は、具体的には、ソフトウェア開発キット(SDK:Software Development Kit)などのソフトウェア製品として具現される。
以上、本発明の各実施例を説明したが、以上の説明は、例示的なものに過ぎず、網羅的ではなく、開示された各実施例に限定されない。説明される各実施例の範囲及び思想から逸脱してない場合は、当業者にとって、多くの修正及び変更は明らかである。本明細書で使用される用語の選択は、各実施例の原理、実際の適用、または市場における技術の改善を最もよく説明するか、または、当業者が、本明細書で開示される各実施例を理解することができるようにすることを意図する。
本発明は、ターゲット検出方法および装置、電子機器並びに記憶媒体に関し、前記方法は、ターゲットシーンのt番目(tは1より大きい整数である)のフレームの点群データに対してターゲット検出を実行して、前記t番目のフレームの点群データ内のターゲットの第1候補ブロックを決定することと、前記t番目のフレームの点群データ、前記第1候補ブロックおよび、前記t番目のフレームの点群データ内のターゲットに対する予測候補ブロックに従って、前記t番目のフレームの点群データの第1検出結果を決定することと、を含み、前記第1検出結果は、前記t番目のフレームの点群データ内のターゲットの第1検出ブロックを含み、ここで、前記予測候補ブロックは、前記t番目のフレームの点群データ前のt-1フレームの点群データの検出結果に従って予測して得られたものである。
Claims (17)
- ターゲット検出方法であって、
ターゲットシーンのt番目(tは1より大きい整数である)のフレームの点群データに対してターゲット検出を実行して、前記t番目のフレームの点群データ内のターゲットの第1候補ブロックを決定することと、
前記t番目のフレームの点群データ、前記第1候補ブロックおよび、前記t番目のフレームの点群データ内のターゲットに対する予測候補ブロックに従って、前記t番目のフレームの点群データの第1検出結果を決定することと、を含み、前記第1検出結果は、前記t番目のフレームの点群データ内のターゲットの第1検出ブロックを含み、
前記予測候補ブロックは、前記t番目のフレームの点群データ前のt-1フレームの点群データの検出結果に従って予測して得られたものである、前記ターゲット検出方法。 - 前記ターゲットシーンのt番目のフレームの点群データに対してターゲット検出を実行して、前記t番目のフレームの点群データ内のターゲットの第1候補ブロックを決定することは、
前記t番目のフレームの点群データ内のターゲットの予測確率マップに従って、前記t番目のフレームの点群データを、ターゲットの存在する第1領域、ターゲットの存在しない第2領域およびターゲットが存在するか否かが決定されていない第3領域に分割することと、
前記第1領域および前記第3領域に対してターゲット検出を実行して、前記t番目のフレームの点群データ内のターゲットの第1候補ブロックを決定することと、を含む、
請求項1に記載のターゲット検出方法。 - 前記ターゲット検出方法は、
前記t番目のフレームの点群データの前にあるt-1フレームの点群データの第2検出結果を取得することと、
前記t番目のフレームの点群データの前にあるt-1フレームの点群データの第2検出結果に従って、前記t番目のフレームの点群データの第1検出結果を補正して、前記t番目のフレームの点群データの第2検出結果を決定することと、をさらに含む、
請求項1または2に記載のターゲット検出方法。 - 前記ターゲット検出方法は、
前記t番目のフレームの点群データの前にあるt-1フレームの点群データの第2検出結果に従って、前記t番目のフレームの点群データ内のターゲットの動き状態を予測して、前記t番目のフレームの点群データ内のターゲットの予測候補ブロックを決定することをさらに含む、
請求項1ないし3のいずれか一項に記載のターゲット検出方法。 - 前記ターゲット検出方法は、
前記t番目のフレームの点群データ内のターゲットの予測候補ブロック、およびt-1番目のフレームの点群データに従って、前記t-1番目のフレームの点群データ内のターゲットの予測確率マップを更新して、前記t番目のフレームの点群データ内のターゲットの予測確率マップを決定することをさらに含む、
請求項2に記載のターゲット検出方法。 - 前記第1領域および前記第3領域に対してターゲット検出を実行して、前記t番目のフレームの点群データ内のターゲットの第1候補ブロックを決定することは、
前記第1領域および前記第3領域の点群データに対して特徴抽出を実行して、第1点群特徴を取得することと、
前記第1点群特徴に対してターゲット検出を実行して、前記t番目のフレームの点群データ内のターゲットの第2候補ブロックを決定することと、
各第2候補ブロックの信頼度に従って、前記第2候補ブロックからプリセット数の第1候補ブロックを決定することと、を含む、
請求項2または5に記載のターゲット検出方法。 - 前記t番目のフレームの点群データ、前記第1候補ブロックおよび、前記t番目のフレームの点群データ内のターゲットに対する予測候補ブロックに従って、前記t番目のフレームの点群データの第1検出結果を決定することは、
前記t番目のフレームの点群データ内の各ターゲットの予測候補ブロックをそれぞれ拡張して、各ターゲットの第3候補ブロックを決定することと、
前記第3候補ブロックおよび前記第1候補ブロックをそれぞれマッチングして、各第1候補ブロックに対応するターゲットを決定することと、
前記第1候補ブロックと、前記第1候補ブロックが位置する領域に対応する第1領域点群データ、および前記第3候補ブロックと、前記第3候補ブロックが位置する領域に対応する第2領域点群データに従って、前記t番目のフレームの点群データ内の各ターゲットに対して、それぞれ候補ブロック融合を実行して、前記t番目のフレームの点群データ内の各ターゲットの第1検出ブロックを取得することと、を含む、
請求項1ないし6のいずれか一項に記載のターゲット検出方法。 - 前記第3候補ブロックおよび前記第1候補ブロックをそれぞれマッチングして、各第1候補ブロックに対応するターゲットを決定することは、
各第3候補ブロックと各第1候補ブロックとのIoU(Intersection over Union)をそれぞれ決定することと、
第1候補ブロックとのIoUが、IoU閾値より大きいか等しい第3候補ブロックを、第1候補ブロックにマッチングする第3候補ブロックとして決定することと、
第1候補ブロックにマッチングする第3候補ブロックに対応するターゲットを、前記第1候補ブロックに対応するターゲットとして決定することと、を含む、
請求項7に記載のターゲット検出方法。 - 各第2検出結果は、ターゲットの第2検出ブロックを含み、
前記t番目のフレームの点群データの前にあるt-1フレームの点群データの第2検出結果に従って、前記t番目のフレームの点群データの第1検出結果を補正して、前記t番目のフレームの点群データの第2検出結果を決定することは、
第1ターゲットの検出ブロックセットを決定することであって、前記第1ターゲットは、前記t番目のフレームの点群データ内の任意の1つのターゲットであり、前記第1ターゲットの検出ブロックセットは、前記t-1フレームの点群データの第2検出結果における前記第1ターゲットの第2検出ブロック、およびt番目のフレームの点群データの第1検出結果における前記第1ターゲットの第1検出ブロックを含むことと、
前記第1ターゲットの検出ブロックセット内の任意の1つの検出ブロックに対して、前記検出ブロックセットにおける前記検出ブロックとの誤差が誤差閾値より小さいか等しい検出ブロックを、前記検出ブロックの内点ブロックとして決定することと、
前記第1ターゲットの検出ブロックセットから、内点ブロック数が最も多い第3検出ブロックを決定することと、
前記第3検出ブロックおよび前記第3検出ブロックのすべての内点ブロックを融合して、前記t番目のフレームの点群データ内の第1ターゲットの第2検出ブロックを決定することと、を含む、
請求項3に記載のターゲット検出方法。 - 前記ターゲット検出方法は、
前記t-1フレームの点群データの第2検出結果、および前記t番目のフレームの点群データの第2検出結果に従って、t+1番目のフレームの点群データ内のターゲットの動き状態を予測して、前記t+1番目のフレームの点群データ内のターゲットの予測候補ブロックを決定することをさらに含む、
請求項3または9に記載のターゲット検出方法。 - 前記ターゲット検出方法は、
前記t+1番目のフレームの点群データ内のターゲットの予測候補ブロック、およびt番目のフレームの点群データに従って、前記t番目のフレームの点群データ内のターゲットの予測確率マップを更新して、前記t+1番目のフレームの点群データ内のターゲットの予測確率マップを決定することをさらに含む、
請求項10に記載のターゲット検出方法。 - 前記ターゲットシーンのt番目のフレームの点群データに対してターゲット検出を実行して、前記t番目のフレームの点群データ内のターゲットの第1候補ブロックを決定することは、
前記t番目のフレームの点群データに対して特徴抽出を実行して、第2点群特徴を取得することと、
前記第2点群特徴に対してターゲット検出を実行して、前記t番目のフレームの点群データ内のターゲットの第4候補ブロックを決定することと、
各第4候補ブロックの信頼度に従って、前記第4候補ブロックからプリセット数の第1候補ブロックを決定することと、を含む、
請求項1に記載のターゲット検出方法。 - 前記第1検出結果は、さらに、前記t番目のフレームの点群データ内のターゲットのカテゴリを含み、
前記t番目のフレームの点群データ、前記第1候補ブロックおよび前記t番目のフレームの点群データ内のターゲットに対する予測候補ブロックに従って、前記t番目のフレームの点群データの第1検出結果を決定することは、
第2ターゲットの第1検出ブロックが位置する領域に対応する第3領域点群データに従って、前記第2ターゲットを分類して、前記第2ターゲットのカテゴリを決定することを含み、前記第2ターゲットは、前記t番目のフレームの点群データのうちの任意の1つのターゲットである、
請求項1ないし12のいずれか一項に記載のターゲット検出方法。 - 前記ターゲットシーンは屋内シーンを含み、前記t番目のフレームの点群データ内のターゲットは物体を含み、前記t番目のフレームの点群データ内のターゲットの第1検出ブロックは三次元領域ブロックを含む、
請求項1ないし13のいずれか一項に記載のターゲット検出方法。 - ターゲット検出装置であって、
ターゲットシーンのt番目(tは1より大きい整数である)のフレームの点群データに対してターゲット検出を実行して、前記t番目のフレームの点群データ内のターゲットの第1候補ブロックを決定するように構成される、第1検出モジュールと、
前記t番目のフレームの点群データ、前記第1候補ブロックおよび前記t番目のフレームの点群データ内のターゲットに対する予測候補ブロックに従って、前記t番目のフレームの点群データの第1検出結果を決定するように構成される、第2検出モジュールと、を備え、前記第1検出結果は、前記t番目のフレームの点群データ内のターゲットの第1検出ブロックを含み、
前記予測候補ブロックは、前記t番目のフレームの点群データ前のt-1フレームの点群データの検出結果に従って予測して得られたものである、前記ターゲット検出装置。 - 電子機器であって、
プロセッサと、
プロセッサ実行可能命令を記憶するように構成される、メモリと、を備え、
前記プロセッサは、前記メモリによって記憶される命令を呼び出して、請求項1ないし14のいずれか一項に記載のターゲット検出方法を実行するように構成される、前記電子機器。 - コンピュータプログラム命令を記憶する、コンピュータ可読記憶媒体であって、前記コンピュータプログラム命令がプロセッサによって実行されるときに、請求項1ないし14のいずれか一項に記載のターゲット検出方法を実現する、前記コンピュータ可読記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010738105.2A CN111881827B (zh) | 2020-07-28 | 2020-07-28 | 目标检测方法及装置、电子设备和存储介质 |
CN202010738105.2 | 2020-07-28 | ||
PCT/CN2021/078481 WO2022021872A1 (zh) | 2020-07-28 | 2021-03-01 | 目标检测方法及装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022546201A true JP2022546201A (ja) | 2022-11-04 |
Family
ID=73200364
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022505272A Pending JP2022546201A (ja) | 2020-07-28 | 2021-03-01 | ターゲット検出方法および装置、電子機器並びに記憶媒体 |
Country Status (5)
Country | Link |
---|---|
JP (1) | JP2022546201A (ja) |
KR (1) | KR20220027202A (ja) |
CN (1) | CN111881827B (ja) |
TW (1) | TWI758205B (ja) |
WO (1) | WO2022021872A1 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111881827B (zh) * | 2020-07-28 | 2022-04-26 | 浙江商汤科技开发有限公司 | 目标检测方法及装置、电子设备和存储介质 |
CN112529943B (zh) * | 2020-12-22 | 2024-01-16 | 深圳市优必选科技股份有限公司 | 一种物体检测方法、物体检测装置及智能设备 |
CN113420725B (zh) * | 2021-08-20 | 2021-12-31 | 天津所托瑞安汽车科技有限公司 | Bsd产品的漏报场景识别方法、设备、系统和存储介质 |
CN113838125A (zh) * | 2021-09-17 | 2021-12-24 | 中国第一汽车股份有限公司 | 目标位置确定方法、装置、电子设备以及存储介质 |
CN116052155A (zh) * | 2021-10-27 | 2023-05-02 | 华为技术有限公司 | 一种点云数据处理方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017083919A (ja) * | 2015-10-22 | 2017-05-18 | 株式会社東芝 | 障害物マップ生成装置、その方法、及び、そのプログラム |
JP2017215940A (ja) * | 2016-05-30 | 2017-12-07 | 株式会社東芝 | 情報処理装置、車両、情報処理方法およびプログラム |
CN110728210A (zh) * | 2019-09-25 | 2020-01-24 | 上海交通大学 | 一种三维点云数据的半监督目标标注方法和系统 |
JP2020052694A (ja) * | 2018-09-26 | 2020-04-02 | トヨタ自動車株式会社 | 物体検出装置、物体検出方法及び物体検出用コンピュータプログラム |
CN111427979A (zh) * | 2020-01-15 | 2020-07-17 | 深圳市镭神智能系统有限公司 | 基于激光雷达的动态地图构建方法、系统及介质 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109188457B (zh) * | 2018-09-07 | 2021-06-11 | 百度在线网络技术(北京)有限公司 | 物体检测框的生成方法、装置、设备、存储介质及车辆 |
CN109325967B (zh) * | 2018-09-14 | 2023-04-07 | 腾讯科技(深圳)有限公司 | 目标跟踪方法、装置、介质以及设备 |
CN109597087B (zh) * | 2018-11-15 | 2022-07-01 | 天津大学 | 一种基于点云数据的3d目标检测方法 |
CN109684920B (zh) * | 2018-11-19 | 2020-12-11 | 腾讯科技(深圳)有限公司 | 物体关键点的定位方法、图像处理方法、装置及存储介质 |
US11095900B2 (en) * | 2018-12-19 | 2021-08-17 | Sony Group Corporation | Point cloud coding structure |
CN110688905B (zh) * | 2019-08-30 | 2023-04-18 | 中山大学 | 一种基于关键帧的三维物体检测与跟踪方法 |
CN111308993B (zh) * | 2020-02-13 | 2022-04-01 | 青岛联合创智科技有限公司 | 一种基于单目视觉的人体目标跟随方法 |
CN111881827B (zh) * | 2020-07-28 | 2022-04-26 | 浙江商汤科技开发有限公司 | 目标检测方法及装置、电子设备和存储介质 |
-
2020
- 2020-07-28 CN CN202010738105.2A patent/CN111881827B/zh active Active
-
2021
- 2021-03-01 WO PCT/CN2021/078481 patent/WO2022021872A1/zh active Application Filing
- 2021-03-01 KR KR1020227003199A patent/KR20220027202A/ko unknown
- 2021-03-01 JP JP2022505272A patent/JP2022546201A/ja active Pending
- 2021-07-05 TW TW110124619A patent/TWI758205B/zh active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017083919A (ja) * | 2015-10-22 | 2017-05-18 | 株式会社東芝 | 障害物マップ生成装置、その方法、及び、そのプログラム |
JP2017215940A (ja) * | 2016-05-30 | 2017-12-07 | 株式会社東芝 | 情報処理装置、車両、情報処理方法およびプログラム |
JP2020052694A (ja) * | 2018-09-26 | 2020-04-02 | トヨタ自動車株式会社 | 物体検出装置、物体検出方法及び物体検出用コンピュータプログラム |
CN110728210A (zh) * | 2019-09-25 | 2020-01-24 | 上海交通大学 | 一种三维点云数据的半监督目标标注方法和系统 |
CN111427979A (zh) * | 2020-01-15 | 2020-07-17 | 深圳市镭神智能系统有限公司 | 基于激光雷达的动态地图构建方法、系统及介质 |
Also Published As
Publication number | Publication date |
---|---|
TWI758205B (zh) | 2022-03-11 |
CN111881827A (zh) | 2020-11-03 |
CN111881827B (zh) | 2022-04-26 |
WO2022021872A1 (zh) | 2022-02-03 |
TW202205139A (zh) | 2022-02-01 |
KR20220027202A (ko) | 2022-03-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110287874B (zh) | 目标追踪方法及装置、电子设备和存储介质 | |
JP7171884B2 (ja) | 歩行者認識方法及び装置 | |
TWI766286B (zh) | 圖像處理方法及圖像處理裝置、電子設備和電腦可讀儲存媒介 | |
JP2022546201A (ja) | ターゲット検出方法および装置、電子機器並びに記憶媒体 | |
TWI767596B (zh) | 場景深度和相機運動預測方法、電子設備和電腦可讀儲存介質 | |
CN109725329B (zh) | 一种无人车定位方法及装置 | |
JP2022542668A (ja) | 目標対象物マッチング方法及び装置、電子機器並びに記憶媒体 | |
CN111105454B (zh) | 一种获取定位信息的方法、装置及介质 | |
JP2022522551A (ja) | 画像処理方法及び装置、電子機器並びに記憶媒体 | |
CN111401230B (zh) | 姿态估计方法及装置、电子设备和存储介质 | |
CN111104920A (zh) | 视频处理方法及装置、电子设备和存储介质 | |
CN109344703B (zh) | 对象检测方法及装置、电子设备和存储介质 | |
JP7316456B2 (ja) | 点群マップ構築方法及びその装置、電子機器、記憶媒体並びにプログラム | |
CN112432637B (zh) | 定位方法及装置、电子设备和存储介质 | |
WO2022017140A1 (zh) | 目标检测方法及装置、电子设备和存储介质 | |
CN108171222B (zh) | 一种基于多流神经网络的实时视频分类方法及装置 | |
CN113052874B (zh) | 目标跟踪方法及装置、电子设备和存储介质 | |
CN114581525A (zh) | 姿态确定方法及装置、电子设备和存储介质 | |
CN111832338A (zh) | 对象检测方法及装置、电子设备和存储介质 | |
WO2022110801A1 (zh) | 数据处理方法及装置、电子设备和存储介质 | |
CN112330721B (zh) | 三维坐标的恢复方法及装置、电子设备和存储介质 | |
CN112949568A (zh) | 人脸和人体匹配的方法及装置、电子设备和存储介质 | |
JP7261889B2 (ja) | 共有地図に基づいた測位方法及び装置、電子機器並びに記憶媒体 | |
CN112967311B (zh) | 三维线图构建方法及装置、电子设备和存储介质 | |
CN113807369A (zh) | 目标重识别方法及装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220125 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220125 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230117 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20230808 |