JP2022546201A

JP2022546201A - ターゲット検出方法および装置、電子機器並びに記憶媒体

Info

Publication number: JP2022546201A
Application number: JP2022505272A
Authority: JP
Inventors: フージュンバオ; シアオウェイジョウ; ジアミンスン; イーミンシエ; スーユージャン
Original assignee: チョーチアンセンスタイムテクノロジーデベロップメントカンパニー，リミテッド
Priority date: 2020-07-28
Filing date: 2021-03-01
Publication date: 2022-11-04
Also published as: TWI758205B; CN111881827A; CN111881827B; WO2022021872A1; TW202205139A; KR20220027202A

Abstract

本発明は、ターゲット検出方法および装置、電子機器並びに記憶媒体に関し、前記方法は、ターゲットシーンのｔ番目のフレームの点群データに対してターゲット検出を実行して、前記ｔ番目のフレームの点群データ内のターゲットの第１候補ブロックを決定することであって、ｔは１より大きい整数であることと、前記ｔ番目のフレームの点群データ、前記第１候補ブロックおよび、前記ｔ番目のフレームの点群データ内のターゲットに対する予測候補ブロックに従って、前記ｔ番目のフレームの点群データの第１検出結果を決定することと、を含み、前記第１検出結果は、前記ｔ番目のフレームの点群データ内のターゲットの第１検出ブロックを含み、ここで、前記予測候補ブロックは、前記ｔ番目のフレームの点群データ前のｔ－１フレームの点群データの検出結果に従って予測して得られたものであり、このようにして、マルチフレームの点群データを介して検出ブロックを予測して、ターゲット検出の精度を向上させることができる。
【選択図】図１Ａ

Description

（関連出願の相互参照）
本願は、２０２０年７月２８日に中国特許局に提出された、出願番号が２０２０１０７３８１０５．２である、中国特許出願に基づいて提出されるものであり、当該中国特許出願の優先権を主張し、当該中国特許出願の全ての内容が参照によって本願に組み込まれる。

本発明は、コンピュータ技術分野に関し、特に、ターゲット検出方法および装置、電子機器並びに記憶媒体に関する。

ターゲット検出は、コンピュータビジョンにおける非常に重要なタスクであり、センサの入力データを介して、視野範囲内のターゲット（例えば人または物体）のポーズ、スケールなどの情報を推定することができる。関連技術において、ターゲット検出方法は、通常、各フレームの入力を別々に処理するため、検出の精度が低くなる。

本発明は、ターゲット検出のための技術的解決策を提案する。

本発明の一態様によれば、ターゲット検出方法を提供し、前記方法は、ターゲットシーンのｔ番目（ｔは１より大きい整数である）のフレームの点群データに対してターゲット検出を実行して、前記ｔ番目のフレームの点群データ内のターゲットの第１候補ブロックを決定することと、前記ｔ番目のフレームの点群データ、前記第１候補ブロックおよび前記ｔ番目のフレームの点群データ内のターゲットに対する予測候補ブロックに従って、前記ｔ番目のフレームの点群データの第１検出結果を決定することと、を含み、前記第１検出結果は、前記ｔ番目のフレームの点群データ内のターゲットの第１検出ブロックを含み、ここで、前記予測候補ブロックは、前記ｔ番目のフレームの点群データ前のｔ－１フレームの点群データの検出結果に従って予測して得られたものである。このようにして、マルチフレームの点群データを介して検出ブロックを予測して、ターゲット検出の精度を向上させることができる。

一可能な実施形態において、前記ターゲットシーンのｔ番目のフレームの点群データに対してターゲット検出を実行して、前記ｔ番目のフレームの点群データ内のターゲットの第１候補ブロックを決定することは、前記ｔ番目のフレームの点群データ内のターゲットの予測確率マップに従って、前記ｔ番目のフレームの点群データを、ターゲットの存在する第１領域、ターゲットの存在しない第２領域およびターゲットが存在するか否かが決定されていない第３領域に分割することと、前記第１領域および前記第３領域に対してターゲット検出を実行して、前記ｔ番目のフレームの点群データ内のターゲットの第１候補ブロックを決定することと、を含む。このようにして、ターゲット検出によって処理される点群データのデータ量を減らし、検出速度を向上させることができる。

一可能な実施形態において、前記方法は、前記ｔ番目のフレームの点群データの前にあるｔ－１フレームの点群データの第２検出結果を取得することと、前記ｔ番目のフレームの点群データの前にあるｔ－１フレームの点群データの第２検出結果に従って、前記ｔ番目のフレームの点群データの第１検出結果を補正して、前記ｔ番目のフレームの点群データの第２検出結果を決定することと、をさらに含む。このようにして、第１検出結果をさらに補正することにより、第１検出結果の精度をさらに向上させることができる。

一可能な実施形態において、前記方法は、前記ｔ番目のフレームの点群データの前にあるｔ－１フレームの点群データの第２検出結果に従って、前記ｔ番目のフレームの点群データ内のターゲットの動き状態を予測して、前記ｔ番目のフレームの点群データ内のターゲットの予測候補ブロックを決定することをさらに含む。このようにして、前のマルチフレームの点群データに基づいて、ｔ番目のフレームの点群データ内のターゲットの予測候補ブロックを予測して、予測の精度を向上させることができる。

一可能な実施形態において、前記方法は、前記ｔ番目のフレームの点群データ内のターゲットの予測候補ブロック、およびｔ－１番目のフレームの点群データに従って、前記ｔ－１番目のフレームの点群データ内のターゲットの予測確率マップを更新して、前記ｔ番目のフレームの点群データ内のターゲットの予測確率マップを決定することをさらに含む。このようにして、前のマルチフレームの点群データに基づいて、予測確率マップを更新して、ターゲットの出現確率を予測して、最終的に得られた予測確率マップの精度を向上させることができる。

一可能な実施形態において、前記第１領域および前記第３領域に対してターゲット検出を実行して、前記ｔ番目のフレームの点群データ内のターゲットの第１候補ブロックを決定することは、前記第１領域および前記第３領域の点群データに対して特徴抽出を実行して、第１点群特徴を取得することと、前記第１点群特徴に対してターゲット検出を実行して、前記ｔ番目のフレームの点群データ内のターゲットの第２候補ブロックを決定することと、各第２候補ブロックの信頼度に従って、前記第２候補ブロックからプリセット数の第１候補ブロックを決定することと、を含む。このようにして、サンプリングされた点群データを特徴抽出ネットワークに入力して処理して、第１点群特徴を取得して、検出速度をさらに向上させることができる。

一可能な実施形態において、前記ｔ番目のフレームの点群データ、前記第１候補ブロックおよび前記ｔ番目のフレームの点群データ内のターゲットに対する予測候補ブロックに従って、前記ｔ番目のフレームの点群データの第１検出結果を決定することは、前記ｔ番目のフレームの点群データ内の各ターゲットの予測候補ブロックをそれぞれ拡張して、各ターゲットの第３候補ブロックを決定することと、前記第３候補ブロックおよび前記第１候補ブロックをそれぞれマッチングして、各第１候補ブロックに対応するターゲットを決定することと、前記第１候補ブロックと、前記第１候補ブロックが位置する領域に対応する第１領域点群データ、および前記第３候補ブロックと前記第３候補ブロックが位置する領域に対応する第２領域点群データに従って、前記ｔ番目のフレームの点群データ内の各ターゲットに対して、候補ブロック融合をそれぞれ実行して、前記ｔ番目のフレームの点群データ内の各ターゲットの第１検出ブロックを取得することと、を含む。このようにして、第１候補ブロックにマッチングする確率を向上させて、検出結果の安定性を向上させることができる。

一可能な実施形態において、前記第３候補ブロックおよび前記第１候補ブロックをそれぞれマッチングして、各第１候補ブロックに対応するターゲットを決定することは、各第３候補ブロックと、各第１候補ブロックとのＩｏＵ（ＩｎｔｅｒｓｅｃｔｉｏｎｏｖｅｒＵｎｉｏｎ）をそれぞれ決定することと、第１候補ブロックとのＩｏＵが、ＩｏＵ閾値より大きいか等しい第３候補ブロックを、第１候補ブロックにマッチングする第３候補ブロックとして決定することと、第１候補ブロックにマッチングする第３候補ブロックに対応するターゲットを、前記第１候補ブロックに対応するターゲットとして決定することと、を含む。このようにして、ＩｏＵが比較的に大きい候補ブロックを、マッチングする候補ブロックとして決定することにより、予測候補ブロックの精度を向上させることができる。

一可能な実施形態において、各第２検出結果は、ターゲットの第２検出ブロックを含み、前記ｔ番目のフレームの点群データの前にあるｔ－１フレームの点群データの第２検出結果に従って、前記ｔ番目のフレームの点群データの第１検出結果を補正して、前記ｔ番目のフレームの点群データの第２検出結果を決定することは、第１ターゲットの検出ブロックセットを決定することであって、前記第１ターゲットは、前記ｔ番目のフレームの点群データ内の任意の１つのターゲットであり、前記第１ターゲットの検出ブロックセットは、ｔ－１フレームの点群データの第２検出結果における前記第１ターゲットの第２検出ブロック、およびｔ番目のフレームの点群データの第１検出結果における前記第１ターゲットの第１検出ブロックを含むことと、前記第１ターゲットの検出ブロックセット内の任意の１つの検出ブロックに対して、前記検出ブロックセットにおける前記検出ブロックとの誤差が誤差閾値より小さいか等しい検出ブロックを、前記検出ブロックの内点ブロックとして決定することと、前記第１ターゲットの検出ブロックセットから、内点ブロック数が最も多い第３検出ブロックを決定することと、前記第３検出ブロックおよび前記第３検出ブロックのすべての内点ブロックを融合して、前記ｔ番目のフレームの点群データ内の第１ターゲットの第２検出ブロックを決定することと、を含む。このようにして、より豊富なターゲット情報を検出することができる。

一可能な実施形態において、前記方法は、前記ｔ－１フレームの点群データの第２検出結果、および前記ｔ番目のフレームの点群データの第２検出結果に従って、ｔ＋１番目のフレームの点群データ内のターゲットの動き状態を予測して、前記ｔ＋１番目のフレームの点群データ内のターゲットの予測候補ブロックを決定することをさらに含む。このようにして、前のフレームの点群データの検出結果を介して、後のフレームの点群データ内のターゲットの動き状態を予測することができ、さらに、後のフレームの点群データ内のターゲットの検出を実現することができる。

一可能な実施形態において、前記方法は、前記ｔ＋１番目のフレームの点群データ内のターゲットの予測候補ブロック、およびｔ番目のフレームの点群データに従って、前記ｔ番目のフレームの点群データ内のターゲットの予測確率マップを更新して、前記ｔ＋１番目のフレームの点群データ内のターゲットの予測確率マップを決定することをさらに含む。このようにして、ｔ＋１番目のフレームの点群データ内のターゲットの予測確率マップを取得することにより、後続で処理するときに、ｔ＋１番目のフレームの点群データのために複数の領域を分割することを容易にし、それにより、ターゲット検出の速度を向上させることができる。

一可能な実施形態において、前記ターゲットシーンのｔ番目のフレームの点群データに対してターゲット検出を実行して、前記ｔ番目のフレームの点群データ内のターゲットの第１候補ブロックを決定することは、前記ｔ番目のフレームの点群データに対して特徴抽出を実行して、第２点群特徴を取得することと、前記第２点群特徴に対してターゲット検出を実行して、前記ｔ番目のフレームの点群データ内のターゲットの第４候補ブロックを決定することと、各第４候補ブロックの信頼度に従って、前記第４候補ブロックからプリセット数の第１候補ブロックを決定することと、を含む。このようにして、ｔ番目のフレームの点群データに対して領域分割を実行していない場合に、ｔ番目のフレームの点群データに対してターゲット検出を実行することができる。

一可能な実施形態において、前記第１検出結果は、さらに、前記ｔ番目のフレームの点群データ内のターゲットのカテゴリを含み、前記ｔ番目のフレームの点群データ、前記第１候補ブロックおよび、前記ｔ番目のフレームの点群データ内のターゲットに対する予測候補ブロックに従って、前記ｔ番目のフレームの点群データの第１検出結果を決定することは、第２ターゲットの第１検出ブロックが位置する領域に対応する第３領域点群データに従って、前記第２ターゲットを分類して、前記第２ターゲットのカテゴリを決定することを含み、前記第２ターゲットは、前記ｔ番目のフレームの点群データのうちの任意の１つのターゲットである。このようにして、ｔ番目のフレームの点群データ内の任意の１つのターゲットに対して、当該第２ターゲットの第１検出ブロックを介して、ｔ番目のフレームの点群データから第１検出ブロックが位置する領域に対応する第３領域点群データを分割することができ、それにより、比較的に高い精度でｔ番目のフレームの点群データ内の任意の１つのターゲットの検出を実現することができる。

一可能な実施形態において、前記ターゲットシーンは屋内シーンを含み、前記ｔ番目のフレームの点群データ内のターゲットは物体を含み、前記ｔ番目のフレームの点群データ内のターゲットの第１検出ブロックは三次元領域ブロックを含む。

本発明の一態様によれば、ターゲット検出装置を提供し、前記装置は、
ターゲットシーンのｔ番目（ｔは１より大きい整数である）のフレームの点群データに対してターゲット検出を実行して、前記ｔ番目のフレームの点群データ内のターゲットの第１候補ブロックを決定するように構成される、第１検出モジュールと、
前記ｔ番目のフレームの点群データ、前記第１候補ブロックおよび、前記ｔ番目のフレームの点群データ内のターゲットに対する予測候補ブロックに従って、前記ｔ番目のフレームの点群データの第１検出結果を決定するように構成される、第２検出モジュールと、を備え、前記第１検出結果は、前記ｔ番目のフレームの点群データ内のターゲットの第１検出ブロックを含み、
ここで、前記予測候補ブロックは、前記ｔ番目のフレームの点群データ前のｔ－１フレームの点群データの検出結果に従って予測して得られたものである。

一可能な実施形態において、前記第１検出モジュールは、前記ｔ番目のフレームの点群データ内のターゲットの予測確率マップに従って、前記ｔ番目のフレームの点群データを、ターゲットの存在る第１領域、ターゲットの存在しない第２領域およびターゲットが存在するか否かが決定されていない第３領域に分割するように構成される、領域分割サブモジュールと、前記第１領域および前記第３領域に対してターゲット検出を実行して、前記ｔ番目のフレームの点群データ内のターゲットの第１候補ブロックを決定するように構成される、第１検出サブモジュールと、を備える。

一可能な実施形態において、前記装置は、さらに、前記ｔ番目のフレームの点群データの前にあるｔ－１フレームの点群データの第２検出結果を取得し、前記ｔ番目のフレームの点群データの前にあるｔ－１フレームの点群データの第２検出結果に従って、前記ｔ番目のフレームの点群データの第１検出結果を補正して、前記ｔ番目のフレームの点群データの第２検出結果を決定するように構成される、補正モジュールを備える。

一可能な実施形態において、前記装置は、さらに、前記ｔ番目のフレームの点群データの前にあるｔ－１フレームの点群データの第２検出結果に従って、前記ｔ番目のフレームの点群データ内のターゲットの動き状態を予測して、前記ｔ番目のフレームの点群データ内のターゲットの予測候補ブロックを決定するように構成される、第１動き予測モジュールを備える。

一可能な実施形態において、前記装置は、さらに、前記ｔ番目のフレームの点群データ内のターゲットの予測候補ブロック、およびｔ－１番目のフレームの点群データに従って、前記ｔ－１番目のフレームの点群データ内のターゲットの予測確率マップを更新して、前記ｔ番目のフレームの点群データ内のターゲットの予測確率マップを決定するように構成される、第１確率マップ更新モジュールを備える。

一可能な実施形態において、前記第１検出サブモジュールは、前記第１領域および前記第３領域の点群データに対して特徴抽出を実行して、第１点群特徴を取得し、前記第１点群特徴に対してターゲット検出を実行して、前記ｔ番目のフレームの点群データ内のターゲットの第２候補ブロックを決定し、各第２候補ブロックの信頼度に従って、前記第２候補ブロックからプリセット数の第１候補ブロックを決定するように構成される。

一可能な実施形態において、前記第２検出モジュールは、前記ｔ番目のフレームの点群データ内の各ターゲットの予測候補ブロックをそれぞれ拡張して、各ターゲットの第３候補ブロックを決定するように構成される、候補ブロック拡張サブモジュールと、前記第３候補ブロックおよび前記第１候補ブロックをそれぞれマッチングして、各第１候補ブロックに対応するターゲットを決定するように構成される、候補ブロックマッチングサブモジュールと、前記第１候補ブロックと、前記第１候補ブロックが位置する領域に対応する第１領域点群データ、および前記第３候補ブロックと、前記第３候補ブロックが位置する領域に対応する第２領域点群データに従って、前記ｔ番目のフレームの点群データ内の各ターゲットに対して、候補ブロック融合をそれぞれ実行して、前記ｔ番目のフレームの点群データ内の各ターゲットの第１検出ブロックを取得するように構成される、候補ブロック融合サブモジュールと、を備える。

一可能な実施形態において、前記候補ブロックマッチングサブモジュールは、各第３候補ブロックと各第１候補ブロックとのＩｏＵをそれぞれ決定し、第１候補ブロックとのＩｏＵが、ＩｏＵ閾値より大きいか等しい第３候補ブロックを、第１候補ブロックにマッチングする第３候補ブロックとして決定し、第１候補ブロックにマッチングする第３候補ブロックに対応するターゲットを、前記第１候補ブロックに対応するターゲットとして決定するように構成される。

一可能な実施形態において、各第２検出結果は、ターゲットの第２検出ブロックを含み、前記補正モジュールは、第１ターゲットの検出ブロックセットを決定するように構成される、セット決定サブモジュールであって、前記第１ターゲットは、前記ｔ番目のフレームの点群データ内の任意の１つのターゲットであり、前記第１ターゲットの検出ブロックセットは、ｔ－１フレームの点群データの第２検出結果における前記第１ターゲットの第２検出ブロック、およびｔ番目のフレームの点群データの第１検出結果における前記第１ターゲットの第１検出ブロックを含む、セット決定サブモジュールと、前記第１ターゲットの検出ブロックセット内の任意の１つの検出ブロックに対して、前記検出ブロックセットにおける前記検出ブロックとの誤差が誤差閾値より小さいか等しい検出ブロックを、前記検出ブロックの内点ブロックとして決定するように構成される、内点ブロック決定サブモジュールと、前記第１ターゲットの検出ブロックセットから、内点ブロック数が最も多い第３検出ブロックを決定するように構成される、検出ブロック選択サブモジュールと、前記第３検出ブロックおよび前記第３検出ブロックのすべての内点ブロックを融合して、前記ｔ番目のフレームの点群データ内の第１ターゲットの第２検出ブロックを決定するように構成される、内点ブロック融合サブモジュールと、を備える。

一可能な実施形態において、前記装置は、さらに、前記ｔ－１フレームの点群データの第２検出結果、および前記ｔ番目のフレームの点群データの第２検出結果に従って、ｔ＋１番目のフレームの点群データ内のターゲットの動き状態を予測して、前記ｔ＋１番目のフレームの点群データ内のターゲットの予測候補ブロックを決定するように構成される、第２動き予測モジュールを備える。

一可能な実施形態において、前記装置は、さらに、前記ｔ＋１番目のフレームの点群データ内のターゲットの予測候補ブロック、およびｔ番目のフレームの点群データに従って、前記ｔ番目のフレームの点群データ内のターゲットの予測確率マップを更新して、前記ｔ＋１番目のフレームの点群データ内のターゲットの予測確率マップを決定するように構成される、第２確率マップ更新モジュールを備える。

一可能な実施形態において、前記第１検出モジュールは、前記ｔ番目のフレームの点群データに対して特徴抽出を実行して、第２点群特徴を取得するように構成される、特徴抽出サブモジュールと、前記第２点群特徴に対してターゲット検出を実行して、前記ｔ番目のフレームの点群データ内のターゲットの第４候補ブロックを決定するように構成される、第２検出サブモジュールと、各第４候補ブロックの信頼度に従って、前記第４候補ブロックからプリセット数の第１候補ブロックを決定するように構成される、選択サブモジュールと、を備える。

一可能な実施形態において、前記第１検出結果は、さらに、前記ｔ番目のフレームの点群データ内のターゲットのカテゴリを含み、前記第２検出モジュールは、第２ターゲットの第１検出ブロックが位置する領域に対応する第３領域点群データに従って、前記第２ターゲットを分類して、前記第２ターゲットのカテゴリを決定するように構成される、分類サブモジュールを備え、前記第２ターゲットは、前記ｔ番目のフレームの点群データのうちの任意の１つのターゲットである。

本発明の一態様によれば、電子機器を提供し、前記電子機器は、プロセッサと、プロセッサ実行可能命令を記憶するように構成される、メモリと、を備え、ここで、前記プロセッサは、前記メモリによって記憶された命令を呼び出して、上記の方法を実行するように構成される。

本発明の一態様によれば、コンピュータプログラム命令を記憶する、コンピュータ可読記憶媒体を提供し、前記コンピュータプログラム命令がプロセッサによって実行されるとき、上記の方法を実現する。

本発明の実施例によれば、ｔ番目のフレームの点群データ内のターゲットの第１候補ブロックを検出し、履歴検出結果によって予測された予測候補ブロックを介して、第１候補ブロックを補正して、ｔ番目のフレームの点群データの検出結果を取得し、それにより、ターゲット検出の精度を向上させることができる。

上記した一般的な説明及び後述する詳細な説明は、単なる例示及び説明に過ぎず、本発明を限定するものではないことを理解されたい。以下、図面を参照した例示的な実施例に対する詳細な説明によれば、本開示の他の特徴および態様は明らかになる。

ここでの図面は、本明細書に組み込まれてその一部を構成し、これらの図面は、本発明と一致する実施例を示すものであり、明細書とともに本発明の実施例の技術的解決策を説明するために使用される。
本発明の実施例に係るターゲット検出方法のフローチャートを示す。本発明の実施例のターゲット検出方法のネットワークアーキテクチャの概略図を示す。本発明の実施例に係るターゲット検出方法の処理プロセスの概略図を示す。ターゲットシーンの画像の概略図を示す。ターゲットの検出結果の概略図を示す。本発明の一実施例に係るターゲット検出装置のブロック図を示す。本発明の実施例に係る電子機器のブロック図を示す。本発明の実施例に係る電子機器のブロック図を示す。

以下は、本発明の様々な例示的な実施例、特徴及び態様を図面を参照して詳細に説明する。図面内の同じ参照番号は、同じまたは類似の機能の要素を表示する。実施例の様々な態様を図面に示したが、特に明記しない限り、縮尺通りに図面を描く必要がない。

ここで専用の用語「例示的」とは、「例、実施例または説明用として使用される」ことを意味する。ここで、「例示的」として説明される任意の実施例は、他の実施例より優れるまたはより好ましいと解釈する必要はない。

本明細書における「及び／または」という用語は、関連付けられた対象を説明する単なる関連付けであり、３種類の関係が存在し得ることを表示し、例えば、Ａ及び／またはＢは、Ａが独立で存在する場合、ＡとＢが同時に存在する場合、Ｂが独立で存在する場合などの３つの場合を表示する。さらに、本明細書における「少なくとも１つ」という用語は、複数のうちの１つまたは複数のうちの少なくとも２つの任意の組み合わせを示し、例えば、Ａ、Ｂ、Ｃのうちの少なくとも１つを含むことは、Ａ、Ｂ及びＣで構成されるセットから選択された任意の１つまたは複数の要素を含むことを示す。

さらに、本発明の実施例をよりよく説明するために、以下の具体的な実施形態において多くの特定の詳細が与えられる。当業者は、特定のいくつかの詳細なしに、本発明を同様に実施することができることを理解するはずである。いくつかの例において、当業者に周知の方法、手段、要素及び回路は、本開示の要旨を強調するために、詳細に説明しない。

図１Ａは、本発明の実施例に係るターゲット検出方法のフローチャートを示し、図１Ａに示されたように、前記ターゲット検出方法は、以下のステップを含む。

ステップＳ１１において、ターゲットシーンのｔ番目のフレームの点群データに対してターゲット検出を実行して、前記ｔ番目のフレームの点群データ内のターゲットの第１候補ブロックを決定する。

本発明の実施例において、ｔは、１より大きい整数である。

ステップＳ１２において、前記ｔ番目のフレームの点群データ、前記第１候補ブロックおよび前記ｔ番目のフレームの点群データ内のターゲットに対する予測候補ブロックに従って、前記ｔ番目のフレームの点群データの第１検出結果を決定し、前記第１検出結果は、前記ｔ番目のフレームの点群データ内のターゲットの第１検出ブロックを含む。

ここで、前記予測候補ブロックは、前記ｔ番目のフレームの点群データ前のｔ－１フレームの点群データの検出結果に従って予測して得られたものである。

一可能な実施形態において、前記ターゲット検出方法は、端末機器またはサーバなどの電子機器によって実行されることができ、端末機器は、ユーザ機器（ＵＥ：ＵｓｅｒＥｑｕｉｐｍｅｎｔ）、モバイル機器、ユーザ端末、端末、携帯電話、コードレス電話、パーソナルデジタル処理（ＰＤＡ：ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、ハンドヘルド機器、コンピューティング機器、車載機器、ウェアラブル機器などであり得、前記方法は、プロセッサがメモリに記憶されたコンピュータ可読命令を呼び出す方式を介して実現することができる。または、サーバによって前記方法を実行することができる。

例を挙げると、ターゲットシーンは、ショッピングモール、病院、展示ホールなどの屋内シーンを含んでもよいし、交通機関のハブ、都市の街路などの室外シーンを含んでもよい。ターゲットシーンには、物体、標識、建物、歩行者、車両などの様々なカテゴリのターゲットが含まれる可能性がある。本発明は、ターゲットシーンのタイプおよびターゲットのカテゴリに対して限定しない。

一可能な実施形態において、ターゲットシーン内のターゲットを検出するとき、検知データ内のターゲットを分析するために、検知機器を介して、ターゲットシーンの検知データを収集することができる。三次元ターゲット検出を実行する場合、検知機器は、例えば、レーザーレーダー、赤・緑・青の深度（ＲＧＢ－Ｄ：ＲｅｄＧｒｅｅｎＢｌｕｅ－Ｄｅｐｔｈ）収集機器などを含み得、収集された検知データは、点群データ、ＲＧＢ－Ｄ画像データなどを含み得る。本発明は、検知機器のタイプおよび収集された検知データの具体的なタイプに対して限定しない。

一可能な実施形態において、ターゲットシーンのマルチフレームの検知データを継続的に収集し、電子機器を介して、各フレームの検知データに対して順次にターゲット検出を実行することができる。ここで、検知データが点群データである場合、直接に処理することができ、検知データがＲＧＢ－Ｄ画像データである場合、ＲＧＢ－Ｄ画像データに対して逆投影変換を実行して、点群データを取得した後に処理することができる。

一可能な実施形態において、マルチフレームの点群データのうちの第１フレームについて、ステップＳ１１で第１フレームの点群データに対して直接にターゲット検出を実行して、第１フレームの点群データ内のターゲットの第１候補ブロックを取得し、ステップＳ１２で第１候補ブロックを直接に融合して、第１フレームの点群データのターゲットの第１検出ブロックを取得することができる。

一可能な実施形態において、マルチフレームの点群データのうちのｔ番目のフレーム（ｔは１より大きい整数である）について、ステップＳ１１でｔ番目のフレームの点群データに対してターゲット検出を実行して、ｔ番目のフレームの点群データ内のターゲットの第１候補ブロックを決定することができる。第１候補ブロックの情報は、第１候補ブロックの中心点の三次元座標（ｘ_０，ｙ_０，ｚ_０）、長さ、幅、高さおよび回転角度などの情報を含み得る。

一可能な実施形態において、事前にトレーニングされたターゲット検出ネットワークを介して、ターゲット検出のプロセスを実現することができ、当該ターゲット検出ネットワークは、例えば、畳み込みニューラルネットワーク（ＣＮＮ：ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ）および領域生成ネットワーク（ＲＰＮ：ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）を含み得、本発明は、ターゲット検出ネットワークの具体的なネットワーク構造に対して限定しない。

一可能な実施形態において、ステップＳ１１およびＳ１２の前に、ｔ－１番目のフレームの点群データの検出結果を取得した後、ｔ番目のフレームの点群データの前のｔ－１フレームの点群データの検出結果に従って、前のｔ－１フレームの点群データ内の検出されたターゲットにおいて、ｔ番目のフレームの点群データにおける位置を予測して、ｔ番目のフレームの点群データにおけるこれらのターゲットの予測候補ブロックを取得することができる。

一可能な実施形態において、ステップＳ１２において、ｔ番目のフレームの点群データの第１候補ブロックおよび予測候補ブロックに従って、各第１候補ブロックに対応するターゲットを決定することができる。例えば、各第１候補ブロックと各予測候補ブロックとのＩｏＵに従って、第１候補ブロックおよび予測候補ブロックをマッチングし、マッチングされた予測候補ブロックがある第１候補ブロックについて、相互にマッチングされる予測候補ブロックに対応するターゲットを、当該第１候補ブロックに対応するターゲットとして決定し、マッチングされる予測候補ブロックがない第１候補ブロックについて、当該第１候補ブロックに対応する新しいターゲットを決定する。

一可能な実施形態において、任意のターゲットについて、当該ターゲットの第１候補ブロックおよび第１候補ブロックに対応する領域点群データと、当該ターゲットの予測候補ブロックおよび予測候補ブロックに対応する領域点群データに従って、候補ブロック融合処理を実行して、ターゲットの実際の検出ブロック（第１検出ブロックと称し得る）を決定することができる。

一可能な実施形態において、事前にトレーニングされた融合ネットワークを介して候補ブロック融合を実現することができ、即ち、ターゲットの第１候補ブロックおよび第１候補ブロックに対応する領域点群データと、当該ターゲットの予測候補ブロックおよび予測候補ブロックに対応する領域点群データを、融合ネットワークに入力して処理して、ターゲットの第１検出ブロックを出力する。当該融合ネットワークは、例えば、領域畳み込みニューラルネットワーク（ＲＣＮＮ：ＲｅｇｉｏｎＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ）を含み得、本発明は、融合ネットワークの具体的なネットワーク構造に対して限定しない。

一可能な実施形態において、ｔ番目のフレームの点群データ内のすべてのターゲットを処理した後、ｔ番目のフレームの点群データの第１検出結果を取得することができ、当該第１検出結果は、ｔ番目のフレームの点群データ内の各ターゲットの第１検出ブロックを含む。

一可能な実施形態において、ステップＳ１１は、
前記ｔ番目のフレームの点群データ内のターゲットの予測確率マップに従って、前記ｔ番目のフレームの点群データを、ターゲットの存在する第１領域、ターゲットの存在しない第２領域およびターゲットが存在するか否かが決定されていない第３領域に分割することと、
前記ｔ番目のフレームの点群データの第１領域および第３領域に対してターゲット検出を実行して、前記ｔ番目のフレームの点群データ内のターゲットの第１候補ブロックを決定することと、を含み得る。

例を挙げると、ｔ－１番目のフレームの点群データの検出結果を取得した後、前のｔ－１フレームの点群データの検出結果に従って、ｔ番目のフレームの点群データ内のターゲットに対する予測候補ブロックを予測することができる。当該予測候補ブロックに従って、ｔ番目のフレームの点群データの各位置でのターゲットの出現確率を予測して、ｔ番目のフレームの点群データ内のターゲットの予測確率マップを取得することができる。

一可能な実施形態において、第１確率閾値および第２確率閾値を事前に設定することができ、第２確率閾値は第１確率閾値より小さい。点群データ内の任意の位置について、当該位置でのターゲットの出現確率が第１確率閾値より大きい場合、当該位置にターゲットが存在すると見なすことができ、当該位置でのターゲットの出現確率が第２確率閾値より小さい場合、当該位置にターゲットが存在しないと見なすことができ、当該位置でのターゲットの出現確率が、第１確率閾値と第２確率閾値との間にある場合、検出していない位置、または、検出したがターゲットが存在するか否かを決定できない位置など、当該位置にターゲットが存在するか否かが決定されていない。本発明は、第１確率閾値および第２確率閾値の具体的な値に対して限定しない。

一可能な実施形態において、ｔ番目のフレームの点群データ内のターゲットの予測確率マップに従って、第１確率閾値および第２確率閾値に基づいて、ｔ番目のフレームの点群データを、ターゲットの存在する第１領域、ターゲットの存在しない第２領域およびターゲットが存在するか否かが決定されていない第３領域に分割することができる。

分割された後、第２領域にはターゲットが存在しないと、第２領域の点群データに対してターゲット検出を実行しなくてもよい。即ち、前記ｔ番目のフレームの点群データの第１領域および第３領域に対してターゲット検出を実行して、ｔ番目のフレームの点群データ内のターゲットの第１候補ブロックを決定する。

このような方式を介して、ターゲット検出によって処理される点群データのデータ量を減らし、検出速度を向上させることができる。

一可能な実施形態において、前記ｔ番目のフレームの点群データの第１領域および第３領域に対してターゲット検出を実行して、ｔ番目のフレームの点群データ内のターゲットの第１候補ブロックを決定するステップは、
前記第１領域および前記第３領域の点群データに対して特徴抽出を実行して、第１点群特徴を取得することと、
前記第１点群特徴に対してターゲット検出を実行して、前記ｔ番目のフレームの点群データ内のターゲットの第２候補ブロックを決定することと、
各第２候補ブロックの信頼度に従って、前記第２候補ブロックからプリセット数の第１候補ブロックを決定することと、を含み得る。

例を挙げると、第１領域および第３領域の点群データをターゲット検出ネットワークの特徴抽出ネットワークに入力して特徴抽出を実行して、点群データの第１点群特徴を取得することができる。当該特徴抽出ネットワークは、例えば、複数の畳み込み層を含み、本発明は、特徴抽出ネットワークの構造に対して限定しない。

一可能な実施形態において、特徴抽出の前に、第１領域および第３領域の点群データをサンプリングして、処理されるデータ量を減らすことができる。例えば、ランダムサンプリングを介して、Ｎ個の点を有する点群データを、Ｎ／４個の点を有する点群データにサンプリングする。サンプリングされた点群データを特徴抽出ネットワークに入力して処理して、第１点群特徴を取得する。このような方式を介して、検出速度をさらに向上させることができる。

一可能な実施形態において、第１点群特徴をターゲット検出ネットワークの領域生成ネットワーク（ＲＰＮ）に入力して処理して、ｔ番目のフレームの点群データ内のターゲットの第２候補ブロックを取得することができる。

一可能な実施形態において、第２候補ブロックの数が大きければ、さらに処理することができる。各第２候補ブロックの信頼度に従って、例えば、非最大抑制（ＮＭＳ：Ｎｏｎ－ｍａｘｉｍｕｍｓｕｐｐｒｅｓｓｉｏｎ）方式を介して、第２候補ブロックからプリセット数の第１候補ブロックを決定することができる。当該プリセット数は、例えば、５０個に取ることができ、本発明は、これに対して限定しない。

このような方式を介して、点群データから、ターゲットに対応する候補ブロックを初歩的に推定して、後続の処理を実行することができる。

一可能な実施形態において、ステップＳ１１は、
前記ｔ番目のフレームの点群データに対して特徴抽出を実行して、第２点群特徴を取得することと、
前記第２点群特徴に対してターゲット検出を実行して、前記ｔ番目のフレームの点群データ内のターゲットの第４候補ブロックを決定することと、
各第４候補ブロックの信頼度に従って、前記第４候補ブロックからプリセット数の第１候補ブロックを決定することと、を含み得る。

例を挙げると、ｔ番目のフレームの点群データに対して領域を分割していない場合に、ｔ番目のフレームの点群データに対して直接にターゲット検出を実行することができる。ｔ番目のフレームの点群データをターゲット検出ネットワークの特徴抽出ネットワークに入力して特徴抽出を実行して、ｔ番目のフレームの点群データの第２点群特徴を取得することができる。当該特徴抽出ネットワークは、例えば、複数の畳み込み層を含み、本発明は、特徴抽出ネットワークの構造に対して限定しない。

一可能な実施形態において、特徴抽出の前に、ｔ番目のフレームの点群データをサンプリングして、処理されるデータ量を減らすことができる。例えば、ランダムサンプリングを介して、Ｍ個の点を有する点群データをＭ／４個の点を有する点群データにサンプリングする。サンプリングされた点群データを特徴抽出ネットワークに入力して処理して、第２点群特徴を取得する。このような方式を介して、検出速度をさらに向上させることができる。

一可能な実施形態において、第２点群特徴をターゲット検出ネットワークの領域生成ネットワーク（ＲＰＮ）に入力して処理して、ｔ番目のフレームの点群データ内のターゲットの第４候補ブロックを取得することができる。

一可能な実施形態において、第４候補ブロックの数が大きければ、さらに処理することができる。各第４候補ブロックの信頼度に従って、例えば、非最大抑制（ＮＭＳ：Ｎｏｎ－ｍａｘｉｍｕｍｓｕｐｐｒｅｓｓｉｏｎ）方式を介して、第４候補ブロックからプリセット数の第１候補ブロックを決定することができる。当該プリセット数は、例えば、５０個に取ることができ、本発明は、これに対して限定しない。

一可能な実施形態において、ステップＳ１２は、
前記ｔ番目のフレームの点群データ内の各ターゲットの予測候補ブロックをそれぞれ拡張して、各ターゲットの第３候補ブロックを決定することと、
前記第３候補ブロックおよび前記第１候補ブロックをそれぞれマッチングして、各第１候補ブロックに対応するターゲットを決定することと、
前記第１候補ブロックと、前記第１候補ブロックが位置する領域に対応する第１領域点群データ、および前記第３候補ブロックと、前記第３候補ブロックが位置する領域に対応する第２領域点群データに従って、前記ｔ番目のフレームの点群データ内の各ターゲットに対して、候補ブロック融合をそれぞれ実行して、前記ｔ番目のフレームの点群データ内の各ターゲットの第１検出ブロックを取得することと、を含み得る。

例を挙げると、ｔ番目のフレームの点群データを予測するとき、ｔ番目のフレームの点群データの第１領域内のターゲットに、１つの予測候補ブロックを予測し、即ち、第１領域内の各ターゲットを１つの予測候補ブロックに対応させる。ステップＳ１２の処理では、まず、各ターゲットの予測候補ブロックをそれぞれ拡張して、候補ブロックの数を増加させることができる。

一可能な実施形態において、ｔ番目のフレームの点群データにおけるターゲットの予測候補ブロックに従って、ターゲットのポーズおよびスケールを決定することができ、ターゲットのポーズおよびスケールの確率分布に従って、特定の分散および平均値でサンプリングし、拡張して当該ターゲットの複数の第３候補ブロックを取得することができる。このようにして、予測候補ブロックの誤差による後続処理への影響を減らし、第１候補ブロックにマッチングする確率を向上させて、検出結果の安定性を向上させ、検出精度を向上させることができ。

一可能な実施形態において、第３候補ブロックおよび第１候補ブロックをそれぞれマッチングして、各第１候補ブロックに対応するターゲットを決定することができる。ここで、当該ステップは、
各第３候補ブロックと、各第１候補ブロックとのＩｏＵをそれぞれ決定することと、
第１候補ブロックとのＩｏＵが、ＩｏＵ閾値より大きいか等しい第３候補ブロックを、第１候補ブロックにマッチングする第３候補ブロックとして決定することと、
第１候補ブロックにマッチングする第３候補ブロックに対応するターゲットを、前記第１候補ブロックに対応するターゲットとして決定することと、を含み得る。

つまり、ＩｏＵを介して第３候補ブロックおよび第１候補ブロックをマッチングすることができる。各第３候補ブロックと、各第１候補ブロックとのＩｏＵ（Ｉｎｔｅｒｓｅｃｔｉｏｎ－ｏｖｅｒ－Ｕｎｉｏｎ）をそれぞれ決定することができる。ＩｏＵ閾値（例えば０．５）をプリセットすることができ、任意の１つの第１候補ブロックについて、当該第１候補ブロックとのＩｏＵがＩｏＵ閾値より大きいか等しい第３候補ブロックが存在する場合、当該第３候補ブロックを当該第１候補ブロックにマッチングする候補ブロックとして決定し、当該第３候補ブロックに対応するターゲットを、当該第１候補ブロックに対応するターゲットとして決定することができる。当該第３候補ブロックに対応するターゲットの識別子（ＩＤ：ＩｄｅｎｔｉｔｙＤｏｃｕｍｅｎｔ）を、当該第１候補ブロックに割り当て、即ち、マッチングする２つの候補ブロックが同じターゲットに対応すると見なす。

一可能な実施形態において、任意の１つの第１候補ブロックについて、当該第１候補ブロックとのＩｏＵがＩｏＵ閾値より大きいか等しい第３候補ブロックが存在しない場合、第１候補ブロックに対応するターゲットが、これまでに出現されたことのない新しいターゲットであると見なすことができる。この場合、第１候補ブロックに対応するターゲットに新しいＩＤを与えることができる。

このような方式を介して、同じ識別子のターゲットの候補ブロックを融合するために、各第１候補ブロックに対応するターゲットの識別子を決定することができる。

一可能な実施形態において、前記第１候補ブロックと、前記第１候補ブロックが位置する領域に対応する第１領域点群データ、および前記第３候補ブロックと、前記第３候補ブロックが位置する領域に対応する第２領域点群データに従って、前記ｔ番目のフレームの点群データ内の各ターゲットに対して、候補ブロック融合をそれぞれ実行して、前記ｔ番目のフレームの点群データ内の各ターゲットの第１検出ブロックを取得する。

一可能な実施形態において、ｔ番目のフレームの点群データ内の任意の１つのターゲットについて、当該ターゲットに第１候補ブロックおよび第３候補ブロックが存在する場合、ｔ番目のフレームの点群データから、当該ターゲットの第１候補ブロックが位置する領域に対応する第１領域点群データを分割し、当該ターゲットの第３候補ブロックが位置する領域に対応する第２領域点群データを分割することができる。当該ターゲットの第１候補ブロックおよび第１領域点群データ、第３候補ブロックおよび第２領域点群データを、事前にトレーニングされた融合ネットワークに入力して処理して、当該ターゲットの第１検出ブロックを出力する。当該第１検出ブロックは、三次元の領域ブロックを含む。

一可能な実施形態において、ｔ番目のフレームの点群データ内の任意の１つのターゲットについて、当該ターゲットに第１候補ブロックのみが存在する場合、ｔ番目のフレームの点群データから、当該ターゲットの第１候補ブロックが位置する領域に対応する第１領域点群データを分割することができる。当該ターゲットの第１候補ブロックおよび第１領域点群データを、事前にトレーニングされた融合ネットワークに入力して処理して、当該ターゲットの第１検出ブロックを出力する。

一可能な実施形態において、ｔ番目のフレームの点群データ内のすべてのターゲットに対して上記の処理を実行して、ｔ番目のフレームの点群データ内のすべてのターゲットの第１検出ブロックを取得することができる。

一可能な実施形態において、ｔ番目のフレームの点群データ内のすべてのターゲットの第１検出ブロックを、ｔ番目のフレームの点群データの検出結果（第１検出結果と称し得る）として使用することができ、他の処理を実行して（例えば、ターゲットを分類する）、ｔ番目のフレームの点群データの検出結果により多くのコンテンツが含まれるようにすることもできる。本発明は、これに対して限定しない。

このような方式を介して、ｔ番目のフレームの点群データ内のすべてのターゲットの第１検出ブロックを決定して、ｔ番目のフレームの点群データ内のターゲットを正確に検出することができる。

一可能な実施形態において、前記第１検出結果は、さらに、前記ｔ番目のフレームの点群データ内のターゲットのカテゴリを含み、ステップＳ１２は、
第２ターゲットの第１検出ブロックが位置する領域に対応する第３領域点群データに従って、前記第２ターゲットを分類して、前記第２ターゲットのカテゴリを決定することを含み、前記第２ターゲットは、前記ｔ番目のフレームの点群データのうちの任意の１つのターゲットである。

例を挙げると、ステップＳ１２で、ｔ番目のフレームの点群データ内のターゲットを分類することができる。ｔ番目のフレームの点群データ内の任意の１つのターゲット（第２ターゲットと称し得る）について、当該第２ターゲットの第１検出ブロックに従って、ｔ番目のフレームの点群データから、第１検出ブロックが位置する領域に対応する第３領域点群データを分割することができる。

一可能な実施形態において、当該第３領域点群データを事前にトレーニングされた分類ネットワークに入力して処理して、第２ターゲットが属するカテゴリを決定することができる。当該分類ネットワークは、例えば、畳み込み層、全結合層などを含み得、本発明は、分類ネットワークの具体的なネットワーク構造に対して限定しない。

一可能な実施形態において、ｔ番目のフレームの点群データ内のすべてのターゲットに対して上記の処理を実行して、ｔ番目のフレームの点群データ内のすべてのターゲットのカテゴリを取得することにより、ターゲットのカテゴリをｔ番目のフレームの点群データの第１検出結果に追加することができる。

このような方式を介して、検出されることができるターゲット情報はより豊富である。

ステップＳ１２でｔ番目のフレームの点群データの第１検出結果を取得した後、さらに、当該第１検出結果を、前の履歴検出結果と組み合わせて、ｔ番目のフレームの点群データの検出結果をさらに最適化することができる。

一可能な実施形態において、本発明の実施例に係るターゲット検出方法は、
まず、前記ｔ番目のフレームの点群データの前にあるｔ－１フレームの点群データの第２検出結果を取得し、その後、前記ｔ番目のフレームの点群データの前にあるｔ－１フレームの点群データの第２検出結果に従って、前記ｔ番目のフレームの点群データの第１検出結果を補正して、前記ｔ番目のフレームの点群データの第２検出結果を決定することをさらに含み得る。

つまり、前のｔ－１フレームの点群データは、前の処理で最終的な検出結果（第２検出結果と称し得る）を取得しており、各第２検出結果は、ターゲットの第２検出ブロックを含み、ｔ番目のフレームの点群データ内のターゲットは、ｔ－１フレームの点群データの第２検出結果で対応する第２検出ブロックが存在する可能性がある。

一可能な実施形態において、ｔ番目のフレームの点群データ内の任意の１つのターゲットについて、前のｔ－１フレームの点群データの第２検出結果に、当該ターゲットの第２検出ブロックが存在する場合、前のｔ－１フレームの点群データにおける当該ターゲットの第２検出ブロックに従って、ｔ番目のフレームの点群データにおける当該ターゲットの第１検出ブロックを補正して、補正された検出ブロックを取得することができ、第２検出ブロックと称する。

一可能な実施形態において、前のｔ－１フレームの点群データの第２検出結果に、当該ターゲットの第２検出ブロックが存在しない場合、ｔ番目のフレームの点群データにおける当該ターゲットの第１検出ブロックを、第２検出ブロックとして直接に使用することができる。

一可能な実施形態において、ｔ番目のフレームの点群データ内のすべてのターゲットに対して上記の処理を実行して、ｔ番目のフレームの点群データ内のすべてのターゲットの第２検出ブロックを取得し、それにより、ｔ番目のフレームの点群データの第２検出結果を取得することができる。

このような方式を介して、ターゲット検出の精度をさらに向上させることができる。

一可能な実施形態において、前記ｔ番目のフレームの点群データの前にあるｔ－１フレームの点群データの第２検出結果に従って、前記ｔ番目のフレームの点群データの第１検出結果を補正して、前記ｔ番目のフレームの点群データの第２検出結果を決定するステップは、
第１ターゲットの検出ブロックセットを決定することであって、前記第１ターゲットは、前記ｔ番目のフレームの点群データ内の任意の１つのターゲットであり、前記第１ターゲットの検出ブロックセットは、ｔ－１フレームの点群データの第２検出結果における前記第１ターゲットの第２検出ブロック、およびｔ番目のフレームの点群データの第１検出結果における前記第１ターゲットの第１検出ブロックを含むことと、
前記第１ターゲットの検出ブロックセット内の任意の１つの検出ブロックに対して、前記検出ブロックセットにおける前記検出ブロックとの誤差が誤差閾値より小さいか等しい検出ブロックを、前記検出ブロックの内点ブロックとして決定することと、
前記第１ターゲットの検出ブロックセットから、内点ブロック数が最も多い第３検出ブロックを決定することと、
前記第３検出ブロックおよび前記第３検出ブロックのすべての内点ブロックを融合して、前記ｔ番目のフレームの点群データ内の第１ターゲットの第２検出ブロックを決定することと、を含み得る。

例を挙げると、ｔ番目のフレームの点群データ内の任意の１つのターゲット（第１ターゲットと称する）について、当該第１ターゲットの検出ブロックセットを取得することができる。当該検出ブロックセットは、ｔ－１フレームの点群データの第２検出結果における第１ターゲットの第２検出ブロック、およびｔ番目のフレームの点群データの第１検出結果における第１ターゲットの第１検出ブロックを含む。

一可能な実施形態において、第１ターゲットの検出ブロックセット内の任意の１つの検出ブロックについて、検出ブロックセットのうちの他の検出ブロックと、当該検出ブロックとの誤差を決定することができる。誤差閾値をプリセットすることができ、当該検出ブロックとの誤差が当該誤差閾値より小さいか等しい検出ブロックを、当該検出ブロックの内点ブロックとして決定することができ、逆に、当該検出ブロックとの誤差が当該誤差閾値より大きい検出ブロックを、当該検出ブロックの外側ブロックとして決定することができる。本発明は、誤差閾値の具体的な値に対して限定しない。

一可能な実施形態において、第１ターゲットの検出ブロックセットから内点ブロック数が最も多い第３検出ブロックを決定し、当該第３検出ブロックを初期推定された検出ブロックとして使用することができる。第３検出ブロックおよび第３検出ブロックのすべての内点ブロックに対して融合最適化を実行して、第１ターゲットの位置情報の最適な推定、即ち、補正された第２検出ブロックを取得することができる。

一可能な実施形態において、最小二乗の方式を介して、第３検出ブロックおよび第３検出ブロックのすべての内点ブロックに対して融合最適化を実行することができ、カルマンフィルタリング（Ｋａｌｍａｎｆｉｌｔｅｒｉｎｇ）の方式を介して、第３検出ブロックおよび第３検出ブロックのすべての内点ブロックに対して融合最適化を実行することもでき、本発明は、融合最適化の具体的な方式に対して限定しない。

このような方式を介して、検出結果を前の履歴検出結果と組み合わせて、ｔ番目のフレームの点群データの検出結果をさらに最適化し、ターゲット検出の精度を向上させることができる。

一可能な実施形態において、前記方法は、
前記ｔ－１フレームの点群データの第２検出結果、および前記ｔ番目のフレームの点群データの第２検出結果に従って、ｔ＋１番目のフレームの点群データ内のターゲットの動き状態を予測して、前記ｔ＋１番目のフレームの点群データ内のターゲットの予測候補ブロックを決定することをさらに含む。

例を挙げると、ｔ番目のフレームの点群データの第２検出結果を取得した後、履歴検出結果に従って、ｔ＋１番目のフレームの点群データを予測して、ｔ＋１番目のフレームの点群データのターゲット検出を支援することができる。

一可能な実施形態において、ｔ番目のフレームの点群データ内の任意の１つのターゲット（第３ターゲットと称し得る）について、ｔフレームの点群データの第２検出結果における当該第３ターゲットの第２検出ブロックを取得することができる。当該第３ターゲットに複数の第２検出ブロックが存在する場合、隣接フレームの各第２検出ブロック間の誤差に従って、ｔ＋１番目のフレームの点群データ内のターゲットの動き状態を予測して、ｔ＋１番目のフレームの点群データにおける当該第３ターゲットの位置を予測して、ｔ＋１番目のフレームの点群データにおける当該第３ターゲットの予測候補ブロックを取得することができる。

一可能な実施形態において、カルマンフィルタリングまたは最小二乗の方式を介して、動き状態の予測を実現することができ、本発明は、これに対して限定しない。

一可能な実施形態において、当該第３ターゲットに１つの第２検出ブロックのみが存在する場合、即ち、第３ターゲットがｔ番目のフレームの点群データに新しく出現されたターゲットである場合、当該第３ターゲットの近くの他のターゲットに従って予測することができ、ｔ番目のフレームの点群データにおける他のターゲットの第２検出ブロックと、ｔ＋１番目のフレームの点群データにおける予測候補ブロックとの誤差によって、ｔ＋１番目のフレームの点群データにおける当該第３ターゲットの予測候補ブロックを予測することができる。

このようにして、ｔ番目のフレームの点群データ内のすべてのターゲットを予測して、ｔ＋１番目のフレームの点群データにおける検出した領域内のターゲットの予測候補ブロックを決定することができる。

このような方式を介して、ｔ＋１番目のフレームの点群データ内のターゲットの予測候補ブロックを取得して、ｔ＋１番目のフレームの点群データのターゲット検出を支援して、検出精度を向上させることができる。

一可能な実施形態において、前記方法は、
前記ｔ＋１番目のフレームの点群データ内のターゲットの予測候補ブロック、およびｔ番目のフレームの点群データに従って、前記ｔ番目のフレームの点群データ内のターゲットの予測確率マップを更新して、前記ｔ＋１番目のフレームの点群データ内のターゲットの予測確率マップを決定することをさらに含む。

例を挙げると、ｔ＋１番目のフレームの点群データ内のターゲットの予測候補ブロックを取得した後、当該予測候補ブロックおよびｔ番目のフレームの点群データに従って、ｔ番目のフレームの点群データ内のターゲットの予測確率マップを更新することができる。即ち、ｔ番目のフレームの点群データにおけるターゲットの位置およびｔ＋１番目のフレームの点群データにおける位置（予測候補ブロック）に従って、予測確率マップにおける各位置にターゲットが存在するか否かを決定し、各位置にターゲットが出現される可能性がある確率を更新して、ｔ＋１番目のフレームの点群データ内のターゲットの予測確率マップを取得する。

このような方式を介して、ｔ＋１番目のフレームの点群データ内のターゲットの予測確率マップを取得することにより、後続で処理するときに、ｔ＋１番目のフレームの点群データのために複数の領域を分割し、それにより、ターゲット検出の速度を向上させることができる。

一可能な実施形態において、前記方法は、
前記ｔ番目のフレームの点群データの前にあるｔ－１フレームの点群データの第２検出結果に従って、前記ｔ番目のフレームの点群データ内のターゲットの動き状態を予測して、前記ｔ番目のフレームの点群データ内のターゲットの予測候補ブロックを決定することをさらに含む。

つまり、ｔ－１番目のフレームの点群データの第２検出結果を取得した後、履歴検出結果に従って、ｔ番目のフレームの点群データを予測して、ｔ番目のフレームの点群データのターゲット検出を支援することができる。ｔ－１番目のフレームの点群データ内の任意の１つのターゲットについて、前のｔ－１フレームの点群データの第２検出結果における当該ターゲットの第２検出ブロックを取得し、ｔ番目のフレームの点群データ内のターゲットの動き状態を予測し、ｔ番目のフレームの点群データにおける当該ターゲットの位置を予測して、ｔ番目のフレームの点群データにおける当該ターゲットの予測候補ブロックを取得することができる。当該予測プロセスは、ｔ＋１番目のフレームの点群データを予測するプロセスと類似し、ここでは繰り返して説明しない。

このような方式を介して、ｔ番目のフレームの点群データ内のターゲットの予測候補ブロックを取得して、ｔ番目のフレームの点群データのターゲット検出を支援して、検出精度を向上させることができる。

一可能な実施形態において、前記方法は、
ｔ番目のフレームの点群データ内のターゲットの予測候補ブロック、およびｔ－１番目のフレームの点群データに従って、前記ｔ－１番目のフレームの点群データ内のターゲットの予測確率マップを更新して、前記ｔ番目のフレームの点群データ内のターゲットの予測確率マップを決定することをさらに含む。

つまり、ｔ番目のフレームの点群データ内のターゲットの予測候補ブロックを取得した後、当該予測候補ブロックおよびｔ－１番目のフレームの点群データに従って、ｔ－１番目のフレームの点群データ内のターゲットの予測確率マップを更新して、ｔ番目のフレームの点群データ内のターゲットの予測確率マップを取得することができる。当該更新プロセスは、ｔ＋１番目のフレームの点群データの予測確率マップを更新するプロセスと類似し、ここでは繰り返して説明しない。

このような方式を介して、ｔ番目のフレームの点群データ内のターゲットの予測確率マップを取得することにより、後続で処理するときに、ｔ番目のフレームの点群データのために複数の領域を分割し、それにより、ターゲット検出の速度を向上させることができる。

本発明の実施例において、図１Ｂに示されたネットワークアーキテクチャを介して、再構築される対象に対する三次元再構築を実現することができ、図１Ｂは、本発明の実施例のターゲット検出方法のネットワークアーキテクチャの概略図を示し、当該ネットワークアーキテクチャは、ユーザ端末２０１、ネットワーク２０２およびターゲット検出端末２０３を備える。例示的な適用をサポートするために、ユーザ端末２０１とターゲット検出２０３は、ネットワーク２０２を介して通信接続を確立し、ユーザ端末２０１は、検出されるターゲットを含むターゲットシーンのｔ番目のフレームの点群データに対してターゲット検出を実行するとき、まず、ターゲットシーンのｔ番目のフレームの点群データを、ネットワーク２０２を介してターゲット検出端末２０３に送信し、その後、ターゲット検出端末２０３が、当該ターゲットの検出ブロックを予測して、第１候補ブロックを取得し、最後に、ターゲット検出端末２０３が、当該第１候補ブロックを介して、ｔ番目のフレームの点群データ内のターゲットを検出して、当該ターゲットの検出結果を取得する必要がある。このようにして、マルチフレームの点群データを介して検出ブロックを予測して、ターゲット検出の精度を向上させることができる。

図２は、本発明の実施例に係るターゲット検出方法の処理プロセスの概略図を示す。図２に示されたように、現在のフレームに対してターゲット検出処理を実行するプロセスをフロントエンドと称し、履歴結果を記録し、履歴結果に従って現在のフレームを補正して、次のフレームを予測するプロセスをバックエンドと称し得、バックエンドの処理は、ターゲット追跡および融合とも称し得る。ここで、現在のフレームはｔ番目のフレームである。

例において、前のｔ－１番目のフレームのフロントエンド処理で、ｔ－１番目のフレームの点群データの第１検出結果を取得し（未図示）、当該第１検出結果を前のｔ－２フレームの履歴検出結果に関連付け、ｔ－１番目のフレームのバックエンドのステップ２１１で、カルマンフィルタリングまたは最小二乗の方式を介して検出ブロックの融合最適化を実行して、検出結果を補正し、ｔ－１番目のフレームの点群データの第２検出結果を取得する（未図示）。

例において、ｔ－１番目のフレームのバックエンド処理において、前のｔ－１フレームの履歴検出結果に従って、ｔ番目のフレーム内のターゲットに対して動き予測２１２を実行して、ｔ番目のフレームの点群データ内のターゲットの予測候補ブロック２１３を取得し、予測候補ブロック２１３およびｔ－１番目のフレームの点群データに従って（未図示）、ステップ２１４で、ｔ－１番目のフレームの予測確率マップを更新して、ｔ番目のフレームの点群データ内のターゲットの予測確率マップ２１５を取得し、それにより、ｔ－１番目のフレームのすべての処理プロセスを完了する。

例において、ｔ番目のフレームのフロントエンド処理において、予測確率マップ２１５に従って、前記ｔ番目のフレームの点群データ２２１を、ターゲットの存在する第１領域、ターゲットの存在しない第２領域およびターゲットが存在するか否かが決定されていない第３領域に分割して、領域を分割した後の点群データ２２２を取得する。点群データ２２２の第１領域および第３領域をターゲット検出ネットワーク２２３に入力して、ターゲット検出を実行して、プリセット数の第１候補ブロックを取得することができる。ｔ番目のフレームの点群データ内のターゲットの予測候補ブロック２１３を第１候補ブロックとマッチングして、各第１候補ブロックに対応するターゲット識別子を決定して、処理されるすべての候補ブロック２２４を取得する（各ターゲットは複数のブロックに対応する）。ターゲットのすべての候補ブロック２２４および候補ブロック２２４に対応する領域点群データを、融合ネットワーク２２５に入力して処理して、ターゲットの第１検出ブロックを取得して（各ターゲットは１つのブロックに対応する）、ｔ番目のフレームの点群データの第１検出結果２２６として使用する。ステップ２２７で、第１検出結果２２６を前のｔ－１フレームの履歴検出結果に関連付けることができる。

例において、ｔ番目のフレームのバックエンド処理において、ステップ２３１で、カルマンフィルタリングまたは最小二乗の方式を介して検出ブロックの融合最適化を実行して、検出結果を補正して、ｔ番目のフレームの点群データ内の各ターゲットの第２検出ブロックを取得して、ｔ番目のフレームの点群データの第２検出結果２３０、即ち、最終的な出力結果として使用することができる。

例において、ｔ番目のフレームのバックエンド処理において、前のｔフレームの第２検出結果に従って、ｔ＋１番目のフレーム内のターゲットに対して動き予測２３２を実行して、ｔ＋１番目のフレームの点群データ内のターゲットの予測候補ブロック２３３を取得し、予測候補ブロック２３３およびｔ番目のフレームの点群データ２２１に従って、ステップ２３４で、ｔ番目のフレームの予測確率マップ２１５を更新して、ｔ＋１番目のフレームの点群データ内のターゲットの予測確率マップ２３５を取得し、それにより、ｔ番目のフレームのすべての処理プロセスを完了することができる。

図３ａは、ターゲットシーンの画像の概略図を示し、図３ｂは、ターゲットの検出結果の概略図を示す。図３ａに示されたように、ターゲットシーンには複数の椅子が含まれ、椅子は、検出されるターゲットとして使用することができる。図３ｂに示されたように、検出ブロック３１は、関連技術の単一フレーム処理のターゲット検出方法に従って得られた検出結果であり、検出ブロック３２は、ターゲットの実の三次元画像ブロックであり、検出ブロック３３は、本発明の実施例のターゲット検出方法に従って得られた検出結果である。

これから分かるように、本発明の実施例のターゲット検出方法によって得られた検出結果の精度が比較的に高い。ターゲットが、部分的に遮蔽された場合、関連技術の検出結果は明らかに悪くなり、本発明の実施例のターゲット検出方法は、仍然として比較的に高い精度を維持することができる。

本発明の実施例のターゲット検出方法によれば、ターゲットシーンの連続するマルチフレームの点群データに対して三次元ターゲット検出を実行する場合、履歴検出結果を効果的に利用して、三次元ターゲットの検出および追跡を実行することができ、履歴検出結果を介して、現在のフレーム内のターゲットの候補ブロック、および現在のフレーム内の知られている領域に３Ｄ物体が出現する可能性のある確率の分布図を予測し、現在のフレームのターゲット検出プロセスにフィードバックすることができ、現在のフレームがターゲット検出を実行するときに、予測された確率分布図を利用して領域を分割するようにし、それにより、処理のデータ量を減らし、ターゲット検出の速度を向上させ、予測された候補ブロックを以前のバウンディングボックス（ｐｒｉｏｒｂｏｕｎｄｉｎｇｂｏｘ）として使用して、各フレームがすべてのシーンに対してターゲット検索を実行することを回避し、さらに、以前のバウンディングボックスに従って、より正確な候補ブロックを取得し、ターゲット検出の精度を効果的に向上させ、検出ミスの発生を回避することができる。

本発明の実施例のターゲット検出方法によれば、ターゲットを追跡と融合を実行して、連続時間における各３Ｄターゲットのすべての検出ブロックを、当該３Ｄ物体の履歴検出ブロックに格納し、各フレームですべて、各３Ｄターゲットのすべての履歴検出ブロックとそれぞれ融合および最適化して、現在のフレームの３Ｄターゲットの位置の最適推定を取得し、それにより、３Ｄ検出ブロックの安定性を効果的に向上させ、ターゲットが遮蔽されるか切り捨てられた場合の検出誤差を減らし、ターゲット検出の精度およびロバスト性を明らかに向上させることができる。

本発明の実施例のターゲット検出方法によれば、増強現実（ＡＲ）、屋内ナビゲーションなどのアプリケーションシーンに適用され、３Ｄターゲットの推定と検出を実現することができる。関連技術の処理方式は、連続フレームにおける同じ物体の位置情報の関係を考慮せず、連続時間における情報を利用しないため、３Ｄ検出ブロックのジッターが発生しやすくなる。例えば、屋内シーンでは、物体スケールがより大きいため、検出ブロックのジッターがより深刻になる。しかし、本発明の実施例のターゲット検出方法によれば、連続フレーム内の位置情報の関係および連続時間における情報を利用することにより、より安定な３Ｄ検出ブロックを出力し、検出誤差を減らすことができる。

本発明で述べた上述の各方法の実施例は、原理及び論理に違反することなく、互いに組み合わせて、組み合わせされた実施例を生成することができ、スペースの制限により、本発明には繰り返さないことを理解されたい。当業者は、具体的な実施形態の上記方法において、各ステップの具体的な実行順序は、その機能と可能性に基づくべきであることを理解することができる。

加えて、本発明は、さらに、ターゲット検出装置、電子機器、コンピュータ可読記憶媒体、プログラムを提供し、上記は、すべて本発明で提供された任意のターゲット検出方法を実現することができ、対応する技術的解決策と説明および方法部分を参照した対応する記載は繰り返しない。

図４は、本発明の実施例に係るターゲット検出装置のブロック図を示し、図４に示されたように、前記装置は、
ターゲットシーンのｔ番目（ｔは１より大きい整数である）のフレームの点群データに対してターゲット検出を実行して、前記ｔ番目のフレームの点群データ内のターゲットの第１候補ブロックを決定するように構成される、第１検出モジュール４１と、
前記ｔ番目のフレームの点群データ、前記第１候補ブロックおよび、前記ｔ番目のフレームの点群データ内のターゲットに対する予測候補ブロックに従って、前記ｔ番目のフレームの点群データの第１検出結果を決定するように構成される、第２検出モジュール４２と、を備え、前記第１検出結果は、前記ｔ番目のフレームの点群データ内のターゲットの第１検出ブロックを含み、ここで、前記予測候補ブロックは、前記ｔ番目のフレームの点群データ前のｔ－１フレームの点群データの検出結果に従って予測して得られたものである。

一可能な実施形態において、前記第１検出モジュールは、前記ｔ番目のフレームの点群データ内のターゲットの予測確率マップに従って、前記ｔ番目のフレームの点群データを、ターゲットの存在する第１領域、ターゲットの存在しない第２領域およびターゲットが存在するか否かが決定されていない第３領域に分割するように構成される、領域分割サブモジュールと、前記第１領域および前記第３領域に対してターゲット検出を実行して、前記ｔ番目のフレームの点群データ内のターゲットの第１候補ブロックを決定するように構成される、第１検出サブモジュールと、を備える。

一可能な実施形態において、前記候補ブロックマッチングサブモジュールは、第３候補ブロックと、各第１候補ブロックとのＩｏＵをそれぞれ決定し、第１候補ブロックとのＩｏＵが、ＩｏＵ閾値より大きいか等しい第３候補ブロックを、第１候補ブロックにマッチングする第３候補ブロックとして決定し、第１候補ブロックにマッチングする第３候補ブロックに対応するターゲットを、前記第１候補ブロックに対応するターゲットとして決定するように構成される。

いくつかの実施例において、本発明の実施例による装置が備える機能または構成されたモジュールは、上記の方法の実施例で説明される方法を実行するために使用され得、特定の実現は、上記の方法の実施例における説明を参照することができ、簡潔にするために、ここで再び説明しない。

本発明の実施例は、さらに、コンピュータプログラム命令が記憶される、コンピュータ可読記憶媒体を提案し、前記コンピュータプログラム命令は、プロセッサによって実行されるとき、上記の方法を実現する。コンピュータ可読記憶媒体は、不揮発性コンピュータ可読記憶媒体であり得る。

本発明の実施例は、さらに、プロセッサと、プロセッサ実行可能命令を記憶するように構成されるメモリと、を備える、電子機器を提案し、ここで、前記プロセッサは、前記メモリによって記憶される命令を呼び出して、上記の方法を実行するように構成される。

本発明の実施例は、さらに、コンピュータ可読コードを含むコンピュータプログラム製品を提供し、コンピュータ可読コードが機器で実行されるとき、機器内のプロセッサは上記の任意の実施例によるターゲット検出方法を実現するための命令を実行する。

本発明の実施例は、さらに、コンピュータ可読命令を記憶するために使用される、別のコンピュータプログラム製品を提供し、命令が実行されるときに、コンピュータに、上記の任意の実施例によるターゲット検出方法の操作を実行させる。

電子機器は、端末、サーバまたはその他の形態の機器として提供できる。

図５は、本発明の実施例に係る電子機器８００のブロック図を示す。例えば、電子機器８００は、携帯電話、コンピュータ、デジタル放送端末、メッセージングデバイス、ゲームコンソール、タブレットデバイス、医療機器、フィットネス機器、携帯情報端末などの端末であり得る。

図５を参照すると、電子機器８００は、処理コンポーネント８０２、メモリ８０４、電力コンポーネント８０６、マルチメディアコンポーネント８０８、オーディオコンポーネント８１０、入力／出力（Ｉ／Ｏ）インターフェース８１２、センサコンポーネント８１４、及び通信コンポーネント８１６のうちの１つまたは複数のコンポーネントを含み得る。

処理コンポーネント８０２は、一般的に、ディスプレイ、電話の呼び出し、データ通信、カメラ操作及び記録操作に関する操作などの、電子機器８００の全般的な操作を制御する。処理コンポーネント８０２は、前記方法のステップのすべてまたは一部を完成するために、１つまたは複数のプロセッサ８２０を備えて命令を実行することができる。加えて、処理コンポーネント８０２は、１つまたは複数のモジュールを備えて、処理コンポーネント８０２と他のコンポーネントとの相互作用を容易にすることができる。例えば、処理コンポーネント８０２は、マルチメディアモジュールを備えて、マルチメディアコンポーネント８０８と、処理コンポーネント８０２との相互作用を容易にすることができる。

メモリ８０４は、機器８００における操作をサポートするために、様々なタイプのデータを記憶するように構成される。これらのデータの例には、電子機器８００で動作する、任意のアプリケーションまたは方法の命令、連絡先データ、電話帳データ、メッセージ、写真、ビデオ等が含まれる。メモリ８０４は、スタティックランダムアクセスメモリ（ＳＲＡＭ）、電気的に消去可能なプログラム可能な読み取り専用メモリ（ＥＥＰＲＯＭ）、消去可能なプログラム可能な読み取り専用メモリ（ＥＰＲＯＭ）、プログラム可能な読み取り専用メモリ（ＰＲＯＭ）、読み取り専用メモリ（ＲＯＭ）、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクなど、あらゆるタイプの揮発性または不揮発性ストレージデバイス、またはそれらの組み合わせで実装することができる。

電力コンポーネント８０６は、電子機器８００の様々なコンポーネントに電力を提供する。電力コンポーネント８０６は、電力管理システム、１つまたは複数の電源、及び電子機器８００のために、電力を生成、管理及び割り当てに関連付けられる、他のコンポーネントを含み得る。

マルチメディアコンポーネント８０８は、前記電子機器８００とユーザとの間に、出力インターフェースを提供するスクリーンを含む。いくつかの実施例において、スクリーンは、液晶ディスプレイ（ＬＣＤ）およびタッチパネル（ＴＰ）を含み得る。スクリーンにタッチパネルが含まれる場合、スクリーンは、ユーザからの入力信号を受信するためのタッチスクリーンとして実現されることができる。タッチパネルは、タッチ、スワイプ及びタッチパネルにおけるジェスチャを検知するための１つまたは複数のタッチセンサを含む。前記タッチセンサは、タッチまたはスワイプの操作の境界を感知するだけでなく、前記タッチまたはスワイプ動作に関する、持続時間及び圧力も検知することができる。いくつかの実施例において、マルチメディアコンポーネント８０８は、１つのフロントカメラ及び／またはリアカメラを備える。電子機器８００が、撮影モードまたはビデオモードなどの動作モードにいるとき、フロントカメラ及び／またはリアカメラは、外部のマルチメディアデータを受信し得る。各フロントカメラ及びリアカメラは、固定光学レンズシステムであり得、または焦点距離と光学ズーム機能を有することができる。

オーディオコンポーネント８１０は、オーディオ信号を出力及び／または入力するように構成される。例えば、オーディオコンポーネント８１０は、１つのマイク（ＭＩＣ）を備え、電子機器８００が、通話モード、録音モード及び音声認識モードなどの動作モードにいる場合、マイクは、外部オーディオ信号を受信するように構成される。受信されたオーディオ信号は、さらにメモリ８０４に記憶され、または通信コンポーネント８１６を介して送信されることができる。いくつかの実施例において、オーディオコンポーネント８１０は、オーディオ信号を出力するように構成される、スピーカも備える。

Ｉ／Ｏインターフェース８１２は、処理コンポーネント８０２と周辺インターフェースモジュールとの間にインターフェースを提供し、前記周辺インターフェースモジュールは、キーボード、クリックホイール、ボタンなどであってもよい。これらのボタンは、ホームボタン、ボリュームボタン、スタートボタン、ロックボタンを含み得るが、これらに限定されない。

センサコンポーネント８１４は、電子機器８００に各態様の状態評価を提供するための１つまたは複数のセンサを備える。例えば、センサコンポーネント８１４は、電子機器８００のオン／オフ状態、電子機器８００のディスプレイとキーパッドなどのコンポーネントの、相対的な位置を検知することができ、センサコンポーネント８１４は、電子機器８００または電子機器８００の１つのコンポーネントの位置の変化、ユーザと電子機器８００との接触の有無、電子機器８００の方位または加速／減速、及び電子機器８００の温度の変化も検知することができる。センサコンポーネント８１４は、近接センサを備えることができ、物理的接触なしに近くの物体の存在を検知するように構成される。センサコンポーネント８１４は、さらに、相補型金属酸化膜半導体（ＣＭＯＳ）または電荷結合装置（ＣＣＤ）画像センサなどの光センサを備えることもでき、イメージングアプリケーションのために使用される。いくつかの実施例において、当該センサコンポーネント８１４は、さらに、加速度センサ、ジャイロスコープセンサ、磁気センサ、圧力センサまたは温度センサを含み得る。

通信コンポーネント８１６は、電子機器８００と他の機器の間の有線、または無線方式の通信を容易にするように構成される。電子機器８００は、ワイヤレス・フィディリティ（ＷｉＦｉ）、二世代モバイル通信技術（２Ｇ）または三世代モバイル通信技術（３Ｇ）、またはそれらの組み合わせなどの通信規格に基づく無線ネットワークにアクセスすることができる。一例示的な実施例において、通信コンポーネント８１６は、放送チャンネルを介して、外部放送管理システムからの放送信号または放送関連情報を受信する。一例示的な実施例において、前記通信コンポーネント８１６は、さらに、短距離通信を促進するために、近距離通信（ＮＦＣ）モジュールを備える。例えば、ＮＦＣモジュールは、無線周波数認識（ＲＦＩＤ）技術、赤外線データ協会（ＩｒＤＡ）技術、超広帯域（ＵＷＢ）技術、ブルートゥース（ＢＴ）技術及び他の技術に基づいて実現されることができる。

例示的な実施例において、電子機器８００は、上記の方法を実行するために、１つまたは複数の特定用途向け集積回路（ＡＳＩＣ）、デジタル信号プロセッサ（ＤＳＰ）、デジタル信号処理装置（ＤＳＰＤ）、プログラマブルロジックデバイス（ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、コントローラ、マイクロコントローラ、マイクロプロセッサ、または他の電子素子によって実現されることができる。

例示的な実施例において、さらに、コンピュータプログラム命令を含むメモリ８０４などの、不揮発性コンピュータ可読記憶媒体を提供し、前記コンピュータプログラム命令は、電子機器８００のプロセッサ８２０によって実行されて、上記の方法を完成することができる。

図６は、本発明の実施例に係る電子機器１９００のブロック図を示す。例えば、電子機器１９００は、サーバとして提供されることができる。図６を参照すると、電子機器１９００は、処理コンポーネント１９２２を含み、１つまたは複数のプロセッサ、及びメモリ１９３２によって表されるメモリリソースををさらに含み、アプリケーションプログラムなど、処理コンポーネント１９２２によって、実行される命令を記憶するために使用される。メモリ１９３２に記憶されるアプリケーションプログラムは、１つまたは１つ以上の１セットの命令に対応する各モジュールを備えることができる。加えて、処理コンポーネント１９２２は、命令を実行するように構成されて、上記の方法を実行する。

電子機器１９００は、さらに、電子機器１９００の電源管理を実行するように構成される、１つの電力コンポーネント１９２６と、電子機器１９００をネットワークに接続させるように構成される、１つの有線または無線ネットワークインターフェース１９５０と、１つの入力／出力（Ｉ／Ｏ）インターフェース１９５８とを含み得る。電子機器１９００は、マイクロソフトサーバ動作システム（ＷｉｎｄｏｗｓＳｅｒｖｅｒＴＭ）、アップル会社によって導入されたグラフィカルユーザインターフェースオペレーティングシステム（ＭａｃＯＳＸＴＭ）、マルチユーザおよびマルチプロセスコンピュータオペレーティングシステム（ＵｎｉｘＴＭ）、フリーでオープンソースのＵｎｉｘのようなオペレーティングシステム（ＬｉｎｕｘＴＭ）、オープンソースのＵｎｉｘのようなオペレーティングシステム（ＦｒｅｅＢＳＤＴＭ）または類似するものなど、メモリ１９３２に記憶された動作システムを動作することができる。

例示的な実施例において、さらに、コンピュータプログラム命令を含むメモリ１９３２などの、揮発性コンピュータ可読記憶媒体を提供し、前記コンピュータプログラム命令は、電子機器１９００の処理コンポーネント１９２２によって実行されて、上記の方法を完成することができる。

本発明は、システム、方法及び／またはコンピュータプログラム製品であり得る。コンピュータプログラム製品は、プロセッサに本発明の様々な態様を実現させるために使用される、コンピュータ可読プログラム命令がロードされる、コンピュータ可読記憶媒体を含み得る。

コンピュータ可読記憶媒体は、命令実行機器によって使用される命令を保持および記憶することができる有形の機器であり得る。コンピュータ可読記憶媒体は、例えば、電気記憶機器、磁気記憶機器、光学記憶機器、電磁記憶機器、半導体貯蔵機器、または前記任意の適切な組み合わせであり得るが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例（非網羅的リスト）には、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、ポータブルコンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、メモリスティック、フロッピーディスク、機械的エンコーディング機器、例えば命令が記憶されるパンチカードまたは溝の突出構造、および、前記の任意の適切な組み合わせを含む。ここで使用されるコンピュータ可読記憶媒体は、無線電波または他の自由に伝播する電磁波、導波管または他の伝送媒体を介して伝播する電磁波（例えば、光ファイバケーブルを介する光パルス）、またはワイヤーを介して伝送される電気信号などの、過渡信号自体として解釈されない。

本明細書に記載のコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から様々なコンピューティング／処理機器にダウンロードするか、またはインターネット、ローカルエリアネットワーク、ワイドエリアネットワーク、及び／またはワイヤレスネットワークなどのネットワークを介して、外部コンピュータまたは外部記憶機器にダウンロードすることができる。ネットワークは、銅線伝送ケーブル、光ファイバ伝送、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ、及び／またはエッジサーバを含み得る。各コンピューティング／処理機器における、ネットワークアダプタカードまたはネットワークインターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、前記コンピュータ可読プログラム命令を転送して、各コンピューティング／処理機器におけるコンピュータ可読記憶媒体に記憶される。

本開示の操作を実行するために使用されるコンピュータプログラム命令は、コンポーネント命令、命令セットアーキテクチャ（ＩＳＡ）命令、機械命令、機械関連命令、マイクロコード、ファームウェア命令、ステータス設定データ、または１つまたは複数のプログラミング言語の任意の組み合わせで記述される、ソースコードまたはオブジェクトコードであり得、前記プログラミング言語は、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋など、対象指向のプログラミング言語、及び「Ｃ」言語または同様のプログラミング言語など、従来の手続き型プログラミング言語とを含む。コンピュータ可読プログラム命令は、完全にユーザのコンピュータで実行でき、部分的にユーザのコンピュータで実行でき、スタンドアロンパッケージとして実行でき、ユーザのコンピュータで一部、リモートコンピュータで一部実行でき、または、完全にリモートコンピュータまたはサーバで実行できる。リモートコンピュータに関するシナリオにおいて、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）またはワイドエリアネットワーク（ＷＡＮ）を含む、任意の種類のネットワークを介して、ユーザのコンピュータにアクセスでき、または、リモートコンピュータにアクセスできる（例えば、インターネットサービスプロバイダーを使用してインターネットを介してアクセスする）。いくつかの実施例において、コンピュータ可読プログラム命令のステータス情報を使用することを介して、プログラマブルロジック回路、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、またはプログラマブルロジックアレイ（ＰＬＡ）などの電子回路を、パーソナライズにスタマイズし、前記電子回路は、コンピュータ可読プログラム命令を実行して、本開示の様々な態様を実現することができる。

本明細書では、本発明の実施例による方法、装置（システム）、及びコンピュータプログラム製品のフローチャート及び／またはブロック図を参照して本発明の様々な態様を説明する。フローチャート及び／またはブロック図の各ブロック、及びフローチャート及び／またはブロック図内の各ブロックの組み合わせは、コンピュータ可読プログラム命令によって実現されることを理解されたい。

これらのコンピュータ可読プログラム命令は、汎用コンピュータ、固有コンピュータ、または他のプログラマブルデータ処理装置のプロセッサに提供することができ、それにより、デバイスが作成され、これらの命令が、コンピュータ、または他のプログラマブルデータ処理装置のプロセッサによって実行されるとき、フローチャート及び／またはブロック図内の１つまたは複数のブロックの指定される機能／アクションを実現させる。これらのコンピュータ可読プログラム命令を、コンピュータ可読記憶媒体に記憶することもあり得、これらの命令は、コンピュータ、プログラマブルデータ処理装置及び／または他の機器を特定の方式で作業するようにし、従って、命令が記憶されるコンピュータ可読媒体は、フローチャート及び／またはブロック図内の１つまたは複数のブロックの指定される機能／アクションを実現する様々な態様の命令を含む製造品を含む。

コンピュータ可読プログラム命令を、コンピュータ、他のプログラマブルデータ処理装置、または他の機器にロードすることもでき、コンピュータ、他のプログラマブルデータ処理装置、または他の機器で一連の操作ステップを実行して、コンピュータ実現のプロセスを生成させ、これにより、コンピュータ、他のプログラマブルデータ処理装置、または他の機器で実行する命令を、フローチャート及び／またはブロック図内の１つまたは複数のブロックの指定される機能／アクションを実現させる。

図面におけるプロセス図及びブロック図は、本発明の複数の実施例によるシステム、方法及びコンピュータプログラム製品の実現可能なアーキテクチャ、機能、及び操作を示す。この点について、フローチャートまたはブロック図内の各ブロックは、１つのモジュール、プログラムセグメント、または命令の一部を表すことができ、前記モジュール、プログラムセグメント、または命令の一部は、１つまたは複数の指定される論理機能を実現するために使用される実行可能な命令を含む。いくつかの代替実現において、ブロックのマークされる機能は、図面でマークされる順序とは異なる順序で発生することもできる。例えば、関する機能によって、２つの連続するブロックは、実際に基本的に並行して実行でき、時には逆の順序で実行できる。ブロック図及び／またはフローチャート中の各ブロック、及びブロック図及び／またはフローチャートのブロックの組み合わせは、指定される機能またはアクションを実行する、専用のハードウェアベースのシステムによって実現されるか、または、ハードウェアとコンピュータ命令の組み合わせを使用して、実現されることもできることを留意する必要がある。

当該コンピュータプログラム製品は、具体的に、ハードウェア、ソフトウェアまたはそれらを組み合わせる方式を介して実現されることができる。１つの例示的な実施例において、前記コンピュータプログラム製品は、具体的には、コンピュータ記憶媒体として具現され、別の例示的な実施例において、コンピュータプログラム製品は、具体的には、ソフトウェア開発キット（ＳＤＫ：ＳｏｆｔｗａｒｅＤｅｖｅｌｏｐｍｅｎｔＫｉｔ）などのソフトウェア製品として具現される。

以上、本発明の各実施例を説明したが、以上の説明は、例示的なものに過ぎず、網羅的ではなく、開示された各実施例に限定されない。説明される各実施例の範囲及び思想から逸脱してない場合は、当業者にとって、多くの修正及び変更は明らかである。本明細書で使用される用語の選択は、各実施例の原理、実際の適用、または市場における技術の改善を最もよく説明するか、または、当業者が、本明細書で開示される各実施例を理解することができるようにすることを意図する。

本発明は、ターゲット検出方法および装置、電子機器並びに記憶媒体に関し、前記方法は、ターゲットシーンのｔ番目（ｔは１より大きい整数である）のフレームの点群データに対してターゲット検出を実行して、前記ｔ番目のフレームの点群データ内のターゲットの第１候補ブロックを決定することと、前記ｔ番目のフレームの点群データ、前記第１候補ブロックおよび、前記ｔ番目のフレームの点群データ内のターゲットに対する予測候補ブロックに従って、前記ｔ番目のフレームの点群データの第１検出結果を決定することと、を含み、前記第１検出結果は、前記ｔ番目のフレームの点群データ内のターゲットの第１検出ブロックを含み、ここで、前記予測候補ブロックは、前記ｔ番目のフレームの点群データ前のｔ－１フレームの点群データの検出結果に従って予測して得られたものである。

Claims

ターゲット検出方法であって、
ターゲットシーンのｔ番目（ｔは１より大きい整数である）のフレームの点群データに対してターゲット検出を実行して、前記ｔ番目のフレームの点群データ内のターゲットの第１候補ブロックを決定することと、
前記ｔ番目のフレームの点群データ、前記第１候補ブロックおよび、前記ｔ番目のフレームの点群データ内のターゲットに対する予測候補ブロックに従って、前記ｔ番目のフレームの点群データの第１検出結果を決定することと、を含み、前記第１検出結果は、前記ｔ番目のフレームの点群データ内のターゲットの第１検出ブロックを含み、
前記予測候補ブロックは、前記ｔ番目のフレームの点群データ前のｔ－１フレームの点群データの検出結果に従って予測して得られたものである、前記ターゲット検出方法。
前記ターゲットシーンのｔ番目のフレームの点群データに対してターゲット検出を実行して、前記ｔ番目のフレームの点群データ内のターゲットの第１候補ブロックを決定することは、
前記ｔ番目のフレームの点群データ内のターゲットの予測確率マップに従って、前記ｔ番目のフレームの点群データを、ターゲットの存在する第１領域、ターゲットの存在しない第２領域およびターゲットが存在するか否かが決定されていない第３領域に分割することと、
前記第１領域および前記第３領域に対してターゲット検出を実行して、前記ｔ番目のフレームの点群データ内のターゲットの第１候補ブロックを決定することと、を含む、
請求項１に記載のターゲット検出方法。
前記ターゲット検出方法は、
前記ｔ番目のフレームの点群データの前にあるｔ－１フレームの点群データの第２検出結果を取得することと、
前記ｔ番目のフレームの点群データの前にあるｔ－１フレームの点群データの第２検出結果に従って、前記ｔ番目のフレームの点群データの第１検出結果を補正して、前記ｔ番目のフレームの点群データの第２検出結果を決定することと、をさらに含む、
請求項１または２に記載のターゲット検出方法。
前記ターゲット検出方法は、
前記ｔ番目のフレームの点群データの前にあるｔ－１フレームの点群データの第２検出結果に従って、前記ｔ番目のフレームの点群データ内のターゲットの動き状態を予測して、前記ｔ番目のフレームの点群データ内のターゲットの予測候補ブロックを決定することをさらに含む、
請求項１ないし３のいずれか一項に記載のターゲット検出方法。
前記ターゲット検出方法は、
前記ｔ番目のフレームの点群データ内のターゲットの予測候補ブロック、およびｔ－１番目のフレームの点群データに従って、前記ｔ－１番目のフレームの点群データ内のターゲットの予測確率マップを更新して、前記ｔ番目のフレームの点群データ内のターゲットの予測確率マップを決定することをさらに含む、
請求項２に記載のターゲット検出方法。
前記第１領域および前記第３領域に対してターゲット検出を実行して、前記ｔ番目のフレームの点群データ内のターゲットの第１候補ブロックを決定することは、
前記第１領域および前記第３領域の点群データに対して特徴抽出を実行して、第１点群特徴を取得することと、
前記第１点群特徴に対してターゲット検出を実行して、前記ｔ番目のフレームの点群データ内のターゲットの第２候補ブロックを決定することと、
各第２候補ブロックの信頼度に従って、前記第２候補ブロックからプリセット数の第１候補ブロックを決定することと、を含む、
請求項２または５に記載のターゲット検出方法。
前記ｔ番目のフレームの点群データ、前記第１候補ブロックおよび、前記ｔ番目のフレームの点群データ内のターゲットに対する予測候補ブロックに従って、前記ｔ番目のフレームの点群データの第１検出結果を決定することは、
前記ｔ番目のフレームの点群データ内の各ターゲットの予測候補ブロックをそれぞれ拡張して、各ターゲットの第３候補ブロックを決定することと、
前記第３候補ブロックおよび前記第１候補ブロックをそれぞれマッチングして、各第１候補ブロックに対応するターゲットを決定することと、
前記第１候補ブロックと、前記第１候補ブロックが位置する領域に対応する第１領域点群データ、および前記第３候補ブロックと、前記第３候補ブロックが位置する領域に対応する第２領域点群データに従って、前記ｔ番目のフレームの点群データ内の各ターゲットに対して、それぞれ候補ブロック融合を実行して、前記ｔ番目のフレームの点群データ内の各ターゲットの第１検出ブロックを取得することと、を含む、
請求項１ないし６のいずれか一項に記載のターゲット検出方法。
前記第３候補ブロックおよび前記第１候補ブロックをそれぞれマッチングして、各第１候補ブロックに対応するターゲットを決定することは、
各第３候補ブロックと各第１候補ブロックとのＩｏＵ（ＩｎｔｅｒｓｅｃｔｉｏｎｏｖｅｒＵｎｉｏｎ）をそれぞれ決定することと、
第１候補ブロックとのＩｏＵが、ＩｏＵ閾値より大きいか等しい第３候補ブロックを、第１候補ブロックにマッチングする第３候補ブロックとして決定することと、
第１候補ブロックにマッチングする第３候補ブロックに対応するターゲットを、前記第１候補ブロックに対応するターゲットとして決定することと、を含む、
請求項７に記載のターゲット検出方法。
各第２検出結果は、ターゲットの第２検出ブロックを含み、
前記ｔ番目のフレームの点群データの前にあるｔ－１フレームの点群データの第２検出結果に従って、前記ｔ番目のフレームの点群データの第１検出結果を補正して、前記ｔ番目のフレームの点群データの第２検出結果を決定することは、
第１ターゲットの検出ブロックセットを決定することであって、前記第１ターゲットは、前記ｔ番目のフレームの点群データ内の任意の１つのターゲットであり、前記第１ターゲットの検出ブロックセットは、前記ｔ－１フレームの点群データの第２検出結果における前記第１ターゲットの第２検出ブロック、およびｔ番目のフレームの点群データの第１検出結果における前記第１ターゲットの第１検出ブロックを含むことと、
前記第１ターゲットの検出ブロックセット内の任意の１つの検出ブロックに対して、前記検出ブロックセットにおける前記検出ブロックとの誤差が誤差閾値より小さいか等しい検出ブロックを、前記検出ブロックの内点ブロックとして決定することと、
前記第１ターゲットの検出ブロックセットから、内点ブロック数が最も多い第３検出ブロックを決定することと、
前記第３検出ブロックおよび前記第３検出ブロックのすべての内点ブロックを融合して、前記ｔ番目のフレームの点群データ内の第１ターゲットの第２検出ブロックを決定することと、を含む、
請求項３に記載のターゲット検出方法。
前記ターゲット検出方法は、
前記ｔ－１フレームの点群データの第２検出結果、および前記ｔ番目のフレームの点群データの第２検出結果に従って、ｔ＋１番目のフレームの点群データ内のターゲットの動き状態を予測して、前記ｔ＋１番目のフレームの点群データ内のターゲットの予測候補ブロックを決定することをさらに含む、
請求項３または９に記載のターゲット検出方法。
前記ターゲット検出方法は、
前記ｔ＋１番目のフレームの点群データ内のターゲットの予測候補ブロック、およびｔ番目のフレームの点群データに従って、前記ｔ番目のフレームの点群データ内のターゲットの予測確率マップを更新して、前記ｔ＋１番目のフレームの点群データ内のターゲットの予測確率マップを決定することをさらに含む、
請求項１０に記載のターゲット検出方法。
前記ターゲットシーンのｔ番目のフレームの点群データに対してターゲット検出を実行して、前記ｔ番目のフレームの点群データ内のターゲットの第１候補ブロックを決定することは、
前記ｔ番目のフレームの点群データに対して特徴抽出を実行して、第２点群特徴を取得することと、
前記第２点群特徴に対してターゲット検出を実行して、前記ｔ番目のフレームの点群データ内のターゲットの第４候補ブロックを決定することと、
各第４候補ブロックの信頼度に従って、前記第４候補ブロックからプリセット数の第１候補ブロックを決定することと、を含む、
請求項１に記載のターゲット検出方法。
前記第１検出結果は、さらに、前記ｔ番目のフレームの点群データ内のターゲットのカテゴリを含み、
前記ｔ番目のフレームの点群データ、前記第１候補ブロックおよび前記ｔ番目のフレームの点群データ内のターゲットに対する予測候補ブロックに従って、前記ｔ番目のフレームの点群データの第１検出結果を決定することは、
第２ターゲットの第１検出ブロックが位置する領域に対応する第３領域点群データに従って、前記第２ターゲットを分類して、前記第２ターゲットのカテゴリを決定することを含み、前記第２ターゲットは、前記ｔ番目のフレームの点群データのうちの任意の１つのターゲットである、
請求項１ないし１２のいずれか一項に記載のターゲット検出方法。
前記ターゲットシーンは屋内シーンを含み、前記ｔ番目のフレームの点群データ内のターゲットは物体を含み、前記ｔ番目のフレームの点群データ内のターゲットの第１検出ブロックは三次元領域ブロックを含む、
請求項１ないし１３のいずれか一項に記載のターゲット検出方法。
ターゲット検出装置であって、
ターゲットシーンのｔ番目（ｔは１より大きい整数である）のフレームの点群データに対してターゲット検出を実行して、前記ｔ番目のフレームの点群データ内のターゲットの第１候補ブロックを決定するように構成される、第１検出モジュールと、
前記ｔ番目のフレームの点群データ、前記第１候補ブロックおよび前記ｔ番目のフレームの点群データ内のターゲットに対する予測候補ブロックに従って、前記ｔ番目のフレームの点群データの第１検出結果を決定するように構成される、第２検出モジュールと、を備え、前記第１検出結果は、前記ｔ番目のフレームの点群データ内のターゲットの第１検出ブロックを含み、
前記予測候補ブロックは、前記ｔ番目のフレームの点群データ前のｔ－１フレームの点群データの検出結果に従って予測して得られたものである、前記ターゲット検出装置。
電子機器であって、
プロセッサと、
プロセッサ実行可能命令を記憶するように構成される、メモリと、を備え、
前記プロセッサは、前記メモリによって記憶される命令を呼び出して、請求項１ないし１４のいずれか一項に記載のターゲット検出方法を実行するように構成される、前記電子機器。
コンピュータプログラム命令を記憶する、コンピュータ可読記憶媒体であって、前記コンピュータプログラム命令がプロセッサによって実行されるときに、請求項１ないし１４のいずれか一項に記載のターゲット検出方法を実現する、前記コンピュータ可読記憶媒体。