JP2021532442A - ターゲット検出方法及び装置、スマート運転方法、装置並びに記憶媒体 - Google Patents

ターゲット検出方法及び装置、スマート運転方法、装置並びに記憶媒体 Download PDF

Info

Publication number
JP2021532442A
JP2021532442A JP2020567923A JP2020567923A JP2021532442A JP 2021532442 A JP2021532442 A JP 2021532442A JP 2020567923 A JP2020567923 A JP 2020567923A JP 2020567923 A JP2020567923 A JP 2020567923A JP 2021532442 A JP2021532442 A JP 2021532442A
Authority
JP
Japan
Prior art keywords
frame
point cloud
initial
point
position information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020567923A
Other languages
English (en)
Other versions
JP7033373B2 (ja
Inventor
シャオシュワイ シー
ジョー ワン
シアオガン ワン
ホンション リー
Original Assignee
センスタイム グループ リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by センスタイム グループ リミテッド filed Critical センスタイム グループ リミテッド
Publication of JP2021532442A publication Critical patent/JP2021532442A/ja
Application granted granted Critical
Publication of JP7033373B2 publication Critical patent/JP7033373B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/20Finite element generation, e.g. wire-frame surface description, tesselation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/469Contour-based spatial representations, e.g. vector-coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/12Bounding box
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/56Particle system, point based geometry or rendering

Abstract

本実施例は、ターゲット検出方法、装置、電子機器及びコンピュータ記憶媒体を開示する。該方法は、3Dポイントクラウドデータを取得することと、3Dポイントクラウドデータに基づいて、3Dポイントクラウドデータに対応するポイントクラウドセマンティクス特徴を決定することと、ポイントクラウドセマンティクス特徴に基づいて、前景点の部位位置情報を決定することと、ポイントクラウドデータに基づいて、少なくとも1つの初期3D枠を抽出することと、ポイントクラウドデータに対応するポイントクラウドセマンティクス特徴、前景点の部位位置情報及び少なくとも1つの初期3D枠に基づいて、ターゲットの3D検出枠を決定することと、を含む。従って、3Dポイントクラウドデータからポイントクラウドセマンティクス特徴を直接的に取得し、前景点の部位位置情報を決定する。更に、ポイントクラウドセマンティクス特徴、前景点の部位位置情報及び少なくとも1つの3D枠に基づいて、ターゲットの3D検出枠を決定する。3Dポイントクラウドデータを鳥瞰図に投影して2D検出技術により鳥瞰図の枠を得る必要がない。計量化時、ポイントクラウドのオリジナル情報の損失を避ける。

Description

(関連出願の相互参照)
本願は、2019年6月18日に中国特許局提出された、出願番号が201910523342.4であり、発明名称が「ターゲット検出方法及び装置、スマート運転方法、装置並びに記憶媒体」である中国特許出願に基づく優先権を主張し、該中国特許出願の全内容が参照として本願に組み込まれる。
本願は、ターゲット検出技術に関し、特に、ターゲット検出方法、スマート運転方法、ターゲット検出装置、電子機器並びにコンピュータ記憶媒体に関する。
自動運転又はロボットなどの分野において、周囲の物体を如何に感知するかは、重要な問題である。関連技術において、収集したポイントクラウドデータを鳥瞰図に投影し、二次元(2D)検出技術により、鳥瞰図の枠を得ることができる。これにより、計量化を行う場合、ポイントクラウドのオリジナル情報を損失してしまう。2D画像において検出を行う場合、遮蔽された物体の検出は困難である。
本願の実施例は、ターゲット検出の技術的解決手段を提供することが望ましい。
本願の実施例は、ターゲット検出方法を提供する。前記方法は、
三次元(3D)ポイントクラウドデータを取得することと、
前記3Dポイントクラウドデータに基づいて、前記3Dポイントクラウドデータに対応するポイントクラウドセマンティクス特徴を決定することと、
前記ポイントクラウドセマンティクス特徴に基づいて、前景点の部位位置情報を決定することであって、前記前景点は、前記ポイントクラウドデータのうち、ターゲットに属するポイントクラウドデータを表し、前記前景点の部位位置情報は、ターゲットにおける、前景点の相対的位置を表すためのものである、ことと、
前記ポイントクラウドデータに基づいて、少なくとも1つの初期3D枠を抽出することと、
前記ポイントクラウドデータに対応するポイントクラウドセマンティクス特徴、前記前景点の部位位置情報及び前記少なくとも1つの初期3D枠に基づいて、ターゲットの3D検出枠を決定することであって、前記検出枠内の領域にターゲットが存在する、ことと、を含む。
本願の実施例は、スマート運転装置に適用されるスマート運転方法を更に提供する。前記スマート運転方法は、
上記いずれか1つのターゲット検出方法により、前記スマート運転装置の周囲の前記ターゲットの3D検出枠を得ることと、
前記ターゲットの3D検出枠に基づいて、運転ポリシーンを生成することと、を含む。
本願の実施例は、ターゲット検出装置を更に提供する。前記装置は、取得モジュールと、第1処理モジュールと、第2処理モジュールと、を備え、
取得モジュールは、3Dポイントクラウドデータを取得し、前記3Dポイントクラウドデータに基づいて、前記3Dポイントクラウドデータに対応するポイントクラウドセマンティクス特徴を決定するように構成され、
第1処理モジュールは、前記ポイントクラウドセマンティクス特徴に基づいて、前景点の部位位置情報を決定し、前記前景点は、前記ポイントクラウドデータのうち、ターゲットに属するポイントクラウドデータを表し、前記前景点の部位位置情報は、ターゲットにおける、前景点の相対的位置を表すためのものであり、前記ポイントクラウドデータに基づいて、少なくとも1つの初期3D枠を抽出するように構成され、
第2処理モジュールは、前記ポイントクラウドデータに対応するポイントクラウドセマンティクス特徴、前記前景点の部位位置情報及び前記少なくとも1つの初期3D枠に基づいて、ターゲットの3D検出枠を決定するように構成され、前記検出枠内の領域にターゲットが存在する。
本願の実施例は、電子機器を更に提供する。前記電子機器は、プロセッサと、プロセッサで実行可能なコンピュータプログラムを記憶するように構成されるメモリと、を備え、
前記プロセッサは、前記コンピュータプログラムを実行する時、上記いずれか1つのターゲット検出方法を実行するように構成される。
本願の実施例は、コンピュータ記憶媒体を更に提供する。前記コンピュータ記憶媒体に、コンピュータプログラムが記憶されており、該コンピュータプログラムがプロセッサにより実行される時、上記いずれか1つのターゲット検出方法を実現させる。
本願の実施例は、コンピュータプログラム製品を更に提供する。前記コンピュータプログラム製品は、コンピュータによる実行可能な命令を含み、該コンピュータによる実行可能な命令が実行された後、本願の実施例で提供されるいずれか1つのターゲット検出方法を実現させることができる。
本願の実施例で提供されるターゲット検出方法、スマート運転方法、ターゲット検出装置、電子機器及びコンピュータ記憶媒体において、3Dポイントクラウドデータを取得し、前記3Dポイントクラウドデータに基づいて、前記3Dポイントクラウドデータに対応するポイントクラウドセマンティクス特徴を決定し、前記ポイントクラウドセマンティクス特徴に基づいて、前景点の部位位置情報を決定し、前記前景点は、前記ポイントクラウドデータのうち、ターゲットに属するポイントクラウドデータを表し、前記前景点の部位位置情報は、ターゲットにおける、前景点の相対的位置を表すためのものであり、前記ポイントクラウドデータに基づいて、少なくとも1つの初期3D枠を抽出し、前記ポイントクラウドデータに対応するポイントクラウドセマンティクス特徴、前記前景点の部位位置情報及び前記少なくとも1つの初期3D枠に基づいて、ターゲットの3D検出枠を決定し、前記検出枠内の領域にターゲットが存在する。従って、本願の実施例で提供されるターゲット検出方法は、3Dポイントクラウドデータからポイントクラウドセマンティクス特徴を直接的に取得し、前景点の部位位置情報を決定することができる。更に、ポイントクラウドセマンティクス特徴、前景点の部位位置情報及び少なくとも1つの3D枠に基づいて、ターゲットの3D検出枠を決定する。3Dポイントクラウドデータを鳥瞰図に投影して2D検出技術により鳥瞰図の枠を得る必要がない。計量化時、ポイントクラウドのオリジナル情報の損失を避け、鳥瞰図への投影による、遮蔽された物体の検出が困難であるという欠点を避ける。
上記の一般的な説明及び後述する細部に関する説明は、例示及び説明のためのものに過ぎず、本願を限定するものではないことが理解されるべきである。
本願の実施例によるターゲット検出方法を示すフローチャートである。 本願の適用実施例による3D部位感知及び集約ニューラルネットワークの総合的フレームワークを示す概略図である。 本願の適用実施例によるスパースアップサンプリング及び特徴修正のためのモジュールを示すブロック図である。 本願の適用実施例による異なる難易度レベルのKITTIデータセットのVAL分割セットに対して得られたターゲット部位位置の詳細誤差を示す統計図である。 本願の実施例によるターゲット検出装置の構造を示す概略図である。 本願の実施例による電子機器のハードウェア構造を示す概略図である。
ここで添付した図面は、明細書に引き入れて本明細書の一部分を構成し、本願に適合する実施例を示し、かつ、明細書とともに本願の技術的解決手段を解釈することに用いられる。
以下、図面及び実施例を参照しながら、本願を更に詳しく説明する。ここで提供される実施例は、本願を解釈するためのものに過ぎず、本願を限定するものではないことを理解すべきである。なお、以下にいて提供される実施例は、本願の一部の実施例を実行するためのものであり、本願の全ての実施例を実行するためのものではない。矛盾しない限り、本願の実施例に記載の技術的解決手段を任意の組み合わせで実行することができる。
本明細書において、用語「含む」、「備える」、またはそれらの他のいずれかの変形は、非排他的包含を包括するように意図される。従って、一連の要素を含む方法又は装置は、明確に記載された要素を含むだけでなく、明確に列挙されていない他の要素も含み、又は、このような方法又は装置に固有の要素も含む。更なる限定が存在しない場合、“・・・を含む”なる文章によって規定される要素は、該要素を有する方法又は装置内に、別の関連要素(例えば、方法における工程又は装置におけるユニットであり、ユニットは、例えば、一部の回路、一部のプロセッサ、一部のプログラム又はソフトウェアなどであってもよい)が更に存在することを排除しない。
例えば、本願の実施例で提供されるターゲット検出方法又はスマート運転方法は、一連の工程を含むが、本願の実施例で提供されるターゲット検出方法又はスマート運転方法は、記載した工程に限定されない。同様に、本願の実施例で提供されるターゲット検出装置は、一連のモジュールを備えるが、本願の実施例で提供される装置は、明確に記載されたモジュールを備えるものに限定されず、関連情報の取得、又は情報に基づく処理に必要なモジュールを更に備えてもよい。
本明細書において、用語「及び/又は」は、関連対象の関連関係を説明するためのものであり、3通りの関係が存在することを表す。例えば、A及び/又はBは、Aのみが存在すること、AとBが同時に存在すること、Bのみが存在するという3つの場合を表す。また、本明細書において、用語「少なくとも1つ」は、複数のうちのいずれか1つ又は複数のうちの少なくとも2つの任意の組み合わせを表す。例えば、A、B、Cのうちの少なくとも1つを含むことは、A、B及びCからなる集合から選ばれるいずれか1つ又は複数の要素を含むことを表す。
本願の実施例は、端末及びサーバからなるコンピュータシステムに適用され、多くの他の汎用又は専用コンピュータシステム環境又は構成と協働することができる。ここで、端末は、シンクライアント、シッククライアント、ハンドヘルド又はラップトップデバイス、マイクロプロセッサベースのシステム、セットトップボックス、プログラマブル消費者向け電子製品、ネットワークパソコン、小型コンピュータシステムなどであってもよい。サーバは、サーバコンピュータシステム、小型コンピュータシステム、大型コンピュータシステム及び上記如何なるシステムを含む分散型クラウドコンピューティング技術などであってもよい。
端末、サーバなどの電子機器は、コンピュータシステムにより実行されるコンピュータシステムによる実行可能な命令(例えば、プログラムモジュール)の一般的な内容で説明できる。一般的には、プログラムモジュールは、ルーチン、プログラム、ターゲットプログラム、ユニット、ロジック、データ構造などを含んでもよい。それらは、特定のタスクを実行するか又は特定の抽象的データタイプを実現させる。コンピュータシステム/サーバは、分散型クラウドコンピューティング環境で実行される。分散型クラウドコンピューティング環境において、タスクは、通信ネットワークを通じてリンクされたリモート処理デバイスによって実行される。分散型クラウドコンピューティング環境において、プログラムモジュールは、記憶装置を含むローカル又はリモートコンピューティングシステム記憶媒体に位置してもよい。
関連技術において、自動運転及びロボット技術の急速な成長に伴い、ポイントクラウドデータに基づく3Dターゲット検出技術は、ますます注目されている。ここで、ポイントクラウドデータは、レーダセンサにより取得される。画像においての2Dターゲット検出は、重要な成果を得たが、上記2Dターゲット検出方法をポイントクラウドに基づく三次元(3D)ターゲット検出に直接的に適用することは、依然として困難である。その主な原因は、レーザレーダ(LiDAR)センサにより発生したポイントクラウドデータがスパースで、不規則であることである。如何に不規則な点からポイントクラウドセマンティクス特徴を抽出して認識し、抽出した特徴に基づいて、前景と背景を分割し、3D検出枠の決定を行うかは、挑戦的な課題である。
自動運転及びロボットなどの分野において、3Dターゲット検出は、非常に重要な検討動向である。例えば、3Dターゲット検出により、3D空間での、周囲の車両及び歩行者の具体的な位置、形状やサイズ、移動方向などの重要な情報を決定することができる。これにより、自動運転車両又はロボットによる動作決定を補助する。
現在の関連する3Dターゲット検出の技術的解決手段において、一般的には、ポイントクラウドを鳥瞰図に投影し、2D検出技術を利用して鳥瞰図の枠を得る。又は、直接的に2D画像を利用して候補枠を選択し、特定の領域のポイントクラウドで対応する3D枠を回帰する。ここで、2D検出技術により得られた鳥瞰図の枠は、2D枠である。2D枠は、ターゲットのポイントクラウドデータの二次元平面を標識するための枠を表し、2D枠は、長方形又は他の二次元平面形状の枠であってもよい。
上記から分かるように、鳥瞰図に投影して計量化を行う場合、ポイントクラウドのオリジナル情報を損失してしまう。2D画像において検出を行う場合、遮蔽されたターゲットの検出は、困難である。なお、上記技術的解決手段を利用して3D枠の検出を行う場合、単独でターゲットの部位情報を考慮することがない。例えば、自動者にとって、車頭、車尾、車輪などの部位の位置情報は、ターゲットの3D検出に役立つ。
上記技術的課題について、本願の幾つかの実施例において、ターゲット検出方法を提供する。本願の実施例は、自動運転、ロボットナビゲーションなどのシーンに適用可能である。
図1は、本願の実施例によるターゲット検出方法を示すフローチャートである。図1に示すように、該フローは、以下を含んでもよい。
ステップ101において、3Dポイントクラウドデータを取得する。
実際の適用において、レーダセンサなどにより、ポイントクラウドデータを収集することができる。
ステップ102において、3Dポイントクラウドデータに基づいて、3Dポイントクラウドデータに対応するポイントクラウドセマンティクス特徴を決定する。
ポイントクラウドデータに対して、前景と背景を分割して前景点の3Dターゲット部位位置情報を予測するために、ポイントクラウドデータから、区別的な点ごとの特徴を学習する必要がある。ポイントクラウドデータに対応するポイントクラウドセマンティクス特徴を得るための実現形態について、例示的には、ポイントクラウド全体に対して3Dメッシュ化処理を行い、3Dメッシュを得て、3Dメッシュの非空白メッシュから、前記3Dポイントクラウドデータに対応するポイントクラウドセマンティクス特徴を抽出することができる。3Dポイントクラウドデータに対応するポイントクラウドセマンティクス特徴は、3Dポイントクラウドデータの座標情報などを表すことができる。
実際に実行する時、各メッシュの中心を新たな点とすることで、初期ポイントクラウドと近似的に同等であるメッシュ化ポイントクラウドを得る。上記メッシュ化ポイントクラウドは一般的には、スパースなものである。上記メッシュ化ポイントクラウドを得た後、スパース畳み込み処理に基づいて、上記メッシュ化ポイントクラウドの点ごとの特徴を抽出することができる。ここのメッシュ化ポイントクラウドの点ごとの特徴は、メッシュ化されたポイントクラウドの各点のセマンティクス特徴であり、上記ポイントクラウドデータに対応するポイントクラウドセマンティクス特徴とされてもよい。つまり、3D空間全体を標準化メッシュとしてメッシュ化処理を行い、続いて、スパース畳み込みにより、非空白メッシュから、ポイントクラウドセマンティクス特徴を抽出することができる。
3Dターゲット検出において、ポイントクラウドデータに対して、前景と背景の分割により、前景点及び背景点を得ることができる。前景点は、ターゲットに属するポイントクラウドデータを表し、背景点は、ターゲットに属しないポイントクラウドデータを表す。ターゲットは、車両、人物などの認識する必要がある物体であってもよい。例えば、前景と背景の分割方法は、閾値に基づく分割方法、領域に基づく分割方法、縁に基づく分割方法及び特定の理論に基づく分割方法などを含むが、これらに限定されない。
上記3Dメッシュのうちの非空白メッシュは、ポイントクラウドデータを含むメッシュを表す。上記3Dメッシュのうちの空白メッシュは、ポイントクラウドデータを含まないメッシュを表す。
ポイントクラウドデータ全体に対して3Dスパースメッシュ化を行うための実現形態について、1つの具体的な例において、3D空間全体のサイズは、70m*80m*4mであり、各メッシュのサイズは、5cm*5cm*10cmである。KITTIデータセットにおける各3Dシーンは、一般的には、16000個の非空白メッシュを有する。
ステップ103において、前記ポイントクラウドセマンティクス特徴に基づいて、前景点の部位位置情報を決定し、前記前景点は、前記ポイントクラウドデータのうち、ターゲットに属するポイントクラウドデータを表し、前記前景点の部位位置情報は、ターゲットにおける、前景点の相対的位置を表すためのものである。
前景点の部位位置情報を予測するための実現形態について、例示的には、上記ポイントクラウドセマンティクス特徴に基づいて、上記ポイントクラウドデータに対して前景と背景の分割を行い、前景点を決定することができる。前景点は、前記ポイントクラウドデータのうち、ターゲットに属するポイントクラウドデータである。
前景点の部位位置情報を予測するためのニューラルネットワークを利用して、決定された前景点を処理し、前景点の部位位置情報を得る。
ここで、上記ニューラルネットワークは、3D枠のアノテーション情報を含む訓練データセットにより訓練されたものである。3D枠のアノテーション情報は、少なくとも、前記訓練データセットのポイントクラウドデータの前景点の部位位置情報を含む。
本願の実施例において、前景と背景の分割方法を限定しない。例えば、焦点損失(focal loss)方法で、前景と背景の分割を実現させることができる。
実際の適用において、訓練データセットは、事前取得されたデータセットであってもよい。例えば、ターゲット検出する必要があるシーンに対して、レーダセンサなどを利用してポイントクラウドデータを事前取得し、続いて、ポイントクラウドデータに対して、前景点分割を行い、3D枠を区画し、3D枠にアノテーション情報を追加し、訓練データセットを得る。該アノテーション情報は、3D枠における、前景点の部位位置情報を表すことができる。ここで、訓練データセットにおける3D枠は、真値(ground−truth)枠と表記されてもよい。
ここで、3D枠は、ターゲットのポイントクラウドデータを標識するための立体枠を表す。3D枠は、長方体又は他の形状の立体枠であってもよい。
例示的には、訓練データセットを得た後、訓練データセットの3D枠のアノテーション情報に基づいて、バイナリ交差エントロピー損失を部位回帰損失として用いることで、前景点の部位位置情報を予測することができる。任意選択的に、ground−truth枠内又は枠外の全ての点をいずれも正負サンプルとして訓練を行う。
実際の適用において、上記3D枠のアノテーション情報は、正確な部位位置情報を含み、情報が豊であるという特徴を有し、且つ無料で取得されることが可能である。つまり、本願の実施例の技術的解決手段は、上記3D候補枠のアノテーション情報に基づいて推定された無料な監督情報に基づいて、ターゲットにおける前景点の部位位置情報を予測することができる。
上記から分かるように、本願の実施例において、スパース畳み込み処理により、オリジナルポイントクラウドデータの情報を直接的に抽出して前景と背景の分割に用い、各前景点の部位位置情報(即ち、3D枠におけるターゲットの位置情報)を予測し、各点がターゲットのどの部位に属するかに関わる情報を定量的に表すことができる。これは、関連技術におけるポイントクラウドの、鳥瞰図への投影による計量化損失及び2D画像検出における遮蔽の課題を避け、ポイントクラウドセマンティクス特徴抽出プロセスをより自然かつ効率的にすることができる。
ステップ104において、ポイントクラウドデータに基づいて、少なくとも1つの初期3D枠を抽出する。
ポイントクラウドデータに基づいて少なくとも1つの初期3D枠を抽出するための実現形態について、例示的には、領域候補ネットワーク(RegionProposal Network:RPN)を利用して少なくとも1つの3D候補枠を抽出することができる。各3D候補枠は、初期3D枠である。上記は、初期3D枠の抽出形態の例を説明するだけであり、本願の実施例は、これに限定されないことに留意されたい。
本願の実施例において、初期3D枠の各点の部位位置情報を集約することで、最終的な3D枠の生成に補助する。つまり、予測された各前景点の部位位置情報は、最終的な3D枠の生成に寄与する。
ステップ105において、ポイントクラウドデータに対応するポイントクラウドセマンティクス特徴、前記前景点の部位位置情報及び前記少なくとも1つの初期3D枠に基づいて、ターゲットの3D検出枠を決定し、前記検出枠内の領域にターゲットが存在する。
本ステップの実現形態について、例示的には、各初期3D枠に対して、前景点の部位位置情報及びポイントクラウドセマンティクス特徴のプーリング処理を行い、プーリングされた各初期3D枠の部位位置情報及びポイントクラウドセマンティクス特徴を得て、プーリングされた各初期3D枠の部位位置情報及びポイントクラウドセマンティクス特徴に基づいて、各初期3D枠の修正及び/又は各初期3D枠の信頼度決定を行い、前記ターゲットの3D検出枠を決定することができる。
ここで、各初期3D枠を修正した後、ターゲット検出を実現させるための最終的な3D枠を得ることができる。初期3D枠の信頼度は、初期3D枠における前景点の部位位置情報の信頼度を表すことができる。更に、初期3D枠の信頼度決定は、初期3D枠の修正に寄与する。これにより、最終的な3D検出枠を得る。
ここで、ターゲットの3D検出枠は、ターゲット検出のための3D枠を表すことができる。例示的には、ターゲットの3D検出枠を決定した後、ターゲットの3D検出枠に基づいて、画像におけるターゲットの情報を決定することができる。例えば、ターゲットの3D検出枠に基づいて、画像におけるターゲットの位置、サイズなどの情報を決定することができる。
本願の実施例において、各初期3D枠における前景点の部位位置情報及びポイントクラウドセマンティクス特徴について、同一の初期3D枠における全ての点の部位位置情報を集約することで3D枠の信頼度のスコアリング及び/又は修正を行う必要がある。
1つ目の例において、初期3D枠内の全ての点の特徴を直接的に取得して集約し、3D枠の信頼度のスコアリング及び修正に用いることができる。つまり、初期3D枠の部位位置情報及びポイントクラウドセマンティクス特徴に対して直接的にプーリング処理を行い、更に、初期3D枠の信頼度のスコアリング及び/又は修正を実現させることができる。ポイントクラウドがスパース性を有するため、上記1つ目の例における方法は、プーリングされた特徴から、初期3D枠の形状を復元することができず、初期3D枠の情報を損失する。
2つ目の例において、上記各初期3D枠を複数のメッシュに均一に分け、各メッシュに対して、前景点の部位位置情報及びポイントクラウドセマンティクス特徴のプーリング処理を行い、プーリングされた各初期3D枠の部位位置情報及びポイントクラウドセマンティクス特徴を得ることができる。
上記から分かるように、サイズの異なる初期3D枠について、一定の解像度の3Dメッシュ化特徴を発生する。任意選択的に、3D空間において、設定した解像度に基づいて、各初期3D枠に対して均一なメッシュ化処理を行うことができる。設定した解像度は、プーリング解像度と表記される。
任意選択的に、上記複数のメッシュのうちのいずれか1つのメッシュが前景点を含まない場合、いずれか1つのメッシュは、空白メッシュである。この場合、前記いずれか1つのメッシュの部位位置情報を空きとマーキングし、上記メッシュのプーリングされた前景点の部位位置情報を得て、前記メッシュのポイントクラウドセマンティクス特徴をセロとし、前記メッシュのプーリングされたポイントクラウドセマンティクス特徴を得ることができる。
上記複数のメッシュのうちのいずれか1つのメッシュが前景点を含む場合、前記メッシュの前景点の部位位置情報に対して平均プーリング処理を行い、上記メッシュのプーリングされた前景点の部位位置情報を得て、前記メッシュの前景点のポイントクラウドセマンティクス特徴を最大プーリング処理し、前記メッシュのプーリングされたポイントクラウドセマンティクス特徴を得ることができる。ここで、平均プーリングは、隣接領域内の前景点の部位位置情報の平均値を該メッシュのプーリングされた前景点の部位位置情報として取ることを指してもよい。最大プーリングは、隣接領域内の前景点の部位位置情報の最大値を該メッシュのプーリングされた前景点の部位位置情報として取ることを指してもよい。
上記から分かるように、前景点の部位位置情報に対して平均プーリング処理を行った後、プーリングされた部位位置情報は、各メッシュの中心位置情報を近似的に表すことができる。
本願の実施例において、上記メッシュのプーリングされた前景点の部位位置情報及び上記メッシュのプーリングされたポイントクラウドセマンティクス特徴を得た後、プーリングされた各初期3D枠の部位位置情報及びポイントクラウドセマンティクス特徴を得ることができる。ここで、プーリングされた各初期3D枠の部位位置情報は、初期3D枠に対応する各メッシュのプーリングされた前景点の部位位置情報を含み、プーリングされた各初期3D枠のポイントクラウドセマンティクス特徴は、初期3D枠に対応する各メッシュのプーリングされたポイントクラウドセマンティクス特徴を含む。
各メッシュに対して前景点の部位位置情報及びポイントクラウドセマンティクス特徴のプーリング処理を行う場合、空白メッシュに対しても対応する処理を行う。従って、得られたプーリングされた各初期3D枠の部位位置情報及びポイントクラウドセマンティクス特徴によれば、初期3D枠の幾何的情報をより好適に符号化することができる。更に、本願の実施例において、初期3D枠に敏感なプーリング処理が提供されたと認められる。
本願の実施例で提供された初期3D枠に敏感なプーリング処理は、サイズの異なる初期3D枠から、解像度が同じであるプーリングした特徴を得て、プーリングした特徴から、初期3D枠の形状を復元することができる。なお、プーリングした特徴によれば、初期3D枠内の部位位置情報の整合を容易に行うことができる。更に、初期3D枠の信頼度のスコアリング及び初期3D枠の修正に寄与する。
プーリングされた各初期3D枠の部位位置情報及びポイントクラウドセマンティクス特徴に基づいて、各初期3D枠の修正及び/又は各初期3D枠の信頼度決定を行うための実現形態について、例示的には、上記プーリングされた各初期3D枠の部位位置情報とポイントクラウドセマンティクス特徴を結合し、結合した特徴に基づいて、各初期3D枠の修正及び/又は各初期3D枠の信頼度決定を行うことができる。
本願の実施例において、プーリングされた各初期3D枠の部位位置情報及びポイントクラウドセマンティクス特徴を同一の特徴次元に変換し、続いて、同一の特徴次元の部位位置情報とポイントクラウドセマンティクス特徴を接続し、同一の特徴次元の部位位置情報とポイントクラウドセマンティクス特徴の結合を実現させることができる。
実際の適用において、プーリングされた各初期3D枠の部位位置情報及びポイントクラウドセマンティクス特徴は、いずれも特徴マップ(feature map)で表されてもよい。従って、プーリングで得られた特徴マップを同一の特徴次元に変換し、続いて、該2つの特徴マップを結合することができる。
本願の実施例において、結合した特徴は、m*n*kの行列であってもよく、m、n及びkはいずれも正整数である。結合した特徴は、後続の3D枠内の部位位置情報の整合に用いられる。更に、初期3D枠内の部位位置情報の整合により、3D枠内の部位位置情報の信頼度予測と3D枠の修正を行うことができる。
関連技術において、一般的には、初期3D枠のポイントクラウドデータを得た後、直接的にPointNetを利用してポイントクラウドの情報整合を行う。ポイントクラウドがスパース性を有するため、該操作により、初期3D枠の情報が損失され、3D部位位置情報の整合に不利である。
本願の実施例において、結合した特徴に基づいて、各初期3D枠の修正及び/又は各初期3D枠の信頼度決定を行う過程について、例示的には、下記幾つかの実現形態により実現することができる。
第1実現形態
前記結合した特徴をベクトル化して特徴ベクトルを得る。前記特徴ベクトルに基づいて、各初期3D枠の修正及び/又は各初期3D枠の信頼度決定を行う。具体的に実現する時、結合した特徴をベクトル化して特徴ベクトルを得た後、複数の全結合層(Fully−Connected layers:FC layers)を追加して、各初期3D枠の修正及び/又は各初期3D枠の信頼度決定を行う。ここで、全結合層は、ニューラルネットワークにおける1つの基礎ユニットであり、畳み込み層又はプーリング層における、カテゴリを区別できる局所的情報を整合することができる。
第2実現形態
結合した特徴に対してスパース畳み込み処理を行うことで、スパース畳み込み処理された特徴マップを得る。前記スパース畳み込み処理された特徴マップに基づいて、各初期3D枠の修正及び/又は各初期3D枠の信頼度決定を行う。任意選択的に、スパース畳み込み処理された特徴マップを得た後、更に、畳み込み処理により、局所的スケールから全局的スケールまでの特徴を段階的に集約することで、各初期3D枠の修正及び/又は各初期3D枠の信頼度決定を実現させる。具体的な例において、プーリング解像度が低い場合、第2実現形態により、各初期3D枠の修正及び/又は各初期3D枠の信頼度決定を行うことができる。
第3実現形態
結合した特徴に対してスパース畳み込み処理を行うことで、スパース畳み込み処理された特徴マップを得る。前記スパース畳み込み処理された特徴マップに対してダウンサンプリングを行い、ダウンサンプリングされた特徴マップに基づいて、各初期3D枠の修正及び/又は各初期3D枠の信頼度決定を行う。ここで、スパース畳み込み処理された特徴マップに対してダウンサンプリング処理を行うことで、各初期3D枠の修正及び/又は各初期3D枠の信頼度決定をより効果的に行うことができ、また演算リソースを節約することができる。
任意選択的に、スパース畳み込み処理された特徴マップを得た後、プーリング処理により、スパース畳み込み処理された特徴マップに対してダウンサンプリングを行うことができる。例えば、ここで、スパース畳み込み処理された特徴マップに対して行われるプーリング処理は、スパース最大プーリング(sparse max−pooling)処理である。
任意選択的に、スパース畳み込み処理された特徴マップに対してダウンサンプリングを行うことで、特徴ベクトルを得て、部位位置情報の整合に用いる。
つまり、本願の実施例において、プーリングされた各初期3D枠の部位位置情報及びポイントクラウドセマンティクス特徴を基礎として、メッシュ化した特徴を次第にダウンサンプリングし、符号化した特徴ベクトルを得て、3D部位位置情報の整合に用いることができる。続いて、該符号化した特徴ベクトルを利用して、各初期3D枠の修正及び/又は各初期3D枠の信頼度決定を行うことができる。
要するに、本願の実施例は、スパース畳み込み処理に基づく3D部位位置情報の整合処理を提供する。各初期3D枠内のプーリングした特徴の3D部位位置情報を層ごとに符号化することができる。該処理と、初期3D枠に敏感なプーリング処理と、を組み合わせることで、3D部位位置情報をより好適に集約して、最終的な初期3D枠の信頼度予測及び/又は初期3D枠の修正に用い、ターゲットの3D検出枠を得ることができる。
実際の適用において、ステップ101からステップ103は、電子機器のプロセッサにより実現することができる。上記プロセッサは、特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)、デジタル信号プロセッサ(Digital Signal Processor:DSP)、デジタル信号処理装置(Digital Signal Processing Device:DSPD)、プログラマブルロジックデバイス(Programmable Logic Device:PLD)、フィールドプログラマブルゲートアレイ(Field Programmable Gate Array:FPGA)、中央演算装置(Central Processing Unit:CPU)、コントローラ、マイクロコントローラ、マイクロプロセッサのうちの少なくとも1つであってもよい。様々な電子機器について、上記プロセッサの機能を実現させるための電子デバイスは、他のものであってもよく、本願の実施例はこれを具体的に限定するものではないことが理解されるべきである。
上記から分かるように、本願の実施例で提供されるターゲット検出方法は、3Dポイントクラウドデータからポイントクラウドセマンティクス特徴を直接的に取得し、前景点の部位位置情報を決定することができる。更に、ポイントクラウドセマンティクス特徴、前景点の部位位置情報及び少なくとも1つの3D枠に基づいて、ターゲットの3D検出枠を決定する。3Dポイントクラウドデータを鳥瞰図に投影して2D検出技術により鳥瞰図の枠を得る必要がない。計量化時、ポイントクラウドのオリジナル情報の損失を避け、鳥瞰図への投影による、遮蔽された物体の検出が困難であるという欠点を避ける。
上述したターゲット検出方法によれば、本願の実施例は、スマート運転装置に適用されるスマート運転方法を更に提供する。該スマート運転方法は、上記いずれか1つのターゲット検出方法により、前記スマート運転装置の周囲の前記ターゲットの3D検出枠を得ることと、前記ターゲットの3D検出枠に基づいて、運転ポリシーンを生成することと、を含む。
一例において、スマート運転装置は、自動運転車両、ロボット、盲導機器などを含む。この場合、スマート運転装置は、生成した運転ポリシーに基づいて運転制御を行うことができる。もう1つの例において、スマート運転装置は、運転支援システムが搭載された車両を含む。この場合、生成した運転ポリシーは、運転者を、車両の運転制御を行うように導くために用いられる。
以下、具体的な適用実施例により、本願を更に説明する。
該適用実施例の技術的解決手段において、オリジナルポイントクラウドからターゲット検出を行う3D部位感知及び集約ニューラルネットワーク(Part−Aネットワークと命名されてもよい)を提供する。該ネットワークのフレームワークは、新規な、ポイントクラウドに基づく三次元ターゲット検出の二段階フレームワークである。それは、下記2つの段階からなるものであってもよい。ここで、第1段階は、部位感知段階であり、第2段階は、部位集約段階である。
まず、部位感知段階において、3D枠のアノテーション情報に基づいて、無料な監督情報を推定すると同時に、初期3D枠及び正確な部位位置(intra−object part locations)情報を予測することができる。続いて、同じ枠内の前景点の部位位置情報を集約することで、3D枠特徴の符号を効果的に表すことができる。部位集約段階において、プーリングされた部位位置情報の空間的関係を整合することによって3D枠の再度スコアリング(信頼度のスコアリング)及び位置の修正に用いる。KITTIデータセットに対して大量の実験を行った結果、予測した前景点の部位位置情報は、3Dターゲット検出に寄与し、また、3D部位感知及び集約ニューラルネットワークに基づくターゲット検出方法は、関連技術におけるポイントクラウドを入力フィードとしたターゲット検出方法よりも好適であることが証明された。
本願の幾つかの実施例において、鳥瞰図又は2D画像からターゲット検出を行うという技術的解決手段と異なっており、前景点に対して分割を行うことで、オリジナルポイントクラウドから初期3D枠(即ち、3D候補枠)を直接的に生成するという技術的解決手段を提供する。ここで、分割タグは、訓練データセットにおける3D枠のアノテーション情報に基づいて得られた。しかしながら、3D枠のアノテーション情報は、分割マスクを提供するだけでなく、3D枠内の全ての点の正確な枠内部位位置も提供する。これは、2D画像における枠アノテーション情報と全く異なる。その原因は、2D画像における一部の対象が遮蔽される可能性があることである。二次元ground−truth枠を利用してターゲット検出を行う場合、ターゲット内の各画素で騒音を有する不正確な枠内部位位置を発生する。それに対して、上記3D枠内の部位位置は正確であり、且つ情報が豊であり、無料で得られるが、3Dターゲット検出において全く使用されない。
該重要な発見によれば、幾つかの実施例において、上記Part−Aネットワークが提出された。具体的には、最初に行われる部位感知段階において、該ネットワークは、学習により、全ての前景点のターゲット部位位置情報を推定する。ここで、部位位置のアノテーション情報及び分割マスクは、手動でアノテーションされた真の情報から直接的に生成される。ここで、手動でアノテーションされた真の情報は、Ground−truthと表記されてもよい。例えば、手動でアノテーションされた真の情報は、手動でアノテーションされた三次元枠であってもよい。実際に実施する時、三次元空間全体を小さなメッシュに分け、スパース畳み込みに基づく三次元UNET−likeニューラルネットワーク(U型ネットワーク構造)を利用して点の特徴を学習することができる。U型ネットワーク構造にRPNヘッドを追加し、初期3D候補枠を生成する。更に、これらの部位を集約し、部位集約段階に進む。
部位集約段階の動機は、一組の3D候補枠における点を与えることである。上記Part−Aネットワークは、候補枠の品質を評価し、予測した、全てのこれらの点のターゲット部位位置情報の空間的関係を学習することで該候補枠を最適化することができる。従って、同一の3D枠内の点をグループ化するために、新たな感知ポイントクラウドプーリングモジュールを提出し、RoI感知ポイントクラウドプーリングモジュールと表記する。RoI感知ポイントクラウドプーリングモジュールは、新たなプーリング処理により、ポイントクラウドで領域プーリングを行う時のぼやけを除去することができる。関連技術のプーリング処理方策において全てのポイントクラウド又は非空白ボクセルでプーリング処理を行うことと異なっており、RoI感知ポイントクラウドプーリングモジュールは、3D枠における全てのメッシュ(非空白メッシュ及び空白メッシュを含む)でプーリング処理を行う。空白メッシュでは3D枠情報の符号化も行うため、これは、3D枠のスコアの生成及び位置修正の効果的な表示のためのキーポイントである。プーリング処理を行った後、上記ネットワークは、スパース畳み込み及びプーリング処理により部位位置情報を集約することができる。実験を行った結果、部位特徴を集約することで、候補枠の品質を著しく向上させることができ、三次元検出基準において、最先端の性能を達成することが明らかである。
複数のセンサから取得されたデータに基づく3Dターゲット検出と異なっており、本願の適用実施例において、3D部位感知及び集約ニューラルネットワークは、ポイントクラウドデータのみを入力として用いることで、関連技術と類似した3D検出結果、ひいてはより好適な3D検出結果を得ることができる。更に、上記3D部位感知及び集約ニューラルネットワークのフレームワークにおいて、3D枠のアノテーション情報により提供される豊かな情報を更に探索し、正確なターゲット部位位置情報を学習して予測し、3Dターゲット検出性能を向上させる。更に、本願の適用実施例は、U型ネットワーク構造のバックボーンネットワークを提供する。それは、スパース畳み込み及び逆畳み込みにより、ポイントクラウド特徴を抽出して認識し、ターゲット部位位置情報予測及び三次元ターゲット検出に用いることができる。
図2は、本願の適用実施例による3D部位感知及び集約ニューラルネットワークの総合的フレームワークを示す概略図である。図2に示すように、該3D部位感知及び集約ニューラルネットワークのフレームワークは、部位感知段階及び部位集約段階を含む。ここで、部位感知段階において、オリジナルポイントクラウドデータを新しく設計されたU型ネットワーク構造のバックボーンネットワークに入力することで、ターゲット部位位置を正確に推定して3D候補枠を生成することができる。部位集約段階において、RoI感知ポイントクラウドプーリングモジュールに基づくプーリング処理を行う。具体的には、各3D候補枠内の部位情報をグループ化し、続いて、部位集約ネットワークを利用して各部位間の空間的関係を考慮し、3D枠に対するスコアリング及び位置修正を行う。
三次元空間における対象は、自然に分離したものであるため、3Dターゲット検出のground−truth枠は、各3D点のために、正確なターゲット部位位置及び分割マスクを提供する。これは、2Dターゲット検出と大きく異なっており、2Dターゲット枠が遮蔽されるため、ターゲットの一部のみを含む可能性がある。従って、各2D画素のために、正確なターゲット部位位置を提供することができない。
本願の実施例のターゲット検出方法は、種々のシーンに適用可能である。1つ目の例において、上記ターゲット検出方法を利用して自動運転シーンにおける3Dターゲット検出を行うことができる。周囲のターゲットの位置、大きさ、移動方向などの情報を検出することで、自動運転ポリシーの決定を支援する。2つ目の例において、上記ターゲット検出方法を利用して3Dターゲットの追跡を実現させることができる。具体的には、各時刻で、上記ターゲット検出方法を利用して3Dターゲット検出を実現させることができる。検出結果を3Dターゲット追跡の根拠とすることができる。3つ目の例において、上記ターゲット検出方法を利用して3D枠内のポイントクラウドのプーリング処理を行うことができる。具体的には、異なる3D枠内のスパースポイントクラウドをプーリングして、一定の解像度を有する3D枠の特徴を得ることができる。
該重要な発見によれば、本願の適用実施例において、ポイントクラウドから3Dターゲット検出を行うための上記Part−Aネットワークが提出された。具体的には、我々は、3D部位位置タグ及び分割タグを付加的監督情報として導入する。これは、3D候補枠の生成に寄与する。部位集約段階において、各3D候補枠内の予測した3Dターゲット部位位置情報を集約することで、該候補枠に対するスコアリング及び位置修正を行う。
以下、本願の適用実施例のフローを具体的に説明する。
まず、3D点のターゲット部位位置情報を学習して推定する。具体的には、図2に示すように、本願の適用実施例は、U型ネットワーク構造を設計した。得られたスパースメッシュにおいてスパース畳み込み及びスパース逆畳み込みを行うことで、前景点の点ごとの特徴表示を学習することができる。図2において、ポイントクラウドデータに対して、ステップ幅が2であるスパース畳み込み処理を3回実行することができる。従って、ポイントクラウドデータの空間解像度をダウンサンプリングにより初期空間解像度の1/8に低下させることができる。各回のスパース畳み込み処理は、複数の部分多様体スパース畳み込みを含む。ここで、スパース畳み込み処理のステップ幅は、ポイントクラウドデータが達成する必要がある空間解像度によって決まってもよい。例えば、ポイントクラウドデータが達成する必要がある空間解像度が低いほど、スパース畳み込み処理のステップ幅は、長く設定される必要がある。ポイントクラウドデータに対して3回のスパース畳み込み処理を実行した後、3回のスパース畳み込み処理の後に得られた特徴に対してスパースアップサンプリング及び特徴修正を行う。本願の実施例において、スパース処理に基づくアップサンプリングブロック(スパースアップサンプリング処理を実行するためのもの)は、融合特徴を修正して演算リソースを節約するために用いられる。
スパースアップサンプリング及び特徴修正は、スパースアップサンプリング及び特徴修正モジュールにより実現することができる。図3は、本願の適用実施例によるスパースアップサンプリング及び特徴修正モジュールを示すブロック図である。該モジュールは、スパース畳み込みに基づくU型ネットワーク構造のバックボーンネットワークのデコーダに適用される。図3に示すように、スパース畳み込みにより、まず、横方向特徴と底部特徴を融合し、続いて、スパース逆畳み込みにより、融合した特徴に対して特徴アップサンプリングを行う。図3において、スパース畳み込み3×3×3は、畳み込みカーネルの大きさが3×3×3であるスパース畳み込みを表す。チャネル接続(contcat)は、チャネル方向での、特徴ベクトルの接続を表す。チャネル縮減(channel reduction)は、チャネル方向での、特徴ベクトルの縮減を表す。
Figure 2021532442
は、特徴ベクトルに応じてチャネル方向で加算を行うことを表す。図3を参照すると、横方向特徴及び底部特徴に対して、スパース畳み込み、チャネル接続、チャネル縮減、スパース逆畳み込み等の処理を行い、横方向特徴及び底部特徴に対する特徴修正を実現させることが明らかである。
図2を参照すると、3回のスパース畳み込み処理後に得られた特徴に対してスパースアップサンプリング及び特徴修正を行った後、スパースアップサンプリング及び特徴修正が行われた特徴に対して、セマンティックセグメンテーション及びターゲット部位位置検出を行うこともできる。
ニューラルネットワークを利用してターゲットを認識して検出する場合、ターゲット内の部位位置情報は不可欠なものである。例えば、車両の側面も、地面に垂直な平面である。2つの車輪は、常に地面に近い。各点の前景分割マスク及びターゲット部位位置を学習して推定することで、ニューラルネットワークは、物体の形状及び姿勢の推定能力を向上させる。これは、3Dターゲット検出に寄与する。
具体的に実行する時、上記スパース畳み込みに基づくU型ネットワーク構造のバックボーンネットワークに、2つの分岐を付加する。該2つの分岐はそれぞれ、前景点の分割及びそれらの物体部位位置の予測に用いられる。前景点の物体部位位置を予測する場合、訓練データセットの3D枠のアノテーション情報に基づいて予測を行うことができる。訓練データセットにおいて、ground−truth枠内又は枠外の全ての点は、いずれも正負サンプルとして訓練される。
3D ground−truth枠は、3D部位位置タグを自動的に提供する。前景点の部位タグ(p,p,p)は、既知のパラメータである。ここで、(p,p,p)を部位位置タグ(O,O,O)に変換することで、対応するターゲットにおける相対的位置を表す。3D枠は、(C,C,C,h,w,l,
Figure 2021532442
)で表される。ここで、(C,C,C)は、3D枠の中心位置を表す。(h,w,l)は、3D枠に対応する鳥瞰図のサイズを表す。
Figure 2021532442
は、対応する鳥瞰図における、3Dの方向を表し、即ち、対応する鳥瞰図における、3D枠の向きと鳥瞰図のX軸方向との挟角を表す。部位位置タグ(O,O,O)は、式(1)により算出される。
Figure 2021532442
(1)
ただし、O,O,O∈[0,1]である。ターゲット中心の部位位置は、(0.5,0.5,0.5)である。ここで、式(1)に係る座標は、KITTIのレーザレーダ座標系により表される。ここで、z方向は、地面に垂直であり、x及びy方向は、水平面にある。
ここで、バイナリ交差エントロピー損失を部位回帰損失として用いることで、3次元に沿った、前景点部位の位置を学習することができる。その表現式は、以下のとおりである。
Figure 2021532442
(2)
ただし、Pは、シグモイド層(Sigmoid Layer)の後の予測したターゲット内の部位位置を表す。
Figure 2021532442
は、予測した3D点の部位位置情報を表す。ここで、前景点のみに対して部位位置予測を行うことができる。
本願の適用実施例において、3D候補枠を生成することもできる。具体的には、3Dターゲット検出により予測したターゲット内の部位位置を集約するために、3D候補枠を生成して同一のターゲットからの推定した前景点のターゲット部位情報を集約する必要がある。実際に実行する場合、図2に示すように、スパース畳み込みエンコーダにより生成された特徴マップ(即ち、ポイントクラウドデータに対して3回のスパース畳み込み処理を行った後に得られた特徴マップ)に同一のRPNヘッドを付加する。3D候補枠を生成する場合、特徴マップを8倍サンプリングし、同一の鳥瞰位置の異なる高さでの特徴を集約し、3D候補枠生成のための2D鳥瞰特徴マップを生成する。
図2を参照すると、抽出された3D候補枠に対して、部位集約段階でプーリング処理を行うことができる。プーリング処理の実現形態について、幾つかの実施例において、ポイントクラウド領域プーリング処理が提出された。3D候補枠における点ごとの特徴に対してプーリング処理を行い、続いて、プーリング処理された特徴マップに基づいて、3D候補枠を修正することができる。しかしながら、このようなプーリング処理は、3D候補枠情報を損失する。その原因は、3D候補枠における点が、規則的に分布しておらず、且つプーリングした点からの3D枠の復元によるぼやけを有することである。
図4は、本願の適用実施例によるポイントクラウドプーリング処理を示す概略図である。図4に示すように、前のポイントクラウドプーリング処理は、上述したポイントクラウド領域プーリング処理を表す。丸印は、プーリングした点を表す。図面から分かるように、上述したポイントクラウド領域プーリング処理を用いると、異なる3D候補枠は、同一のプーリングした点を引き起こす。つまり、上述したポイントクラウド領域プーリング処理は、ぼやけを有し、前のポイントクラウドプーリング方法で初期3D候補枠形状を回復することができない。これは、後続の候補枠修正に悪影響を与えてしまう。
プーリング処理の実現形態について、別の幾つかの実施例において、ROI感知ポイントクラウドプーリング処理を提出した。ROI感知ポイントクラウドプーリング処理の具体的なプロセスは以下のとおりである。前記各3D候補枠を複数のメッシュに均一に分け、前記複数のメッシュのうちのいずれか1つのメッシュが前景点を含まない場合、前記いずれか1つのメッシュは、空白メッシュである。この場合、前記いずれか1つのメッシュの部位位置情報を空きとマーキングし、前記いずれか1つのメッシュのポイントクラウドセマンティクス特徴をセロとすることができる。前記各メッシュの前景点の部位位置情報に対して平均プーリング処理を行い、前記各メッシュの前景点のポイントクラウドセマンティクス特徴に対して最大プーリング処理を行い、プーリングされた各3D候補枠の部位位置情報及びポイントクラウドセマンティクス特徴を得る。
図4を参照すると、ROI感知ポイントクラウドプーリング処理は、空白メッシュを残すことで3D候補枠の形状に対して符号化を行うことができ、スパース畳み込みにより、候補枠の形状(空白メッシュ)を処理することができることが理解されるべきである。
つまり、RoI感知ポイントクラウドプーリング処理の具体的な実現形態について、3D候補枠を、一定の空間的形状(H*W*L)を有する規則的なメッシュに均一に分けることができる。ここで、H、W及びLは、それぞれ、各次元での、プーリング解像度の高さ、幅及び長さハイパーパラメータを表し、これらは、3D候補枠のサイズに関わらない。各メッシュ内の点特徴を集約(例えば、最大プーリング又は平均プーリング)することで、各メッシュの特徴を算出する。上記から分かるように、ROI感知ポイントクラウドプーリング処理によれば、異なる3D候補枠を同一の局所的空間座標に正規化することができる。ここで、各メッシュが3D候補枠における対応する固定位置の特徴を符号化することは、3D候補枠の符号化にとって、より有意義であり、また、後続の3D候補枠のスコアリング及び位置修正に寄与する。
プーリングされた3D候補枠の部位位置情報及びポイントクラウドセマンティクス特徴を得た後、3D候補枠修正のための部位位置集約を実行することもできる。
具体的には、1つの3D候補枠における全ての3D点の予測したターゲット部位位置の空間的分布を考慮することで、部位位置を集約することで該3D候補枠の品質を評価することは、合理的であると認められる。部位位置の集約の課題を最適化課題として表し、対応する3D候補枠における全ての点の予測した部位位置をフィッティングすることで、3D境界枠のパラメータを直接的に求めることができる。しかしながら、このような数学的方法は、異常値及び予測した部位のオフセットの品質に敏感である。
該課題を解決するために、本願の適用実施例において、学習に基づく方法を提供する。該方法によれば、部位位置情報を確実に集約して、3D候補枠のスコアリング(即ち、信頼度)及び位置修正に用いることができる。各3D候補枠について、我々は、それぞれ、3D候補枠の部位位置情報及びポイントクラウドセマンティクス特徴に対して、提出したROI感知ポイントクラウドプーリング処理を適用し、2つのサイズが(14*14*14*4)及び(14*14*14*C)である特徴マップを生成する。ここで、予測した部位位置情報は、4次元マップに対応する。3個の次元は、XYZ次元を表し、部位位置を示すためのものである。1つの次元は、前景分割スコアを表す。Cは、部位感知段階で得られた点ごとの特徴の特徴サイズを表す。
プーリング処理を行った後、図2に示すように、部位集約段階において、階層化方式で、予測したターゲット部位位置の空間的分布から学習することができる。具体的には、まず、カーネルサイズが3*3*3であるスパース畳み込み層を利用して2つのプーリングした特徴マップ(プーリングした3D候補枠の部位位置情報及びポイントクラウドセマンティクス特徴を含む)を同一の特徴次元に変換する。続いて、該2つの同一の特徴次元の特徴マップを接続する。接続した特徴マップに対して、4つのカーネルサイズが3*3*3であるスパース畳み込み層をスタッキングすることでスパース畳み込み処理を行う。受容野の増加に伴い、部位情報を次第に集約することができる。実際に実行する場合、プーリングした特徴マップを同一の特徴次元の特徴マップに変換した後、カーネルサイズが2*2*2であってステップ幅が2*2*2であるスパース最大化池プーリング処理を行い、特徴マップの解像度を7*7*7にダウンサンプリングする。これにより、演算リソース及びパラメータを節約する。4つのカーネルサイズが3*3*3であるスパース畳み込み層をスタッキングしてスパース畳み込み処理を行った後、スパース畳み込み処理で得られた特徴マップをベクトル化(図2におけるFCに対応する)し、1つの特徴ベクトルを得る。特徴ベクトルを得た後、2つの分岐を付加して最終の3D候補枠のスコアリング及び3D候補枠位置修正を行ってもよい。例示的に、3D候補枠のスコアは、3D候補枠の信頼度のスコアを表す。3D候補枠の信頼度のスコアは、少なくとも、3D候補枠における前景点の部位位置情報のスコアを表す。
プーリングした三次元特徴マップを直接的にベクトル化して特徴ベクトルを得るという方法に比べて、本願の適用実施例で提供される部位集約段階の実行プロセスにおいて、局所的スケールから全局的スケールまで特徴を効果的に集約することができる。従って、予測した部位位置の空間的分布を学習することができる。プーリングしたメッシュが非常にスパースなものであるため、スパース畳み込みを利用することで、大量の演算リソース及びパラメータを節約する。関連技術において、各メッシュを3D候補枠における1つの特定の位置の特徴と符号化する必要があるため、関連技術において、プーリングしたメッシュが非常にスパースなものであることを無視することができない(つまり、スパース畳み込みにより部位位置集約を行うことができない)。
図2を参照すると、3D候補枠に対して位置修正を行った後、最終的な3D枠である、位置修正された3D枠を得て、3Dターゲット検出の実現に用いることが理解されるべきである。
本願の適用実施例において、2つの分岐を、予測した部位位置を集約したベクトル特徴ベクトルに付加することができる。3D候補枠のスコアリング(即ち、信頼度)分岐について、3D候補枠と、それに対応するground−truth枠と、3D重なり度合い(Intersection Over Union:IOU)を3D候補枠品質評価のソフトタグとして用いることができる。式(2)により、バイナリ交差エントロピー損失を利用して3D候補枠のスコアリングを学習することもできる。
3D候補枠の生成及び位置修正について、ターゲット回帰方策により、平滑−L1(smooth−L1)損失を利用して正規化枠パラメータを回帰することができる。具体的な実現プロセスは、式(3)に示すとおりである。
Figure 2021532442
(3)
ただし、
Figure 2021532442

Figure 2021532442
及び
Figure 2021532442
はそれぞれ、3D枠中心位置のオフセットを表す。
Figure 2021532442

Figure 2021532442
及び
Figure 2021532442
はそれぞれ、3D枠に対応する鳥瞰図のサイズのオフセットを表す。
Figure 2021532442
は、3D枠に対応する鳥瞰図の方向のオフセットを表す。dは、正規化鳥瞰図における中心オフセットを表す。x、y及びzは、3Dアンカー/候補枠の中心位置を表す。h、w及びlは、3Dアンカー/候補枠に対応する鳥瞰図のサイズを表す。
Figure 2021532442
は、3Dアンカー/候補枠に対応する鳥瞰図の方向を表す。x、y及びzは、対応するground−truth枠の中心位置を表す。h、w及びlは、該ground−truth枠に対応する鳥瞰図のサイズを表す。
Figure 2021532442
は、該ground−truth枠に対応する鳥瞰図の方向を表す。
関連技術における候補枠修正方法と異なっており、本願の適用実施例において、直接的に3D候補枠のパラメータの回帰の相対的オフセット又はサイズ比率に基づいて、3D候補枠の位置修正を行うことができる。その原因は、上記ROI感知ポイントクラウドプーリングモジュールが3D候補枠の全ての共有情報を符号化して、異なる3D候補枠を同一の正規化空間座標系に伝送したことである。
上記から分かるように、等しい損失重み1を有する部位感知段階において、3つの損失が存在する。該3つの損失は、前景点分割による焦点損失、ターゲット内の部位位置の回帰によるバイナリ交差エントロピー損失及び3D候補枠生成による平滑−L1損失を含む。部位集約段階において2つの損失を含み、損失重みが同じである。該2つの損失は、IOU回帰によるバイナリ交差エントロピー損失及び位置修正による平滑L1損失を含む。
したがって、本願の適用実施例は、新たな3Dターゲット検出方法を提供する。つまり、上記Part−Aネットワークを利用してポイントクラウドから三次元ターゲットを検出する。部位感知段階で、3D枠からの位置タグを利用して、正確なターゲット部位位置の推定を学習する。新たなROI感知ポイントクラウドプーリングモジュールにより各ターゲットの予測した部位位置をグループ化する。従って、部位集約段階で、予測したターゲット内の部位位置の空間的関係を考慮して、3D候補枠をスコアリングし、それらの位置を修正することができる。実験を行った結果、該適用実施例のターゲット検出方法は、挑戦性を有するKITTI三次元検出基準において、最先端の性能を達成し、該方向の有効性が証明されたことが明らかである。
具体的な実施形態の上記方法において、各ステップの記述順番は、厳しい実行順番として実施過程を限定するものではなく、各ステップの具体的な実行順番はその機能及び考えられる内在的論理により決まることは、当業者であれば理解すべきである。
前記実施例で提供されるターゲット検出方法によれば、本願の実施例は、ターゲット検出装置を提供する。
図5は、本願の実施例によるターゲット検出装置の構造を示す概略図である。図5に示すように、前記装置は、電子機器にある。前記装置は、取得モジュール601と、第1処理モジュール602と、第2処理モジュール603と、を備え、
取得モジュール601は、3Dポイントクラウドデータを取得し、前記3Dポイントクラウドデータに基づいて、前記3Dポイントクラウドデータに対応するポイントクラウドセマンティクス特徴を決定するように構成され、
第1処理モジュール602は、前記ポイントクラウドセマンティクス特徴に基づいて、前景点の部位位置情報を決定し、前記前景点は、前記ポイントクラウドデータのうち、ターゲットに属するポイントクラウドデータを表し、前記前景点の部位位置情報は、ターゲットにおける、前景点の相対的位置を表すためのものであり、前記ポイントクラウドデータに基づいて、少なくとも1つの初期3D枠を抽出するように構成され、
第2処理モジュール603は、前記ポイントクラウドデータに対応するポイントクラウドセマンティクス特徴、前記前景点の部位位置情報及び前記少なくとも1つの初期3D枠に基づいて、ターゲットの3D検出枠を決定するように構成され、前記検出枠内の領域にターゲットが存在する。
一実施形態にいて、前記第2処理モジュール603は、各初期3D枠に対して、前景点の部位位置情報及びポイントクラウドセマンティクス特徴のプーリング処理を行い、プーリングされた各初期3D枠の部位位置情報及びポイントクラウドセマンティクス特徴を得て、プーリングされた各初期3D枠の部位位置情報及びポイントクラウドセマンティクス特徴に基づいて、各初期3D枠の修正及び/又は各初期3D枠の信頼度決定を行い、前記ターゲットの3D検出枠を決定するように構成される。
一実施形態において、前記第2処理モジュール603は、各初期3D枠を複数のメッシュに均一に分け、各メッシュに対して、前景点の部位位置情報及びポイントクラウドセマンティクス特徴のプーリング処理を行い、プーリングされた各初期3D枠の部位位置情報及びポイントクラウドセマンティクス特徴を得て、プーリングされた各初期3D枠の部位位置情報及びポイントクラウドセマンティクス特徴に基づいて、各初期3D枠の修正及び/又は各初期3D枠の信頼度決定を行い、前記ターゲットの3D検出枠を決定するように構成される。
一実施形態において、前記第2処理モジュール603は、各メッシュに対して前景点の部位位置情報及びポイントクラウドセマンティクス特徴のプーリング処理を行う場合、1つのメッシュに前景点が含まれないことに応答して、前記メッシュの部位位置情報を空きとマーキングし、前記メッシュのプーリングされた前景点の部位位置情報を得て、前記メッシュのポイントクラウドセマンティクス特徴をゼロとし、前記メッシュのプーリングされたポイントクラウドセマンティクス特徴を得て、1つのメッシュに前景点が含まれることに応答して、前記メッシュの前景点の部位位置情報に対して平均プーリング処理を行い、前記メッシュのプーリングされた前景点の部位位置情報を得て、前記メッシュの前景点のポイントクラウドセマンティクス特徴に対して最大プーリング処理を行い、前記メッシュのプーリングされたポイントクラウドセマンティクス特徴を得るように構成される。
一実施形態において、前記第2処理モジュール603は、各初期3D枠に対して、前景点の部位位置情報及びポイントクラウドセマンティクス特徴のプーリング処理を行い、プーリングされた各初期3D枠の部位位置情報及びポイントクラウドセマンティクス特徴を得て、前記プーリングされた各初期3D枠の部位位置情報とポイントクラウドセマンティクス特徴を結合し、結合した特徴に基づいて、各初期3D枠の修正及び/又は各初期3D枠の信頼度決定を行うように構成される。
一実施形態において、前記第2処理モジュール603は、結合した特徴に基づいて、各初期3D枠の修正及び/又は各初期3D枠の信頼度決定を行う場合、
前記結合した特徴をベクトル化して特徴ベクトルを得て、前記特徴ベクトルに基づいて、各初期3D枠の修正及び/又は各初期3D枠の信頼度決定を行うように構成され、
又は、前記結合した特徴に対してスパース畳み込み処理を行うことで、スパース畳み込み処理された特徴マップを得て、前記スパース畳み込み処理された特徴マップに基づいて、各初期3D枠の修正及び/又は各初期3D枠の信頼度決定を行うように構成され、
又は、前記結合した特徴に対してスパース畳み込み処理を行うことで、スパース畳み込み処理された特徴マップを得て、前記スパース畳み込み処理された特徴マップに対してダウンサンプリングを行い、ダウンサンプリングされた特徴マップに基づいて、各初期3D枠の修正及び/又は各初期3D枠の信頼度決定を行うように構成される。
一実施形態において、前記第2処理モジュール603は、前記スパース畳み込み処理された特徴マップに対してダウンサンプリングを行う場合、前記スパース畳み込み処理された特徴マップに対してプーリング処理を行うことで、前記スパース畳み込み処理された特徴マップに対するダウンサンプリング処理を実現させるように構成される。
一実施形態において、前記取得モジュール601は、3Dポイントクラウドデータを取得し、前記3Dポイントクラウドデータに対して3Dメッシュ化処理を行い、3Dメッシュを得て、前記3Dメッシュの非空白メッシュから、前記3Dポイントクラウドデータに対応するポイントクラウドセマンティクス特徴を抽出するように構成される。
一実施形態において、前記第1処理モジュール602は、前記ポイントクラウドセマンティクス特徴に基づいて前景点の部位位置情報を決定する場合、前記ポイントクラウドセマンティクス特徴に基づいて、前記ポイントクラウドデータに対して前景と背景の分割を行い、前景点を決定し、前景点は、前記ポイントクラウドデータのうち、前景に属するポイントクラウドデータであり、前景点の部位位置情報を予測するためのニューラルネットワークを利用して、決定された前景点を処理し、前景点の部位位置情報を得るように構成され、前記ニューラルネットワークは、3D枠のアノテーション情報を含む訓練データセットにより訓練されたものであり、前記3D枠のアノテーション情報は、少なくとも、前記訓練データセットのポイントクラウドデータの前景点の部位位置情報を含む。
また、本願の各実施例における各機能ユニットは一つの処理ユニットに集積されてもよいし、各ユニットが物理的に別個のものとして存在してもよいし、2つ以上のユニットが一つのユニットに集積されてもよい。上記集積したユニットはハードウェアとして実現してもよく、ハードウェアとソフトウェア機能ユニットとの組み合わせて実現してもよい。
上記集積したユニットがソフトウェア機能ユニットの形で実現され、かつ独立した製品として販売または使用されるとき、コンピュータにより読み取り可能な記憶媒体内に記憶されてもよい。このような理解のもと、本願の技術的解決手段は、本質的に、又は、従来技術に対して貢献をもたらした部分又は該技術的解決手段の一部は、ソフトウェア製品の形式で具現することができ、このようなコンピュータソフトウェア製品は、記憶媒体に記憶しても良く、また、コンピュータ機器(パーソナルコンピュータ、サーバ、又はネットワーク装置など)又はprocessor(プロセッサ)に、本願の各実施例に記載の方法の全部又は一部のステップを実行させるための若干の命令を含む。前記の記憶媒体は、USBメモリ、リムーバブルハードディスク、読み出し専用メモリ(Read Only Memory:ROM)、ランダムアクセスメモリ(Random Access Memory:RAM)、磁気ディスク、又は光ディスクなど、プログラムコードを記憶可能な各種の媒体を含む。
具体的には、本実施例におけるいずれか1つのターゲット検出方法又はスマート運転方法に対応するコンピュータプログラム命令は、光ディスク、ハードディスク、USBメモリなどの記憶媒体に記憶されてもよい。記憶媒体における、いずれか1つのターゲット検出方法又はスマート運転方法に対応するコンピュータプログラム命令が電子機器により読み出されるか又は実行される場合、前記実施例のいずれか1つのターゲット検出方法又はスマート運転方法を実現させる。
前記実施例と同様な技術的構想によれば、図6に示すように、本願の実施例で提供される電子機器70は、メモリ71と、プロセッサ72と、を備えてもよく、
前記メモリ71は、コンピュータプログラム及びデータを記憶するように構成され、
前記プロセッサ72は、前記メモリに記憶されたコンピュータプログラムを実行し、前記実施例のいずれか1つのターゲット検出方法又はスマート運転方法を実現させるように構成される。
実際の適用において、上記メモリ71は、RAMのような揮発性メモリ(volatile memory)、ROM、フラッシュメモリ(flash memory)、ハードディスク(Hard Disk Drive:HDD)又はソリッドステートドライブ(Solid−State Drive:SSD)のような不揮発性メモリ、又は上記メモリの組み合わせであってもよい。該メモリは、プロセッサ72に命令及びデータを提供する。
上記プロセッサ72は、ASIC、DSP、DSPD、PLD、FPGA、CPU、コントローラ、マイクロコントローラ、マイクロプロセッサのうちのすくなくとも1つであってもよい。様々な機器について、上記プロセッサ機能を実現させるための電子機器は他のものであってもよく、本願の実施例は、これを具体的に限定するものではない。
本願の実施例は、コンピュータ記憶媒体を更に提供する。前記コンピュータ記憶媒体にコンピュータプログラムが記憶されており、該コンピュータプログラムがプロセッサにより実行される場合、上記いずれか1つのターゲット検出方法を実現させる。
本願の実施例は、コンピュータプログラム製品を更に提供する。前記コンピュータプログラム製品は、コンピュータによる実行可能な命令を含み、該コンピュータによる実行可能な命令が実行された後、本願の実施例で提供されるいずれか1つのターゲット検出方法を実現させることができる。
幾つかの実施例において、本願の実施例で提供される装置の機能又はモジュールは、上記方法実施例に記載の方法を実行するために用いられ、その具体的な実現は、上記方法実施例の説明を参照されたい。簡潔化のために、ここで詳細な説明を省略する。
各実施例に関する上記説明において、各実施例の相違点を強調する傾向があり、その同一あるいは類似の部分は相互参照することができる。簡潔化のために、ここで詳細な説明を省略する。
なお、矛盾が生じない限り、本願で提供される幾つかの方法実施例で開示された方法を互いに任意に組み合わせて、新たな方法実施例を得ることができる。
矛盾が生じない限り、本願で提供される幾つかの製品実施例で開示された特徴を互いに任意に組み合わせて、新たな製品実施例を得ることができる。
矛盾が生じない限り、本願で提供される幾つかの方法又は装置実施例で開示された特徴を互いに任意に組み合わせて、新たな方法実施例又は装置実施例を得ることができる。
上記実施形態の説明により、上記実施例の方法は、ソフトウェアと必須な汎用ハードウェアプラットフォームとの組み合わせで実現することができ、勿論、ハードウェアにより実現することもできるが、多くの場合、前者は、より好適な実施形態であることを当業者が理解すべきである。このような理解のもと、本願の実施例の技術的解決手段は、本質的に、又は、従来技術に対して貢献をもたらした部分又は該技術的解決手段の一部は、ソフトウェア製品の形式で具現することができ、このようなコンピュータソフトウェア製品は、記憶媒体(例えば、ROM/RAM、磁気ディスク、光ディスク)に記憶しても良く、また、一台のコンピュータ機器(携帯電話、コンピュータ、サーバ、エアコン、又はネットワーク装置等)に、本願の各実施例に記載の方法を実行させるための若干の命令を含む。
以上は図面を参照しながら、本願の実施形態を説明した。本願は、上記具体的な実施形態に限定されず、上記具体的な実施形態は模式的なものに過ぎず、本願を限定するものではない。当業者は、本願に基づいて、本願の要旨及び特許請求の範囲の保護範囲から逸脱することなく、多くの実施形態を想到しうる。これらは、いずれも本願の保護範囲内に含まれる。

Claims (22)

  1. ターゲット検出方法であって、前記方法は、
    三次元(3D)ポイントクラウドデータを取得することと、
    前記3Dポイントクラウドデータに基づいて、前記3Dポイントクラウドデータに対応するポイントクラウドセマンティクス特徴を決定することと、
    前記ポイントクラウドセマンティクス特徴に基づいて、前景点の部位位置情報を決定することであって、前記前景点は、前記ポイントクラウドデータのうち、ターゲットに属するポイントクラウドデータを表し、前記前景点の部位位置情報は、ターゲットにおける、前景点の相対的位置を表すためのものである、ことと、
    前記ポイントクラウドデータに基づいて、少なくとも1つの初期3D枠を抽出することと、
    前記ポイントクラウドデータに対応するポイントクラウドセマンティクス特徴、前記前景点の部位位置情報及び前記少なくとも1つの初期3D枠に基づいて、ターゲットの3D検出枠を決定することであって、前記検出枠内の領域にターゲットが存在する、ことと、を含む、ターゲット検出方法。
  2. 前記ポイントクラウドデータに対応するポイントクラウドセマンティクス特徴、前記前景点の部位位置情報及び前記少なくとも1つの初期3D枠に基づいて、ターゲットの3D検出枠を決定することは、
    各初期3D枠に対して、前景点の部位位置情報及びポイントクラウドセマンティクス特徴のプーリング処理を行い、プーリングされた各初期3D枠の部位位置情報及びポイントクラウドセマンティクス特徴を得ることと、
    プーリングされた各初期3D枠の部位位置情報及びポイントクラウドセマンティクス特徴に基づいて、各初期3D枠の修正及び/又は各初期3D枠の信頼度決定を行い、前記ターゲットの3D検出枠を決定することと、を含むことを特徴とする
    請求項1に記載の方法。
  3. 各初期3D枠に対して、前景点の部位位置情報及びポイントクラウドセマンティクス特徴のプーリング処理を行い、プーリングされた各初期3D枠の部位位置情報及びポイントクラウドセマンティクス特徴を得ることは、
    各初期3D枠を複数のメッシュに均一に分け、各メッシュに対して、前景点の部位位置情報及びポイントクラウドセマンティクス特徴のプーリング処理を行い、プーリングされた各初期3D枠の部位位置情報及びポイントクラウドセマンティクス特徴を得ることを含むことを特徴とする
    請求項2に記載の方法。
  4. 各メッシュに対して、前景点の部位位置情報及びポイントクラウドセマンティクス特徴のプーリング処理を行うことは、
    1つのメッシュに前景点が含まれないことに応答して、前記メッシュの部位位置情報を空きとマーキングし、前記メッシュのプーリングされた前景点の部位位置情報を得て、前記メッシュのポイントクラウドセマンティクス特徴をゼロとし、前記メッシュのプーリングされたポイントクラウドセマンティクス特徴を得ることと、
    1つのメッシュに前景点が含まれることに応答して、前記メッシュの前景点の部位位置情報に対して平均プーリング処理を行い、前記メッシュのプーリングされた前景点の部位位置情報を得て、前記メッシュの前景点のポイントクラウドセマンティクス特徴に対して最大プーリング処理を行い、前記メッシュのプーリングされたポイントクラウドセマンティクス特徴を得ることと、を含むことを特徴とする
    請求項3に記載の方法。
  5. プーリングされた各初期3D枠の部位位置情報及びポイントクラウドセマンティクス特徴に基づいて、各初期3D枠の修正及び/又は各初期3D枠の信頼度決定を行うことは、
    前記プーリングされた各初期3D枠の部位位置情報とポイントクラウドセマンティクス特徴を結合し、結合した特徴に基づいて、各初期3D枠の修正及び/又は各初期3D枠の信頼度決定を行うことを含むことを特徴とする
    請求項2に記載の方法。
  6. 結合した特徴に基づいて、各初期3D枠の修正及び/又は各初期3D枠の信頼度決定を行うことは、
    前記結合した特徴をベクトル化して特徴ベクトルを得て、前記特徴ベクトルに基づいて、各初期3D枠の修正及び/又は各初期3D枠の信頼度決定を行うこと、
    又は、前記結合した特徴に対してスパース畳み込み処理を行うことで、スパース畳み込み処理された特徴マップを得て、前記スパース畳み込み処理された特徴マップに基づいて、各初期3D枠の修正及び/又は各初期3D枠の信頼度決定を行うこと、
    又は、前記結合した特徴に対してスパース畳み込み処理を行うことで、スパース畳み込み処理された特徴マップを得て、前記スパース畳み込み処理された特徴マップに対してダウンサンプリングを行い、ダウンサンプリングされた特徴マップに基づいて、各初期3D枠の修正及び/又は各初期3D枠の信頼度決定を行うこと、を含むことを特徴とする
    請求項5に記載の方法。
  7. 前記スパース畳み込み処理された特徴マップに対してダウンサンプリングを行うことは、
    前記スパース畳み込み処理された特徴マップに対してプーリング処理を行うことで、前記スパース畳み込み処理された特徴マップに対するダウンサンプリング処理を実現させることを含むことを特徴とする
    請求項6に記載の方法。
  8. 前記3Dポイントクラウドデータに基づいて、前記3Dポイントクラウドデータに対応するポイントクラウドセマンティクス特徴を決定することは、
    前記3Dポイントクラウドデータに対して3Dメッシュ化処理を行い、3Dメッシュを得て、前記3Dメッシュの非空白メッシュから、前記3Dポイントクラウドデータに対応するポイントクラウドセマンティクス特徴を抽出することを含むことを特徴とする
    請求項1から7のうちいずれか一項に記載の方法。
  9. 前記ポイントクラウドセマンティクス特徴に基づいて前景点の部位位置情報を決定することは、
    前記ポイントクラウドセマンティクス特徴に基づいて、前記ポイントクラウドデータに対して前景と背景の分割を行い、前景点を決定することであって、前記前景点は、前記ポイントクラウドデータのうち、前景に属するポイントクラウドデータである、ことと、
    前景点の部位位置情報を予測するためのニューラルネットワークを利用して、決定された前景点を処理し、前景点の部位位置情報を得ることであって、前記ニューラルネットワークは、3D枠のアノテーション情報を含む訓練データセットにより訓練されたものであり、前記3D枠のアノテーション情報は、少なくとも、前記訓練データセットのポイントクラウドデータの前景点の部位位置情報を含む、ことと、を含むことを特徴とする
    請求項1から7のうちいずれか一項に記載の方法。
  10. スマート運転方法であって、スマート運転装置に適用され、前記スマート運転方法は、
    請求項1から9のうちいずれか一項に記載のターゲット検出方法により、前記スマート運転装置の周囲の前記ターゲットの3D検出枠を得ることと、
    前記ターゲットの3D検出枠に基づいて、運転ポリシーンを生成することと、を含む、スマート運転方法。
  11. ターゲット検出装置であって、前記装置は、取得モジュールと、第1処理モジュールと、第2処理モジュールと、を備え、
    取得モジュールは、3Dポイントクラウドデータを取得し、前記3Dポイントクラウドデータに基づいて、前記3Dポイントクラウドデータに対応するポイントクラウドセマンティクス特徴を決定するように構成され、
    第1処理モジュールは、前記ポイントクラウドセマンティクス特徴に基づいて、前景点の部位位置情報を決定し、前記前景点は、前記ポイントクラウドデータのうち、ターゲットに属するポイントクラウドデータを表し、前記前景点の部位位置情報は、ターゲットにおける、前景点の相対的位置を表すためのものであり、前記ポイントクラウドデータに基づいて、少なくとも1つの初期3D枠を抽出するように構成され、
    第2処理モジュールは、前記ポイントクラウドデータに対応するポイントクラウドセマンティクス特徴、前記前景点の部位位置情報及び前記少なくとも1つの初期3D枠に基づいて、ターゲットの3D検出枠を決定するように構成され、前記検出枠内の領域にターゲットが存在する、ターゲット検出装置。
  12. 前記第2処理モジュールは、各初期3D枠に対して、前景点の部位位置情報及びポイントクラウドセマンティクス特徴のプーリング処理を行い、プーリングされた各初期3D枠の部位位置情報及びポイントクラウドセマンティクス特徴を得て、プーリングされた各初期3D枠の部位位置情報及びポイントクラウドセマンティクス特徴に基づいて、各初期3D枠の修正及び/又は各初期3D枠の信頼度決定を行い、前記ターゲットの3D検出枠を決定するように構成されることを特徴とする
    請求項11に記載の装置。
  13. 前記第2処理モジュールは、各初期3D枠を複数のメッシュに均一に分け、各メッシュに対して、前景点の部位位置情報及びポイントクラウドセマンティクス特徴のプーリング処理を行い、プーリングされた各初期3D枠の部位位置情報及びポイントクラウドセマンティクス特徴を得て、プーリングされた各初期3D枠の部位位置情報及びポイントクラウドセマンティクス特徴に基づいて、各初期3D枠の修正及び/又は各初期3D枠の信頼度決定を行い、前記ターゲットの3D検出枠を決定するように構成されることを特徴とする
    請求項12に記載の装置。
  14. 前記第2処理モジュールは、各メッシュに対して前景点の部位位置情報及びポイントクラウドセマンティクス特徴のプーリング処理を行う場合、
    1つのメッシュに前景点が含まれないことに応答して、前記メッシュの部位位置情報を空きとマーキングし、前記メッシュのプーリングされた前景点の部位位置情報を得て、前記メッシュのポイントクラウドセマンティクス特徴をゼロとし、前記メッシュのプーリングされたポイントクラウドセマンティクス特徴を得て、1つのメッシュに前景点が含まれることに応答して、前記メッシュの前景点の部位位置情報に対して平均プーリング処理を行い、前記メッシュのプーリングされた前景点の部位位置情報を得て、前記メッシュの前景点のポイントクラウドセマンティクス特徴に対して最大プーリング処理を行い、前記メッシュのプーリングされたポイントクラウドセマンティクス特徴を得るように構成されることを特徴とする
    請求項13に記載の装置。
  15. 前記第2処理モジュールは、各初期3D枠に対して、前景点の部位位置情報及びポイントクラウドセマンティクス特徴のプーリング処理を行い、プーリングされた各初期3D枠の部位位置情報及びポイントクラウドセマンティクス特徴を得て、前記プーリングされた各初期3D枠の部位位置情報とポイントクラウドセマンティクス特徴を結合し、結合した特徴に基づいて、各初期3D枠の修正及び/又は各初期3D枠の信頼度決定を行うように構成されることを特徴とする
    請求項12に記載の装置。
  16. 前記第2処理モジュールは、結合した特徴に基づいて、各初期3D枠の修正及び/又は各初期3D枠の信頼度決定を行う場合、
    前記結合した特徴をベクトル化して特徴ベクトルを得て、前記特徴ベクトルに基づいて、各初期3D枠の修正及び/又は各初期3D枠の信頼度決定を行うように構成され、
    又は、前記結合した特徴に対してスパース畳み込み処理を行うことで、スパース畳み込み処理された特徴マップを得て、前記スパース畳み込み処理された特徴マップに基づいて、各初期3D枠の修正及び/又は各初期3D枠の信頼度決定を行うように構成され、
    又は、前記結合した特徴に対してスパース畳み込み処理を行うことで、スパース畳み込み処理された特徴マップを得て、前記スパース畳み込み処理された特徴マップに対してダウンサンプリングを行い、ダウンサンプリングされた特徴マップに基づいて、各初期3D枠の修正及び/又は各初期3D枠の信頼度決定を行うように構成されることを特徴とする
    請求項15に記載の装置。
  17. 前記第2処理モジュールは、前記スパース畳み込み処理された特徴マップに対してダウンサンプリングを行う場合、
    前記スパース畳み込み処理された特徴マップに対してプーリング処理を行うことで、前記スパース畳み込み処理された特徴マップに対するダウンサンプリング処理を実現させるように構成されることを特徴とする
    請求項16に記載の装置。
  18. 前記取得モジュールは、3Dポイントクラウドデータを取得し、前記3Dポイントクラウドデータに対して3Dメッシュ化処理を行い、3Dメッシュを得て、前記3Dメッシュの非空白メッシュから、前記3Dポイントクラウドデータに対応するポイントクラウドセマンティクス特徴を抽出するように構成されることを特徴とする
    請求項11から17のうちいずれか一項に記載の装置。
  19. 前記第1処理モジュールは、前記ポイントクラウドセマンティクス特徴に基づいて前景点の部位位置情報を決定する場合、
    前記ポイントクラウドセマンティクス特徴に基づいて、前記ポイントクラウドデータに対して前景と背景の分割を行い、前景点を決定し、前景点は、前記ポイントクラウドデータのうち、前景に属するポイントクラウドデータであり、前景点の部位位置情報を予測するためのニューラルネットワークを利用して、決定された前景点を処理し、前景点の部位位置情報を得るように構成され、前記ニューラルネットワークは、3D枠のアノテーション情報を含む訓練データセットにより訓練されたものであり、前記3D枠のアノテーション情報は、少なくとも、前記訓練データセットのポイントクラウドデータの前景点の部位位置情報を含むことを特徴とする
    請求項11から17のうちいずれか一項に記載の装置。
  20. 電子機器であって、プロセッサと、プロセッサで実行可能なコンピュータプログラムを記憶するように構成されるメモリと、を備え、
    前記プロセッサは、前記コンピュータプログラムを実行する時、請求項1から10のうちいずれか一項に記載の方法を実行するように構成される、電子機器。
  21. コンピュータ記憶媒体であって、前記コンピュータ記憶媒体に、コンピュータプログラムが記憶されており、該コンピュータプログラムがプロセッサにより実行される時、請求項1から10のうちいずれか一項に記載の方法を実現させる、コンピュータ記憶媒体。
  22. コンピュータプログラム製品であって、前記コンピュータプログラム製品は、コンピュータによる実行可能な命令を含み、該コンピュータによる実行可能な命令が実行された後、請求項1から10のうちいずれか一項に記載の方法を実現させることができる、コンピュータプログラム製品。
JP2020567923A 2019-06-17 2019-11-28 ターゲット検出方法及び装置、スマート運転方法、装置並びに記憶媒体 Active JP7033373B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910523342.4A CN112101066B (zh) 2019-06-17 2019-06-17 目标检测方法和装置及智能驾驶方法、设备和存储介质
CN201910523342.4 2019-06-17
PCT/CN2019/121774 WO2020253121A1 (zh) 2019-06-17 2019-11-28 目标检测方法和装置及智能驾驶方法、设备和存储介质

Publications (2)

Publication Number Publication Date
JP2021532442A true JP2021532442A (ja) 2021-11-25
JP7033373B2 JP7033373B2 (ja) 2022-03-10

Family

ID=73748556

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020567923A Active JP7033373B2 (ja) 2019-06-17 2019-11-28 ターゲット検出方法及び装置、スマート運転方法、装置並びに記憶媒体

Country Status (6)

Country Link
US (1) US20210082181A1 (ja)
JP (1) JP7033373B2 (ja)
KR (1) KR20210008083A (ja)
CN (1) CN112101066B (ja)
SG (1) SG11202011959SA (ja)
WO (1) WO2020253121A1 (ja)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018033137A1 (zh) * 2016-08-19 2018-02-22 北京市商汤科技开发有限公司 在视频图像中展示业务对象的方法、装置和电子设备
US20210026355A1 (en) * 2019-07-25 2021-01-28 Nvidia Corporation Deep neural network for segmentation of road scenes and animate object instances for autonomous driving applications
US11885907B2 (en) 2019-11-21 2024-01-30 Nvidia Corporation Deep neural network for detecting obstacle instances using radar sensors in autonomous machine applications
US11531088B2 (en) 2019-11-21 2022-12-20 Nvidia Corporation Deep neural network for detecting obstacle instances using radar sensors in autonomous machine applications
US11532168B2 (en) 2019-11-15 2022-12-20 Nvidia Corporation Multi-view deep neural network for LiDAR perception
US11277626B2 (en) 2020-02-21 2022-03-15 Alibaba Group Holding Limited Region of interest quality controllable video coding techniques
US11388423B2 (en) 2020-03-23 2022-07-12 Alibaba Group Holding Limited Region-of-interest based video encoding
TWI738367B (zh) * 2020-06-01 2021-09-01 國立中正大學 以卷積神經網路檢測物件影像之方法
US11443147B2 (en) * 2020-12-11 2022-09-13 Argo AI, LLC Systems and methods for object detection using stereovision information
CN112784691B (zh) * 2020-12-31 2023-06-02 杭州海康威视数字技术股份有限公司 一种目标检测模型训练方法、目标检测方法和装置
CN115035359A (zh) * 2021-02-24 2022-09-09 华为技术有限公司 一种点云数据处理方法、训练数据处理方法及装置
CN112801059B (zh) * 2021-04-07 2021-07-20 广东众聚人工智能科技有限公司 图卷积网络系统和基于图卷积网络系统的3d物体检测方法
CN113298840B (zh) * 2021-05-26 2022-09-16 南京邮电大学 基于带电作业场景下的多模态物体检测方法、系统、装置及存储介质
CN113283349A (zh) * 2021-05-28 2021-08-20 中国公路工程咨询集团有限公司 基于目标锚框优选策略的交通基建施工目标监测系统与方法
CN113469025A (zh) * 2021-06-29 2021-10-01 阿波罗智联(北京)科技有限公司 应用于车路协同的目标检测方法、装置、路侧设备和车辆
US20230035475A1 (en) * 2021-07-16 2023-02-02 Huawei Technologies Co., Ltd. Methods and systems for semantic segmentation of a point cloud
KR20230026130A (ko) 2021-08-17 2023-02-24 충북대학교 산학협력단 자율 주행을 위한 단일 계층 3차원 다중 객체 검출 장치 및 방법
CN113688738B (zh) * 2021-08-25 2024-04-09 北京交通大学 一种基于激光雷达点云数据的目标识别系统及方法
CN113658199B (zh) * 2021-09-02 2023-11-03 中国矿业大学 基于回归修正的染色体实例分割网络
CN117882115A (zh) * 2021-09-08 2024-04-12 华为技术有限公司 用于点云的无提议和无聚类全景分割系统的系统和方法
CN113642585B (zh) * 2021-10-14 2022-02-11 腾讯科技(深圳)有限公司 图像处理方法、装置、设备、存储介质及计算机程序产品
US20230135234A1 (en) * 2021-10-28 2023-05-04 Nvidia Corporation Using neural networks for 3d surface structure estimation based on real-world data for autonomous systems and applications
CN113780257B (zh) * 2021-11-12 2022-02-22 紫东信息科技(苏州)有限公司 多模态融合弱监督车辆目标检测方法及系统
CN115249349B (zh) * 2021-11-18 2023-06-27 上海仙途智能科技有限公司 一种点云去噪方法、电子设备及存储介质
CN114298581A (zh) * 2021-12-30 2022-04-08 广州极飞科技股份有限公司 质量评估模型生成方法、质量评估方法、装置、电子设备和可读存储介质
CN114509785A (zh) * 2022-02-16 2022-05-17 中国第一汽车股份有限公司 三维物体检测方法、装置、存储介质、处理器及系统
CN115588187B (zh) * 2022-12-13 2023-04-11 华南师范大学 基于三维点云的行人检测方法、装置、设备以及存储介质
CN115937644B (zh) * 2022-12-15 2024-01-02 清华大学 一种基于全局及局部融合的点云特征提取方法及装置
CN115861561B (zh) * 2023-02-24 2023-05-30 航天宏图信息技术股份有限公司 一种基于语义约束的等高线生成方法和装置
CN117475410B (zh) * 2023-12-27 2024-03-15 山东海润数聚科技有限公司 基于前景点筛选的三维目标检测方法、系统、设备、介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019075037A (ja) * 2017-10-19 2019-05-16 日本コントロールシステム株式会社 情報処理装置、情報処理方法、およびプログラム
JP2019192059A (ja) * 2018-04-27 2019-10-31 田中 成典 対象物認識装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9183459B1 (en) * 2014-05-06 2015-11-10 The Boeing Company Sensor fusion using detector confidence boosting
TWI651686B (zh) * 2017-11-30 2019-02-21 國家中山科學研究院 一種光學雷達行人偵測方法
CN108171217A (zh) * 2018-01-29 2018-06-15 深圳市唯特视科技有限公司 一种基于点融合网络的三维物体检测方法
CN109188457B (zh) * 2018-09-07 2021-06-11 百度在线网络技术(北京)有限公司 物体检测框的生成方法、装置、设备、存储介质及车辆
CN109410307B (zh) * 2018-10-16 2022-09-20 大连理工大学 一种场景点云语义分割方法
CN109655019B (zh) * 2018-10-29 2021-02-02 北方工业大学 一种基于深度学习和三维重建的货物体积测量方法
CN109597087B (zh) * 2018-11-15 2022-07-01 天津大学 一种基于点云数据的3d目标检测方法
CN109635685B (zh) * 2018-11-29 2021-02-12 北京市商汤科技开发有限公司 目标对象3d检测方法、装置、介质及设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019075037A (ja) * 2017-10-19 2019-05-16 日本コントロールシステム株式会社 情報処理装置、情報処理方法、およびプログラム
JP2019192059A (ja) * 2018-04-27 2019-10-31 田中 成典 対象物認識装置

Also Published As

Publication number Publication date
JP7033373B2 (ja) 2022-03-10
SG11202011959SA (en) 2021-01-28
CN112101066A (zh) 2020-12-18
CN112101066B (zh) 2024-03-08
WO2020253121A1 (zh) 2020-12-24
US20210082181A1 (en) 2021-03-18
KR20210008083A (ko) 2021-01-20

Similar Documents

Publication Publication Date Title
JP7033373B2 (ja) ターゲット検出方法及び装置、スマート運転方法、装置並びに記憶媒体
CN108986152B (zh) 一种基于差分图像的异物检测方法及装置
CN110827202A (zh) 目标检测方法、装置、计算机设备和存储介质
Ding et al. Fast lane detection based on bird’s eye view and improved random sample consensus algorithm
CN113761999A (zh) 一种目标检测方法、装置、电子设备和存储介质
CN111898659A (zh) 一种目标检测方法及系统
CN113673400A (zh) 基于深度学习的实景三维语义重建方法、装置及存储介质
CN114998856B (zh) 一种多相机图像的3d目标检测方法、装置、设备及介质
CN110751040B (zh) 一种三维物体的检测方法和装置、电子设备、存储介质
CN115147328A (zh) 三维目标检测方法及装置
CN112348116A (zh) 利用空间上下文的目标检测方法、装置和计算机设备
Dimitrievski et al. Semantically aware multilateral filter for depth upsampling in automotive lidar point clouds
CN112699711A (zh) 车道线检测方法、装置、存储介质及电子设备
CN113269147B (zh) 基于空间和形状的三维检测方法、系统、存储及处理装置
CN114972492A (zh) 一种基于鸟瞰图的位姿确定方法、设备和计算机存储介质
CN114898306B (zh) 一种检测目标朝向的方法、装置及电子设备
CN116246119A (zh) 3d目标检测方法、电子设备及存储介质
CN111738069A (zh) 人脸检测方法、装置、电子设备及存储介质
CN114648639B (zh) 一种目标车辆的检测方法、系统及装置
CN114005110B (zh) 3d检测模型训练方法与装置、3d检测方法与装置
CN113657225B (zh) 一种目标检测方法
Saleem et al. Extending the stixel world using polynomial ground manifold approximation
US20200202140A1 (en) Method and device for evaluating images, operating assistance method, and operating device
US20240029392A1 (en) Prediction method for target object, computer device, and storage medium
US20230419522A1 (en) Method for obtaining depth images, electronic device, and storage medium

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201204

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201204

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220125

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220222

R150 Certificate of patent or registration of utility model

Ref document number: 7033373

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150