JP2022515591A - ターゲットオブジェクトの3d検出方法、装置、媒体及び機器 - Google Patents
ターゲットオブジェクトの3d検出方法、装置、媒体及び機器 Download PDFInfo
- Publication number
- JP2022515591A JP2022515591A JP2021526222A JP2021526222A JP2022515591A JP 2022515591 A JP2022515591 A JP 2022515591A JP 2021526222 A JP2021526222 A JP 2021526222A JP 2021526222 A JP2021526222 A JP 2021526222A JP 2022515591 A JP2022515591 A JP 2022515591A
- Authority
- JP
- Japan
- Prior art keywords
- frame
- point
- information
- neural network
- target object
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 177
- 230000011218 segmentation Effects 0.000 claims abstract description 55
- 238000004590 computer program Methods 0.000 claims abstract description 25
- 238000000605 extraction Methods 0.000 claims abstract description 15
- 238000013528 artificial neural network Methods 0.000 claims description 307
- 238000000034 method Methods 0.000 claims description 125
- 238000012549 training Methods 0.000 claims description 52
- 230000008569 process Effects 0.000 claims description 40
- 238000006243 chemical reaction Methods 0.000 claims description 28
- 238000012937 correction Methods 0.000 claims description 16
- 239000000284 extract Substances 0.000 claims description 3
- 238000010586 diagram Methods 0.000 abstract description 10
- 238000012545 processing Methods 0.000 description 43
- 238000004891 communication Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 11
- 239000013598 vector Substances 0.000 description 8
- 240000004050 Pentaglottis sempervirens Species 0.000 description 6
- 235000004522 Pentaglottis sempervirens Nutrition 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000009434 installation Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Traffic Control Systems (AREA)
- Image Processing (AREA)
Abstract
Description
図1は、本開示のターゲットオブジェクトの3D検出方法の一実施例のフローチャートである。
ここで、
ここで、
ここで、
図11は、本開示の実現に適する例示的な機器1100を示し、機器1100は、自動車に配置された制御システム/電子システム、移動端末(例えば、スマートフォンなど)、パーソナルコンピュータ(PC、例えば、デスクトップコンピュータ又はノートブックコンピュータなど)、タブレットコンピュータ及びサーバなどであってよい。図11において、機器1100は、1つ以上のプロセッサ、通信部などを含み、上記1つ以上のプロセッサは、1つ以上の中央処理装置(CPU)1101、及び/又は、ニューラルネットワークを利用してビジョントラッキングを行う1つ以上の画像プロセッサ(GPU)1113などであってよく、プロセッサは、読み出し専用メモリ(ROM)1102に記憶された実行可能命令、又は記憶部分1108からランダムアクセスメモリ(RAM)1103にロードされた実行可能命令に基づいて、様々な適切な動作及び処理を実行してよい。通信部1112は、ネットワークカードを含むが、これに限定されず、上記ネットワークカードは、IB(Infiniband)ネットワークカードを含むが、これに限定されない。プロセッサは、読み出し専用メモリ1102及び/又はランダムアクセスメモリ1103と通信して実行可能命令を実行し、バス1104を介して通信部1112に接続され、かつ通信部1112を介して他のターゲット機器と通信することにより、本開示における対応するステップを完了する。上記各命令により実行される動作については、上記方法の実施例における関連説明を参照することができるため、ここで詳細に説明しない。RAM1103には、装置の動作に必要な様々なプログラム及びデータがさらに記憶されてよい。CPU1101、ROM1102、及びRAM1103は、バス1104を介して互いに接続される。
Claims (43)
- 取得されたシーンの点群データの特徴情報を抽出することと、
前記点群データの特徴情報に基づいて、前記点群データに対してセマンティックセグメンテーションを行って、前記点群データにおける複数の点の第1セマンティック情報を取得することと、
前記第1セマンティック情報に基づいて、前記複数の点のうち、ターゲットオブジェクトに対応する少なくとも1つの前景点を予測することと、
前記第1セマンティック情報に基づいて、前記少なくとも1つの前景点のそれぞれに対応する3D初期枠を生成することと、
前記3D初期枠に基づいて、前記シーンにおける前記ターゲットオブジェクトの3D検出枠を決定することとを含む、ことを特徴とするターゲットオブジェクトの3D検出方法。 - 前記3D初期枠に基づいて、前記シーンにおける前記ターゲットオブジェクトの3D検出枠を決定することは、
前記点群データにおける、前記3D初期枠を少なくとも含む部分領域内の点の特徴情報を取得することと、
前記部分領域内の点の特徴情報に基づいて、前記部分領域内の点に対してセマンティックセグメンテーションを行って、前記部分領域内の点の第2セマンティック情報を取得することと、
前記部分領域内の点の第1セマンティック情報及び第2セマンティック情報に基づいて、前記シーンにおける前記ターゲットオブジェクトの3D検出枠を決定することと、を含む、請求項1に記載の方法。 - 前記部分領域内の点の第1セマンティック情報及び第2セマンティック情報に基づいて、前記シーンにおける前記ターゲットオブジェクトの3D検出枠を決定することは、
前記部分領域内の点の第1セマンティック情報及び第2セマンティック情報に基づいて、前記3D初期枠を補正して、補正後の3D初期枠を得ることと、
補正後の3D初期枠に基づいて、前記シーンにおける前記ターゲットオブジェクトの3D検出枠を決定することと、を含む、請求項2に記載の方法。 - 前記部分領域内の点の第1セマンティック情報及び第2セマンティック情報に基づいて、前記シーンにおける前記ターゲットオブジェクトの3D検出枠を決定することは、
前記部分領域内の点の第1セマンティック情報及び第2セマンティック情報に基づいて、前記3D初期枠がターゲットオブジェクトに対応する信頼度を決定することと、
前記3D初期枠及びその信頼度に基づいて、前記シーンにおける前記ターゲットオブジェクトの3D検出枠を決定することと、を含む、請求項2に記載の方法。 - 前記部分領域内の点の第1セマンティック情報及び第2セマンティック情報に基づいて、前記シーンにおける前記ターゲットオブジェクトの3D検出枠を決定することは、
前記部分領域内の点の第1セマンティック情報及び第2セマンティック情報に基づいて、前記3D初期枠を補正して、補正後の3D初期枠を得ることと、
前記部分領域内の点の第1セマンティック情報及び第2セマンティック情報に基づいて、前記補正後の3D初期枠がターゲットオブジェクトに対応する信頼度を決定することと、
前記補正後の3D初期枠及びその信頼度に基づいて、前記シーンにおける前記ターゲットオブジェクトの3D検出枠を決定することと、を含む、請求項2に記載の方法。 - 前記部分領域は、
所定のポリシーに基づいて3D初期枠に対してエッジ拡張を行って得られた3D拡張枠を含む、ことを特徴とする請求項2~5のいずれか一項に記載の方法。 - 前記3D拡張枠は、
予め設定されたX軸方向の増分、Y軸方向の増分及び/又はZ軸方向の増分に基づいて、前記3D初期枠に対して3D空間拡張を行って形成された、前記3D初期枠を含む3D拡張枠を含む、ことを特徴とする請求項6に記載の方法。 - 前記部分領域内の点の特徴情報に基づいて前記部分領域内の点に対してセマンティックセグメンテーションを行って、前記部分領域内の点の第2セマンティック情報を取得することは、
前記3D拡張枠の所定のターゲット位置に基づいて、点群データにおける、前記3D拡張枠内に位置する点の座標情報に対して座標変換を行って、座標変換後の点の特徴情報を取得することと、
座標変換後の点の特徴情報に基づいて、前記3D拡張枠に基づくセマンティックセグメンテーションを行って、前記3D拡張枠内の点の第2セマンティック特徴を取得することとを含む、ことを特徴とする請求項6又は7に記載の方法。 - 前記座標変換後の点の特徴情報に基づいて、前記3D拡張枠に基づくセマンティックセグメンテーションを行うことは、
前記前景点のマスク及び座標変換後の点の特徴情報に基づいて、前記3D拡張枠に基づくセマンティックセグメンテーションを行うことを含む、ことを特徴とする請求項8に記載の方法。 - 前記前景点は複数あり、前記3D初期枠に基づいて、前記シーンにおける前記ターゲットオブジェクトの3D検出枠を決定することは、
複数の前記前景点に対応する3D初期枠の間の重なり度を決定することと、
重なり度が設定閾値より大きい3D初期枠を選別することと、
選別された3D初期枠に基づいて、前記シーンにおける前記ターゲットオブジェクトの3D検出枠を決定することと、を含む、請求項1に記載の方法。 - 前記取得されたシーンの点群データの特徴情報を抽出することと、前記点群データの特徴情報に基づいて、前記点群データに対してセマンティックセグメンテーションを行って、前記点群データにおける複数の点の第1セマンティック情報を取得することと、前記第1セマンティック情報に基づいて、前記複数の点のうち、ターゲットオブジェクトに対応する少なくとも1つの前景点を予測することと、前記第1セマンティック情報に基づいて、前記少なくとも1つの前景点のそれぞれに対応する3D初期枠を生成することとは、第1段階ニューラルネットワークにより実現され、
前記第1段階ニューラルネットワークは、3Dアノテーション枠付きの点群データサンプルを利用してトレーニングして得られる、ことを特徴とする請求項1~10のいずれか一項に記載の方法。 - 前記第1段階ニューラルネットワークのトレーニングプロセスは、
点群データサンプルを前記第1段階ニューラルネットワークに提供し、前記第1段階ニューラルネットワークに基づいて前記点群データサンプルの特徴情報を抽出し、前記点群データサンプルの特徴情報に基づいて前記点群データサンプルに対してセマンティックセグメンテーションを行い、セマンティックセグメンテーションにより取得された複数の点の第1セマンティック特徴に基づいて前記複数の点のうち、ターゲットオブジェクトに対応する少なくとも1つの前景点を予測し、かつ前記第1セマンティック情報に基づいて前記少なくとも1つの前景点のそれぞれに対応する3D初期枠を生成することと、
前記前景点に対応する損失と、前記3D初期枠がその対応する3Dアノテーション枠に対して生成した損失とを取得し、かつ前記損失に基づいて前記第1段階ニューラルネットワークのネットワークパラメータを調整することとを含む、ことを特徴とする請求項11に記載の方法。 - 前記前景点に対応する損失と、前記3D初期枠がその対応する3Dアノテーション枠に対して生成した損失とを取得し、かつ前記損失に基づいて前記第1段階ニューラルネットワークのネットワークパラメータを調整することは、
前記第1段階ニューラルネットワークにより予測された前記前景点の信頼度に基づいて、前記前景点の予測結果に対応する第1損失を決定することと、
前記前景点に対して生成された3D初期枠内のパラメータの所在するビンの番号と、前記点群データサンプル中の3Dアノテーション枠情報における、パラメータの所在するビンの番号とに基づいて、第2損失を生成することと、
前記前景点に対して生成された3D初期枠内のパラメータの対応するビンでのオフセット量と、前記点群データサンプル中の3Dアノテーション枠情報におけるパラメータの対応するビンでのオフセット量とに基づいて、第3損失を生成することと、
前記前景点に対して生成された3D初期枠内のパラメータの所定のパラメータに対するオフセット量に基づいて、第4損失を生成することと、
前記前景点の座標パラメータの、該前景点に対して生成された3D初期枠内の座標パラメータに対するオフセット量に基づいて、第5損失を生成することと、
前記第1損失、第2損失、第3損失、第4損失及び第5損失に基づいて、前記第1段階ニューラルネットワークのネットワークパラメータを調整することとを含む、ことを特徴とする請求項12に記載の方法。 - 前記点群データにおける、部分領域内の点の特徴情報を取得することと、前記部分領域内の点の特徴情報に基づいて、前記部分領域内の点に対してセマンティックセグメンテーションを行って、前記部分領域内の点の第2セマンティック情報を取得することと、前記部分領域内の点の前記第1セマンティック情報及び前記第2セマンティック情報に基づいて、前記シーンにおける前記ターゲットオブジェクトの3D検出枠を決定することとは、第2段階ニューラルネットワークにより実現され、
前記第2段階ニューラルネットワークは、3Dアノテーション枠付きの点群データサンプルを利用してトレーニングして得られる、ことを特徴とする請求項2~9のいずれか一項に記載の方法。 - 前記第2段階ニューラルネットワークのトレーニングプロセスは、
前記3D初期枠を第2段階ニューラルネットワークに提供し、第2段階ニューラルネットワークに基づいて前記点群データサンプル中の部分領域内の点の特徴情報を取得し、前記点群データサンプル中の部分領域内の点の特徴情報に基づいて前記点群データサンプル中の部分領域内の点に対してセマンティックセグメンテーションを行って、前記点群データサンプル中の部分領域内の点の第2セマンティック特徴を取得して、前記点群データサンプル中の部分領域内の点の第1セマンティック特徴及び第2セマンティック特徴に基づいて、前記3D初期枠がターゲットオブジェクトである信頼度を決定し、かつ前記点群データサンプル中の部分領域内の点の第1セマンティック特徴及び第2セマンティック特徴に基づいて、位置補正後の3D初期枠を生成することと、
前記3D初期枠がターゲットオブジェクトである信頼度に対応する損失と、前記位置補正後の3D初期枠がその対応する3Dアノテーション枠に対して生成した損失とを取得し、かつ前記損失に基づいて前記第2段階ニューラルネットワークのネットワークパラメータを調整することとを含む、ことを特徴とする請求項14に記載の方法。 - 前記3D初期枠がターゲットオブジェクトである信頼度に対応する損失と、前記位置補正後の3D初期枠がその対応する3Dアノテーション枠に対して生成した損失とを取得し、かつ前記損失に基づいて前記第2段階ニューラルネットワークのネットワークパラメータを調整することは、
第2段階ニューラルネットワークにより予測された、3D初期枠がターゲットオブジェクトである信頼度に基づいて、予測結果に対応する第6損失を決定することと、
第2段階ニューラルネットワークにより生成された、対応する3Dアノテーション枠との重なり度が設定閾値を超える位置補正後の3D初期枠内のパラメータの所在するビンの番号と、点群データサンプル中の3Dアノテーション枠情報における、パラメータの所在するビンの番号とに基づいて、第7損失を生成することと、
第2段階ニューラルネットワークにより生成された、対応する3Dアノテーション枠との重なり度が設定閾値を超える位置補正後の3D初期枠内のパラメータの対応するビンでのオフセット量と、点群データサンプル中の3Dアノテーション枠情報におけるパラメータの対応するビンでのオフセット量とに基づいて、第8損失を生成することと、
第2段階ニューラルネットワークにより生成された、対応する3Dアノテーション枠との重なり度が設定閾値を超える位置補正後の3D初期枠内のパラメータの所定のパラメータに対するオフセット量に基づいて、第9損失を生成することと、
第2段階ニューラルネットワークにより生成された、対応する3Dアノテーション枠との重なり度が設定閾値を超える位置補正後の3D初期枠内の座標パラメータの、3Dアノテーション枠の中心点の座標パラメータに対するオフセット量に基づいて、第10損失を生成することと、
前記第6損失、第7損失、第8損失、第9損失及び第10損失に基づいて、前記第2段階ニューラルネットワークのネットワークパラメータを調整することとを含む、ことを特徴とする請求項15に記載の方法。 - 請求項1~16のいずれか一項に記載のターゲットオブジェクトの3D検出方法を用いてターゲットオブジェクトの3D検出枠を取得することと、
前記3D検出枠に基づいて、車両を制御する命令又は早期警報提示情報を生成することとを含む、ことを特徴とする車両のインテリジェント制御方法。 - 前記3D検出枠に基づいて、車両を制御する命令又は早期警報提示情報を生成することは、
前記3D検出枠に基づいて、前記ターゲットオブジェクトのシーンにおける空間位置、大きさ、車両との距離、及び車両との相対方位情報のうちの少なくとも1つを含む前記ターゲットオブジェクトの情報を決定することと、
決定された前記少なくとも1つの情報に基づいて、前記車両を制御する命令又は早期警報提示情報を生成することとを含む、請求項17に記載の方法。 - 請求項1~16のいずれか一項に記載のターゲットオブジェクトの3D検出方法を用いてターゲットオブジェクトの3D検出枠を取得することと、
前記3D検出枠に基づいて、ロボットに対して障害物回避ナビゲーション制御を行う命令又は早期警報提示情報を生成することとを含む、ことを特徴とする障害物回避ナビゲーション方法。 - 前記3D検出枠に基づいて、ロボットに対して障害物回避ナビゲーション制御を行う命令又は早期警報提示情報を生成することは、
前記3D検出枠に基づいて、前記ターゲットオブジェクトのシーンにおける空間位置、大きさ、ロボットとの距離、ロボットとの相対方位情報のうちの少なくとも1つを含む前記ターゲットオブジェクトの情報を決定することと、
決定された前記少なくとも1つの情報に基づいて、前記ロボットに対して障害物回避ナビゲーション制御を行う命令又は早期警報提示情報を生成することと、を含む、請求項19に記載の方法。 - 取得されたシーンの点群データの特徴情報を抽出する特徴抽出モジュールと、
前記点群データの特徴情報に基づいて、前記点群データに対してセマンティックセグメンテーションを行って、前記点群データにおける複数の点の第1セマンティック情報を取得する第1セマンティックセグメンテーションモジュールと、
前記第1セマンティック情報に基づいて、前記複数の点のうち、ターゲットオブジェクトに対応する少なくとも1つの前景点を予測する前景点予測モジュールと、
前記第1セマンティック情報に基づいて、前記少なくとも1つの前景点のそれぞれに対応する3D初期枠を生成する初期枠生成モジュールと、
前記3D初期枠に基づいて、前記シーンにおける前記ターゲットオブジェクトの3D検出枠を決定する検出枠決定モジュールとを含む、ことを特徴とするターゲットオブジェクトの3D検出装置。 - 前記検出枠決定モジュールは、
前記点群データにおける、前記3D初期枠を少なくとも含む部分領域内の点の特徴情報を取得する第1サブモジュールと、
前記部分領域内の点の特徴情報に基づいて、前記部分領域内の点に対してセマンティックセグメンテーションを行って、前記部分領域内の点の第2セマンティック情報を取得する第2サブモジュールと、
前記部分領域内の点の第1セマンティック情報及び第2セマンティック情報に基づいて、前記シーンにおける前記ターゲットオブジェクトの3D検出枠を決定する第3サブモジュールと、をさらに含む、請求項21に記載の装置。 - 前記第3サブモジュールは、
前記部分領域内の点の第1セマンティック情報及び第2セマンティック情報に基づいて、前記3D初期枠を補正して、補正後の3D初期枠を得る第4サブモジュールと、
補正後の3D初期枠に基づいて、前記シーンにおける前記ターゲットオブジェクトの3D検出枠を決定する第5サブモジュールと、を含む、請求項22に記載の装置。 - 前記第3サブモジュールは、さらに、
前記部分領域内の点の第1セマンティック情報及び第2セマンティック情報に基づいて、前記3D初期枠がターゲットオブジェクトに対応する信頼度を決定し、
前記3D初期枠及びその信頼度に基づいて、前記シーンにおける前記ターゲットオブジェクトの3D検出枠を決定する、請求項22に記載の装置。 - 前記第3サブモジュールは、
前記部分領域内の点の第1セマンティック情報及び第2セマンティック情報に基づいて、前記3D初期枠を補正して、補正後の3D初期枠を得る第4サブモジュールと、
前記部分領域内の点の第1セマンティック情報及び第2セマンティック情報に基づいて、前記補正後の3D初期枠がターゲットオブジェクトに対応する信頼度を決定する第6サブモジュールと、
前記補正後の3D初期枠及びその信頼度に基づいて、前記シーンにおける前記ターゲットオブジェクトの3D検出枠を決定する第7サブモジュールと、を含む、請求項22に記載の装置。 - 前記部分領域は、
所定のポリシーに基づいて3D初期枠に対してエッジ拡張を行って得られた3D拡張枠を含む、ことを特徴とする請求項22~25のいずれか一項に記載の装置。 - 前記3D拡張枠は、
予め設定されたX軸方向の増分、Y軸方向の増分及び/又はZ軸方向の増分に基づいて、前記3D初期枠に対して3D空間拡張を行って形成された、前記3D初期枠を含む3D拡張枠を含む、ことを特徴とする請求項26に記載の装置。 - 前記第2サブモジュールは、
前記3D拡張枠の所定のターゲット位置に基づいて、点群データにおける、前記3D拡張枠内に位置する点の座標情報に対して座標変換を行って、座標変換後の点の特徴情報を取得する第8サブモジュールと、
座標変換後の点の特徴情報に基づいて、前記3D拡張枠に基づくセマンティックセグメンテーションを行って、前記3D拡張枠内の点の第2セマンティック特徴を取得する第9サブモジュールとを含む、ことを特徴とする請求項26又は27に記載の装置。 - 前記第9サブモジュールは、さらに、
前記前景点のマスク及び座標変換後の点の特徴情報に基づいて、前記3D拡張枠に基づくセマンティックセグメンテーションを行う、ことを特徴とする請求項28に記載の装置。 - 前記前景点は複数あり、前記検出枠決定モジュールは、さらに、
複数の前記前景点に対応する3D初期枠の間の重なり度を決定し、
重なり度が設定閾値より大きい3D初期枠を選別し、
選別された3D初期枠に基づいて前記シーンにおける前記ターゲットオブジェクトの3D検出枠を決定する、請求項21に記載の装置。 - 前記特徴抽出モジュール、第1セマンティックセグメンテーションモジュール、前景点予測モジュール及び初期枠生成モジュールは、第1段階ニューラルネットワークにより実現され、かつ前記第1段階ニューラルネットワークは、第1トレーニングモジュールが3Dアノテーション枠付きの点群データサンプルを利用してトレーニングして得るものである、ことを特徴とする請求項21~30のいずれか一項に記載の装置。
- 前記第1トレーニングモジュールは、
点群データサンプルを前記第1段階ニューラルネットワークに提供し、前記第1段階ニューラルネットワークに基づいて前記点群データサンプルの特徴情報を抽出し、前記点群データサンプルの特徴情報に基づいて前記点群データサンプルに対してセマンティックセグメンテーションを行い、セマンティックセグメンテーションにより取得された複数の点の第1セマンティック特徴に基づいて前記複数の点のうち、ターゲットオブジェクトに対応する少なくとも1つの前景点を予測し、かつ前記第1セマンティック情報に基づいて前記少なくとも1つの前景点のそれぞれに対応する3D初期枠を生成し、
前記前景点に対応する損失と、前記3D初期枠がその対応する3Dアノテーション枠に対して生成した損失とを取得し、かつ前記損失に基づいて前記第1段階ニューラルネットワークのネットワークパラメータを調整する、ことを特徴とする請求項31に記載の装置。 - 前記第1トレーニングモジュールは、さらに、
前記第1段階ニューラルネットワークにより予測された前記前景点の信頼度に基づいて、前記前景点の予測結果に対応する第1損失を決定し、
前記前景点に対して生成された3D初期枠内のパラメータの所在するビンの番号と、前記点群データサンプル中の3Dアノテーション枠情報における、パラメータの所在するビンの番号とに基づいて、第2損失を生成し、
前記前景点に対して生成された3D初期枠内のパラメータの対応するビンでのオフセット量と、前記点群データサンプル中の3Dアノテーション枠情報におけるパラメータの対応するビンでのオフセット量とに基づいて、第3損失を生成し、
前記前景点に対して生成された3D初期枠内のパラメータの所定のパラメータに対するオフセット量に基づいて、第4損失を生成し、
前記前景点の座標パラメータの、該前景点に対して生成された3D初期枠内の座標パラメータに対するオフセット量に基づいて、第5損失を生成し、
前記第1損失、第2損失、第3損失、第4損失及び第5損失に基づいて、前記第1段階ニューラルネットワークのネットワークパラメータを調整する、ことを特徴とする請求項32に記載の装置。 - 前記第1サブモジュール、第2サブモジュール及び第3サブモジュールは、第2段階ニューラルネットワークにより実現され、かつ前記第2段階ニューラルネットワークは、第2トレーニングモジュールが3Dアノテーション枠付きの点群データサンプルを利用してトレーニングして得るものである、ことを特徴とする請求項22~29のいずれか一項に記載の装置。
- 前記第2トレーニングモジュールは、
前記3D初期枠を第2段階ニューラルネットワークに提供し、第2段階ニューラルネットワークに基づいて前記点群データサンプル中の部分領域内の点の特徴情報を取得し、前記点群データサンプル中の部分領域内の点の特徴情報に基づいて前記点群データサンプル中の部分領域内の点に対してセマンティックセグメンテーションを行って、点群データサンプル中の部分領域内の点の第2セマンティック特徴を取得して、前記点群データサンプル中の部分領域内の点の第1セマンティック特徴及び第2セマンティック特徴に基づいて、前記3D初期枠がターゲットオブジェクトである信頼度を決定し、かつ前記点群データサンプル中の部分領域内の点の第1セマンティック特徴及び前記第2セマンティック特徴に基づいて、位置補正後の3D初期枠を生成し、
前記3D初期枠がターゲットオブジェクトである信頼度に対応する損失と、前記位置補正後の3D初期枠がその対応する3Dアノテーション枠に対して生成した損失とを取得し、かつ前記損失に基づいて前記第2段階ニューラルネットワークのネットワークパラメータを調整する、ことを特徴とする請求項34に記載の装置。 - 前記第2トレーニングモジュールは、さらに、
第2段階ニューラルネットワークにより予測された、3D初期枠がターゲットオブジェクトである信頼度に基づいて、予測結果に対応する第6損失を決定し、
第2段階ニューラルネットワークにより生成された、対応する3Dアノテーション枠との重なり度が設定閾値を超える位置補正後の3D初期枠内のパラメータの所在するビンの番号と、点群データサンプル中の3Dアノテーション枠情報における、パラメータの所在するビンの番号とに基づいて、第7損失を生成し、
第2段階ニューラルネットワークにより生成された、対応する3Dアノテーション枠との重なり度が設定閾値を超える位置補正後の3D初期枠内のパラメータの対応するビンでのオフセット量と、点群データサンプル中の3Dアノテーション枠情報におけるパラメータの対応するビンでのオフセット量とに基づいて、第8損失を生成し、
第2段階ニューラルネットワークにより生成された、対応する3Dアノテーション枠との重なり度が設定閾値を超える位置補正後の3D初期枠内のパラメータの所定のパラメータに対するオフセット量に基づいて、第9損失を生成し、
第2段階ニューラルネットワークにより生成された、対応する3Dアノテーション枠との重なり度が設定閾値を超える位置補正後の3D初期枠内の座標パラメータの、3Dアノテーション枠の中心点の座標パラメータに対するオフセット量に基づいて、第10損失を生成し、
前記第6損失、第7損失、第8損失、第9損失及び第10損失に基づいて、前記第2段階ニューラルネットワークのネットワークパラメータを調整する、ことを特徴とする請求項35に記載の装置。 - ターゲットオブジェクトの3D検出枠を取得する請求項21~36のいずれか一項に記載のターゲットオブジェクトの3D検出装置と、
前記3D検出枠に基づいて、車両を制御する命令又は早期警報提示情報を生成する第1制御モジュールとを含む、ことを特徴とする車両のインテリジェント制御装置。 - 前記第1制御モジュールは、さらに、
前記3D検出枠に基づいて、前記ターゲットオブジェクトのシーンにおける空間位置、大きさ、車両との距離、車両との相対方位情報のうちの少なくとも1つを含む前記ターゲットオブジェクトの情報を決定し、
決定された前記少なくとも1つの情報に基づいて、前記車両を制御する命令又は早期警報提示情報を生成する、請求項37に記載の装置。 - ターゲットオブジェクトの3D検出枠を取得する請求項21~36のいずれか一項に記載のターゲットオブジェクトの3D検出装置と、
前記3D検出枠に基づいて、ロボットに対して障害物回避ナビゲーション制御を行う命令又は早期警報提示情報を生成する第2制御モジュールとを含む、ことを特徴とする障害物回避ナビゲーション装置。 - 前記第2制御モジュールは、さらに、
前記3D検出枠に基づいて、前記ターゲットオブジェクトのシーンにおける空間位置、大きさ、ロボットとの距離、ロボットとの相対方位情報のうちの少なくとも1つを含む前記ターゲットオブジェクトの情報を決定し、
決定された前記少なくとも1つの情報に基づいて、前記ロボットに対して障害物回避ナビゲーション制御を行う命令又は早期警報提示情報を生成する、請求項39に記載の装置。 - コンピュータプログラムを記憶するメモリと、
前記メモリに記憶されたコンピュータプログラムを実行し、かつ前記コンピュータプログラムを実行すると、上記請求項1~20のいずれか一項に記載の方法を実現するプロセッサと、を含む、電子機器。 - プロセッサにより実行されると、上記請求項1~20のいずれか一項に記載の方法を実現するコンピュータプログラムが記憶されているコンピュータ可読記憶媒体。
- 機器のプロセッサで実行されると、上記請求項1~20のいずれか一項に記載の方法を実現するコンピュータ命令を含むコンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811446588.8 | 2018-11-29 | ||
CN201811446588.8A CN109635685B (zh) | 2018-11-29 | 2018-11-29 | 目标对象3d检测方法、装置、介质及设备 |
PCT/CN2019/118126 WO2020108311A1 (zh) | 2018-11-29 | 2019-11-13 | 目标对象3d检测方法、装置、介质及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022515591A true JP2022515591A (ja) | 2022-02-21 |
Family
ID=66070171
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021526222A Pending JP2022515591A (ja) | 2018-11-29 | 2019-11-13 | ターゲットオブジェクトの3d検出方法、装置、媒体及び機器 |
Country Status (4)
Country | Link |
---|---|
JP (1) | JP2022515591A (ja) |
KR (1) | KR20210078529A (ja) |
CN (1) | CN109635685B (ja) |
WO (1) | WO2020108311A1 (ja) |
Families Citing this family (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109635685B (zh) * | 2018-11-29 | 2021-02-12 | 北京市商汤科技开发有限公司 | 目标对象3d检测方法、装置、介质及设备 |
CN112101066B (zh) * | 2019-06-17 | 2024-03-08 | 商汤集团有限公司 | 目标检测方法和装置及智能驾驶方法、设备和存储介质 |
WO2020258218A1 (zh) * | 2019-06-28 | 2020-12-30 | 深圳市大疆创新科技有限公司 | 可移动平台的障碍物检测方法、装置及可移动平台 |
CN110458112B (zh) * | 2019-08-14 | 2020-11-20 | 上海眼控科技股份有限公司 | 车辆检测方法、装置、计算机设备和可读存储介质 |
CN112444784B (zh) * | 2019-08-29 | 2023-11-28 | 北京市商汤科技开发有限公司 | 三维目标检测及神经网络的训练方法、装置及设备 |
CN110751090B (zh) * | 2019-10-18 | 2022-09-20 | 宁波博登智能科技有限公司 | 一种三维点云标注方法、装置及电子设备 |
CN110991468B (zh) * | 2019-12-13 | 2023-12-19 | 深圳市商汤科技有限公司 | 三维目标检测和智能行驶方法、装置、设备 |
CN111179247A (zh) * | 2019-12-27 | 2020-05-19 | 上海商汤智能科技有限公司 | 三维目标检测方法及其模型的训练方法及相关装置、设备 |
CN111507973B (zh) * | 2020-04-20 | 2024-04-12 | 上海商汤临港智能科技有限公司 | 目标检测方法及装置、电子设备和存储介质 |
CN111539347B (zh) * | 2020-04-27 | 2023-08-08 | 北京百度网讯科技有限公司 | 用于检测目标的方法和装置 |
CN111860373B (zh) * | 2020-07-24 | 2022-05-20 | 浙江商汤科技开发有限公司 | 目标检测方法及装置、电子设备和存储介质 |
CN111968133A (zh) * | 2020-07-31 | 2020-11-20 | 上海交通大学 | 自动驾驶场景下的三维点云数据实例分割方法及系统 |
CN112200768A (zh) * | 2020-09-07 | 2021-01-08 | 华北水利水电大学 | 一种基于地理位置的点云信息提取系统 |
CN111931727A (zh) * | 2020-09-23 | 2020-11-13 | 深圳市商汤科技有限公司 | 点云数据标注方法、装置、电子设备和存储介质 |
US11756317B2 (en) * | 2020-09-24 | 2023-09-12 | Argo AI, LLC | Methods and systems for labeling lidar point cloud data |
CN112183330B (zh) * | 2020-09-28 | 2022-06-28 | 北京航空航天大学 | 基于点云的目标检测方法 |
WO2022088676A1 (zh) * | 2020-10-29 | 2022-05-05 | 平安科技(深圳)有限公司 | 三维点云语义分割方法、装置、设备及介质 |
CN112598635B (zh) * | 2020-12-18 | 2024-03-12 | 武汉大学 | 一种基于对称点生成的点云3d目标检测方法 |
CN112766206B (zh) * | 2021-01-28 | 2024-05-28 | 深圳市捷顺科技实业股份有限公司 | 一种高位视频车辆检测方法、装置、电子设备和存储介质 |
CN112862953B (zh) * | 2021-01-29 | 2023-11-28 | 上海商汤临港智能科技有限公司 | 一种点云数据的处理方法、装置、电子设备及存储介质 |
CN112800971A (zh) * | 2021-01-29 | 2021-05-14 | 深圳市商汤科技有限公司 | 神经网络训练及点云数据处理方法、装置、设备和介质 |
CN112907760B (zh) * | 2021-02-09 | 2023-03-24 | 浙江商汤科技开发有限公司 | 三维对象的标注方法及装置、工具、电子设备和存储介质 |
CN115035359A (zh) * | 2021-02-24 | 2022-09-09 | 华为技术有限公司 | 一种点云数据处理方法、训练数据处理方法及装置 |
CN112990200A (zh) * | 2021-03-31 | 2021-06-18 | 上海商汤临港智能科技有限公司 | 一种数据标注方法、装置、计算机设备及存储介质 |
CN113516013B (zh) * | 2021-04-09 | 2024-05-14 | 阿波罗智联(北京)科技有限公司 | 目标检测方法、装置、电子设备、路侧设备和云控平台 |
CN113298163A (zh) * | 2021-05-31 | 2021-08-24 | 国网湖北省电力有限公司黄石供电公司 | 一种基于LiDAR点云数据的目标识别监测方法 |
CN113537316B (zh) * | 2021-06-30 | 2024-04-09 | 南京理工大学 | 一种基于4d毫米波雷达点云的车辆检测方法 |
CN113570535A (zh) * | 2021-07-30 | 2021-10-29 | 深圳市慧鲤科技有限公司 | 视觉定位方法及相关装置、设备 |
CN113984037B (zh) * | 2021-09-30 | 2023-09-12 | 电子科技大学长三角研究院(湖州) | 一种基于任意方向目标候选框的语义地图构建方法 |
CN113822277B (zh) * | 2021-11-19 | 2022-02-18 | 万商云集(成都)科技股份有限公司 | 基于深度学习目标检测的违规广告图片检测方法及系统 |
CN114298581A (zh) * | 2021-12-30 | 2022-04-08 | 广州极飞科技股份有限公司 | 质量评估模型生成方法、质量评估方法、装置、电子设备和可读存储介质 |
CN114241110B (zh) * | 2022-02-23 | 2022-06-03 | 北京邮电大学 | 基于邻域聚合蒙特卡罗失活的点云语义不确定度感知方法 |
CN115880470B (zh) * | 2023-03-08 | 2023-06-02 | 深圳佑驾创新科技有限公司 | 3d图像数据的生成方法、装置、设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008012635A (ja) * | 2006-07-07 | 2008-01-24 | Toyota Motor Corp | 人物識別システム |
WO2018170472A1 (en) * | 2017-03-17 | 2018-09-20 | Honda Motor Co., Ltd. | Joint 3d object detection and orientation estimation via multimodal fusion |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9218529B2 (en) * | 2012-09-11 | 2015-12-22 | Southwest Research Institute | 3-D imaging sensor based location estimation |
US10733651B2 (en) * | 2014-01-01 | 2020-08-04 | Andrew S Hansen | Methods and systems for identifying physical objects |
CN105976400B (zh) * | 2016-05-10 | 2017-06-30 | 北京旷视科技有限公司 | 基于神经网络模型的目标跟踪方法及装置 |
CN108122245B (zh) * | 2016-11-30 | 2021-11-30 | 华为技术有限公司 | 一种目标行为描述方法、装置和监控设备 |
CN108509820B (zh) * | 2017-02-23 | 2021-12-24 | 百度在线网络技术(北京)有限公司 | 障碍物分割方法及装置、计算机设备及可读介质 |
CN108470174B (zh) * | 2017-02-23 | 2021-12-24 | 百度在线网络技术(北京)有限公司 | 障碍物分割方法及装置、计算机设备及可读介质 |
CN107622244B (zh) * | 2017-09-25 | 2020-08-28 | 华中科技大学 | 一种基于深度图的室内场景精细化解析方法 |
CN108171217A (zh) * | 2018-01-29 | 2018-06-15 | 深圳市唯特视科技有限公司 | 一种基于点融合网络的三维物体检测方法 |
CN108895981B (zh) * | 2018-05-29 | 2020-10-09 | 南京怀萃智能科技有限公司 | 一种三维测量方法、装置、服务器和存储介质 |
CN109635685B (zh) * | 2018-11-29 | 2021-02-12 | 北京市商汤科技开发有限公司 | 目标对象3d检测方法、装置、介质及设备 |
-
2018
- 2018-11-29 CN CN201811446588.8A patent/CN109635685B/zh active Active
-
2019
- 2019-11-13 JP JP2021526222A patent/JP2022515591A/ja active Pending
- 2019-11-13 KR KR1020217015013A patent/KR20210078529A/ko not_active Application Discontinuation
- 2019-11-13 WO PCT/CN2019/118126 patent/WO2020108311A1/zh active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008012635A (ja) * | 2006-07-07 | 2008-01-24 | Toyota Motor Corp | 人物識別システム |
WO2018170472A1 (en) * | 2017-03-17 | 2018-09-20 | Honda Motor Co., Ltd. | Joint 3d object detection and orientation estimation via multimodal fusion |
Non-Patent Citations (1)
Title |
---|
XIAOZHI CHEN ET AL.: "Multi-view 3D Object Detection Network for Autonomous Driving", 2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), JPN7022003632, 21 July 2017 (2017-07-21), ISSN: 0005001293 * |
Also Published As
Publication number | Publication date |
---|---|
KR20210078529A (ko) | 2021-06-28 |
WO2020108311A1 (zh) | 2020-06-04 |
CN109635685B (zh) | 2021-02-12 |
CN109635685A (zh) | 2019-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2022515591A (ja) | ターゲットオブジェクトの3d検出方法、装置、媒体及び機器 | |
US11915502B2 (en) | Systems and methods for depth map sampling | |
US11216971B2 (en) | Three-dimensional bounding box from two-dimensional image and point cloud data | |
US11024041B2 (en) | Depth and motion estimations in machine learning environments | |
JP7101255B2 (ja) | 目標対象の運動の向きを予測するための方法、車両制御方法及び装置 | |
US11205274B2 (en) | High-performance visual object tracking for embedded vision systems | |
KR102292559B1 (ko) | 단안 이미지 깊이 추정 방법 및 장치, 기기, 프로그램 및 저장 매체 | |
WO2020232174A1 (en) | Distributed pose estimation | |
KR20200022001A (ko) | 희귀 인스턴스 분류기들 | |
CN113284163B (zh) | 基于车载激光雷达点云的三维目标自适应检测方法及系统 | |
JP7091485B2 (ja) | 運動物体検出およびスマート運転制御方法、装置、媒体、並びに機器 | |
WO2020250020A9 (en) | Lidar and radar based tracking and mapping system and method thereof | |
JP2021536071A (ja) | 障害物検出方法、知的運転制御方法、装置、媒体、及び機器 | |
CN113887400B (zh) | 障碍物检测方法、模型训练方法、装置及自动驾驶车辆 | |
US11790661B2 (en) | Image prediction system | |
US20220301099A1 (en) | Systems and methods for generating object detection labels using foveated image magnification for autonomous driving | |
CN115147798A (zh) | 可行驶区域预测方法、模型、装置及车辆 | |
CN114815851A (zh) | 机器人跟随方法、装置、电子设备以及存储介质 | |
JP2022035033A (ja) | 情報処理システム、情報処理方法、プログラムおよび車両制御システム | |
KR20240012426A (ko) | 비제약 이미지 안정화 | |
Gokarn et al. | Lightweight Collaborative Perception at the Edge | |
KR102587234B1 (ko) | 동영상 중 실시간 손동작 인식을 위한 tsn 기반의 딥러닝 방법 및 장치 | |
CN116698051A (zh) | 高精度车辆定位、矢量化地图构建及定位模型训练方法 | |
CN114926534A (zh) | 障碍物感知方法、装置、可读存储介质及电子设备 | |
CN116844134A (zh) | 目标检测方法、装置、电子设备、存储介质及车辆 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210608 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210608 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220624 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220728 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20230228 |