JP2020042816A

JP2020042816A - 物体検出方法、装置、機器、記憶媒体及び車両

Info

Publication number: JP2020042816A
Application number: JP2019163303A
Authority: JP
Inventors: シエ，ユァンファン; Yuanfan Xie; イァン，ヅシュー; Zishu Yang; ワン，リァン; Liang Wang
Original assignee: Baidu Online Network Technology Beijing Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd
Priority date: 2018-09-07
Filing date: 2019-09-06
Publication date: 2020-03-19
Anticipated expiration: 2039-09-06
Also published as: US20200082207A1; JP6842520B2; EP3620966A1; US11379699B2; CN109345510A

Abstract

【課題】物体検出方法、装置、機器、記憶媒体及び車両を提供する。【解決手段】物体検出方法は、予めトレーニングして取得された点群特徴抽出モデルにシーン点群データを入力してシーンの点群記述特徴を取得し、予めトレーニングして取得された画像特徴抽出モデルにシーン画像データを入力してシーンの画像記述特徴を取得するステップと、シーンにおける各目標領域の点群記述特徴と画像記述特徴を予めトレーニングして取得された物体認識モデルに入力して、各目標領域に位置する物体の検出結果を取得するステップと、を含む。【効果】既存のポストフュージョンマルチセンサ検出方案を比較して、当該方案は特徴の前融合マルチセンサ検出方案に相当し、適用規則及び確率を融合の基礎としてデータを関連する必要がなく、物体を検出する同時に、検出プロセスを簡略化する。【選択図】図２Ａ

Description

本発明の実施例は、センサ技術分野に関し、特に物体検出方法、装置、機器、記憶媒体及び車両に関する。

センサ技術の発展と伴い、複数のセンサを同時に使用して同一の物体又は環境などを検出し、複数のセンサの検出データを融合処理して取得された検出結果は、単一のセンサが同一の物体又は環境などを検出する結果に比べてより全面的かつ正確である。したがってマルチセンサフュージョン検出は、物体検出又はターゲット追跡などの分野で多く利用されている。

現在、マルチセンサフュージョン検出方案に主に使用されているのは、ポストフュージョンマルチセンサ検出方案である。一つの典型的なポストフュージョン処理プロセスは、図１に示す結果融合に相当し、センサ１とセンサ２はそれぞれのセンサデータを二つの異なる検出器に送信して、第１のオブジェクト特徴と第２のオブジェクト特徴を取得し、第１のオブジェクト特徴と第２のオブジェクト特徴に対して事後確率を最大化する方式によって融合してオブジェクト特徴を取得する。

しかし、既存のポストフュージョンマルチセンサ検出方案は、規則及び確率を融合の基礎としてデータを関連する必要があり、一方ではプロセスが長く、より高い遅延を引き起こし、他方ではデータ駆動を使用してすべての融合システムを最適化することができない。したがって、新しいマルチセンサフュージョン方案を提供して物体検出を実現することは非常に必要である。

本発明の実施例は、物体検出方法、装置、機器、記憶媒体及び車両を提供して、物体検出を実現する同時に、検出プロセスを簡略化する。

第１の側面において、本発明の実施例は、物体検出方法を提供し、当該物体検出方法は、予めトレーニングして取得された点群特徴抽出モデルにシーン点群データを入力してシーンの点群記述特徴を取得し、予めトレーニングして取得された画像特徴抽出モデルにシーン画像データを入力してシーンの画像記述特徴を取得するステップと、シーンにおける各目標領域の点群記述特徴と画像記述特徴を予めトレーニングして取得された物体認識モデルに入力して、各目標領域に位置する物体の検出結果を取得するステップと、を含む。

第２の側面において、本発明の実施例は、物体検出装置をさらに提供し、当該装置は、予めトレーニングして取得された点群特徴抽出モデルにシーン点群データを入力してシーンの点群記述特徴を取得し、予めトレーニングして取得された画像特徴抽出モデルにシーン画像データを入力してシーンの画像記述特徴を取得するための記述特徴取得モジュールと、シーンにおける各目標領域の点群記述特徴と画像記述特徴を予めトレーニングして取得された物体認識モデルに入力するための物体検出入力モジュールと、各目標領域に位置する物体の検出結果を取得するための検出結果取得モジュールと、を含む。

第３の側面において、本発明の実施例は、機器をさらに提供し、当該機器は、一つ又は複数のプロセッサと、一つ又は複数のプログラムを記憶するための記憶装置と、を含み、前記一つ又は複数のプログラムが前記一つ又は複数のプロセッサによって実行される場合に、前記一つ又は複数のプロセッサが、第１の側面のいずれかに記載の物体検出方法を実現する。

第４の側面において、本発明の実施例は、コンピュータプログラムが記憶されている記憶媒体をさらに提供し、当該プログラムがプロセッサによって実行される場合に、第１の側面のいずれかに記載の物体検出方法が実現される。

第５の側面において、本発明の実施例は、車体を含む車両を提供し、前記車体上には、本発明の任意の実施例により提供される機器、及び前記機器と通信可能に接続されるレーザレーダと画像収集器とが設けられる。

本発明の実施例により提供される物体検出方法、装置、機器、記憶媒体及び車両は、シーン点群データとシーン画像データを予めトレーニングされた点群特徴抽出モデルと画像特徴抽出モデルにそれぞれ入力して取得されたシーンの点群記述特徴と画像の記述特徴を目標領域単位で物体認識モデルに入力して、各目標領域に位置する物体の検出結果を取得することができる。既存のポストフュージョンマルチセンサ検出方案を比較して、当該方案は特徴の前融合マルチセンサ検出方案に相当し、適用規則及び確率を融合の基礎としてデータを関連する必要がなく、物体を検出する同時に、検出プロセスを簡略化する。

本発明の実施例における技術案を更に明確にするように説明するため、以下に、実施例に用いられる図面を簡単に説明する。以下の説明に関わる図面は、本発明の幾つかの実施例に過ぎなく、当業者にとって、創造性な労働をしないことを前提として、これらの図面に基づいて他の図面を取得できることは、理解されることができる。

従来技術によって提供される典型的な後処理プロセスの概略図である。本発明の実施例１における物体検出方法の概略図である。本発明の実施例に適用される物体検出プロセスの概略図である。本発明の実施例に適用される三つのモデルを同期にトレーニングするプロセスの概略図である。本発明の実施例２における物体検出方法のフローチャートである。本発明の実施例３における物体検出装置の概略構成図である。本発明の実施例４における機器の概略構成図である。

以下、図面と実施例とを組み合わせて、本発明についてさらに詳しく説明する。なお、ここで説明される具体的な実施例は、単に本発明を解釈するためのものであり、本発明を限定するものではない。また、説明の便宜上、図面には、すべての構成ではなく、本発明に係る部分だけが示されている。

類似した符号と文字は、以下の図において類似している項目を示すため、一旦、ある項目が一つの図で定義されると、その後の図には、さらに定義して説明する必要がない。本願の説明において、「第１」、「第２」などの用語は、単に目的を説明するためのものであり、比較的な重要性を指示又は暗示すると理解してはいけない。
実施例１

図２Ａは、本発明の実施例１により提供される物体検出方法のフローチャートであり、図２Ｂは、本発明の実施例に適用される物体検出プロセスの概略図であり、本実施例は、シーンに含まれる物体を検出する任意の状況に適用し、検出プロセスを簡略化することができる。当該方法は、本発明の実施例における物体検出装置によって実行されることができ、当該装置、ソフトウェア及び/又はハードウェアの方式を使用して実現することができ、当該装置は、独立の物理的な機器であってもよいし、端末（例えば、自動運転式モバイルキャリアの制御フレームワーク）に配置されてもよい。図２Ａと２Ｂに示すように、当該方法は、具体的には、以下のステップを含む。
ステップＳ２１０：予めトレーニングして取得された点群特徴抽出モデルにシーン点群データを入力してシーンの点群記述特徴を取得し、予めトレーニングして取得された画像特徴抽出モデルにシーン画像データを入力してシーンの画像記述特徴を取得する。

点群データは、１セットの３次元座標を含む点によって構成される点の集合を指し、物体の外表面形状を特徴付けるために用いられる。その中、各点の３次元空間の幾何学的位置情報は（ｘ、ｙ、ｚ）で表示することができ、これ以外の点群データは、一つの点のＲＧＢ色、グレー値、深度、セグメンテーション結果などをさらに表示することができる。画像データは、２次元座標系を含む点によって構成された集合を指し、数値で表示する各画素のグレー値の集合でもある。本実施例では、レーザレーダと画像収集器（例えば、カメラなど）を使用して、あるシーンを同期的に収集し、当該シーン点群データとシーン画像データを取得する。

点群記述特徴は、シーン点群データによって構築された３次元シーン点群モデルの特徴を記述するものであり、シーンにおける物体の特徴であってもよい。画像記述特徴は、シーン画像データによって構築された２次元シーン画像モデルの特徴を記述するものであり指し、シーンにおける物体の特徴であってもよい。点群記述特徴と画像記述特徴の両者が記述することは、同じ物体の異なる次元の特徴であってもよく、異なる物体の特徴などであってもよい。

点群特徴抽出モデルと画像特徴抽出モデルは、いずれも事前に畳み込みニューラルネットワークをトレーニングして取得し、具体的な実現は、図２Ｃに示す方式によって実現することができる。即ち、事前にレーザレーダと画像収集器を使用してサンプルシーンを収集してサンプル点群データとサンプル画像データを取得し、サンプル点群データを第１の畳み込みニューラルネットワークモデルに入力してサンプル点群記述特徴を取得し、サンプル画像データを第２の畳み込みニューラルネットワークモデルに入力してサンプル画像記述特徴を取得する。次に、レーザレーダ座標系内では、予め設定されたサイズの物体枠を均等に配置することによってサンプル点群データを各領域に分割し、サンプル点群データにおける各領域をトラバースし、各領域に含まれるサンプル点群記述特徴及び各領域サンプル点群記述特徴に対応するサンプル画像記述特徴を第３の畳み込みニューラルネットワークモデルに入力し、サンプル点群データにおける各領域の物体ラベリング結果に基づいて、第３の畳み込みニューラルネットワークモデルが物体の分類、位置及向きなどの検出結果を正確に検出するまでに、同時に三つの畳み込みニューラルネットワークモデルをトレーニングした場合、点群特徴抽出モデル、画像特徴抽出モデル及び物体認識モデルを取得することができる。その中、第１の畳み込みニューラルネットワークモデルは、点群特徴抽出モデルに対応し、第２の畳み込みニューラルネットワークモデルは、画像特徴抽出モデルに対応し、第３の畳み込みニューラルネットワークモデルは、物体認識モデルに対応する。

なお、本実施例では、サンプル点群データ、サンプル画像データとサンプル点群データにおける各領域の物体ラベリング結果を三つの畳み込みニューラルネットワークモデルに同時に入力して同時にトレーニングし、前の二つのモデルの出力結果に注目する必要がなく、最終的に第３のモデルが検出結果を正確に出力することができれば、トレーニングを停止し、各モデル毎にトレーニングすることに比べれば、トレーニングの複雑さを下げる。

具体的には、それぞれにレーザレーダと画像収集器を同期させてシーンに対して収集されたシーン点群データとシーン画像データを予めトレーニングされた点群特徴抽出モデルと画像特徴抽出モデルに入力して、当該シーンの点群記述特徴と画像記述特徴を取得することができる。

ステップＳ２２０：シーンにおける各目標領域の点群記述特徴と画像記述特徴を予めトレーニングして取得された物体認識モデルに入力して、各目標領域に位置する物体の検出結果を取得する。

目標領域は、シーンにおける物体が存在する領域を指す。以下の方式によって取得することができる。点群特徴抽出モデルと画像特徴抽出モデルに基づいて点群記述特徴と画像記述特徴を取得した後、カメラ座標系内などのレーザレーダ座標系又は画像収集器内で、予め設定されたサイズの物体枠を均等に配置することによってシーン点群データ又はシーン画像データを各領域に分割し、ｂｌｏｂ検出などのような簡単な検出モデルを使用して各領域の点群記述特徴又は画像記述特徴を検出して、シーンに含まれる各物体を取得し、各物体が存在する領域を一つの目標領域とする。また、認識領域の数を減らすために、カメラ座標系内などのレーザレーダ座標系又は画像収集器内で、実験の経験によって潜在的な位置だけに一部の物体枠を配置することもでき、ｂｌｏｂ検出などのような簡単な検出モデルを使用して各物体枠内の点群記述特徴又は画像記述特徴を検出して、物体がないもの又は予め設定された条件を満たさない物体枠を除去し、シーンに含まれる各物体を取得し、各物体が存在する物体枠を一つの目標領域とする。その中、予め設定された条件は、予め設置された物体枠を前処理するための方式を指し、物体枠内の物体のサイズ又は物体によって占められる画素の点数が予め設定された数値より小さいことを意味してもよく、物体枠内の物体をノイズなどとして扱うこともできる。

本実施例では、物体認識モデルは、図２Ｃに示す方式で、第３の畳み込みニューラルネットワークモデルによってトレーニングして取得することができる。畳み込みニューラルネットワークの基本構造は、二つの特殊なニューロン層を含み、一つは畳み込み層であり、各ニューロンの入力は前の層の局所と接続され、当該局所の特徴を抽出する。もう一つはプーリング層プーリング層であり、局所感度を求め、２次特徴を抽出するための計算層である。この二つの特徴抽出構造は特徴解像度を低下し、最適化する必要があるパラメータ数を減らす。

畳み込み層におけるニューロンは入力データの一つの局所領域のみに接続するため、畳み込み列でニューロン共享パラメータを実現することができる。畳み込みニューラルネットワークのトレーニング速度を改善し、度冗長性を削減らすために、本実施例における第３の畳み込みニューラルネットワークモデルは畳み込みニューラルネットワークにおける完全な接続層を畳み込み層に変換し、即ち第３の畳み込みニューラルネットワークモデルをプーリング層と畳み込み層のみを含む完全な畳み込みニューラルネットワークモデルに変換する。したがって、物体認識モデルは、完全な畳み込みニューラルネットワークに基づいてトレーニングして取得されることができる。

物体の検出結果は、物体認識モデルの出力結果であり、人、樹木、車などなような物体の種別であってもよいし、物体の位置、サイズ又は向きなどであってもよい。なお、必要に応じて物体認識モデルに複数の出力層を設置することができ、各出力層は異なる損失関数に対応して、異なる検出結果を実現することができ、同一の物体は、異なる種類の検出結果を出力することができる。

具体的には、点群特徴抽出モデルと画像特徴抽出モデルに基づいて点群記述特徴と画像記述特徴を取得した後、シーンにおける各目標領域の点群記述特徴と画像記述特徴を物体認識モデルに入力し、モデルはモデルの既存のパラメータを組み合わせて、各目標領域に含まれる物体の検出結果を出力することができる。

なお、本実施例では、三つのモデルのうち最初の二つのモデル、すなわち点群特徴抽出モデルと画像特徴抽出モデルの記述特徴を融合した後、第３のモデル、すなわち物体認識モデルに入力して、第３のモデルで融合特徴をトレーニングして物体の検出結果を取得することは、既存のポストフュージョンマルチセンサ検出方案を比較して、本実施例は特徴の前融合マルチセンサ検出方案に相当し、適用規則及び確率を融合の基礎としてデータを関連する必要がなく、検出プロセスを簡略化する。

本発明の実施例により提供される技術案は、シーン点群データとシーン画像データを予めトレーニングされた点群特徴抽出モデルと画像特徴抽出モデルにそれぞれ入力して取得されたシーン点群記述特徴と画像記述特徴を目標領域単位で物体認識モデルに入力して、各目標領域に位置する物体の検出結果を取得することができる。既存のポストフュージョンマルチセンサ検出方案を比較して、当該方案は特徴の前融合マルチセンサ検出方案に相当し、適用規則及び確率を融合の基礎としてデータを関連する必要がなく、物体を検出する同時に、検出プロセスを簡略化する。
実施例２

図３は、本発明の実施例２における物体検出方法のフローチャートである。本実施例は、上記の実施例に基づいて、シーンにおける各目標領域の点群記述特徴と画像記述特徴を予めトレーニングして取得された物体認識モデルに入力することについて、さらに説明する。図３に示すように、本実施例の方法は、具体的には、以下のステップを含む。
ステップＳ３１０：予めトレーニングして取得された点群特徴抽出モデルにシーン点群データを入力してシーンの点群記述特徴を取得し、予めトレーニングして取得された画像特徴抽出モデルにシーン画像データを入力してシーンの画像記述特徴を取得する。

ステップＳ３２０：シーンにおける各領域の点群記述特徴又は画像記述特徴を認識して、シーンに含まれる各候補物体を取得し、候補物体が存在する領域を目標領域とする。

その中、候補物体はシーンに含まれる目標である可能性がある物体を指す。

具体的には、レーザレーダ座標系内では、予め設定されたサイズの物体枠を均等に配置することによってシーン点群データを各領域に分割し、各領域をトラバースした点群記述特徴は、ｂｌｏｂ検出などのような簡単な検出モデルを使用して各領域の点群記述特徴を認識して、シーンに含まれる各候補物体を取得し、各候補物体が存在する領域を一つの目標領域とする。選択可能に、目標領域の数は候補物体の数と等しく、一つの候補物体は一つの目標領域に対応することができる。さらに、各目標領域を区別することを便利にするために、昇順の番号つけ方式を使用して各目標領域に番号を付けることもできる。

ステップＳ３３０：レーザレーダと画像収集器のパラメータに基づいて各点群目標領域をシーン画像に投影して、各点群目標領域に関連する各画像目標領域を決定する。

パラメータは、位置・姿勢（位置と角度）などを含むことができる。目標領域がレーザレーダ座標系に有することを点群目標領域と呼び、これに対応して、目標領域がカメラ座標系などの画像収集器に有することを画像目標領域と呼ぶ。選択可能に、各点群目標領域は、それに対応する唯一の画像目標領域を有する。

具体的には、レーザレーダと画像収集器のパラメータに基づいて両者の間の相対的な位置・姿勢を決定することができ、各点群目標領域について、当該相対的な位置・姿勢に基づいて点群目標領域をシーン画像に投影し、シーン画像における投影領域を当該点群目標領域に関連する画像目標領域として決定することができる。

ステップＳ３４０：各点群目標領域の点群記述特徴及び関連される各画像目標領域の画像記述特徴を物体認識モデルに入力して、各目標領域に位置する物体の検出結果を取得する。

具体的には、各点群目標領域に関連する各画像目標領域を決定した後、各点群目標領域の点群記述特徴、関連される各画像目標領域の画像記述特徴、及び各点群目標領域を物体認識モデルに入力し、物体認識モデルは各目標領域における物体の検出結果を出力することができる。

なお、必要に応じて物体認識モデルに複数の出力層を設置することができ、各出力層は異なる損失関数に対応して、異なる検出結果を実現することができる。

具体的には、設置された物体認識モデルにおける損失関数が分類に関する損失関数である場合、物体認識モデルは物体の種別を出力する。例示的に、各目標領域に位置する物体の検出結果を取得することは、各目標領域に位置する物体の種別を決定するステップを含むことができる。その中、物体の種別は、家屋類、人物類、植物類又は車両類などの物体が帰属する分類を指す。選択可能に、異なるシーンに対応する物体が異なる場合、決定される物体の種別は異なり、同じのシーン、異なる物体に対応する種別は、同じであってもよいし、異なってもよい。例えば、目標領域１に含まれる物体は自動車であり、目標領域２に含まれる物体は電気自動車であるが、物体認識モデルによって出力される目標領域１と目標領域２の種別はいずれも車両類である。

設置された物体認識モデルにおける損失関数が物体の正確な位置と向きなどを回帰に関する損失関数である場合、物体認識モデルは、物体の位置、向き及サイズなどを出力する。例示的に、各目標領域に位置する物体の検出結果を取得することは、物体認識モデルによって物体の位置を修正することと、物体認識モデルによって物体の向き及び／又はサイズを決定することとを含むことができる。その中、物体の向きは、物体の方位又は角度情報を指し、物体のサイズは、長さ、幅、高さなどの物体の実際のサイズである。

具体的には、各点群目標領域の点群記述特徴、関連される各画像目標領域の画像記述特徴、及び各点群目標領域を物体認識モデルに入力することができ、物体認識モデルでは反復最近接点アルゴリズム（ＩｔｅｒａｔｉｖｅＣｌｏｓｅｓｔＰｏｉｎｔｓ、ＩＣＰ）に類似したのを使用してオフライン登録（ｏｆｆｌｉｎｅｒｅｇｉｓｔｒａｔｉｏｎ）を行って、目標領域における物体の位置を修正することができるため、物体の実際の座標情報を取得する。同時に、物体の現在の向きと物体のサイズなどのうちの少なくとも一つを出力することもできる。

本発明の実施例により提供される技術案は、シーン点群データとシーン画像データを予めトレーニングされた点群特徴抽出モデルと画像特徴抽出モデルにそれぞれ入力して取得されたシーン点群記述特徴と画像記述特徴を目標領域単位で物体認識モデルに入力して、各目標領域に位置する物体の検出結果を取得することができる。既存のポストフュージョンマルチセンサ検出方案を比較して、当該方案は特徴の前融合マルチセンサ検出方案に相当し、適用規則及び確率を融合の基礎としてデータを関連する必要がなく、物体を検出する同時に、検出プロセスを簡略化する。
実施例３

図４は、本発明の実施例３における物体検出装置の概略構成図である。当該装置は、本発明の任意の実施例により提供される物体検出方法を実行することができ、方法に対応する機能を実行するモジュールと有益な効果を備える。図４に示すように、当該装置は、具体的には、記述特徴取得モジュール４１０と、３次元物体検出入力モジュール４２０と、検出結果取得モジュール４３０と、を含む。

その中、記述特徴取得モジュール４１０は、予めトレーニングして取得された点群特徴抽出モデルにシーン点群データを入力してシーンの点群記述特徴を取得し、予めトレーニングして取得された画像特徴抽出モデルにシーン画像データを入力してシーンの画像記述特徴を取得するために用いられる。
物体検出入力モジュール４２０は、シーンにおける各目標領域の点群記述特徴と画像記述特徴を予めトレーニングして取得された物体認識モデルに入力するために用いられる。
検出結果取得モジュール４３０は、各目標領域に位置する物体の検出結果を取得するために用いられる。

本発明の実施例により提供される技術案は、シーン点群データとシーン画像データを予めトレーニングされた点群特徴抽出モデルと画像特徴抽出モデルにそれぞれ入力して取得されたシーン点群記述特徴と画像記述特徴を目標領域単位で物体認識モデルに入力して、各目標領域に位置する物体の検出結果を取得することができる。既存のポストフュージョンマルチセンサ検出方案を比較して、当該方案は特徴の前融合マルチセンサ検出方案に相当し、適用規則及び確率を融合の基礎としてデータを関連する必要がなく、物体を検出する同時に、検出プロセスを簡略化する。

例示的に、上記の装置は、シーンにおける各目標領域の点群記述特徴と画像記述特徴を予めトレーニングして取得された物体認識モデルに入力する前に、シーンにおける各領域の点群記述特徴又は画像記述特徴を認識して、シーンに含まれる各候補物体を取得し、候補物体が存在する領域を目標領域とするための目標領域決定モジュールをさらに含むことができる。

例示的に、物体検出入力モジュール４２０は、具体的には、レーザレーダと画像収集器のパラメータに基づいて各点群目標領域をシーン画像に投影して、各点群目標領域に関連する各画像目標領域を決定し、各点群目標領域の点群記述特徴及び関連される各画像目標領域の画像記述特徴を物体認識モデルに入力するために用いられる。

例示的に、検出結果取得モジュール４３０は、具体的には、各目標領域に位置する物体の種別を決定するために用いられる。

例示的に、検出結果取得モジュール４３０は、具体的には、物体認識モデルによって物体の位置を修正し、物体認識モデルによって物体の向き及び／又はサイズを決定するためにも用いられる。
実施例４

図５は、本発明の実施例４に係る機器の構成図である。図５は、本発明の実施形態を実現するのに適する例示的な機器１２のブロック図である。図５に示される機器１２は、単なる一つの例であり、本発明の実施例の機能及び使用範囲を一切制限しない。

図５に示すように、機器１２は、汎用コンピューティングデバイスの形態で示される。機器１２のコンポーネントは、一つ又は複数のプロセッサ又は処理ユニット１６と、システムシステムメモリ２８と、異なるシステムコンポーネント（システムシステムメモリ２８と処理ユニット１６とを含む）を接続するバス１８と、を含むことができるが、これらに限定されない。

バス１８は、メモリバス又はメモリコントローラ、周辺バス、アクセラレーテッドグラフィックスポート、プロセッサ又は多様なバス構造のうち任意のバス構造を使用するローカルバスを含む、複数種のバス構造のうち一つ又は複数のものを表す。例をあげると、これらのアーキテクチャは、インダストリスタンダードアーキテクチャ（ＩＳＡ）バス、マイクロチャネルアーキテクチャ（ＭＡＣ）バス、拡張ＩＳＡバス、ビデオエレクトロニクススタンダーズアソシエーション（ＶＥＳＡ）ローカルバス、及びペリフェラルコンポーネントインターコネクト（ＰＣＩ）バスを含むが、これらに限定されない。

機器１２は、典型的には、多種類のコンピュータシステム読み取り可能な媒体を含む。これらの媒体は、機器１２がアクセスすることができる任意の使用可能な媒体であってもよく、揮発性媒体及び不揮発性媒体、リムーバブル媒体及びノンリムーバブル媒体を含む。

システムシステムメモリ２８は、ランダムアクセスメモリ（ＲＡＭ）３０及び／又はキャッシュメモリ３２などの揮発性メモリの形態のコンピュータシステム読み取り可能な媒体を含んでもよい。機器１２は、他のリムーバブル／ノンリムーバブル、揮発性／不揮発性コンピュータシステム記憶媒体をさらに含んでもよい。単なる一例として、ストレージシステム３４は、ノンリムーバブル、不揮発性磁気媒体（図５に示されていないが、通常「ハードドライブ」と呼ぶ）に対して読み出し及び書き込みをするために用いることができる。図５に示されていないが、リムーバブル、不揮発性磁気ディスク（例えば、「フロッピーディスク」）に対して読み出し及び書き込みをするための磁気ディスクドライブ、及びリムーバブル、不揮発性光学ディスク（例えば、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ又は他の光学媒体）に対して読み出し及び書き込みをするための光学ディスクドライブを提供することができる。この場合、各ドライブは、一つ又は複数のデータメディアインターフェイスを介してバス１８に接続することがきる。システムメモリ２８は、本発明の各実施例に記載の機能を実行するように構成されるワンセットのプログラムモジュール（例えば、少なくとも一つ）を有する少なくとも一つのプログラム製品を含んでもよい。

ワンセットのプログラムモジュール４２（少なくとも一つ）を有するプログラム／ユーティリティ４０は、例えば、システムメモリ２８に記憶されてもよく、このようなプログラムモジュール４２は、オペレーティングシステム、一つ又は複数のアプリケーションプログラム、他のプログラムモジュール、及びプログラムデータを含むことができるがこれらに限定されない。これらの例のそれぞれ又は何らかの組み合わせには、ネットワーク環境の実装が含まれる可能性がある。プログラムモジュール４２は、通常本発明に記載の実施例における機能及び／又は方法を実行する。

機器１２は、一つ又は複数の外部デバイス１４（例えば、キーボード、ポインティング機器、ディスプレイ２４など）と通信することができるし、ユーザが機器１２とインタラクションすることを可能にする一つ又は複数の機器と通信することもでき、及び／又は機器１２が一つ又は複数の他のコンピューティングデバイスと通信することを可能にする任意の機器（例えば、ネットワークカード、モデムなど）と通信することができる。そのような通信は、入力／出力（Ｉ／Ｏ）インターフェイス２２を介して行うことができる。また、本実施例における機器１２、ディスプレイ２４は、独立した個体として存在するのではなく、鏡面に埋め込まれており、ディスプレイ２４の表示面が表示されない場合、ディスプレイ２４の表示面と鏡面が視覚的に一体となる。また、機器１２は、ネットワークアダプタ２０を介して、一つ又は複数のネットワーク（例えば、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、及び／又はパブリックネットワーク、例えば、インターネット）と通信することができる。図４に示すように、ネットワークアダプタ２０は、バス１８を介して、機器１２の他のモジュールと通信する。なお、図示されていないが、マイクロコードやデバイスドライバ、冗長処理ユニット、外部ディスクドライブアレイ、ＲＡＩＤシステム、テープドライバ、及びデータバックアップトレージシステムなどを含むがこれらに限定されない他のハードウェア及び／又はソフトウェアモジュールを、機器１２と組み合わせて使用することができる。

処理ユニット１６は、システムシステムメモリ２８に記憶されるプログラムを実行することにより、多様な機能アプリケーション及びデータ処理を実行し、例えば、本発明の実施例により提供される物体検出方法を実現する。
実施例５

本発明の実施例５は、コンピュータプログラムが記憶されている記コンピューター読み取り可能な憶媒体を提供し、当該プログラムがプロセッサによって実行される場合に、本願のすべての発明の実施例により提供される物体検出方法を実現する。

一つ又は複数のコンピュータ読み取り可能な媒体の任意の組み合わせを採用することができる。コンピュータ読み取り可能な媒体は、コンピュータ読み取り可能な信号媒体、或いはコンピュータ読み取り可能な記憶媒体であってもよい。コンピュータ読み取り可能な媒体は、例えば、電子、磁気、光、電磁気、赤外線、又は半導体のシステム、装置又はデバイス、或いは上記の任意の組み合わせであってもよいがこれらに限定されない。コンピュータ読み取り可能な記憶媒体のより具体的な例（非網羅的なリスト）は、一つ又は複数の配線を備える電気接続部、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能なプログラマブル読み出し専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読み出し専用メモリ（ＣＤ-ＲＯＭ）、光記憶装置、磁気記憶装置、又は上記の任意の適切な組み合わせを含む。この文書において、コンピュータ読み取り可能な記憶媒体は、命令実行システム、装置又はデバイスにより使用され、或いはそれらと組み合わせて使用されることが可能であるプログラムを含む又は記憶する任意の有形の媒体であってもよい。

コンピュータ読み取り可能な信号媒体は、ベースバンドにおける、又は搬送波の一部として伝播するデータ信号を含むことができ、その中のにはコンピュータ読み取り可能なのプログラムコードが搭載される。この伝播するデータ信号は様々な形式を採用することができ、電磁信号、光信号又は上記の任意の適切な組み合わせを含むがこれらに限定されない。コンピュータ読み取り可能なの信号媒体は、さらに、コンピュータ読み取り可能な記憶媒体以外の任意のコンピュータ読み取り可能な媒体であってもよく、当該コンピュータ読み取り可能な媒体は、命令実行システム、装置又はデバイスにより使用され、或いはそれらと組み合わせて使用されるプログラムを送信、伝播又は伝送することができる。

コンピュータ読み取り可能な媒体に含まれるプログラムコードは、無線、有線、光ケーブル、ＲＦなど、又は上記の任意の適切な組み合わせを含むがこれらに限定されない任意の適切な媒体によって伝送することができる。

一つ又は複数のプログラミング言語又はそれらの組み合わせで本発明の動作を実行するためのコンピュータプログラムコードを作成することができ、前記プログラミング言語は、Ｊａｖａ（登録商標）、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋などのプロジェクト指向のプログラミング言語を含み、さらに、「Ｃ」言語又は同様のプログラミング言語といった従来の手続き型プログラミング言語をも含む。プログラムコードは、完全にユーザーコンピュータで実行されてもよいし、部分的にユーザーコンピュータに実行されてもよいし、スタンドアロンソフトウェアパッケージとして実行されてもよいし、部分的にユーザーコンピュータで、部分的にリモートコンピュータで実行されてもよい、又は完全にリモートコンピュータ又はサーバーで実行してもよい。リモートコンピュータに係る場合、リモートコンピュータは、ローカルネットワーク（ＬＡＮ）又は広域ネットワーク（ＷＡＮ）を含む任意種類のインターネットを介して、ユーザーコンピュータに接続することができ、或いは、外部コンピュータ（例えば、インターネットサービスプロバイダを利用してインターネットを介して接続する）に接続することもできる。

また、本発明の実施例は、車体を含む車両をさらに提供し、前記車体には、本発明の任意の実施例により提供される機器、及び前記機器と通信可能に接続されるレーザレーダと画像収集器とが設けられる。

なお、以上は、本発明の好ましい実施例及び運用される技術的原理に過ぎない。当業者は、本発明がここで記載される特定の実施例に限定されないことを理解することができる。当業者であれば、本発明の保護範囲を逸脱することはなく、種々の明らかな変化、新たな調整及び取り換えを行うことができる。したがって、上記実施例により本発明について比較的詳細に説明したが、本発明は、上記実施例のみに限定されず、本発明の構想を逸脱しない場合、より多くの他の効果同等な実施例をさらに含むごとができ、本発明の範囲は、特許請求の範囲によって决定される。

Claims

物体検出方法であって、
予めトレーニングして取得された点群特徴抽出モデルにシーン点群データを入力してシーンの点群記述特徴を取得し、予めトレーニングして取得された画像特徴抽出モデルにシーン画像データを入力してシーンの画像記述特徴を取得するステップと、
シーンにおける各目標領域の点群記述特徴と画像記述特徴を予めトレーニングして取得された物体認識モデルに入力して、各目標領域に位置する物体の検出結果を取得するステップと、を含む、
ことを特徴とする物体検出方法。
シーンにおける各目標領域の点群記述特徴と画像記述特徴を予めトレーニングして取得された物体認識モデルに入力する前に、
シーンにおける各領域の点群記述特徴又は画像記述特徴を認識して、シーンに含まれる各候補物体を取得し、候補物体が存在する領域を目標領域とするステップをさらに含む、
ことを特徴とする請求項１に記載の物体検出方法。
シーンにおける各目標領域の点群記述特徴と画像記述特徴を予めトレーニングして取得された物体認識モデルに入力するステップは、
レーザレーダと画像収集器のパラメータに基づいて各点群目標領域をシーン画像に投影して、各点群目標領域に関連する各画像目標領域を決定するステップと、
各点群目標領域の点群記述特徴及び関連される各画像目標領域の画像記述特徴を前記物体認識モデルに入力するステップと、を含む、
ことを特徴とする請求項１または２に記載の物体検出方法。
各目標領域に位置する物体の検出結果を取得するステップは、
各目標領域に位置する物体の種別を決定するステップを含む、
ことを特徴とする請求項１−３のいずれかに記載の物体検出方法。
各目標領域に位置する物体の検出結果を取得するステップは、
前記物体認識モデルによって前記物体の位置を修正するステップと、
前記物体認識モデルによって前記物体の向き及び／又はサイズを決定するステップと、を含む、
ことを特徴とする請求項１−４のいずれかに記載の物体検出方法。
前記物体認識モデルは、完全な畳み込みネットワークに基づいてトレーニングして取得される、
ことを特徴とする請求項１−５のいずれかに記載の物体検出方法。
物体検出装置であって、
予めトレーニングして取得された点群特徴抽出モデルにシーン点群データを入力してシーンの点群記述特徴を取得し、予めトレーニングして取得された画像特徴抽出モデルにシーン画像データを入力してシーンの画像記述特徴を取得するための記述特徴取得モジュールと、
シーンにおける各目標領域の点群記述特徴と画像記述特徴を予めトレーニングして取得された物体認識モデルに入力するための物体検出入力モジュールと、
各目標領域に位置する物体の検出結果を取得するための検出結果取得モジュールと、を含む、
ことを特徴とする物体検出装置。
シーンにおける各目標領域の点群記述特徴と画像記述特徴を予めトレーニングして取得された物体認識モデルに入力する前に、シーンにおける各領域の点群記述特徴又は画像記述特徴を認識して、シーンに含まれる各候補物体を取得し、候補物体が存在する領域を目標領域とするための目標領域決定モジュールをさらに含む、
ことを特徴とする請求項７に記載の物体検出装置。
前記物体検出入力モジュールは、具体的には、
レーザレーダと画像収集器のパラメータに基づいて各点群目標領域をシーン画像に投影して、各点群目標領域に関連する各画像目標領域を決定し、
各点群目標領域の点群記述特徴及び関連される各画像目標領域の画像記述特徴を前記物体認識モデルに入力する、
ことを特徴とする請求項７または８に記載の物体検出装置。
前記検出結果取得モジュールは、具体的には、
各目標領域に位置する物体の種別を決定する、
ことを特徴とする請求項７−９のいずれかに記載の物体検出装置。
前記検出結果取得モジュールは、具体的には、
前記物体認識モデルによって前記物体の位置を修正し、
前記物体認識モデルによって前記物体の向き及び／又はサイズを決定する、
ことを特徴とする請求項７−１０のいずれかに記載の物体検出装置。
前記物体認識モデルは、完全な畳み込みネットワークに基づいてトレーニングして取得される、
ことを特徴とする請求項７−１１のいずれかに記載の物体検出装置。
機器であって、
一つ又は複数のプロセッサと、
一つ又は複数のプログラムを記憶するための記憶装置と、を含み、
前記一つ又は複数のプログラムが前記一つ又は複数のプロセッサによって実行される場合に、前記一つ又は複数のプロセッサが、請求項１乃至６のいずれかに記載の物体検出方法を実現する、
ことを特徴とする機器。
コンピュータプログラムが記憶されている記憶媒体であって、
当該プログラムがプロセッサによって実行される場合に、請求項１乃至６のいずれかに記載の物体検出方法が実現される、
ことを特徴とする記憶媒体。
車体を含む車両であって、
前記車体には、請求項１３に記載の機器、及び前記機器と通信可能に接続されるレーザレーダと画像収集器とが設けられる、
ことを特徴とする車両。