JP7189270B2

JP7189270B2 - 三次元物体検出方法、三次元物体検出装置、電子機器、記憶媒体及びコンピュータプログラム

Info

Publication number: JP7189270B2
Application number: JP2021078980A
Authority: JP
Inventors: シャオチンイェ，; シャオタン，; ハオスン，; ホンウチャン，
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-05-15
Filing date: 2021-05-07
Publication date: 2022-12-13
Anticipated expiration: 2041-05-07
Also published as: JP2021119528A; KR102605535B1; US20210209341A1; EP3859661A2; EP3859661A3; KR20210040849A; US11587338B2; CN111612753B; CN111612753A

Description

本出願は、画像処理技術の分野に関し、特にコンピュータビジョン技術の分野に関する。具体的には、三次元物体検出方法、三次元物体検出装置、電子機器、記憶媒体及びコンピュータプログラムに関する。

コンピュータビジョン技術の急速な発展に伴い、三次元物体検出は仕事や生活の様々な分野で広く応用されている。例えば、都市の発展に伴い、自動車の需要は日々増えている。三次元車両の検出技術は車両監視の基礎であり、高度道路交通やスマートシティなどの分野で非常に重要である。

ターゲット三次元検出技術は、主に双眼カメラとレーザーレーダーに依存しており、複雑性が高く、検出効率が低く、コストが高く、検出精度が低いなどの欠点がある。

三次元物体検出方法、三次元物体検出装置、電子機器、記憶媒体及びコンピュータプログラムを提供する。

第１の態様において、単眼カメラによって収集されたターゲット物体画像に基づいて、ターゲット物体の二次元画像パラメータ及び初期三次元画像パラメータを決定するステップと、三次元パラメータ摂動範囲及び前記ターゲット物体の前記初期三次元画像パラメータに基づいて、前記ターゲット物体の候補三次元画像パラメータを決定するステップと、前記二次元画像パラメータに基づいて、前記ターゲット物体の前記候補三次元画像パラメータから前記ターゲット物体のターゲット三次元画像パラメータを選択し、前記ターゲット三次元画像パラメータに基づいて前記ターゲット物体の三次元検出結果を決定するステップとを含む三次元物体検出方法を提供する。。

第２の態様において、単眼カメラによって収集されたターゲット物体画像に基づいて、ターゲット物体の二次元画像パラメータ及び初期三次元画像パラメータを決定するための初期三次元パラメータモジュールと、三次元パラメータ摂動範囲及び前記ターゲット物体の初期三次元画像パラメータに基づいて、前記ターゲット物体の候補三次元画像パラメータを決定するための候補三次元パラメータモジュールと、前記二次元画像パラメータに基づいて、前記ターゲット物体の候補三次元画像パラメータからターゲット物体のターゲット三次元画像パラメータを選択し、前記ターゲット三次元画像パラメータに基づいて前記ターゲット物体の三次元検出結果を決定するための三次元最適化モジュールとを備える三次元物体検出装置を提供する。

第３の態様において、少なくとも１つのプロセッサと、少なくとも１つの該プロセッサに通信可能に接続されるメモリとを備え、該メモリには少なくとも１つの前記プロセッサによって実行可能な命令が記憶され、該命令は、少なくとも１つの前記プロセッサが上記の三次元物体検出方法を実行できるように、少なくとも１つの前記プロセッサによって実行される電子機器を提供する。

第４の態様において、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、前記コンピュータ命令がコンピュータに上記の三次元物体検出方法を実行させることに用いられる非一時的なコンピュータ読み取り可能な記憶媒体を提供する。

第５の態様として、コンピュータ上で動作しているときに、上記の三次元物体検出方法を前記コンピュータに実行させるコンピュータプログラムを提供する。

本出願の技術により、三次元物体検出プロセスにおける高コスト、低効率、低精度の問題を解決し、単眼カメラを使用する高効率かつ高精度の三次元物体検出を実現し、三次元物体検出コストを削減する。

本明細書に記載の内容は、本開示の実施例の肝心な特徴又は重要な特徴を特定することを意図したものではなく、本開示の範囲を限定することを意図したものでもないことを理解することができる。本開示の他の特徴は、以下の明細書によって容易に理解される。

図面は、本解決手段をより良く理解するために使用され、本出願を制限するものではない。
本出願の実施例に係る三次元物体検出方法の概略フローチャートである。本出願の実施例における物体検出フレームの概略図である。本出願の実施例に係る三次元物体検出方法の概略フローチャートである。本出願の実施例に係る三次元物体検出方法の概略フローチャートである。本出願の実施例に係る三次元物体検出方法の概略フローチャートである。本出願の実施例に係る三次元物体検出装置の概略構造図である。本出願の実施例に係る三次元物体検出方法を実現するための電子機器のブロック図である。

以下、図面を参照しながら本出願の例示的な実施例を説明するが、この説明には、理解を容易にするために本出願の実施例の様々な詳細事項が含まれており、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本出願の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができることを理解できる。同様に、わかりやすくかつ簡潔にするために、以下の説明では、周知の機能及び構造についての説明を省略する。

図１は本出願の実施例に係る三次元物体検出方法の概略フローチャートである。
本実施例は、単眼カメラによって収集された物体画像における三次元検出フレームの頂点の最適化を決定するのに適することができる。本実施例で開示される三次元物体検出方法は、電子機器によって実行することができ、具体的には三次元物体検出装置によって実行することができる。三次元物体検出装置はソフトウェア及び／又はハードウェアによって実現することができ、電子機器に配置される。図１に示されるように、本実施例に係る三次元物体検出方法はステップＳ１１０～Ｓ１３０を含む。

ステップＳ１１０においては、単眼カメラによって収集されたターゲット物体画像に基づいて、ターゲット物体の二次元画像パラメータ及び初期三次元画像パラメータを決定する。

ここで、単眼カメラは、三次元物体検出が必要な任意のシーンに設置することができ、例えば、単眼カメラは、車両監視シーンに設置されてもよく、知覚センサーとして自動運転車に設置されてもよい。ここで、ターゲット物体は、検出対象を指すものであり、車両や環境物などであってもよい。ターゲット物体画像は、ターゲットカメラによって収集されたものであり、ターゲット物体の二次元画像である。

図２に示されるように、ターゲット物体画像を検出することにより、ターゲット物体画像内の二次元検出フレーム１１及び三次元検出フレーム１２を抽出し、三次元検出フレーム１２は８つの頂点を有する。ターゲット物体の二次元画像パラメータは、画像座標系におけるターゲット物体の二次元検出フレームのパラメータを指し、初期三次元画像パラメータは、画像座標系におけるターゲット物体の三次元検出フレームの初期パラメータを指す。なお、初期三次元画像パラメータは、単眼カメラによって収集された二次元画像に基づいて決定されるため、初期三次元画像パラメータには誤差があり、三次元検出の精度を改善するためにさらに最適化する必要がある。

また、ステップＳ１１０において、ターゲット物体画像を画像検出モデルに入力し、ターゲット物体の二次元画像パラメータと三次元検出パラメータを得るステップを含んでいてもよい。

変形例として、ターゲット物体の三次元検出パラメータは、ターゲット物体のサイズ、カメラ座標系におけるターゲット物体の中心点の中心点カメラ位置及び方向角を含んでいてもよい。ターゲット物体の三次元検出パラメータを処理することにより、ターゲット物体内の三次元検出フレームの頂点の位置を初期三次元画像パラメータとして得る。

変形例として、ターゲット物体の三次元検出パラメータには、画像座標系におけるターゲット物体内の三次元検出フレームの頂点の位置が含まれ、つまり、画像検出モデルはターゲット物体の二次元画像パラメータと初期三次元画像パラメータを直接出力してもよい。

ステップＳ１２０においては、三次元パラメータ摂動範囲及びターゲット物体の初期三次元画像パラメータに基づいて、ターゲット物体の候補三次元画像パラメータを決定する。

ここで、三次元パラメータ摂動範囲とは、ターゲット物体の三次元検出フレーム内の頂点の摂動範囲を指すものである。図２に示されるように、後続の処理を容易にするために、それは、ほぼ二次元検出フレーム１１上にある三次元検出フレーム１２の底面頂点０、底面頂点１及び底面頂点２の摂動範囲であってもよい。具体的には、単眼カメラによって収集されたサンプル物体画像を事前に処理して三次元パラメータ摂動範囲を得る。ここで、ターゲット物体の候補三次元画像パラメータは、ターゲット物体の三次元検出フレーム内の候補頂点の画像パラメータを指し、例えば、候補底面頂点の画像位置である。

具体的には、ターゲット物体の三次元検出フレーム内の初期頂点の画像位置に基づいて、頂点の摂動範囲と結び付けることにより、複数の候補頂点の画像位置を得ることができる。初期底面頂点０の画像位置（ｕ_０，ｖ_ｏ）、ｕ_０の摂動範囲［－１０，５］、ｖ_ｏの摂動範囲［－４，６］を例とすると、［ｕ_０－１０，ｕ_０＋５］及び［ｖ_ｏ－４，ｖ_ｏ＋６］に対応するピクセル領域では、対応する複数の候補頂点を得ることができ、同様に、他の底面頂点の複数の候補頂点を得ることができる。

ステップＳ１３０においては、二次元画像パラメータに基づいて、ターゲット物体の候補三次元画像パラメータからターゲット物体のターゲット三次元画像パラメータを選択し、ターゲット三次元画像パラメータに基づいてターゲット物体の三次元検出結果を決定する。

具体的には、二次元画像パラメータと候補三次元画像パラメータを組み合わせることにより、初期三次元画像パラメータを最適化し、最適化結果に応じて候補三次元画像パラメータからターゲット三次元画像パラメータを選択し、例えば、ターゲット底面頂点の画像位置を選択する。また、ターゲット三次元画像パラメータをカメラ座標系に変換し、カメラ座標系におけるターゲット三次元検出結果を得る。二次元画像パラメータと候補三次元画像パラメータを組み合わせることにより、誤差のある初期三次元画像パラメータを最適化し、ターゲット三次元画像パラメータを得る。アルゴリズムは複雑さが低く、単眼カメラだけで物体の三次元検出を実現でき、レーザーレーダーや双眼カメラに依存する三次元物体検出技術と比較して、低コストかつ高効率であるなどの利点を有する。

変形例として、ステップＳ１３０において、カメラ内部パラメータに基づいて、ターゲット三次元画像パラメータをカメラ座標系に変換し、ターゲット物体の三次元検出結果としてターゲット三次元カメラパラメータを得るステップを含んでいてもよい。

ここで、カメラ内部パラメータは、カメラの焦点距離、焦点位置などであってもよい。具体的には、カメラ内部パラメータに基づいてカメラ座標系と画像座標系との間の変換関係を決定することができ、変換関係に従ってターゲット三次元画像パラメータをターゲット三次元カメラパラメータに変換する。

本出願の実施例の技術案は、単眼カメラによって収集されたターゲット画像を検出することにより、ターゲット物体の二次元画像パラメータと誤差のある初期三次元画像パラメータを得て、三次元パラメータ摂動範囲と初期三次元画像パラメータを組み合わせて候補三次元画像パラメータを決定し、かつ二次元画像パラメータと候補三次元画像パラメータに基づいて初期三次元画像パラメータを最適化してターゲット三次元画像パラメータを得て、それによりターゲット三次元画像パラメータに基づいてカメラ座標系における三次元検出結果を得る。技術は、単眼カメラによって収集された物体画像内の三次元検出フレームの頂点の最適化を実現し、低コスト、高効率、高精度などの利点を有する。

図３は本出願の実施例に係る三次元物体検出方法の概略フローチャートである。本実施例は、上記の実施例に基づいて提出された選択可能な解決手段である。図３に示されるように、本実施例に係る三次元物体検出方法はステップＳ２１０～Ｓ２４０を含む。

ステップＳ２１０においては、単眼カメラによって収集されたターゲット物体画像に基づいて、ターゲット物体の二次元画像パラメータ及び初期三次元画像パラメータを決定する。

ステップＳ２２０においては、三次元パラメータ摂動範囲及びターゲット物体の初期三次元画像パラメータに基づいて、ターゲット物体の候補三次元画像パラメータを決定する。

ステップＳ２３０において、物体の底面頂点の直角拘束に基づいて、ターゲット物体の候補三次元画像パラメータをスクリーニングする。

ステップＳ２１０においては、ネットワーク推定によって決定された初期三次元画像パラメータに誤差があるため、底面投影により最適化のターゲットを定義し、ターゲット物体の三次元検出フレームの底面頂点を最適化し、三次元検出フレームの上面頂点もそれに応じて最適化する。

誤差があるために、三次元検出フレームの初期底面頂点間の角度は、一般的に直角ではない。すなわち、地上座標系における三次元検出フレームの底面投影は、平行四辺形、さらには不規則な四辺形である可能性がある。地上座標系における三次元検出フレームの底面投影を長方形にするために、直角拘束の最適化によってターゲット底面頂点間の角度を直角にし、すなわち、地上座標系を架け橋として直接拘束最適化を行う。具体的には、三次元検出フレームの候補底面頂点に従って複数の候補底面頂点グループを得て、各候補底面頂点グループは各底面頂点を含み、例えば、各グループは底面頂点０、底面頂点１及び底面頂点２を含む。直角拘束を満たす候補底面頂点グループを、後続の処理のために保持し、直角拘束を満たさない候補底面頂点グループを除外する。地上座標系において、直角拘束条件を満たす候補三次元画像パラメータを選択してさらに処理することにより、三次元検出の精度を向上させることができる。

ステップＳ２４０において、物体の底面頂点から二次元検出フレームまでの距離拘束をもとに、二次元画像パラメータに基づいて、直角拘束を満たす候補三次元画像パラメータからターゲット三次元画像パラメータを選択し、かつターゲット三次元画像パラメータに基づいてターゲット物体の三次元検出結果を決定する。

また、本出願の実施例は、三次元投影と二次元検出フレームとの間の拘束関係と組み合わせて最適化する。直角拘束を満たす候補底面頂点グループ内の候補底面頂点と二次元検出フレームとの間の距離を決定し、距離拘束に従ってターゲット三元画像パラメータを選択する。

変形例として、ステップＳ２４０においては、直角拘束を満たす各候補底面頂点グループ内の候補底面頂点の画像位置と二次元検出フレームの画像境界とに基づいて、候補底面頂点グループから二次元検出フレームまでの距離を決定するステップと、距離が最も短い候補底面頂点グループをターゲット底面頂点グループとし、ターゲット底面頂点グループ内のターゲット底面頂点の画像位置に基づいてターゲット三次元画像パラメータを決定するステップとを含んでいてもよい。

具体的には、以下の距離拘束損失関数を構築する。

ここで、Ｌｏｓｓは損失値であり、Ｃ_０（ｕ）は候補底面頂点グループ内の候補底面頂点０のｕ軸にあるピクセル位置であり、Ｃ_１（ｖ）は候補底面頂点グループ内の候補底面頂点１のｖ軸にあるピクセル位置であり、Ｃ_２（ｕ）は候補底面頂点グループ内の候補底面頂点２のｕ軸にあるピクセル位置であり、ｂｂ_２ｄ．ｕ_ｍｉｎ及びｂｂ_２ｄ．ｕ_ｍａｘはそれぞれ二次元検出フレームのｕ軸にある最小値とｕ軸にある最大値であり、ｂｂ_２ｄ．ｖ_ｍａｘは二次元検出フレームのｖ軸にある最大値である。図２に示されるように、Ｌｏｓｓは候補底面頂点グループから二次元検出フレームまでの距離を示す。

具体的には、Ｌｏｓｓ値に基づいてターゲット底面頂点グループを得た後、三次元検出フレームの上面頂点もそれに応じて最適化し、三次元検出フレームの最適化後の８つのターゲット頂点の画像位置を得る。８つのターゲット頂点の画像位置をカメラ座標系に変換して、ターゲット物体の三次元検出結果を得る。

二次元検出フレームとの間の距離が最も短い候補底面頂点グループをターゲット底面頂点グループとすることにより、ターゲット底面頂点グループが二次元検出フレームに最も近くなり、それにより、ターゲット物体の三次元検出結果の精度をさらに向上させる。

本出願の実施例の技術案は、地上座標系を架け橋とし、底面直角拘束と距離拘束とを組み合わせて、最適化のターゲットを構築することにより、ターゲット底面頂点グループが二次元検出フレームに最も近くなり、ターゲット物体の三次元検出結果の精度をさらに向上させる。

図４は本出願の実施例に係る三次元物体検出方法の概略フローチャートである。本実施例は、上記の実施例に基づいて提出された選択可能な解決手段である。図４に示されるように、本実施例に係る三次元物体検出方法はステップＳ３１０～Ｓ３５０を含む。

ステップＳ３１０において、単眼カメラによって収集されたターゲット物体画像に基づいて、ターゲット物体の二次元画像パラメータ及び初期三次元画像パラメータを決定する。

ここで、ターゲット物体の二次元画像パラメータは、ターゲット物体の二次元検出フレームの画像パラメータであってもよく、ターゲット物体の初期三次元画像パラメータは、ターゲット物体の三次元検出フレーム内の初期頂点の画像位置であってもよく、例えば、三次元検出フレーム内の３つの初期底面頂点の画像位置である。

ステップＳ３２０において、三次元パラメータ摂動範囲及びターゲット物体の初期三次元画像パラメータに基づいて、ターゲット物体の候補三次元画像パラメータを決定する。

ここで、候補三次元画像パラメータは三次元検出フレーム内の各候補底面頂点の画像位置である。

ステップＳ３３０において、候補底面頂点の画像位置を地上座標系に変換し、候補底面頂点の地上位置を得る。

また、ステップＳ３３０は、以下のステップＡ及びステップＢを含んでいてもよい。

ステップＡにおいて、カメラ内部パラメータに基づいて、候補底面頂点の画像位置をカメラ座標系に変換し、候補底面頂点のカメラ位置を得る。

具体的には、次のように候補底面頂点の深さを決定することができる。

ここで、（ｃоｒｎｅｒ_ｕ，ｃоｒｎｅｒ_ｖ）は候補底面頂点の画像位置であり、Ｉｍｇ_ｐは中間変数であり、ｐｏｉｎｔ_ｃａｍ（ｘ）、ｐｏｉｎｔ_ｃａｍ（ｙ）及びｐｏｉｎｔ_ｃａｍ（ｚ）は候補底面頂点のカメラ位置であり、Ｋはカメラ内部パラメータであり、Ｋ^－１はＫの逆数であり、Ｄｅｐｔｈは候補底面頂点の深さであり、ａ、ｂ、ｃ及びｄは、ａｘ＋ｂｙ＋ｃｚ＋ｄ＝０という地上方程式に従って決定される。

以下により、候補底面頂点のカメラ位置を決定し、
Ｐ_ｃ＝Ｄｅｐｔｈ＊Ｋ^－１＊Ｉｍｇ_ｐ
ここで、Ｐ_ｃは候補底面頂点のカメラ位置である。

ステップＢにおいて、カメラ座標系と地上座標系との変換関係に基づいて、候補底面頂点のカメラ位置を地上座標系に変換し、候補底面頂点の地上位置を得る。

また、地上方程式とカメラ座標系のｘ軸上の任意の点の位置に基づいて、カメラ座標系と地上座標系との変換関係を決定してもよい。

具体的には、地上方程式がａｘ＋ｂｙ＋ｃｚ＋ｄ＝０であり、地上法線ベクトルが、

であるとすると、地上座標系のｚ軸法線ベクトルは、

として表すことができ、ここで、Ｎｏｒｍはベクトルの正規化を表す。それに対応してカメラ座標系のｘ軸上の点Ｐ_ｘ（１，０，０）を地上座標系に変換する方法は、

であり、かつ、

を正規化することである。最後に、地上座標系のｙ軸ベクトルは、ｘ、ｙ、ｚ軸ベクトルが互いに垂直であるという特徴により取得でき、

最後に、カメラ座標系から地上座標系への変換式は、

である。地上法線ベクトルを知ることにより、カメラ座標系と地上座標系との間の変換関係を決定でき、これは、地上座標系を架け橋とすることに基礎を築く。

ステップＳ３４０において、候補底面頂点の地上位置に基づいて、物体底面頂点の直角拘束を満たす候補底面頂点グループを選択する。

ここで、候補底面頂点グループは少なくとも３つの候補底面頂点を含み、例えば、３つの底面頂点について、各底面頂点の候補位置をそれぞれ決定して候補底面頂点グループを得る。

また、ステップＳ３４０においては、候補底面頂点の地上位置に基づいて、候補底面頂点グループの底面頂点のなす角度を決定するステップと、候補底面頂点グループの底面頂点のなす角度と直角との差が角度閾値よりも小さい場合、候補底面頂点グループが物体底面頂点の直角拘束を満たすと判断するステップとを含んでいてもよい。ここで、閾値は一般的に［０，５°］であってもよく、つまり、直角拘束を満たす候補底面頂点グループの底面頂点のなす角度は［８５°，９５°］にある。

また、三次元物体検出方法として、初期底面頂点の画像位置に基づいて初期底面頂点の深さを決定するステップと、初期底面頂点の深さに基づいて前記角度閾値を決定するステップとをさらに含んでいてもよい。

これにより、初期底面頂点の画像位置に基づいてカメラ内部パラメータと地上の方程式と組み合わせて、初期底面頂点の深さを決定できる。異なる初期底面頂点の深さが類似しているため、各初期底面頂点の平均深さをターゲット物体の深さとすることができる。近く見ると大きく、遠く見ると小さいというビジュアルアイデンティティの特性を考慮すると、深さが小さいほど、閾値が小さくなり、すなわち閾値が厳密になり、三次元認識精度をさらに向上させることができる。

ステップＳ３５０において、物体の底面頂点から二次元検出フレームまでの距離拘束をもとに、二次元画像パラメータに基づいて、直角拘束を満たす候補三次元画像パラメータからターゲット三次元画像パラメータを選択し、かつターゲット三次元画像パラメータに基づいてターゲット物体の三次元検出結果を決定する。

具体的には、直角拘束を満たす各候補底面頂点グループについて、距離拘束損失関数に従って候補底面頂点グループの距離拘束損失値を決定し、距離拘束損失値が最小の候補底面頂点グループをターゲット底面頂点グループとし、ターゲット三次元画像パラメータを得る。

本出願の実施例の技術案は、底面直角拘束と距離拘束を組み合わせて最適化するプロセスにおいて、ビジュアル特性を十分に考慮し、ターゲット物体の三次元検出結果の精度をさらに向上させる。

図５は本出願の実施例に係る三次元物体検出方法の概略フローチャートである。
本実施例は、上記の実施例に基づいて提出された選択可能な解決手段である。図５に示されるように、本実施例に係る三次元物体検出方法はステップＳ４１０～Ｓ４５０を含む。

ステップＳ４１０において、単眼カメラによって収集されたサンプル物体画像に基づいて、サンプル物体の初期三次元画像パラメータを決定する。

ここで、サンプル物体画像は、単眼カメラによって収集された二次元画像であり、サンプル物体画像は、ターゲット物体画像の物体タイプと一致しており、例えば、いずれも車両である。ここで、サンプル物体の初期三次元画像パラメータは、サンプル物体の三次元検出フレーム内の初期頂点の画像位置であってもよく、ターゲット物体の初期三次元画像パラメータと類似し、サンプル物体の初期三次元画像パラメータにも誤差がある。

ステップＳ４２０において、サンプル物体の初期三次元画像パラメータ及びタグ付けされた三次元画像パラメータに基づいて、三次元パラメータ摂動範囲を決定する。

ここで、タグ付けされた三次元画像パラメータはサンプル物体の実際の三次元画像パラメータ、つまり、サンプル物体の三次元検出フレーム内の実際の頂点の画像位置である。サンプル物体の三次元検出フレーム内の各頂点について、対応する初期頂点の画像位置と実際の頂点の画像位置との差を決定し、そして、統計を通じて、各頂点の画像位置誤差範囲、つまり、三次元パラメータ摂動範囲を得ることができる。統計を通じて三次元パラメータ摂動範囲を正確に決定することは、後続する三次元画像パラメータ摂動の制御を容易にし、それによって三次元検出の効率を向上させる。

ステップＳ４３０において、単眼カメラによって収集されたターゲット物体画像に基づいて、ターゲット物体の二次元画像パラメータ及び初期三次元画像パラメータを決定する。

ここで、ターゲット物体の二次元画像パラメータはターゲット物体の二次元検出フレームの画像パラメータであり、初期三次元画像パラメータはターゲット物体の三次元検出フレームの頂点の画像位置である。

ステップＳ４４０において、三次元パラメータ摂動範囲及びターゲット物体の初期三次元画像パラメータに基づいて、ターゲット物体の候補三次元画像パラメータを決定する。

具体的には、ターゲット物体の三次元検出フレーム内の初期頂点の画像位置に基づき、頂点の摂動範囲と組み合わせることにより、複数の候補頂点の画像位置を得ることができ、つまり、ターゲット物体の候補三次元画像パラメータを得る。

変形例として、ステップＳ４４０においては、ターゲット物体の摂動ステップ長を決定するステップと、ターゲット物体の初期三次元画像パラメータ、摂動ステップ長、及び三次元パラメータ摂動範囲に基づいて、ターゲット物体の候補三次元画像パラメータを決定するステップとを含んでいてもよい。

具体的には、ターゲット物体の摂動ステップ長及び三次元パラメータ摂動範囲に基づいて複数の摂動値を決定し、ターゲット物体の初期三次元画像パラメータ及び複数の摂動値に基づいてターゲット物体の複数の候補三次元画像パラメータを得る。

変形例として、本実施例に係る三次元物体検出方法は、初期底面頂点の画像位置に基づいて初期底面頂点の深さを決定するステップと、初期底面頂点の深さに基づいてターゲット物体の摂動ステップ長を決定するステップとをさらに含む。ここで、ターゲット物体の深さが近いほど、摂動ステップ長が長くなり、ビジュアル特性を十分に考慮することで、摂動ステップ長を合理的に決定でき、三次元検出効率をさらに向上させる。

ステップＳ４５０において、二次元画像パラメータに基づいて、ターゲット物体の候補三次元画像パラメータからターゲット物体のターゲット三次元画像パラメータを選択し、ターゲット三次元画像パラメータに基づいてターゲット物体の三次元検出結果を決定する。

本出願の実施例の技術案は、三次元パラメータ摂動範囲を合理的に決定し、ターゲット物体の深さに基づいてターゲット物体の摂動ステップ長を決定し、ターゲット物体の摂動ステップ長、初期三次元画像パラメータ及び三次元パラメータ摂動範囲を組み合わせて候補三次元画像パラメータを決定することにより、候補三次元画像パラメータの精度を向上させることができ、さらに三次元検出の効率及び精度を向上させる。

また、ステップＳ４２０においては、単眼カメラによって収集されたターゲット物体画像を画像検出モデルとして入力し、ターゲット物体の二次元画像パラメータと三次元検出パラメータを得るステップであって、三次元検出パラメータがターゲット物体のサイズ、カメラ座標系におけるターゲット物体の中心点の中心点カメラ位置、及び方向角を含むステップと、三次元検出パラメータに基づいて、画像座標系におけるターゲット物体の三次元検出フレームの頂点の位置を初期三次元画像パラメータとして決定するステップとを含んでいてもよい。画像座標系における三次元検出フレームの頂点の位置を正確に決定することにより、ターゲット物体の三次元検出結果の精度を向上させる。

また、三次元検出パラメータに基づいて、画像座標系におけるターゲット物体の三次元検出フレームの頂点の位置を決定するステップは、中心点のカメラ位置、及びカメラ座標系と地上座標系との変換関係に基づいて、地上座標系における中心点の地上位置を決定するステップと、ターゲット物体のサイズに基づいてターゲット物体の頂点と中心点との間の相対位置を決定するステップと、ターゲット物体の回転角に基づいて回転行列を構築するステップと、中心点の地上位置、相対位置、及び回転行列に基づいて、画像座標系におけるターゲット物体の三次元検出フレームの頂点の位置を決定するステップとを含んでいてもよい。

具体的には、中心点の画像位置

をＴ_ｃ２ｇによって地上座標系に変換し、中心点の地上位置

を得て、

方向角ｒｙに基づいて回転行列を決定し（ロドリゲスの公式）、

地上座標系における三次元検出フレームの頂点と中心点

の相対位置を決定し、

地上座標系では、回転行列Ｒ、相対位置

及び

に基づいて、地上座標系における三次元検出フレーム内の頂点の位置Ｐ_ｇを求め、

地上座標系における三次元検出フレーム内の頂点の位置Ｐ_ｇをカメラ座標系に変換し、Ｐ_ｃを得て、

ここで、Ｔ_ｃ２ｇはカメラ座標系から地上座標系に変換する変換式であり、

はＴ_ｃ２ｇの逆数である。

カメラ座標系における三次元検出フレーム内の頂点の位置Ｐｃ及びカメラ内部パラメータに基づいて、画像座標系における三次元検出フレーム内の頂点の位置を得る。

なお、サンプル物体の三次元検出パラメータの決定方法は、ターゲット物体の三次元検出パラメータの決定方法と同じであり、ここでは説明を省略する。

図６は本出願の実施例に係る三次元物体検出装置の概略構造図である。
図６に示されるように、本出願の実施例は三次元物体検出装置５００を開示する。
本出願の実施例に係る三次元物体検出装置５００は、単眼カメラによって収集されたターゲット物体画像に基づいて、ターゲット物体の二次元画像パラメータ及び初期三次元画像パラメータを決定する初期三次元パラメータモジュール５０１と、三次元パラメータ摂動範囲及びターゲット物体の初期三次元画像パラメータに基づいて、ターゲット物体の候補三次元画像パラメータを決定する候補三次元パラメータモジュール５０２と、二次元画像パラメータに基づいて、ターゲット物体の候補三次元画像パラメータからターゲット物体のターゲット三次元画像パラメータを選択し、ターゲット三次元画像パラメータに基づいてターゲット物体の三次元検出結果を決定する三次元最適化モジュール５０３とを備える。

また、三次元最適化モジュール５０３は、物体の底面頂点の直角拘束に基づいて、ターゲット物体の候補三次元画像パラメータをスクリーニングする直接拘束スクリーニングユニットと、物体の底面頂点から二次元検出フレームまでの距離拘束をもとに、二次元画像パラメータに基づいて、直角拘束を満たす候補三次元画像パラメータからターゲット三次元画像パラメータを選択する距離拘束スクリーニングユニットとを備えていてもよい。

また、ターゲット物体の候補三次元画像パラメータは三次元検出フレーム内の候補底面頂点の画像位置であり、それに対応して、直接拘束スクリーニングユニットは、候補底面頂点の画像位置を地上座標系に変換し、候補底面頂点の地上位置を得る地上位置サブユニットと、候補底面頂点の地上位置に基づいて、物体底面頂点の直角拘束を満たす候補底面頂点グループを選択する直接拘束スクリーニングサブユニットであって、候補底面頂点グループが少なくとも３つの候補底面頂点を含む直接拘束スクリーニングサブユニットとを備えていてもよい。

また、地上位置サブユニットは、具体的には、カメラ内部パラメータに基づいて、候補底面頂点の画像位置をカメラ座標系に変換し、候補底面頂点のカメラ位置を得て、及びカメラ座標系と地上座標系との変換関係に基づいて、候補底面頂点のカメラ位置を地上座標系に変換し、候補底面頂点の地上位置を得ることに用いられてもよい。

また、直接拘束スクリーニングサブユニットは、具体的には、候補底面頂点の地上位置に基づいて、候補底面頂点グループの底面頂点のなす角度を決定し、及び候補底面頂点グループの底面頂点のなす角度と直角との差が角度閾値よりも小さい場合、候補底面頂点グループが物体底面頂点の直角拘束を満たすと判断することに用いられてもよい。

また、初期三次元画像パラメータはターゲット物体の三次元検出フレーム内の初期底面頂点の画像位置であり、それに対応して、直接拘束スクリーニングサブユニットはさらに、初期底面頂点の画像位置に基づいて初期底面頂点の深さを決定し、及び初期底面頂点の深さに基づいて角度閾値を決定することに用いられてもよい。

また、ターゲット物体の二次元画像パラメータはターゲット物体の二次元検出フレームの画像境界であり、ターゲット物体の候補三次元画像パラメータは三次元検出フレーム内の候補底面頂点の画像位置であり、それに対応して、距離拘束スクリーニングユニットは、直角拘束を満たす各候補底面頂点グループ内の候補底面頂点の画像位置と二次元検出フレームの画像境界に基づいて、候補底面頂点グループから二次元検出フレームまでの距離を決定する距離決定サブユニットと、距離が最も短い候補底面頂点グループをターゲット底面頂点グループとし、かつターゲット底面頂点グループ内のターゲット底面頂点の画像位置に基づいてターゲット三次元画像パラメータを決定する距離拘束サブユニットとを備えていてもよい。

また、本出願の実施例に係る三次元物体検出装置は、摂動範囲モジュールをさらに備え、摂動範囲モジュールは、具体的には、単眼カメラによって収集されたサンプル物体画像に基づいて、サンプル物体の初期三次元画像パラメータを決定するサンプル初期パラメータユニットと、サンプル物体の初期三次元画像パラメータ及びタグ付けされた三次元画像パラメータに基づいて、三次元パラメータ摂動範囲を決定する摂動範囲ユニットとを備えていてもよい。

また、候補三次元パラメータモジュール５０２は、ターゲット物体の摂動ステップ長を決定する摂動ステップ長ユニットと、ターゲット物体の初期三次元画像パラメータ、摂動ステップ長、及び三次元パラメータ摂動範囲に基づいて、ターゲット物体の候補三次元画像パラメータを決定する候補三次元パラメータユニットとを備えていてもよい。

また、初期三次元画像パラメータはターゲット物体の三次元検出フレーム内の初期底面頂点の画像位置であり、それに対応して、摂動ステップ長ユニットは、具体的には、初期底面頂点の画像位置に基づいて初期底面頂点の深さを決定し、及び初期底面頂点の深さに基づいてターゲット物体の摂動ステップ長を決定することに用いられてもよい。

また、初期三次元パラメータモジュール５０１は、単眼カメラによって収集されたターゲット物体画像を画像検出モデルとして入力し、ターゲット物体の二次元画像パラメータと三次元検出パラメータを得るパラメータ検出ユニットであって、三次元検出パラメータがターゲット物体のサイズ、カメラ座標系におけるターゲット物体の中心点の中心点カメラ位置、及び方向角を含むパラメータ検出ユニットと、三次元検出パラメータに基づいて、画像座標系におけるターゲット物体の三次元検出フレームの頂点の位置を初期三次元画像パラメータとして決定するパラメータ決定ユニットとを備えていてもよい。

また、パラメータ決定ユニットは、具体的には、中心点のカメラ位置、及びカメラ座標系と地上座標系との変換関係に基づいて、地上座標系における中心点の地上位置を決定し、ターゲット物体のサイズに基づいてターゲット物体の頂点と中心点との間の相対位置を決定し、ターゲット物体の回転角に基づいて回転行列を構築し、及び中心点の地上位置、相対位置、及び回転行列に基づいて、画像座標系におけるターゲット物体の三次元検出フレームの頂点の位置を決定することに用いられてもよい。

また、本出願の実施例に係る三次元物体検出装置は、地上方程式及びカメラ座標系のｘ軸上の任意の点の位置に基づいて、カメラ座標系と地上座標系との変換関係を決定する変換関係決定モジュールをさらに備えていてもよい。

また、三次元最適化モジュール５０３は、具体的には、カメラ内部パラメータに基づいて、ターゲット三次元画像パラメータをカメラ座標系に変換し、ターゲット物体の三次元検出結果としてターゲット三次元カメラパラメータを得ることに用いられてもよい。

本出願の実施例の技術案では、単眼画像に基づく三次元物体検出は、二次元検出フレームと三次元検出フレームの頂点との間の拘束関係、及び地平面方程式を組み合わせて、誤って推定された三次元検出フレームの初期頂点を最適化し、三次元検出の精度と堅牢性を向上させる。

本出願の実施例によれば、本出願は、電子機器及び読み取り可能な記憶媒体をさらに提供する。

図７に示されるように、本出願の実施例に係る三次元物体検出方法を実現するための電子機器のブロック図である。
電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及びその他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを意図している。電子機器は、例えば、パーソナルデジタルアシスタント、携帯電話、スマートフォン、ウェアラブルデバイス、他の類似するコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書に示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び／又は要求される本出願の実現を制限する意図したものではない。

図７に示されるように、本出願の実施例に係る電子機器は、少なくとも１つのプロセッサ６０１と、メモリ６０２と、各コンポーネントを接続するためのインターフェースであって、高速インターフェース及び低速インターフェースを含むインターフェースとを備える。各コンポーネントは、異なるバスを介して互いに接続され、共通のマザーボードに取り付けるか、又は必要に応じて他の方式で取り付けることができる。プロセッサは、電子機器内で実行される命令を処理することができ、命令は、外部入力／出力装置（例えば、インターフェースに結合された表示機器など）にＧＵＩのグラフィック情報を表示するために、メモリ内又はメモリ上に格納されている命令を含む。他の実施形態では、複数のプロセッサ及び／又は複数のバスを、必要に応じて、複数のメモリと一緒に使用することができる。同様に、複数の電子機器を接続することができ、各機器は一部の必要な操作（例えば、サーバアレイ、ブレードサーバのグループ、又はマルチプロセッサシステムとする）を提供することができる。図７では、１つのプロセッサ６０１を一例とする。

メモリ６０２は、本出願の実施例に係る非一時的なコンピュータ読み取り可能な記憶媒体である。メモリ６０２には、少なくとも１つのプロセッサが上記の三次元物体検出方法を実行するように、少なくとも１つのプロセッサによって実行可能な命令が格納されている。本出願の非一時的なコンピュータ読み取り可能な記憶媒体には、コンピュータに上記の三次元物体検出方法を実行させるためのコンピュータ命令が格納されている。

メモリ６０２は、非一時的なコンピュータ読み取り可能な記憶媒体として、本出願の実施例に係る三次元物体検出方法に対応するプログラム命令／モジュール（例えば、図６に示す初期三次元パラメータモジュール５０１、候補三次元パラメータモジュール５０２、三次元最適化モジュール５０３）のような非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュールを格納することができる。プロセッサ６０１は、メモリ６０２に格納されている非一時的なソフトウェアプログラム、命令、及びモジュールを実行することによって、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち、上記方法の実施例における三次元物体検出方法を実現する。

メモリ６０２は、プログラム記憶領域及びデータ記憶領域を含むことができ、ここで、プログラム記憶領域は、オペレーティングシステム、及び少なくとも１つの機能に必要なアプリケーションプログラムを格納することができ、データ記憶領域は、三次元物体検出の電子機器の使用に応じて作成されたデータなどを格納することができる。また、メモリ６０２は、高速ランダムアクセスメモリを含むことができ、さらに、例えば少なくとも１つの磁気ディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスなどの非一時的なメモリを含むことができる。一部の実施例では、メモリ６０２は、プロセッサ６０１に対して遠隔に設置されたメモリを選択的に含んでもよく、これらの遠隔メモリは、ネットワークを介して三次元物体検出の電子機器に接続することができる。上記のネットワークの一例には、インターネット、企業イントラネット、ローカルエリアネットワーク、移動体通信ネットワーク、及びそれらの組み合わせを含むが、これらに限定されない。

三次元物体検出方法の電子機器は、入力装置６０３と出力装置６０４とをさらに備えていてもよい。プロセッサ６０１、メモリ６０２、入力装置６０３及び出力装置６０４は、バス又は他の方式を介して接続することができ、図７では、バスを介して接続することを一例とする。

入力装置６０３は、入力された数字又はキャラクター情報を受信し、三次元物体検出の電子機器のユーザ設定及び機能制御に関連するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、表示機器、１つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置６０４は、表示機器、補助照明装置（例えば、ＬＥＤ）、触覚フィードバックデバイス（例えば、振動モータ）などを含んでもよい。表示機器は、液晶ディスプレイ（ＬＤＣ）、発光ダイオード（ＬＥＤ）ディスプレイ、及びプラズマディスプレイを含んでもよいが、これらに限定されない。一部の実施形態では、表示機器はタッチスクリーンであり得る。

本明細書で説明されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせで実現することができる。これらの様々な実施形態は、少なくとも１つのコンピュータプログラムで実施され、少なくとも１つのコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステムで実行及び／又は解釈することができ、該プログラマブルプロセッサは専用又は汎用のプログラマブルプロセッサであってもよく、ストレージシステム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信し、データ及び命令を該ストレージシステム、少なくとも１つの入力装置、及び少なくとも１つの出力装置に伝送することができる。

これらのコンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる）には、プログラマブルプロセッサの機械命令が含まれ、高レベルのプロセス及び／又はオブジェクト指向のプログラミング言語、及び／又はアセンブリ／機械言語でこれらのコンピュータプログラムを実施することができる。本明細書に使用されるような、「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」という用語は、機械命令及び／又はデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、機器、及び／又は装置（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジック装置（ＰＬＤ））を指し、機械読み取り可能な信号である機械命令を受信するための機械読み取り可能な媒体を含む。「機械読み取り可能な信号」という用語は、プログラマブルプロセッサに機械命令及び／又はデータを提供するための任意の信号を指す。

ユーザとのインタラクションを提供するために、本明細書で説明されたシステム及び技術をコンピュータ上で実施することができ、コンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウスやトラックボール）とを有し、ユーザは、キーボード及びポインティングデバイスによって、コンピュータに入力することが可能になる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック（例えば、視覚的フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、そして、任意の形態（音響入力、音声入力、又は触覚入力を含む）でユーザからの入力を受信できる。

本明細書で説明されたシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェアコンポーネントを含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンドコンポーネントを含むコンピューティングシステム（例えば、グラフィカルユーザインターフェース又はＷＥＢブラウザーを有するユーザコンピュータであり、ユーザは、グラフィカルユーザインターフェース又はＷＥＢブラウザーを介して本明細書に説明したシステム及び技術の実施形態とインタラクションすることができる）、又はこのようなバックエンドコンポーネント、ミドルウェアコンポーネント、又はフロントエンドコンポーネントを含む任意の組み合わせコンピューティングシステム中で実施できる。任意の形態又は媒体のデジタルデータ通信（例えば、通信ネットワーク）を介してシステムのコンポーネントを相互に接続することができる。通信ネットワークの一例は、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、及びインターネットを含む。

コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、通常、互いに遠く離れており、通信ネットワークを介して互いにインタラクションするのが一般的である。クライアントとサーバの関係は、対応するコンピュータで実行され、かつ互いにクライアント－サーバの関係を持つコンピュータプログラムによって生成される。

本出願の実施例の技術案によれば、単眼画像に基づく三次元物体検出は、二次元検出フレームと三次元検出フレームの頂点との間の拘束関係、及び地平面方程式を組み合わせて、誤って推定された三次元検出フレームの初期頂点を最適化し、三次元検出の精度と堅牢性を向上させる。

なお、上記の様々な形態のフローを使用して、ステップを並べ替えたり、追加したり、削除したりすることができる。例えば、本出願に記載の各ステップは、本出願に開示されている技術案の所望の結果を達成できる限り、並行に実施されてもよいし、順次実施されてもよいし、異なる順序で実施されてもよく、本明細書では、それについて限定されない。

上記の具体的な実施形態は、本出願の特許保護範囲を制限するものではない。当業者であれば、設計要件及び他の要因に応じて、様々な修正、組み合わせ、一部の組み合わせ、及び置換を行うことができることを理解されたい。本出願の精神と原則の範囲内で行われる修正、同等の置換、及び改良は、本出願の特許保護範囲に含まれるべきである。

Claims

三次元物体検出方法であって、
単眼カメラによって収集されたターゲット物体画像に基づいて、ターゲット物体の二次元画像パラメータ及び初期三次元画像パラメータを決定するステップであって、前記ターゲット物体の二次元画像パラメータが、画像座標系における前記ターゲット物体の二次元検出フレームのパラメータを指し、前記初期三次元画像パラメータが、画像座標系における前記ターゲット物体の三次元検出フレームの初期パラメータを指し、前記二次元検出フレームが、二次元座標系における前記ターゲット物体の検出フレームであり、前記三次元検出フレームが、三次元座標系における前記ターゲット物体の検出フレームであるステップと、
三次元パラメータ摂動範囲及び前記ターゲット物体の前記初期三次元画像パラメータに基づいて、前記ターゲット物体の候補三次元画像パラメータを決定するステップと、
前記二次元画像パラメータに基づいて、前記ターゲット物体の前記候補三次元画像パラメータから前記ターゲット物体のターゲット三次元画像パラメータを選択し、前記ターゲット三次元画像パラメータに基づいて前記ターゲット物体の三次元検出結果を決定するステップとを含む三次元物体検出方法。
前記二次元画像パラメータに基づいて、前記ターゲット物体の前記候補三次元画像パラメータから前記ターゲット物体の前記ターゲット三次元画像パラメータを選択するステップは、
物体の底面頂点の直角拘束に基づいて、前記ターゲット物体の前記候補三次元画像パラメータをスクリーニングするステップと、
前記物体の前記底面頂点から二次元検出フレームまでの距離拘束をもとに、前記二次元画像パラメータに基づいて、直角拘束を満たす前記候補三次元画像パラメータから前記ターゲット三次元画像パラメータを選択するステップとを含む請求項１に記載の三次元物体検出方法。
前記ターゲット物体の前記候補三次元画像パラメータは前記三次元検出フレーム内の候補底面頂点の画像位置であり、
それに対応して、前記物体の前記底面頂点の直角拘束に基づいて、前記ターゲット物体の前記候補三次元画像パラメータをスクリーニングするステップは、
前記候補底面頂点の画像位置を地上座標系に変換し、前記候補底面頂点の地上位置を得るステップと、
前記候補底面頂点の地上位置に基づいて、物体底面頂点の直角拘束を満たす候補底面頂点グループを選択するステップであって、前記候補底面頂点グループが少なくとも３つの前記候補底面頂点を含むステップとを含む請求項２に記載の三次元物体検出方法。
前記候補底面頂点の画像位置を地上座標系に変換し、前記候補底面頂点の地上位置を得るステップは、
カメラ内部パラメータに基づいて、前記候補底面頂点の画像位置をカメラ座標系に変換し、前記候補底面頂点のカメラ位置を得るステップと、
カメラ座標系と地上座標系との変換関係に基づいて、前記候補底面頂点のカメラ位置を地上座標系に変換し、前記候補底面頂点の地上位置を得るステップとを含む請求項３に記載の三次元物体検出方法。
前記候補底面頂点の地上位置に基づいて、前記物体底面頂点の直角拘束を満たす前記候補底面頂点グループを選択するステップは、
前記候補底面頂点の地上位置に基づいて、前記候補底面頂点グループの底面頂点のなす角度を決定するステップと、
前記候補底面頂点グループの底面頂点のなす角度と直角との差が角度閾値よりも小さい場合、前記候補底面頂点グループが前記物体底面頂点の直角拘束を満たすと判断するステップとを含む請求項３に記載の三次元物体検出方法。
前記初期三次元画像パラメータは前記ターゲット物体の前記三次元検出フレーム内の初期底面頂点の画像位置であり、
前記初期底面頂点の画像位置に基づいて前記初期底面頂点の深さを決定するステップと、
前記初期底面頂点の深さに基づいて前記角度閾値を決定するステップとをさらに含む請求項５に記載の三次元物体検出方法。
前記ターゲット物体の前記二次元画像パラメータは前記ターゲット物体の前記二次元検出フレームの画像境界であり、前記ターゲット物体の前記候補三次元画像パラメータは前記三次元検出フレーム内の候補底面頂点の画像位置であり、
それに対応して、前記物体の前記底面頂点から前記二次元検出フレームまでの距離拘束をもとに、前記二次元画像パラメータに基づいて、直角拘束を満たす前記候補三次元画像パラメータから前記ターゲット三次元画像パラメータを選択するステップは、
直角拘束を満たす各候補底面頂点グループ内の前記候補底面頂点の画像位置と前記二次元検出フレームの画像境界に基づいて、前記候補底面頂点グループから前記二次元検出フレームまでの距離を決定するステップと、
距離が最も短い前記候補底面頂点グループをターゲット底面頂点グループとし、かつ前記ターゲット底面頂点グループ内のターゲット底面頂点の画像位置に基づいて前記ターゲット三次元画像パラメータを決定するステップとを含む請求項２に記載の三次元物体検出方法。
前記三次元パラメータ摂動範囲及び前記ターゲット物体の前記初期三次元画像パラメータに基づいて、前記ターゲット物体の前記候補三次元画像パラメータを決定するステップの前に、
前記単眼カメラによって収集されたサンプル物体画像に基づいて、サンプル物体の初期三次元画像パラメータを決定するステップと、
前記サンプル物体の前記初期三次元画像パラメータ及びタグ付けされた三次元画像パラメータに基づいて、前記三次元パラメータ摂動範囲を決定するステップとをさらに含む請求項１に記載の三次元物体検出方法。
前記三次元パラメータ摂動範囲及び前記ターゲット物体の前記初期三次元画像パラメータに基づいて、前記ターゲット物体の前記候補三次元画像パラメータを決定するステップは、
前記ターゲット物体の摂動ステップ長を決定するステップと、
前記ターゲット物体の前記初期三次元画像パラメータ、前記摂動ステップ長、及び前記三次元パラメータ摂動範囲に基づいて、前記ターゲット物体の候補三次元画像パラメータを決定するステップとを含む請求項１に記載の三次元物体検出方法。
前記初期三次元画像パラメータは前記ターゲット物体の三次元検出フレーム内の初期底面頂点の画像位置であり、
それに対応して、前記ターゲット物体の前記摂動ステップ長を決定するステップは、
前記初期底面頂点の画像位置に基づいて前記初期底面頂点の深さを決定するステップと、
前記初期底面頂点の深さに基づいて前記ターゲット物体の前記摂動ステップ長を決定するステップとを含む請求項９に記載の三次元物体検出方法。
前記単眼カメラによって収集された前記ターゲット物体画像に基づいて、前記ターゲット物体の前記二次元画像パラメータ及び前記初期三次元画像パラメータを決定するステップは、
前記単眼カメラによって収集された前記ターゲット物体画像を画像検出モデルに入力し、前記ターゲット物体の前記二次元画像パラメータと三次元検出パラメータを得るステップであって、前記三次元検出パラメータが前記ターゲット物体のサイズ、カメラ座標系における前記ターゲット物体の中心点の中心点カメラ位置、及び方向角を含むステップと、
前記三次元検出パラメータに基づいて、画像座標系における前記ターゲット物体の三次元検出フレームの頂点の位置を前記初期三次元画像パラメータとして決定するステップとを含む請求項１に記載の三次元物体検出方法。
前記三次元検出パラメータに基づいて、画像座標系における前記ターゲット物体の前記三次元検出フレームの前記頂点の位置を決定するステップは、
前記中心点のカメラ位置、及びカメラ座標系と地上座標系との変換関係に基づいて、地上座標系における中心点の地上位置を決定するステップと、
前記ターゲット物体のサイズに基づいて前記ターゲット物体の頂点と前記中心点との間の相対位置を決定するステップと、
前記ターゲット物体の回転角に基づいて回転行列を構築するステップと、
前記中心点の地上位置、前記相対位置、及び前記回転行列に基づいて、画像座標系における前記ターゲット物体の前記三次元検出フレームの前記頂点の位置を決定するステップとを含む請求項１１に記載の三次元物体検出方法。
地上方程式及びカメラ座標系のｘ軸上の任意の点の位置に基づいて、前記カメラ座標系と地上座標系との変換関係を決定するステップをさらに含む請求項４又は請求項１２に記載の三次元物体検出方法。
前記ターゲット三次元画像パラメータに基づいて前記ターゲット物体の前記三次元検出結果を決定するステップは、
カメラ内部パラメータに基づいて、前記ターゲット三次元画像パラメータをカメラ座標系に変換し、前記ターゲット物体の前記三次元検出結果としてターゲット三次元カメラパラメータを得るステップを含む請求項１に記載の三次元物体検出方法。
三次元物体検出装置であって、
単眼カメラによって収集されたターゲット物体画像に基づいて、ターゲット物体の二次元画像パラメータ及び初期三次元画像パラメータを決定する初期三次元パラメータモジュールであって、前記ターゲット物体の二次元画像パラメータが、画像座標系における前記ターゲット物体の二次元検出フレームのパラメータを指し、前記初期三次元画像パラメータが、画像座標系における前記ターゲット物体の三次元検出フレームの初期パラメータを指し、前記二次元検出フレームが、二次元座標系における前記ターゲット物体の検出フレームであり、前記三次元検出フレームが、三次元座標系における前記ターゲット物体の検出フレームである初期三次元パラメータモジュールと、
三次元パラメータ摂動範囲及び前記ターゲット物体の前記初期三次元画像パラメータに基づいて、前記ターゲット物体の候補三次元画像パラメータを決定する候補三次元パラメータモジュールと、
前記二次元画像パラメータに基づいて、前記ターゲット物体の前記候補三次元画像パラメータから前記ターゲット物体のターゲット三次元画像パラメータを選択し、前記ターゲット三次元画像パラメータに基づいて前記ターゲット物体の三次元検出結果を決定する三次元最適化モジュールとを備える三次元物体検出装置。
前記三次元最適化モジュールは、
物体の底面頂点の直角拘束に基づいて、前記ターゲット物体の前記候補三次元画像パラメータをスクリーニングする直接拘束スクリーニングユニットと、
前記物体の前記底面頂点から二次元検出フレームまでの距離拘束をもとに、前記二次元画像パラメータに基づいて、直角拘束を満たす前記候補三次元画像パラメータから前記ターゲット三次元画像パラメータを選択する距離拘束スクリーニングユニットとを備える請求項１５に記載の三次元物体検出装置。
前記ターゲット物体の前記候補三次元画像パラメータは前記三次元検出フレーム内の候補底面頂点の画像位置であり、
前記それに対応して、前記直接拘束スクリーニングユニットは、
前記候補底面頂点の画像位置を地上座標系に変換し、前記候補底面頂点の地上位置を得る地上位置サブユニットと、
前記候補底面頂点の地上位置に基づいて、物体底面頂点の直角拘束を満たす候補底面頂点グループを選択する直接拘束スクリーニングサブユニットであって、前記候補底面頂点グループが少なくとも３つの前記候補底面頂点を含む直接拘束スクリーニングサブユニットとを備える請求項１６に記載の三次元物体検出装置。
前記ターゲット物体の前記二次元画像パラメータは前記ターゲット物体の前記二次元検出フレームの画像境界であり、前記ターゲット物体の前記候補三次元画像パラメータは三次元検出フレーム内の候補底面頂点の画像位置であり、
それに対応して、前記距離拘束スクリーニングユニットは、
直角拘束を満たす各候補底面頂点グループ内の前記候補底面頂点の画像位置と前記二次元検出フレームの画像境界に基づいて、前記候補底面頂点グループから前記二次元検出フレームまでの距離を決定する距離決定サブユニットと、
距離が最も短い前記候補底面頂点グループをターゲット底面頂点グループとし、かつ前記ターゲット底面頂点グループ内のターゲット底面頂点の画像位置に基づいて前記ターゲット三次元画像パラメータを決定する距離拘束サブユニットとを備える請求項１６に記載の三次元物体検出装置。
摂動範囲モジュールをさらに備え、
該摂動範囲モジュールは、
前記単眼カメラによって収集されたサンプル物体画像に基づいて、サンプル物体の初期三次元画像パラメータを決定するサンプル初期パラメータユニットと、
前記サンプル物体の前記初期三次元画像パラメータ及びタグ付けされた三次元画像パラメータに基づいて、前記三次元パラメータ摂動範囲を決定する摂動範囲ユニットとを備える請求項１５に記載の三次元物体検出装置。
電子機器であって、
少なくとも１つのプロセッサと、
少なくとも１つの該プロセッサに通信可能に接続されるメモリとを備え、
該メモリには少なくとも１つの前記プロセッサによって実行可能な命令が記憶され、該命令は、少なくとも１つの前記プロセッサが請求項１から請求項１４のいずれかに記載の三次元物体検出方法を実行できるように、少なくとも１つのプロセッサによって実行される電子機器。
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令がコンピュータに請求項１から請求項１４のいずれかに記載の三次元物体検出方法を実行させるために用いられる非一時的なコンピュータ読み取り可能な記憶媒体。
コンピュータ上で動作しているときに、請求項１から請求項１４のいずれかに記載の三次元物体検出方法を前記コンピュータに実行させるコンピュータプログラム。