JP7189270B2 - 三次元物体検出方法、三次元物体検出装置、電子機器、記憶媒体及びコンピュータプログラム - Google Patents

三次元物体検出方法、三次元物体検出装置、電子機器、記憶媒体及びコンピュータプログラム Download PDF

Info

Publication number
JP7189270B2
JP7189270B2 JP2021078980A JP2021078980A JP7189270B2 JP 7189270 B2 JP7189270 B2 JP 7189270B2 JP 2021078980 A JP2021078980 A JP 2021078980A JP 2021078980 A JP2021078980 A JP 2021078980A JP 7189270 B2 JP7189270 B2 JP 7189270B2
Authority
JP
Japan
Prior art keywords
dimensional
image
target object
candidate
parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021078980A
Other languages
English (en)
Other versions
JP2021119528A (ja
Inventor
シャオチン イェ,
シャオ タン,
ハオ スン,
ホンウ チャン,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021119528A publication Critical patent/JP2021119528A/ja
Application granted granted Critical
Publication of JP7189270B2 publication Critical patent/JP7189270B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • G06V20/647Three-dimensional objects by matching two-dimensional images to three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • G06T7/62Analysis of geometric attributes of area, perimeter, diameter or volume
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/97Determining parameters from multiple pictures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/54Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10012Stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30244Camera pose
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Geometry (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Length Measuring Devices By Optical Means (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Analysing Materials By The Use Of Radiation (AREA)

Description

本出願は、画像処理技術の分野に関し、特にコンピュータビジョン技術の分野に関する。具体的には、三次元物体検出方法、三次元物体検出装置、電子機器、記憶媒体及びコンピュータプログラムに関する。
コンピュータビジョン技術の急速な発展に伴い、三次元物体検出は仕事や生活の様々な分野で広く応用されている。例えば、都市の発展に伴い、自動車の需要は日々増えている。三次元車両の検出技術は車両監視の基礎であり、高度道路交通やスマートシティなどの分野で非常に重要である。
ターゲット三次元検出技術は、主に双眼カメラとレーザーレーダーに依存しており、複雑性が高く、検出効率が低く、コストが高く、検出精度が低いなどの欠点がある。
三次元物体検出方法、三次元物体検出装置、電子機器、記憶媒体及びコンピュータプログラムを提供する。
第1の態様において、単眼カメラによって収集されたターゲット物体画像に基づいて、ターゲット物体の二次元画像パラメータ及び初期三次元画像パラメータを決定するステップと、三次元パラメータ摂動範囲及び前記ターゲット物体の前記初期三次元画像パラメータに基づいて、前記ターゲット物体の候補三次元画像パラメータを決定するステップと、前記二次元画像パラメータに基づいて、前記ターゲット物体の前記候補三次元画像パラメータから前記ターゲット物体のターゲット三次元画像パラメータを選択し、前記ターゲット三次元画像パラメータに基づいて前記ターゲット物体の三次元検出結果を決定するステップとを含む三次元物体検出方法を提供する。。
第2の態様において、単眼カメラによって収集されたターゲット物体画像に基づいて、ターゲット物体の二次元画像パラメータ及び初期三次元画像パラメータを決定するための初期三次元パラメータモジュールと、三次元パラメータ摂動範囲及び前記ターゲット物体の初期三次元画像パラメータに基づいて、前記ターゲット物体の候補三次元画像パラメータを決定するための候補三次元パラメータモジュールと、前記二次元画像パラメータに基づいて、前記ターゲット物体の候補三次元画像パラメータからターゲット物体のターゲット三次元画像パラメータを選択し、前記ターゲット三次元画像パラメータに基づいて前記ターゲット物体の三次元検出結果を決定するための三次元最適化モジュールとを備える三次元物体検出装置を提供する。
第3の態様において、少なくとも1つのプロセッサと、少なくとも1つの該プロセッサに通信可能に接続されるメモリとを備え、該メモリには少なくとも1つの前記プロセッサによって実行可能な命令が記憶され、該命令は、少なくとも1つの前記プロセッサが上記の三次元物体検出方法を実行できるように、少なくとも1つの前記プロセッサによって実行される電子機器を提供する。
第4の態様において、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、前記コンピュータ命令がコンピュータに上記の三次元物体検出方法を実行させることに用いられる非一時的なコンピュータ読み取り可能な記憶媒体を提供する。
第5の態様として、コンピュータ上で動作しているときに、上記の三次元物体検出方法を前記コンピュータに実行させるコンピュータプログラムを提供する。
本出願の技術により、三次元物体検出プロセスにおける高コスト、低効率、低精度の問題を解決し、単眼カメラを使用する高効率かつ高精度の三次元物体検出を実現し、三次元物体検出コストを削減する。
本明細書に記載の内容は、本開示の実施例の肝心な特徴又は重要な特徴を特定することを意図したものではなく、本開示の範囲を限定することを意図したものでもないことを理解することができる。本開示の他の特徴は、以下の明細書によって容易に理解される。
図面は、本解決手段をより良く理解するために使用され、本出願を制限するものではない。
本出願の実施例に係る三次元物体検出方法の概略フローチャートである。 本出願の実施例における物体検出フレームの概略図である。 本出願の実施例に係る三次元物体検出方法の概略フローチャートである。 本出願の実施例に係る三次元物体検出方法の概略フローチャートである。 本出願の実施例に係る三次元物体検出方法の概略フローチャートである。 本出願の実施例に係る三次元物体検出装置の概略構造図である。 本出願の実施例に係る三次元物体検出方法を実現するための電子機器のブロック図である。
以下、図面を参照しながら本出願の例示的な実施例を説明するが、この説明には、理解を容易にするために本出願の実施例の様々な詳細事項が含まれており、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本出願の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができることを理解できる。同様に、わかりやすくかつ簡潔にするために、以下の説明では、周知の機能及び構造についての説明を省略する。
図1は本出願の実施例に係る三次元物体検出方法の概略フローチャートである。
本実施例は、単眼カメラによって収集された物体画像における三次元検出フレームの頂点の最適化を決定するのに適することができる。本実施例で開示される三次元物体検出方法は、電子機器によって実行することができ、具体的には三次元物体検出装置によって実行することができる。三次元物体検出装置はソフトウェア及び/又はハードウェアによって実現することができ、電子機器に配置される。図1に示されるように、本実施例に係る三次元物体検出方法はステップS110~S130を含む。
ステップS110においては、単眼カメラによって収集されたターゲット物体画像に基づいて、ターゲット物体の二次元画像パラメータ及び初期三次元画像パラメータを決定する。
ここで、単眼カメラは、三次元物体検出が必要な任意のシーンに設置することができ、例えば、単眼カメラは、車両監視シーンに設置されてもよく、知覚センサーとして自動運転車に設置されてもよい。ここで、ターゲット物体は、検出対象を指すものであり、車両や環境物などであってもよい。ターゲット物体画像は、ターゲットカメラによって収集されたものであり、ターゲット物体の二次元画像である。
図2に示されるように、ターゲット物体画像を検出することにより、ターゲット物体画像内の二次元検出フレーム11及び三次元検出フレーム12を抽出し、三次元検出フレーム12は8つの頂点を有する。ターゲット物体の二次元画像パラメータは、画像座標系におけるターゲット物体の二次元検出フレームのパラメータを指し、初期三次元画像パラメータは、画像座標系におけるターゲット物体の三次元検出フレームの初期パラメータを指す。なお、初期三次元画像パラメータは、単眼カメラによって収集された二次元画像に基づいて決定されるため、初期三次元画像パラメータには誤差があり、三次元検出の精度を改善するためにさらに最適化する必要がある。
また、ステップS110において、ターゲット物体画像を画像検出モデルに入力し、ターゲット物体の二次元画像パラメータと三次元検出パラメータを得るステップを含んでいてもよい。
変形例として、ターゲット物体の三次元検出パラメータは、ターゲット物体のサイズ、カメラ座標系におけるターゲット物体の中心点の中心点カメラ位置及び方向角を含んでいてもよい。ターゲット物体の三次元検出パラメータを処理することにより、ターゲット物体内の三次元検出フレームの頂点の位置を初期三次元画像パラメータとして得る。
変形例として、ターゲット物体の三次元検出パラメータには、画像座標系におけるターゲット物体内の三次元検出フレームの頂点の位置が含まれ、つまり、画像検出モデルはターゲット物体の二次元画像パラメータと初期三次元画像パラメータを直接出力してもよい。
ステップS120においては、三次元パラメータ摂動範囲及びターゲット物体の初期三次元画像パラメータに基づいて、ターゲット物体の候補三次元画像パラメータを決定する。
ここで、三次元パラメータ摂動範囲とは、ターゲット物体の三次元検出フレーム内の頂点の摂動範囲を指すものである。図2に示されるように、後続の処理を容易にするために、それは、ほぼ二次元検出フレーム11上にある三次元検出フレーム12の底面頂点0、底面頂点1及び底面頂点2の摂動範囲であってもよい。具体的には、単眼カメラによって収集されたサンプル物体画像を事前に処理して三次元パラメータ摂動範囲を得る。ここで、ターゲット物体の候補三次元画像パラメータは、ターゲット物体の三次元検出フレーム内の候補頂点の画像パラメータを指し、例えば、候補底面頂点の画像位置である。
具体的には、ターゲット物体の三次元検出フレーム内の初期頂点の画像位置に基づいて、頂点の摂動範囲と結び付けることにより、複数の候補頂点の画像位置を得ることができる。初期底面頂点0の画像位置(u,v)、uの摂動範囲[-10,5]、vの摂動範囲[-4,6]を例とすると、[u-10,u+5]及び[v-4,v+6]に対応するピクセル領域では、対応する複数の候補頂点を得ることができ、同様に、他の底面頂点の複数の候補頂点を得ることができる。
ステップS130においては、二次元画像パラメータに基づいて、ターゲット物体の候補三次元画像パラメータからターゲット物体のターゲット三次元画像パラメータを選択し、ターゲット三次元画像パラメータに基づいてターゲット物体の三次元検出結果を決定する。
具体的には、二次元画像パラメータと候補三次元画像パラメータを組み合わせることにより、初期三次元画像パラメータを最適化し、最適化結果に応じて候補三次元画像パラメータからターゲット三次元画像パラメータを選択し、例えば、ターゲット底面頂点の画像位置を選択する。また、ターゲット三次元画像パラメータをカメラ座標系に変換し、カメラ座標系におけるターゲット三次元検出結果を得る。二次元画像パラメータと候補三次元画像パラメータを組み合わせることにより、誤差のある初期三次元画像パラメータを最適化し、ターゲット三次元画像パラメータを得る。アルゴリズムは複雑さが低く、単眼カメラだけで物体の三次元検出を実現でき、レーザーレーダーや双眼カメラに依存する三次元物体検出技術と比較して、低コストかつ高効率であるなどの利点を有する。
変形例として、ステップS130において、カメラ内部パラメータに基づいて、ターゲット三次元画像パラメータをカメラ座標系に変換し、ターゲット物体の三次元検出結果としてターゲット三次元カメラパラメータを得るステップを含んでいてもよい。
ここで、カメラ内部パラメータは、カメラの焦点距離、焦点位置などであってもよい。具体的には、カメラ内部パラメータに基づいてカメラ座標系と画像座標系との間の変換関係を決定することができ、変換関係に従ってターゲット三次元画像パラメータをターゲット三次元カメラパラメータに変換する。
本出願の実施例の技術案は、単眼カメラによって収集されたターゲット画像を検出することにより、ターゲット物体の二次元画像パラメータと誤差のある初期三次元画像パラメータを得て、三次元パラメータ摂動範囲と初期三次元画像パラメータを組み合わせて候補三次元画像パラメータを決定し、かつ二次元画像パラメータと候補三次元画像パラメータに基づいて初期三次元画像パラメータを最適化してターゲット三次元画像パラメータを得て、それによりターゲット三次元画像パラメータに基づいてカメラ座標系における三次元検出結果を得る。技術は、単眼カメラによって収集された物体画像内の三次元検出フレームの頂点の最適化を実現し、低コスト、高効率、高精度などの利点を有する。
図3は本出願の実施例に係る三次元物体検出方法の概略フローチャートである。本実施例は、上記の実施例に基づいて提出された選択可能な解決手段である。図3に示されるように、本実施例に係る三次元物体検出方法はステップS210~S240を含む。
ステップS210においては、単眼カメラによって収集されたターゲット物体画像に基づいて、ターゲット物体の二次元画像パラメータ及び初期三次元画像パラメータを決定する。
ステップS220においては、三次元パラメータ摂動範囲及びターゲット物体の初期三次元画像パラメータに基づいて、ターゲット物体の候補三次元画像パラメータを決定する。
ステップS230において、物体の底面頂点の直角拘束に基づいて、ターゲット物体の候補三次元画像パラメータをスクリーニングする。
ステップS210においては、ネットワーク推定によって決定された初期三次元画像パラメータに誤差があるため、底面投影により最適化のターゲットを定義し、ターゲット物体の三次元検出フレームの底面頂点を最適化し、三次元検出フレームの上面頂点もそれに応じて最適化する。
誤差があるために、三次元検出フレームの初期底面頂点間の角度は、一般的に直角ではない。すなわち、地上座標系における三次元検出フレームの底面投影は、平行四辺形、さらには不規則な四辺形である可能性がある。地上座標系における三次元検出フレームの底面投影を長方形にするために、直角拘束の最適化によってターゲット底面頂点間の角度を直角にし、すなわち、地上座標系を架け橋として直接拘束最適化を行う。具体的には、三次元検出フレームの候補底面頂点に従って複数の候補底面頂点グループを得て、各候補底面頂点グループは各底面頂点を含み、例えば、各グループは底面頂点0、底面頂点1及び底面頂点2を含む。直角拘束を満たす候補底面頂点グループを、後続の処理のために保持し、直角拘束を満たさない候補底面頂点グループを除外する。地上座標系において、直角拘束条件を満たす候補三次元画像パラメータを選択してさらに処理することにより、三次元検出の精度を向上させることができる。
ステップS240において、物体の底面頂点から二次元検出フレームまでの距離拘束をもとに、二次元画像パラメータに基づいて、直角拘束を満たす候補三次元画像パラメータからターゲット三次元画像パラメータを選択し、かつターゲット三次元画像パラメータに基づいてターゲット物体の三次元検出結果を決定する。
また、本出願の実施例は、三次元投影と二次元検出フレームとの間の拘束関係と組み合わせて最適化する。直角拘束を満たす候補底面頂点グループ内の候補底面頂点と二次元検出フレームとの間の距離を決定し、距離拘束に従ってターゲット三元画像パラメータを選択する。
変形例として、ステップS240においては、直角拘束を満たす各候補底面頂点グループ内の候補底面頂点の画像位置と二次元検出フレームの画像境界とに基づいて、候補底面頂点グループから二次元検出フレームまでの距離を決定するステップと、距離が最も短い候補底面頂点グループをターゲット底面頂点グループとし、ターゲット底面頂点グループ内のターゲット底面頂点の画像位置に基づいてターゲット三次元画像パラメータを決定するステップとを含んでいてもよい。
具体的には、以下の距離拘束損失関数を構築する。
Figure 0007189270000001
ここで、Lossは損失値であり、C(u)は候補底面頂点グループ内の候補底面頂点0のu軸にあるピクセル位置であり、C(v)は候補底面頂点グループ内の候補底面頂点1のv軸にあるピクセル位置であり、C(u)は候補底面頂点グループ内の候補底面頂点2のu軸にあるピクセル位置であり、bb2d.umin及びbb2d.umaxはそれぞれ二次元検出フレームのu軸にある最小値とu軸にある最大値であり、bb2d.vmaxは二次元検出フレームのv軸にある最大値である。図2に示されるように、Lossは候補底面頂点グループから二次元検出フレームまでの距離を示す。
具体的には、Loss値に基づいてターゲット底面頂点グループを得た後、三次元検出フレームの上面頂点もそれに応じて最適化し、三次元検出フレームの最適化後の8つのターゲット頂点の画像位置を得る。8つのターゲット頂点の画像位置をカメラ座標系に変換して、ターゲット物体の三次元検出結果を得る。
二次元検出フレームとの間の距離が最も短い候補底面頂点グループをターゲット底面頂点グループとすることにより、ターゲット底面頂点グループが二次元検出フレームに最も近くなり、それにより、ターゲット物体の三次元検出結果の精度をさらに向上させる。
本出願の実施例の技術案は、地上座標系を架け橋とし、底面直角拘束と距離拘束とを組み合わせて、最適化のターゲットを構築することにより、ターゲット底面頂点グループが二次元検出フレームに最も近くなり、ターゲット物体の三次元検出結果の精度をさらに向上させる。
図4は本出願の実施例に係る三次元物体検出方法の概略フローチャートである。本実施例は、上記の実施例に基づいて提出された選択可能な解決手段である。図4に示されるように、本実施例に係る三次元物体検出方法はステップS310~S350を含む。
ステップS310において、単眼カメラによって収集されたターゲット物体画像に基づいて、ターゲット物体の二次元画像パラメータ及び初期三次元画像パラメータを決定する。
ここで、ターゲット物体の二次元画像パラメータは、ターゲット物体の二次元検出フレームの画像パラメータであってもよく、ターゲット物体の初期三次元画像パラメータは、ターゲット物体の三次元検出フレーム内の初期頂点の画像位置であってもよく、例えば、三次元検出フレーム内の3つの初期底面頂点の画像位置である。
ステップS320において、三次元パラメータ摂動範囲及びターゲット物体の初期三次元画像パラメータに基づいて、ターゲット物体の候補三次元画像パラメータを決定する。
ここで、候補三次元画像パラメータは三次元検出フレーム内の各候補底面頂点の画像位置である。
ステップS330において、候補底面頂点の画像位置を地上座標系に変換し、候補底面頂点の地上位置を得る。
また、ステップS330は、以下のステップA及びステップBを含んでいてもよい。
ステップAにおいて、カメラ内部パラメータに基づいて、候補底面頂点の画像位置をカメラ座標系に変換し、候補底面頂点のカメラ位置を得る。
具体的には、次のように候補底面頂点の深さを決定することができる。
Figure 0007189270000002
Figure 0007189270000003
Figure 0007189270000004
ここで、(cоrner,cоrner)は候補底面頂点の画像位置であり、Imgは中間変数であり、pointcam(x)、pointcam(y)及びpointcam(z)は候補底面頂点のカメラ位置であり、Kはカメラ内部パラメータであり、K-1はKの逆数であり、Depthは候補底面頂点の深さであり、a、b、c及びdは、ax+by+cz+d=0という地上方程式に従って決定される。
以下により、候補底面頂点のカメラ位置を決定し、
=Depth*K-1*Img
ここで、Pは候補底面頂点のカメラ位置である。
ステップBにおいて、カメラ座標系と地上座標系との変換関係に基づいて、候補底面頂点のカメラ位置を地上座標系に変換し、候補底面頂点の地上位置を得る。
また、地上方程式とカメラ座標系のx軸上の任意の点の位置に基づいて、カメラ座標系と地上座標系との変換関係を決定してもよい。
具体的には、地上方程式がax+by+cz+d=0であり、地上法線ベクトルが、
Figure 0007189270000005
であるとすると、地上座標系のz軸法線ベクトルは、
Figure 0007189270000006
として表すことができ、ここで、Normはベクトルの正規化を表す。それに対応してカメラ座標系のx軸上の点P(1,0,0)を地上座標系に変換する方法は、
Figure 0007189270000007
であり、かつ、
Figure 0007189270000008
を正規化することである。最後に、地上座標系のy軸ベクトルは、x、y、z軸ベクトルが互いに垂直であるという特徴により取得でき、
Figure 0007189270000009
最後に、カメラ座標系から地上座標系への変換式は、
Figure 0007189270000010
である。地上法線ベクトルを知ることにより、カメラ座標系と地上座標系との間の変換関係を決定でき、これは、地上座標系を架け橋とすることに基礎を築く。
ステップS340において、候補底面頂点の地上位置に基づいて、物体底面頂点の直角拘束を満たす候補底面頂点グループを選択する。
ここで、候補底面頂点グループは少なくとも3つの候補底面頂点を含み、例えば、3つの底面頂点について、各底面頂点の候補位置をそれぞれ決定して候補底面頂点グループを得る。
また、ステップS340においては、候補底面頂点の地上位置に基づいて、候補底面頂点グループの底面頂点のなす角度を決定するステップと、候補底面頂点グループの底面頂点のなす角度と直角との差が角度閾値よりも小さい場合、候補底面頂点グループが物体底面頂点の直角拘束を満たすと判断するステップとを含んでいてもよい。ここで、閾値は一般的に[0,5°]であってもよく、つまり、直角拘束を満たす候補底面頂点グループの底面頂点のなす角度は[85°,95°]にある。
また、三次元物体検出方法として、初期底面頂点の画像位置に基づいて初期底面頂点の深さを決定するステップと、初期底面頂点の深さに基づいて前記角度閾値を決定するステップとをさらに含んでいてもよい。
これにより、初期底面頂点の画像位置に基づいてカメラ内部パラメータと地上の方程式と組み合わせて、初期底面頂点の深さを決定できる。異なる初期底面頂点の深さが類似しているため、各初期底面頂点の平均深さをターゲット物体の深さとすることができる。近く見ると大きく、遠く見ると小さいというビジュアルアイデンティティの特性を考慮すると、深さが小さいほど、閾値が小さくなり、すなわち閾値が厳密になり、三次元認識精度をさらに向上させることができる。
ステップS350において、物体の底面頂点から二次元検出フレームまでの距離拘束をもとに、二次元画像パラメータに基づいて、直角拘束を満たす候補三次元画像パラメータからターゲット三次元画像パラメータを選択し、かつターゲット三次元画像パラメータに基づいてターゲット物体の三次元検出結果を決定する。
具体的には、直角拘束を満たす各候補底面頂点グループについて、距離拘束損失関数に従って候補底面頂点グループの距離拘束損失値を決定し、距離拘束損失値が最小の候補底面頂点グループをターゲット底面頂点グループとし、ターゲット三次元画像パラメータを得る。
本出願の実施例の技術案は、底面直角拘束と距離拘束を組み合わせて最適化するプロセスにおいて、ビジュアル特性を十分に考慮し、ターゲット物体の三次元検出結果の精度をさらに向上させる。
図5は本出願の実施例に係る三次元物体検出方法の概略フローチャートである。
本実施例は、上記の実施例に基づいて提出された選択可能な解決手段である。図5に示されるように、本実施例に係る三次元物体検出方法はステップS410~S450を含む。
ステップS410において、単眼カメラによって収集されたサンプル物体画像に基づいて、サンプル物体の初期三次元画像パラメータを決定する。
ここで、サンプル物体画像は、単眼カメラによって収集された二次元画像であり、サンプル物体画像は、ターゲット物体画像の物体タイプと一致しており、例えば、いずれも車両である。ここで、サンプル物体の初期三次元画像パラメータは、サンプル物体の三次元検出フレーム内の初期頂点の画像位置であってもよく、ターゲット物体の初期三次元画像パラメータと類似し、サンプル物体の初期三次元画像パラメータにも誤差がある。
ステップS420において、サンプル物体の初期三次元画像パラメータ及びタグ付けされた三次元画像パラメータに基づいて、三次元パラメータ摂動範囲を決定する。
ここで、タグ付けされた三次元画像パラメータはサンプル物体の実際の三次元画像パラメータ、つまり、サンプル物体の三次元検出フレーム内の実際の頂点の画像位置である。サンプル物体の三次元検出フレーム内の各頂点について、対応する初期頂点の画像位置と実際の頂点の画像位置との差を決定し、そして、統計を通じて、各頂点の画像位置誤差範囲、つまり、三次元パラメータ摂動範囲を得ることができる。統計を通じて三次元パラメータ摂動範囲を正確に決定することは、後続する三次元画像パラメータ摂動の制御を容易にし、それによって三次元検出の効率を向上させる。
ステップS430において、単眼カメラによって収集されたターゲット物体画像に基づいて、ターゲット物体の二次元画像パラメータ及び初期三次元画像パラメータを決定する。
ここで、ターゲット物体の二次元画像パラメータはターゲット物体の二次元検出フレームの画像パラメータであり、初期三次元画像パラメータはターゲット物体の三次元検出フレームの頂点の画像位置である。
ステップS440において、三次元パラメータ摂動範囲及びターゲット物体の初期三次元画像パラメータに基づいて、ターゲット物体の候補三次元画像パラメータを決定する。
具体的には、ターゲット物体の三次元検出フレーム内の初期頂点の画像位置に基づき、頂点の摂動範囲と組み合わせることにより、複数の候補頂点の画像位置を得ることができ、つまり、ターゲット物体の候補三次元画像パラメータを得る。
変形例として、ステップS440においては、ターゲット物体の摂動ステップ長を決定するステップと、ターゲット物体の初期三次元画像パラメータ、摂動ステップ長、及び三次元パラメータ摂動範囲に基づいて、ターゲット物体の候補三次元画像パラメータを決定するステップとを含んでいてもよい。
具体的には、ターゲット物体の摂動ステップ長及び三次元パラメータ摂動範囲に基づいて複数の摂動値を決定し、ターゲット物体の初期三次元画像パラメータ及び複数の摂動値に基づいてターゲット物体の複数の候補三次元画像パラメータを得る。
変形例として、本実施例に係る三次元物体検出方法は、初期底面頂点の画像位置に基づいて初期底面頂点の深さを決定するステップと、初期底面頂点の深さに基づいてターゲット物体の摂動ステップ長を決定するステップとをさらに含む。ここで、ターゲット物体の深さが近いほど、摂動ステップ長が長くなり、ビジュアル特性を十分に考慮することで、摂動ステップ長を合理的に決定でき、三次元検出効率をさらに向上させる。
ステップS450において、二次元画像パラメータに基づいて、ターゲット物体の候補三次元画像パラメータからターゲット物体のターゲット三次元画像パラメータを選択し、ターゲット三次元画像パラメータに基づいてターゲット物体の三次元検出結果を決定する。
本出願の実施例の技術案は、三次元パラメータ摂動範囲を合理的に決定し、ターゲット物体の深さに基づいてターゲット物体の摂動ステップ長を決定し、ターゲット物体の摂動ステップ長、初期三次元画像パラメータ及び三次元パラメータ摂動範囲を組み合わせて候補三次元画像パラメータを決定することにより、候補三次元画像パラメータの精度を向上させることができ、さらに三次元検出の効率及び精度を向上させる。
また、ステップS420においては、単眼カメラによって収集されたターゲット物体画像を画像検出モデルとして入力し、ターゲット物体の二次元画像パラメータと三次元検出パラメータを得るステップであって、三次元検出パラメータがターゲット物体のサイズ、カメラ座標系におけるターゲット物体の中心点の中心点カメラ位置、及び方向角を含むステップと、三次元検出パラメータに基づいて、画像座標系におけるターゲット物体の三次元検出フレームの頂点の位置を初期三次元画像パラメータとして決定するステップとを含んでいてもよい。画像座標系における三次元検出フレームの頂点の位置を正確に決定することにより、ターゲット物体の三次元検出結果の精度を向上させる。
また、三次元検出パラメータに基づいて、画像座標系におけるターゲット物体の三次元検出フレームの頂点の位置を決定するステップは、中心点のカメラ位置、及びカメラ座標系と地上座標系との変換関係に基づいて、地上座標系における中心点の地上位置を決定するステップと、ターゲット物体のサイズに基づいてターゲット物体の頂点と中心点との間の相対位置を決定するステップと、ターゲット物体の回転角に基づいて回転行列を構築するステップと、中心点の地上位置、相対位置、及び回転行列に基づいて、画像座標系におけるターゲット物体の三次元検出フレームの頂点の位置を決定するステップとを含んでいてもよい。
具体的には、中心点の画像位置
Figure 0007189270000011
をTc2gによって地上座標系に変換し、中心点の地上位置
Figure 0007189270000012
を得て、
Figure 0007189270000013
方向角ryに基づいて回転行列を決定し(ロドリゲスの公式)、
Figure 0007189270000014
地上座標系における三次元検出フレームの頂点と中心点
Figure 0007189270000015
の相対位置を決定し、
Figure 0007189270000016
地上座標系では、回転行列R、相対位置
Figure 0007189270000017
及び
Figure 0007189270000018
に基づいて、地上座標系における三次元検出フレーム内の頂点の位置Pを求め、
Figure 0007189270000019
地上座標系における三次元検出フレーム内の頂点の位置Pをカメラ座標系に変換し、Pを得て、
Figure 0007189270000020
ここで、Tc2gはカメラ座標系から地上座標系に変換する変換式であり、
Figure 0007189270000021
はTc2gの逆数である。
カメラ座標系における三次元検出フレーム内の頂点の位置Pc及びカメラ内部パラメータに基づいて、画像座標系における三次元検出フレーム内の頂点の位置を得る。
なお、サンプル物体の三次元検出パラメータの決定方法は、ターゲット物体の三次元検出パラメータの決定方法と同じであり、ここでは説明を省略する。
図6は本出願の実施例に係る三次元物体検出装置の概略構造図である。
図6に示されるように、本出願の実施例は三次元物体検出装置500を開示する。
本出願の実施例に係る三次元物体検出装置500は、単眼カメラによって収集されたターゲット物体画像に基づいて、ターゲット物体の二次元画像パラメータ及び初期三次元画像パラメータを決定する初期三次元パラメータモジュール501と、三次元パラメータ摂動範囲及びターゲット物体の初期三次元画像パラメータに基づいて、ターゲット物体の候補三次元画像パラメータを決定する候補三次元パラメータモジュール502と、二次元画像パラメータに基づいて、ターゲット物体の候補三次元画像パラメータからターゲット物体のターゲット三次元画像パラメータを選択し、ターゲット三次元画像パラメータに基づいてターゲット物体の三次元検出結果を決定する三次元最適化モジュール503とを備える。
また、三次元最適化モジュール503は、物体の底面頂点の直角拘束に基づいて、ターゲット物体の候補三次元画像パラメータをスクリーニングする直接拘束スクリーニングユニットと、物体の底面頂点から二次元検出フレームまでの距離拘束をもとに、二次元画像パラメータに基づいて、直角拘束を満たす候補三次元画像パラメータからターゲット三次元画像パラメータを選択する距離拘束スクリーニングユニットとを備えていてもよい。
また、ターゲット物体の候補三次元画像パラメータは三次元検出フレーム内の候補底面頂点の画像位置であり、それに対応して、直接拘束スクリーニングユニットは、候補底面頂点の画像位置を地上座標系に変換し、候補底面頂点の地上位置を得る地上位置サブユニットと、候補底面頂点の地上位置に基づいて、物体底面頂点の直角拘束を満たす候補底面頂点グループを選択する直接拘束スクリーニングサブユニットであって、候補底面頂点グループが少なくとも3つの候補底面頂点を含む直接拘束スクリーニングサブユニットとを備えていてもよい。
また、地上位置サブユニットは、具体的には、カメラ内部パラメータに基づいて、候補底面頂点の画像位置をカメラ座標系に変換し、候補底面頂点のカメラ位置を得て、及びカメラ座標系と地上座標系との変換関係に基づいて、候補底面頂点のカメラ位置を地上座標系に変換し、候補底面頂点の地上位置を得ることに用いられてもよい。
また、直接拘束スクリーニングサブユニットは、具体的には、候補底面頂点の地上位置に基づいて、候補底面頂点グループの底面頂点のなす角度を決定し、及び候補底面頂点グループの底面頂点のなす角度と直角との差が角度閾値よりも小さい場合、候補底面頂点グループが物体底面頂点の直角拘束を満たすと判断することに用いられてもよい。
また、初期三次元画像パラメータはターゲット物体の三次元検出フレーム内の初期底面頂点の画像位置であり、それに対応して、直接拘束スクリーニングサブユニットはさらに、初期底面頂点の画像位置に基づいて初期底面頂点の深さを決定し、及び初期底面頂点の深さに基づいて角度閾値を決定することに用いられてもよい。
また、ターゲット物体の二次元画像パラメータはターゲット物体の二次元検出フレームの画像境界であり、ターゲット物体の候補三次元画像パラメータは三次元検出フレーム内の候補底面頂点の画像位置であり、それに対応して、距離拘束スクリーニングユニットは、直角拘束を満たす各候補底面頂点グループ内の候補底面頂点の画像位置と二次元検出フレームの画像境界に基づいて、候補底面頂点グループから二次元検出フレームまでの距離を決定する距離決定サブユニットと、距離が最も短い候補底面頂点グループをターゲット底面頂点グループとし、かつターゲット底面頂点グループ内のターゲット底面頂点の画像位置に基づいてターゲット三次元画像パラメータを決定する距離拘束サブユニットとを備えていてもよい。
また、本出願の実施例に係る三次元物体検出装置は、摂動範囲モジュールをさらに備え、摂動範囲モジュールは、具体的には、単眼カメラによって収集されたサンプル物体画像に基づいて、サンプル物体の初期三次元画像パラメータを決定するサンプル初期パラメータユニットと、サンプル物体の初期三次元画像パラメータ及びタグ付けされた三次元画像パラメータに基づいて、三次元パラメータ摂動範囲を決定する摂動範囲ユニットとを備えていてもよい。
また、候補三次元パラメータモジュール502は、ターゲット物体の摂動ステップ長を決定する摂動ステップ長ユニットと、ターゲット物体の初期三次元画像パラメータ、摂動ステップ長、及び三次元パラメータ摂動範囲に基づいて、ターゲット物体の候補三次元画像パラメータを決定する候補三次元パラメータユニットとを備えていてもよい。
また、初期三次元画像パラメータはターゲット物体の三次元検出フレーム内の初期底面頂点の画像位置であり、それに対応して、摂動ステップ長ユニットは、具体的には、初期底面頂点の画像位置に基づいて初期底面頂点の深さを決定し、及び初期底面頂点の深さに基づいてターゲット物体の摂動ステップ長を決定することに用いられてもよい。
また、初期三次元パラメータモジュール501は、単眼カメラによって収集されたターゲット物体画像を画像検出モデルとして入力し、ターゲット物体の二次元画像パラメータと三次元検出パラメータを得るパラメータ検出ユニットであって、三次元検出パラメータがターゲット物体のサイズ、カメラ座標系におけるターゲット物体の中心点の中心点カメラ位置、及び方向角を含むパラメータ検出ユニットと、三次元検出パラメータに基づいて、画像座標系におけるターゲット物体の三次元検出フレームの頂点の位置を初期三次元画像パラメータとして決定するパラメータ決定ユニットとを備えていてもよい。
また、パラメータ決定ユニットは、具体的には、中心点のカメラ位置、及びカメラ座標系と地上座標系との変換関係に基づいて、地上座標系における中心点の地上位置を決定し、ターゲット物体のサイズに基づいてターゲット物体の頂点と中心点との間の相対位置を決定し、ターゲット物体の回転角に基づいて回転行列を構築し、及び中心点の地上位置、相対位置、及び回転行列に基づいて、画像座標系におけるターゲット物体の三次元検出フレームの頂点の位置を決定することに用いられてもよい。
また、本出願の実施例に係る三次元物体検出装置は、地上方程式及びカメラ座標系のx軸上の任意の点の位置に基づいて、カメラ座標系と地上座標系との変換関係を決定する変換関係決定モジュールをさらに備えていてもよい。
また、三次元最適化モジュール503は、具体的には、カメラ内部パラメータに基づいて、ターゲット三次元画像パラメータをカメラ座標系に変換し、ターゲット物体の三次元検出結果としてターゲット三次元カメラパラメータを得ることに用いられてもよい。
本出願の実施例の技術案では、単眼画像に基づく三次元物体検出は、二次元検出フレームと三次元検出フレームの頂点との間の拘束関係、及び地平面方程式を組み合わせて、誤って推定された三次元検出フレームの初期頂点を最適化し、三次元検出の精度と堅牢性を向上させる。
本出願の実施例によれば、本出願は、電子機器及び読み取り可能な記憶媒体をさらに提供する。
図7に示されるように、本出願の実施例に係る三次元物体検出方法を実現するための電子機器のブロック図である。
電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及びその他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを意図している。電子機器は、例えば、パーソナルデジタルアシスタント、携帯電話、スマートフォン、ウェアラブルデバイス、他の類似するコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書に示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び/又は要求される本出願の実現を制限する意図したものではない。
図7に示されるように、本出願の実施例に係る電子機器は、少なくとも1つのプロセッサ601と、メモリ602と、各コンポーネントを接続するためのインターフェースであって、高速インターフェース及び低速インターフェースを含むインターフェースとを備える。各コンポーネントは、異なるバスを介して互いに接続され、共通のマザーボードに取り付けるか、又は必要に応じて他の方式で取り付けることができる。プロセッサは、電子機器内で実行される命令を処理することができ、命令は、外部入力/出力装置(例えば、インターフェースに結合された表示機器など)にGUIのグラフィック情報を表示するために、メモリ内又はメモリ上に格納されている命令を含む。他の実施形態では、複数のプロセッサ及び/又は複数のバスを、必要に応じて、複数のメモリと一緒に使用することができる。同様に、複数の電子機器を接続することができ、各機器は一部の必要な操作(例えば、サーバアレイ、ブレードサーバのグループ、又はマルチプロセッサシステムとする)を提供することができる。図7では、1つのプロセッサ601を一例とする。
メモリ602は、本出願の実施例に係る非一時的なコンピュータ読み取り可能な記憶媒体である。メモリ602には、少なくとも1つのプロセッサが上記の三次元物体検出方法を実行するように、少なくとも1つのプロセッサによって実行可能な命令が格納されている。本出願の非一時的なコンピュータ読み取り可能な記憶媒体には、コンピュータに上記の三次元物体検出方法を実行させるためのコンピュータ命令が格納されている。
メモリ602は、非一時的なコンピュータ読み取り可能な記憶媒体として、本出願の実施例に係る三次元物体検出方法に対応するプログラム命令/モジュール(例えば、図6に示す初期三次元パラメータモジュール501、候補三次元パラメータモジュール502、三次元最適化モジュール503)のような非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュールを格納することができる。プロセッサ601は、メモリ602に格納されている非一時的なソフトウェアプログラム、命令、及びモジュールを実行することによって、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち、上記方法の実施例における三次元物体検出方法を実現する。
メモリ602は、プログラム記憶領域及びデータ記憶領域を含むことができ、ここで、プログラム記憶領域は、オペレーティングシステム、及び少なくとも1つの機能に必要なアプリケーションプログラムを格納することができ、データ記憶領域は、三次元物体検出の電子機器の使用に応じて作成されたデータなどを格納することができる。また、メモリ602は、高速ランダムアクセスメモリを含むことができ、さらに、例えば少なくとも1つの磁気ディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスなどの非一時的なメモリを含むことができる。一部の実施例では、メモリ602は、プロセッサ601に対して遠隔に設置されたメモリを選択的に含んでもよく、これらの遠隔メモリは、ネットワークを介して三次元物体検出の電子機器に接続することができる。上記のネットワークの一例には、インターネット、企業イントラネット、ローカルエリアネットワーク、移動体通信ネットワーク、及びそれらの組み合わせを含むが、これらに限定されない。
三次元物体検出方法の電子機器は、入力装置603と出力装置604とをさらに備えていてもよい。プロセッサ601、メモリ602、入力装置603及び出力装置604は、バス又は他の方式を介して接続することができ、図7では、バスを介して接続することを一例とする。
入力装置603は、入力された数字又はキャラクター情報を受信し、三次元物体検出の電子機器のユーザ設定及び機能制御に関連するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、表示機器、1つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置604は、表示機器、補助照明装置(例えば、LED)、触覚フィードバックデバイス(例えば、振動モータ)などを含んでもよい。表示機器は、液晶ディスプレイ(LDC)、発光ダイオード(LED)ディスプレイ、及びプラズマディスプレイを含んでもよいが、これらに限定されない。一部の実施形態では、表示機器はタッチスクリーンであり得る。
本明細書で説明されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現することができる。これらの様々な実施形態は、少なくとも1つのコンピュータプログラムで実施され、少なくとも1つのコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムで実行及び/又は解釈することができ、該プログラマブルプロセッサは専用又は汎用のプログラマブルプロセッサであってもよく、ストレージシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、データ及び命令を該ストレージシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置に伝送することができる。
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる)には、プログラマブルプロセッサの機械命令が含まれ、高レベルのプロセス及び/又はオブジェクト指向のプログラミング言語、及び/又はアセンブリ/機械言語でこれらのコンピュータプログラムを実施することができる。本明細書に使用されるような、「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」という用語は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジック装置(PLD))を指し、機械読み取り可能な信号である機械命令を受信するための機械読み取り可能な媒体を含む。「機械読み取り可能な信号」という用語は、プログラマブルプロセッサに機械命令及び/又はデータを提供するための任意の信号を指す。
ユーザとのインタラクションを提供するために、本明細書で説明されたシステム及び技術をコンピュータ上で実施することができ、コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウスやトラックボール)とを有し、ユーザは、キーボード及びポインティングデバイスによって、コンピュータに入力することが可能になる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚的フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、そして、任意の形態(音響入力、音声入力、又は触覚入力を含む)でユーザからの入力を受信できる。
本明細書で説明されたシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインターフェース又はWEBブラウザーを有するユーザコンピュータであり、ユーザは、グラフィカルユーザインターフェース又はWEBブラウザーを介して本明細書に説明したシステム及び技術の実施形態とインタラクションすることができる)、又はこのようなバックエンドコンポーネント、ミドルウェアコンポーネント、又はフロントエンドコンポーネントを含む任意の組み合わせコンピューティングシステム中で実施できる。任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)を介してシステムのコンポーネントを相互に接続することができる。通信ネットワークの一例は、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、及びインターネットを含む。
コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、通常、互いに遠く離れており、通信ネットワークを介して互いにインタラクションするのが一般的である。クライアントとサーバの関係は、対応するコンピュータで実行され、かつ互いにクライアント-サーバの関係を持つコンピュータプログラムによって生成される。
本出願の実施例の技術案によれば、単眼画像に基づく三次元物体検出は、二次元検出フレームと三次元検出フレームの頂点との間の拘束関係、及び地平面方程式を組み合わせて、誤って推定された三次元検出フレームの初期頂点を最適化し、三次元検出の精度と堅牢性を向上させる。
なお、上記の様々な形態のフローを使用して、ステップを並べ替えたり、追加したり、削除したりすることができる。例えば、本出願に記載の各ステップは、本出願に開示されている技術案の所望の結果を達成できる限り、並行に実施されてもよいし、順次実施されてもよいし、異なる順序で実施されてもよく、本明細書では、それについて限定されない。
上記の具体的な実施形態は、本出願の特許保護範囲を制限するものではない。当業者であれば、設計要件及び他の要因に応じて、様々な修正、組み合わせ、一部の組み合わせ、及び置換を行うことができることを理解されたい。本出願の精神と原則の範囲内で行われる修正、同等の置換、及び改良は、本出願の特許保護範囲に含まれるべきである。

Claims (22)

  1. 三次元物体検出方法であって、
    単眼カメラによって収集されたターゲット物体画像に基づいて、ターゲット物体の二次元画像パラメータ及び初期三次元画像パラメータを決定するステップであって、前記ターゲット物体の二次元画像パラメータが、画像座標系における前記ターゲット物体の二次元検出フレームのパラメータを指し、前記初期三次元画像パラメータが、画像座標系における前記ターゲット物体の三次元検出フレームの初期パラメータを指し、前記二次元検出フレームが、二次元座標系における前記ターゲット物体の検出フレームであり、前記三次元検出フレームが、三次元座標系における前記ターゲット物体の検出フレームであるステップと、
    三次元パラメータ摂動範囲及び前記ターゲット物体の前記初期三次元画像パラメータに基づいて、前記ターゲット物体の候補三次元画像パラメータを決定するステップと、
    前記二次元画像パラメータに基づいて、前記ターゲット物体の前記候補三次元画像パラメータから前記ターゲット物体のターゲット三次元画像パラメータを選択し、前記ターゲット三次元画像パラメータに基づいて前記ターゲット物体の三次元検出結果を決定するステップとを含む三次元物体検出方法。
  2. 前記二次元画像パラメータに基づいて、前記ターゲット物体の前記候補三次元画像パラメータから前記ターゲット物体の前記ターゲット三次元画像パラメータを選択するステップは、
    物体の底面頂点の直角拘束に基づいて、前記ターゲット物体の前記候補三次元画像パラメータをスクリーニングするステップと、
    前記物体の前記底面頂点から二次元検出フレームまでの距離拘束をもとに、前記二次元画像パラメータに基づいて、直角拘束を満たす前記候補三次元画像パラメータから前記ターゲット三次元画像パラメータを選択するステップとを含む請求項1に記載の三次元物体検出方法。
  3. 前記ターゲット物体の前記候補三次元画像パラメータは前記三次元検出フレーム内の候補底面頂点の画像位置であり、
    それに対応して、前記物体の前記底面頂点の直角拘束に基づいて、前記ターゲット物体の前記候補三次元画像パラメータをスクリーニングするステップは、
    前記候補底面頂点の画像位置を地上座標系に変換し、前記候補底面頂点の地上位置を得るステップと、
    前記候補底面頂点の地上位置に基づいて、物体底面頂点の直角拘束を満たす候補底面頂点グループを選択するステップであって、前記候補底面頂点グループが少なくとも3つの前記候補底面頂点を含むステップとを含む請求項2に記載の三次元物体検出方法。
  4. 前記候補底面頂点の画像位置を地上座標系に変換し、前記候補底面頂点の地上位置を得るステップは、
    カメラ内部パラメータに基づいて、前記候補底面頂点の画像位置をカメラ座標系に変換し、前記候補底面頂点のカメラ位置を得るステップと、
    カメラ座標系と地上座標系との変換関係に基づいて、前記候補底面頂点のカメラ位置を地上座標系に変換し、前記候補底面頂点の地上位置を得るステップとを含む請求項3に記載の三次元物体検出方法。
  5. 前記候補底面頂点の地上位置に基づいて、前記物体底面頂点の直角拘束を満たす前記候補底面頂点グループを選択するステップは、
    前記候補底面頂点の地上位置に基づいて、前記候補底面頂点グループの底面頂点のなす角度を決定するステップと、
    前記候補底面頂点グループの底面頂点のなす角度と直角との差が角度閾値よりも小さい場合、前記候補底面頂点グループが前記物体底面頂点の直角拘束を満たすと判断するステップとを含む請求項3に記載の三次元物体検出方法。
  6. 前記初期三次元画像パラメータは前記ターゲット物体の前記三次元検出フレーム内の初期底面頂点の画像位置であり、
    前記初期底面頂点の画像位置に基づいて前記初期底面頂点の深さを決定するステップと、
    前記初期底面頂点の深さに基づいて前記角度閾値を決定するステップとをさらに含む請求項5に記載の三次元物体検出方法。
  7. 前記ターゲット物体の前記二次元画像パラメータは前記ターゲット物体の前記二次元検出フレームの画像境界であり、前記ターゲット物体の前記候補三次元画像パラメータは前記三次元検出フレーム内の候補底面頂点の画像位置であり、
    それに対応して、前記物体の前記底面頂点から前記二次元検出フレームまでの距離拘束をもとに、前記二次元画像パラメータに基づいて、直角拘束を満たす前記候補三次元画像パラメータから前記ターゲット三次元画像パラメータを選択するステップは、
    直角拘束を満たす各候補底面頂点グループ内の前記候補底面頂点の画像位置と前記二次元検出フレームの画像境界に基づいて、前記候補底面頂点グループから前記二次元検出フレームまでの距離を決定するステップと、
    距離が最も短い前記候補底面頂点グループをターゲット底面頂点グループとし、かつ前記ターゲット底面頂点グループ内のターゲット底面頂点の画像位置に基づいて前記ターゲット三次元画像パラメータを決定するステップとを含む請求項2に記載の三次元物体検出方法。
  8. 前記三次元パラメータ摂動範囲及び前記ターゲット物体の前記初期三次元画像パラメータに基づいて、前記ターゲット物体の前記候補三次元画像パラメータを決定するステップの前に、
    前記単眼カメラによって収集されたサンプル物体画像に基づいて、サンプル物体の初期三次元画像パラメータを決定するステップと、
    前記サンプル物体の前記初期三次元画像パラメータ及びタグ付けされた三次元画像パラメータに基づいて、前記三次元パラメータ摂動範囲を決定するステップとをさらに含む請求項1に記載の三次元物体検出方法。
  9. 前記三次元パラメータ摂動範囲及び前記ターゲット物体の前記初期三次元画像パラメータに基づいて、前記ターゲット物体の前記候補三次元画像パラメータを決定するステップは、
    前記ターゲット物体の摂動ステップ長を決定するステップと、
    前記ターゲット物体の前記初期三次元画像パラメータ、前記摂動ステップ長、及び前記三次元パラメータ摂動範囲に基づいて、前記ターゲット物体の候補三次元画像パラメータを決定するステップとを含む請求項1に記載の三次元物体検出方法。
  10. 前記初期三次元画像パラメータは前記ターゲット物体の三次元検出フレーム内の初期底面頂点の画像位置であり、
    それに対応して、前記ターゲット物体の前記摂動ステップ長を決定するステップは、
    前記初期底面頂点の画像位置に基づいて前記初期底面頂点の深さを決定するステップと、
    前記初期底面頂点の深さに基づいて前記ターゲット物体の前記摂動ステップ長を決定するステップとを含む請求項9に記載の三次元物体検出方法。
  11. 前記単眼カメラによって収集された前記ターゲット物体画像に基づいて、前記ターゲット物体の前記二次元画像パラメータ及び前記初期三次元画像パラメータを決定するステップは、
    前記単眼カメラによって収集された前記ターゲット物体画像を画像検出モデルに入力し、前記ターゲット物体の前記二次元画像パラメータと三次元検出パラメータを得るステップであって、前記三次元検出パラメータが前記ターゲット物体のサイズ、カメラ座標系における前記ターゲット物体の中心点の中心点カメラ位置、及び方向角を含むステップと、
    前記三次元検出パラメータに基づいて、画像座標系における前記ターゲット物体の三次元検出フレームの頂点の位置を前記初期三次元画像パラメータとして決定するステップとを含む請求項1に記載の三次元物体検出方法。
  12. 前記三次元検出パラメータに基づいて、画像座標系における前記ターゲット物体の前記三次元検出フレームの前記頂点の位置を決定するステップは、
    前記中心点のカメラ位置、及びカメラ座標系と地上座標系との変換関係に基づいて、地上座標系における中心点の地上位置を決定するステップと、
    前記ターゲット物体のサイズに基づいて前記ターゲット物体の頂点と前記中心点との間の相対位置を決定するステップと、
    前記ターゲット物体の回転角に基づいて回転行列を構築するステップと、
    前記中心点の地上位置、前記相対位置、及び前記回転行列に基づいて、画像座標系における前記ターゲット物体の前記三次元検出フレームの前記頂点の位置を決定するステップとを含む請求項11に記載の三次元物体検出方法。
  13. 地上方程式及びカメラ座標系のx軸上の任意の点の位置に基づいて、前記カメラ座標系と地上座標系との変換関係を決定するステップをさらに含む請求項4又は請求項12に記載の三次元物体検出方法。
  14. 前記ターゲット三次元画像パラメータに基づいて前記ターゲット物体の前記三次元検出結果を決定するステップは、
    カメラ内部パラメータに基づいて、前記ターゲット三次元画像パラメータをカメラ座標系に変換し、前記ターゲット物体の前記三次元検出結果としてターゲット三次元カメラパラメータを得るステップを含む請求項1に記載の三次元物体検出方法。
  15. 三次元物体検出装置であって、
    単眼カメラによって収集されたターゲット物体画像に基づいて、ターゲット物体の二次元画像パラメータ及び初期三次元画像パラメータを決定する初期三次元パラメータモジュールであって、前記ターゲット物体の二次元画像パラメータが、画像座標系における前記ターゲット物体の二次元検出フレームのパラメータを指し、前記初期三次元画像パラメータが、画像座標系における前記ターゲット物体の三次元検出フレームの初期パラメータを指し、前記二次元検出フレームが、二次元座標系における前記ターゲット物体の検出フレームであり、前記三次元検出フレームが、三次元座標系における前記ターゲット物体の検出フレームである初期三次元パラメータモジュールと、
    三次元パラメータ摂動範囲及び前記ターゲット物体の前記初期三次元画像パラメータに基づいて、前記ターゲット物体の候補三次元画像パラメータを決定する候補三次元パラメータモジュールと、
    前記二次元画像パラメータに基づいて、前記ターゲット物体の前記候補三次元画像パラメータから前記ターゲット物体のターゲット三次元画像パラメータを選択し、前記ターゲット三次元画像パラメータに基づいて前記ターゲット物体の三次元検出結果を決定する三次元最適化モジュールとを備える三次元物体検出装置。
  16. 前記三次元最適化モジュールは、
    物体の底面頂点の直角拘束に基づいて、前記ターゲット物体の前記候補三次元画像パラメータをスクリーニングする直接拘束スクリーニングユニットと、
    前記物体の前記底面頂点から二次元検出フレームまでの距離拘束をもとに、前記二次元画像パラメータに基づいて、直角拘束を満たす前記候補三次元画像パラメータから前記ターゲット三次元画像パラメータを選択する距離拘束スクリーニングユニットとを備える請求項15に記載の三次元物体検出装置。
  17. 前記ターゲット物体の前記候補三次元画像パラメータは前記三次元検出フレーム内の候補底面頂点の画像位置であり、
    前記それに対応して、前記直接拘束スクリーニングユニットは、
    前記候補底面頂点の画像位置を地上座標系に変換し、前記候補底面頂点の地上位置を得る地上位置サブユニットと、
    前記候補底面頂点の地上位置に基づいて、物体底面頂点の直角拘束を満たす候補底面頂点グループを選択する直接拘束スクリーニングサブユニットであって、前記候補底面頂点グループが少なくとも3つの前記候補底面頂点を含む直接拘束スクリーニングサブユニットとを備える請求項16に記載の三次元物体検出装置。
  18. 前記ターゲット物体の前記二次元画像パラメータは前記ターゲット物体の前記二次元検出フレームの画像境界であり、前記ターゲット物体の前記候補三次元画像パラメータは三次元検出フレーム内の候補底面頂点の画像位置であり、
    それに対応して、前記距離拘束スクリーニングユニットは、
    直角拘束を満たす各候補底面頂点グループ内の前記候補底面頂点の画像位置と前記二次元検出フレームの画像境界に基づいて、前記候補底面頂点グループから前記二次元検出フレームまでの距離を決定する距離決定サブユニットと、
    距離が最も短い前記候補底面頂点グループをターゲット底面頂点グループとし、かつ前記ターゲット底面頂点グループ内のターゲット底面頂点の画像位置に基づいて前記ターゲット三次元画像パラメータを決定する距離拘束サブユニットとを備える請求項16に記載の三次元物体検出装置。
  19. 摂動範囲モジュールをさらに備え、
    該摂動範囲モジュールは、
    前記単眼カメラによって収集されたサンプル物体画像に基づいて、サンプル物体の初期三次元画像パラメータを決定するサンプル初期パラメータユニットと、
    前記サンプル物体の前記初期三次元画像パラメータ及びタグ付けされた三次元画像パラメータに基づいて、前記三次元パラメータ摂動範囲を決定する摂動範囲ユニットとを備える請求項15に記載の三次元物体検出装置。
  20. 電子機器であって、
    少なくとも1つのプロセッサと、
    少なくとも1つの該プロセッサに通信可能に接続されるメモリとを備え、
    該メモリには少なくとも1つの前記プロセッサによって実行可能な命令が記憶され、該命令は、少なくとも1つの前記プロセッサが請求項1から請求項14のいずれかに記載の三次元物体検出方法を実行できるように、少なくとも1つのプロセッサによって実行される電子機器。
  21. コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータ命令がコンピュータに請求項1から請求項14のいずれかに記載の三次元物体検出方法を実行させるために用いられる非一時的なコンピュータ読み取り可能な記憶媒体。
  22. コンピュータ上で動作しているときに、請求項1から請求項14のいずれかに記載の三次元物体検出方法を前記コンピュータに実行させるコンピュータプログラム。
JP2021078980A 2020-05-15 2021-05-07 三次元物体検出方法、三次元物体検出装置、電子機器、記憶媒体及びコンピュータプログラム Active JP7189270B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010412462.X 2020-05-15
CN202010412462.XA CN111612753B (zh) 2020-05-15 2020-05-15 三维物体检测方法、装置、电子设备和可读存储介质

Publications (2)

Publication Number Publication Date
JP2021119528A JP2021119528A (ja) 2021-08-12
JP7189270B2 true JP7189270B2 (ja) 2022-12-13

Family

ID=72199998

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021078980A Active JP7189270B2 (ja) 2020-05-15 2021-05-07 三次元物体検出方法、三次元物体検出装置、電子機器、記憶媒体及びコンピュータプログラム

Country Status (5)

Country Link
US (1) US11587338B2 (ja)
EP (1) EP3859661A3 (ja)
JP (1) JP7189270B2 (ja)
KR (1) KR102605535B1 (ja)
CN (1) CN111612753B (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112164143A (zh) * 2020-10-23 2021-01-01 广州小马慧行科技有限公司 三维模型的构建方法、构建装置、处理器和电子设备
CN112509126A (zh) * 2020-12-18 2021-03-16 北京百度网讯科技有限公司 三维物体检测的方法、装置、设备及存储介质
CN112819880A (zh) * 2021-01-07 2021-05-18 北京百度网讯科技有限公司 三维物体检测方法、装置、设备及存储介质
CN112926395A (zh) * 2021-01-27 2021-06-08 上海商汤临港智能科技有限公司 目标检测方法、装置、计算机设备及存储介质
US11854255B2 (en) * 2021-07-27 2023-12-26 Ubkang (Qingdao) Technology Co., Ltd. Human-object scene recognition method, device and computer-readable storage medium

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000107183A (ja) 1998-09-30 2000-04-18 Matsushita Electric Ind Co Ltd 臓器容積計測方法および装置
JP2009032123A (ja) 2007-07-27 2009-02-12 Hiroshima Industrial Promotion Organization 画像処理装置、画像処理方法およびプログラム
US20200143557A1 (en) 2018-11-01 2020-05-07 Samsung Electronics Co., Ltd. Method and apparatus for detecting 3d object from 2d image

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103903246A (zh) * 2012-12-26 2014-07-02 株式会社理光 物体检测方法和装置
US10839234B2 (en) * 2018-09-12 2020-11-17 Tusimple, Inc. System and method for three-dimensional (3D) object detection
CN110969064B (zh) * 2018-09-30 2023-10-27 北京四维图新科技股份有限公司 一种基于单目视觉的图像检测方法、装置及存储设备
CN110517349A (zh) * 2019-07-26 2019-11-29 电子科技大学 一种基于单目视觉和几何约束的3d车辆目标检测方法
CN110765974B (zh) * 2019-10-31 2023-05-02 复旦大学 基于毫米波雷达和卷积神经网络的微动手势识别方法
CN111079619B (zh) * 2019-12-10 2023-04-18 北京百度网讯科技有限公司 用于检测图像中的目标对象的方法和装置
CN111126269B (zh) * 2019-12-24 2022-09-30 京东科技控股股份有限公司 三维目标检测方法、装置以及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000107183A (ja) 1998-09-30 2000-04-18 Matsushita Electric Ind Co Ltd 臓器容積計測方法および装置
JP2009032123A (ja) 2007-07-27 2009-02-12 Hiroshima Industrial Promotion Organization 画像処理装置、画像処理方法およびプログラム
US20200143557A1 (en) 2018-11-01 2020-05-07 Samsung Electronics Co., Ltd. Method and apparatus for detecting 3d object from 2d image

Also Published As

Publication number Publication date
JP2021119528A (ja) 2021-08-12
KR102605535B1 (ko) 2023-11-22
US20210209341A1 (en) 2021-07-08
EP3859661A2 (en) 2021-08-04
EP3859661A3 (en) 2022-03-02
KR20210040849A (ko) 2021-04-14
US11587338B2 (en) 2023-02-21
CN111612753B (zh) 2021-08-06
CN111612753A (zh) 2020-09-01

Similar Documents

Publication Publication Date Title
JP7189270B2 (ja) 三次元物体検出方法、三次元物体検出装置、電子機器、記憶媒体及びコンピュータプログラム
US11615605B2 (en) Vehicle information detection method, electronic device and storage medium
JP7258066B2 (ja) 測位方法、測位装置及び電子機器
WO2021218123A1 (zh) 用于检测车辆位姿的方法及装置
CN111612852B (zh) 用于验证相机参数的方法和装置
KR102498439B1 (ko) 차량용 카메라의 외부 파라미터 캘리브레이션 방법, 장치, 시스템 및 저장매체
WO2022262160A1 (zh) 传感器标定方法及装置、电子设备和存储介质
US11688177B2 (en) Obstacle detection method and device, apparatus, and storage medium
JP7422105B2 (ja) 路側計算装置に用いる障害物3次元位置の取得方法、装置、電子デバイス、コンピュータ可読記憶媒体、及びコンピュータプログラム
CN112487979B (zh) 目标检测方法和模型训练方法、装置、电子设备和介质
US11867801B2 (en) Vehicle information detection method, method for training detection model, electronic device and storage medium
KR102566300B1 (ko) 실내 측위 방법, 장치, 장비 및 저장 매체
CN111191619B (zh) 车道线虚线段的检测方法、装置、设备和可读存储介质
CN111784757A (zh) 深度估计模型的训练方法、深度估计方法、装置及设备
KR102432561B1 (ko) 에지를 기반으로 하는 증강현실 3차원 추적 등록 방법, 장치 및 전자 기기
CN112102417B (zh) 确定世界坐标的方法和装置
CN111949816B (zh) 定位处理方法、装置、电子设备和存储介质
CN111260722B (zh) 车辆定位方法、设备及存储介质
US20220044560A1 (en) Roadside sensing method, electronic device, storage medium, and roadside equipment

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210507

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220705

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220921

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221129

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221201

R150 Certificate of patent or registration of utility model

Ref document number: 7189270

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150