JP2023510198A - 車両姿勢を検出するための方法及び装置 - Google Patents

車両姿勢を検出するための方法及び装置 Download PDF

Info

Publication number
JP2023510198A
JP2023510198A JP2022540700A JP2022540700A JP2023510198A JP 2023510198 A JP2023510198 A JP 2023510198A JP 2022540700 A JP2022540700 A JP 2022540700A JP 2022540700 A JP2022540700 A JP 2022540700A JP 2023510198 A JP2023510198 A JP 2023510198A
Authority
JP
Japan
Prior art keywords
vehicle
image
viewpoint image
foreground pixel
coordinates
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022540700A
Other languages
English (en)
Inventor
ヂァン,ウェイ
イエ,シァオチン
タン,シィアオ
スゥン,ハオ
ウェン,シィーレェィ
ヂァン,ホォンウー
ディン,エールゥイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2023510198A publication Critical patent/JP2023510198A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/80Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/128Adjusting depth or disparity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10012Stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20228Disparity calculation for image-based rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30244Camera pose
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • H04N2013/0081Depth or disparity estimation from stereoscopic image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • H04N2013/0092Image segmentation from stereoscopic image signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

Figure 2023510198000001
車両姿勢を検出するための方法及び装置であって、コンピュータビジョン及び自動運転の分野に関する。具体的な実装スキームは、車両左視点画像及び車両右視点画像を部位予測及びマスクセグメンテーションネットワークモデルに入力して、基準画像における前景画素点及びそれらの部位座標を決定し、車両左視点画像と車両右視点画像との視差図、前景画素点の部位座標及び基準画像のカメラ内部パラメータに基づいて、疑似点群を得て、疑似点群を事前訓練された姿勢予測モデルに入力して、検出対象車両の姿勢情報を得るものである。車両部位の先験データに基づいて、収集された車両の左視点画像及び右視点画像に対して部位予測及びマスクセグメンテーションを実行して、より正確なセグメンテーション結果を取得することができるため、車両姿勢予測の精度が向上する。

Description

<関連出願の相互参照>
本出願は、2020年04月28日に提出された、発明の名称が「車両姿勢を検出するための方法及び装置」である中国特許出願第202010347485.7の優先権を主張し、当該出願の全文は、引用することにより本明細書の一部をなすものとする。
本出願は、車両姿勢を検出するための方法及び装置を開示し、コンピュータ技術の分野に関し、特に自動運転の分野に関する。
3次元車両追跡は、自動運転やロボットなどの適用シナリオで不可欠で重要な技術であり、その固有の難しさは、各車両の正確な検出と測位を実現するために正確な深度情報を取得する方法である。3次元姿勢検出技術は、深度情報の取得方法によって、単眼視に基づく3次元姿勢検出技術、両眼視に基づく3次元姿勢検出技術、及びレーザレーダに基づく3次元姿勢検出技術の3つに分類することができる。
関連技術では、両眼視に基づいて車両の3次元姿勢を予測する方法は、2つに分けられて、1つは、Stereo-RCNNであり、当該方法では、左右の画像の2次元検出と検出フレームのマッチングを同時に完了することを実現することができ、次に、左右の検出フレームから抽出された特徴に基づいて、2次元キーポイントと3次元の長さ、幅、高さの情報を返し、最後に、キーポイントを利用して3次元-2次元投影方程式を確立し、解くことにより車両の3次元姿勢を得る。もう1つは、Pseudo-LiDARであり、当該方法では、最初に、画像全体に対して画素レベルの視差推定を実行し、次に、比較的まばらな疑似点群を得、レーザレーダの実際の点群データに基づいて訓練して得られた点群3次元検出モデルを疑似点群に適用して、車両の3次元姿勢を予測する。
本出願の実施例は、車両姿勢を検出するための方法、装置、デバイス及び記憶媒体を提供する。
第1態様によれば、本出願の実施例は、車両姿勢を検出するための方法を提供し、
当該方法は、
車両左視点画像及び車両右視点画像を車両部位の先験データに基づいて構築された部位予測及びマスクセグメンテーションネットワークモデルに入力して、基準画像における前景画素点及び各前景画素点の部位座標を決定し、部位座標は、検出対象車両の座標系における前景画素点の位置を特徴付けるために使用され、基準画像は、車両左視点画像又は車両右視点画像であるステップと、
車両左視点画像と車両右視点画像との視差図、前景画素点の部位座標及び基準画像のカメラ内部パラメータに基づいて、基準画像における前景画素点の座標をカメラ座標系における前景画素点の座標に変換して、疑似点群を得るステップと、
疑似点群を事前訓練された姿勢予測モデルに入力して、検出対象車両の姿勢情報を得るステップと
を含んでなる。
第2態様によれば、本出願の実施例は、車両姿勢を検出するための装置を提供し、
当該装置は、
車両左視点画像と車両右視点画像を車両部位の先験データに基づいて構築された部位予測とマスクセグメンテーションネットワークモデルに入力して、基準画像における前景画素点及び各前景画素点の部位座標を決定するように構成されており、部位座標は、検出対象車両の座標系における前景画素点の位置を特徴付けるために使用され、基準画像は、車両左視点画像又は車両右視点画像である画像セグメンテーションモジュールと、
車両左視点画像と車両右視点画像との視差図、前景画素点の部位座標及び基準画像のカメラ内部パラメータに基づいて、基準画像における前景画素点の座標をカメラ座標系における前景画素点の座標に変換して、疑似点群を得るように構成されている点群生成モジュールと、
疑似点群を事前訓練された姿勢予測モデルに入力して、検出対象車両の姿勢情報を得るように構成されている姿勢予測モジュールと
を含んでなる。
本出願の上記実施例によれば、遮蔽現象が車両の3次元姿勢予測の精度を低下させるという問題が解決され、車両部位の先験データに基づいて収集された車両の左視点画像と右視点画像に対して部位予測及びマスクセグメンテーションを実行して、より正確なセグメンテーション結果を取得することができるため、車両姿勢予測の精度が向上する。
このセクションで説明されることは、本開示の実施例の重要又は重要な特徴を特定することを意図するものではなく、本開示の範囲を限定することを意図するものでもないことが理解されるべきである。本開示の他の特徴は、以下の説明から容易に理解される。
図面は、本解決策をよりよく理解するために使用されており、本出願を限定するものではない。
本出願の実施例を適用できる例示的なシステムアーキテクチャ図である。 本出願の第1実施例による概略図である。 本出願による実施例が提供する車両姿勢を検出するための方法のシナリオ実施例の概略図である。 本出願の第2実施例による概略図である。 本出願の実施例による車両姿勢を検出するための方法を実現するために使用される電子デバイスのブロック図である。 本出願の実施例を実現できるコンピュータ記憶可能媒体のシナリオ図である。
以下、図面を参照して本出願の例示的な実施例を説明し、理解を容易にするために、その中には、本出願の実施例の様々な詳細が含まれており、それらは、単なる例示的なものであると見なされるべきである。したがって、当業者は、本出願の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更及び修正を行うことができることを認識するべきである。同様に、わかりやすく簡潔にするために、以下の説明では公知の機能及び構造の説明を省略する。
図1は、本出願の実施例を適用できる車両姿勢を検出するための方法又は車両姿勢を検出するための装置の例示的なシステムアーキテクチャ100を示す。
図1に示すように、システムアーキテクチャ100は、端末装置101、102、103、ネットワーク104及びサーバ105を含み得る。ネットワーク104は、端末装置101、102、103とサーバ105との間の通信リンクを提供するための媒体である。ネットワーク104は、有線、無線通信リンク又は光ファイバケーブルなどの様々な接続タイプを含み得る。
ユーザは、端末装置101、102、103を使用してネットワーク104を介してサーバ105と対話して、データなどを送受信することができ、たとえば、取得された検出対象車両の左視点画像及び右視点画像をサーバ105に送信し、及びサーバ105によって検出された検出対象車両の姿勢情報を受信する。
端末装置101、102、103は、ハードウェアであってもよいし、ソフトウェアであってもよい。端末装置101、102、103がハードウェアである場合、それらは、スマートフォン、タブレットコンピュータ及び車載コンピュータなどを含むがこれらに限定されないサーバとのデータ対話機能を有する様々な電子デバイスであってもよい。端末装置101、102、103がソフトウェアである場合、それらは、上記の電子デバイスにインストールすることができる。それらは、分散サービスを提供するための複数のソフトウェア又はソフトウェアモジュールとして実装されてもよいし、単一のソフトウェア又はソフトウェアモジュールとして実装されてもよい。ここでは特定の制限はない。
サーバ105は、端末装置101、102、103がアップロードした検出対象車両の左視点画像及び右視点画像を処理するバックグラウンドデータサーバなどのデータ処理サービスを提供するサーバであってもよい。
なお、本出願の実施例が提供する車両姿勢を検出するための方法は、サーバ105によって実行され得、それに応じて、車両姿勢を検出するための装置は、サーバ105に設置され得る。このとき、端末装置は、双眼カメラで収集されたシナリオ画像又は検出対象車両の左視点画像及び右視点画像を、ネットワークを介してサーバ105に送信することができ、サーバ105は、そこから車両の姿勢情報を予測する。本出願の実施例が提供する車両姿勢を検出するための方法はさらに、車載コンピュータなどの端末装置によって実行され得、それに応じて、車両姿勢を検出するための装置は、端末装置に設置され得、車載コンピュータは、車載双眼カメラで収集されたシナリオ画像から検出対象車両の左視点画像及び右視点画像を抽出し、その後、そこから検出対象車両の姿勢情報を予測し、本出願はこれを限定しない。
図2を参照し続けると、図2は、本出願による車両姿勢を検出するための方法の第1実施例のフローチャートを示し、それは、以下のステップを含む。
ステップS201:車両左視点画像及び車両右視点画像を車両部位の先験データに基づいて構築された部位予測及びマスクセグメンテーションネットワークモデルに入力し、基準画像における前景画素点及び各前景画素点の部位座標を決定する。ここで、部位座標は、検出対象車両の座標系における前景画素点の位置を特徴付けるために使用され、基準画像は、車両左視点画像又は車両右視点画像である。
本実施例では、前景画素点は、基準画像で検出対象車両の輪郭領域に位置する画素点、すなわち、実際のシナリオで検出対象車両の表面に位置する点を特徴付けるために使用される。
本実施例では、車両左視点画像及び車両右視点画像は、双眼カメラで収集されたシナリオ画像から抽出された検出対象車両の画像の2つのフレームであり、実行主体によって予測された姿勢情報は、基準画像に提示された検出対象車両の姿勢である。
一例として、実行主体は、双眼カメラで収集された同じシナリオのシナリオ左視点画像及びシナリオ右視点画像を、事前構築されたStereo-RPNモデルに入力することができ、シナリオ左視点画像及びシナリオ右視点画像の2次元検出及び検出フレームマッチングを同時に実現することができ、シナリオ画像の2つのフレームからセグメンテーションされた同じ車両インスタンスの画像の2つのフレームは、当該車両の車両左視点画像及び車両右視点画像である。実行主体はさらに、車両左視点画像及び車両右視点画像の事前訓練された抽出ネットワークを直接介して車両左視点画像及び車両右視点画像を取得することができる。その後、実際のニーズに応じて、車両左視点画像又は車両右視点画像を基準画像として選択することができる。たとえば、検出対象車両の被遮蔽領域の面積が小さい画像を選択して、より高い精度を取得することができ、画像の1つのフレームを基準画像としてランダムに選択することもできる。
本実施例では、部位予測及びマスクセグメンテーションネットワークモデルを構築する場合、基準画像から前景画素点をセグメンテーションする精度を向上させるために、車両部位の先験データが導入される。部位予測及びマスクセグメンテーションネットワークモデルは、部位予測サブネットワーク及びマスクセグメンテーションサブネットワークを含み、ここで、部位予測サブネットワークは、各前景画素点の部位座標を決定するために使用され、マスクセグメンテーションサブネットワークは、基準画像から前景画素点を決定するために使用される。
一例として、実行主体は、車両の輪郭に基づいてマスクを構築し、入力された車両左視点画像及び車両右視点画像におけるマスク領域に位置する画素点を前景画素点として使用し、車両左視点画像及び車両右視点画像の前景及び後景をセグメンテーションして、車両左視点画像及び車両右視点画像における前景画素点の集合をそれぞれ得ることができる。車両左視点画像又は車両右視点画像における前景画素点の画素座標に従って前景画素点を並べると、対応する画像における検出対象車両の画像輪郭を得ることができることが理解することができる。基準画像には大きな被遮蔽領域があるため、基準画像の前景及び後景のセグメンテーション境界が不正確になる可能性があり、したがって、基準画像の前景及び後景のセグメンテーションの精度は、画像の別のフレームの精度に比べて低下し、このとき、画像の別のフレームから抽出された前景画素点を基準画像から抽出された前景画素点と比較して、基準画像から前景画素点をセグメンテーションする精度を向上させることができる。
その後、部位予測ネットワークは、車両の3次元部位の先験データに基づいて、基準画像から抽出された前景画素点の画素座標からなる画像に従って、車両座標系を確立し、得られた車両座標系における前景画素点の座標は、前景画素点の部位座標であり、それは、検出対象車両の当該前景画素点の部位特徴を特徴付けるために使用される。
本実施例のいくつかのオプションの実装形態では、基準画像のみを車両部位の先験データに基づいて構築された部位予測及びマスクセグメンテーションネットワークモデルに入力して、基準画像における前景画素点及び各前景画素点の部位座標を得ることができる。
ステップS202:車両左視点画像と車両右視点画像との視差図、前景画素点の部位座標及び基準画像のカメラ内部パラメータに基づいて、基準画像における前景画素点の座標をカメラ座標系における前景画素点の座標に変換して、疑似点群を得る。
本実施例では、疑似点群における各前景画素点の特徴情報は、基準画像における当該前景画素点の位置特徴を含むだけでなく、検出対象車両における当該画素点の部位特徴をさらに含む。
一例として、実行主体は、以下のステップで疑似点群を生成することができる。まず、車両左視点画像と車両右視点画像との視差図に基づいて、基準画像における各前景画素点の深度値を計算して得、次に、基準画像に対応するカメラ内部パラメータと組み合わせて、基準画像における前景画素点の2次元座標をカメラ座標系の3次元座標に変換し、前景画素点からなる点群を得、このときの点群には、前景画素点の点群座標のみが含まれており、その後、前景画素点の部位座標を点群に集約すると、前景画素点からなる疑似点群を得ることができる。特定のシナリオを例に挙げて説明すると、基準画像には、N個の前景画素点が含まれていると仮定すると、疑似点群データの特徴次元は、N*6であり、ここで、N*3次元は、前景画素点の疑似点群座標であり、別のN*3次元は、前景画素点の部位座標である。
視差図に従って画素点の深度値を決定し、カメラ内部パラメータと組み合わせて画素点の2次元座標を3次元座標に変換することは、コンピュータビジョンの分野で成熟した技術であることが理解することができ、本出願は、これを限定しない。
本実施例のいくつかのオプションの実装形態では、
実行主体は、
基準画像のカメラ内部パラメータと、車両左視点画像と車両右視点画像との視差図に基づいて、前景画素点の深度値を決定し、
基準画像における前景画素点の座標及び深度値に基づいて、カメラ座標系における前景画素点の初期座標を得て、
前景画素点の部位座標に基づいて、初期座標を更新して、前景画素点の疑似点群座標を得ることで、疑似点群を決定することもできる。
本実装形態では、実行主体は、前景画素点の部位座標を点群データに単純に集約するのではなく、前景画素点の部位座標を制約として使用して、前景画素点の初期座標を修正してから、修正された座標に基づいて疑似点群を構築し、それにより、より高精度な点群データを得る。
ステップS203:疑似点群を事前訓練された姿勢予測モデルに入力して、検出対象車両の姿勢情報を得る。
一例として、実行主体は、ステップS202で得られた疑似点群を事前訓練されたDense Fusionモデルに入力することができ、Dense FusionモデルにおけるPoint netネットワークは、前景画素点の疑似点群座標と部位座標に基づいて、対応する幾何学的特徴ベクトルと部位特徴ベクトルを生成し、次に、幾何学的特徴ベクトルと部位特徴ベクトルを画素レベルのfusionネットワークに入力し、fusionネットワークは、幾何学的特徴ベクトルと部位特徴ベクトルに基づいて基準画像のカメラ外部パラメータ(カメラの回転行列と並進行列)を予測し、次に、カメラ外部パラメータに基づいて、世界座標系における各前景画素点の座標を決定すると、検出対象車両の姿勢情報を得ることができる。
なお、カメラ外部パラメータに基づいて、カメラにおける画像の画素点の3次元座標を世界座標に変換することは、コンピュータビジョンの分野における成熟した技術的手段であり、ここでは繰り返されない。
本出願で開示されている上記実施例における車両姿勢を検出するための方法は、車両部位の先験データに基づいて、収集された車両の左視点画像及び右視点画像に対して部位予測及びマスクセグメンテーションを実行して、より正確なセグメンテーション結果を取得することができるため、車両姿勢予測の精度が向上する。
図3を参照し続けると、図3は、本出願が提供する車両姿勢を検出するための一適用シナリオを示す。図3の適用シナリオでは、実行主体301は、自動運転車における車載コンピュータであってもよく、同時に、自動運転車には、双眼カメラが設置される。車載コンピュータは、双眼カメラがリアルタイムで収集したシナリオ画像からシナリオにおける各検出対象車両の車両左視点画像及び車両右視点画像を抽出し、次に、各検出対象車両の車両左視点画像及び車両右視点画像から基準画像及び視差図を決定し、基準画像から前景画素点及び各前景画素点の部位座標を決定してから、得られた前景画素点に基づいて疑似点群を生成し、最後にシナリオにおける各検出対象車両の姿勢情報を予測し、それにより自動運転車の経路計画をサポートする。
図4を参照し続けると、図4は、本出願による車両姿勢を検出するための方法の第2実施例のフローチャートを示し、それは、以下のステップを含む。
ステップS401:双眼カメラで収集された同じシナリオのシナリオ左視点画像及びシナリオ右視点画像から、検出対象車両の元の左視点画像及び元の右視点画像をそれぞれ抽出する。
一例として、実行主体は、シナリオ左視点画像及びシナリオ右視点画像をStereo-RPNネットワークモデルに入力し、そこから検出対象車両の元の左視点画像及び元の右視点画像を抽出することができる。
ステップS402:元の左視点画像及び元の右視点画像をプリセットサイズにそれぞれスケーリングして、車両左視点画像及び車両右視点画像を得る。
一般に、双眼カメラが検出対象車両までの収集距離から離れるほど、ステップS401で取得された車両左視点画像及び車両右視点画像のサイズが小さくなり、両者のサイズも異なり、これに基づいて予測して得られた検出対象車両の姿勢情報の精度は、比較的低い。したがって、本実施例では、実行主体は、ステップS401で取得された元の左視点画像及び元の右視点画像をプリセットサイズにそれぞれスケーリングして、高解像度で同じサイズの車両左視点画像及び車両右視点画像を得る。
ステップS403:シナリオ左視点画像の初期カメラ内部パラメータ、シナリオ右視点画像の初期カメラ内部パラメータ及びスケーリング係数に基づいて、車両左視点画像のカメラ内部パラメータ及び車両右視点画像のカメラ内部パラメータをそれぞれ決定する。
本実施例では、車両左視点画像及び車両右視点画像は、スケーリング後に得られるため、車両左視点画像及び車両右視点画像に対応するカメラ内部パラメータと、シナリオ左視点画像及びシナリオ右視点画像に対応するカメラ内部パラメータは異なる。
一例として、実行主体は、次の式(1)及び式(2)により、車両左視点画像及び車両右視点画像のカメラ内部パラメータをそれぞれ決定することができる。
Figure 2023510198000002
Figure 2023510198000003
ここで、P及びPは、シナリオ左視点画像及びシナリオ右視点画像に対応するカメラ内部パラメータをそれぞれ特徴付け、P及びPは、車両左視点画像及び車両右視点画像のカメラ内部パラメータをそれぞれ特徴付け、kは、元の左視点画像に対する車両左視点画像の水平方向のスケーリング係数を表し、mは、元の右視点画像に対する車両左視点画像の垂直方向のスケーリング係数を表す。f及びfは、カメラの焦点距離を表し、c及びcは、主点オフセットを表し、bは、参照カメラに対するベースラインを表す。
ステップS404:車両左視点画像のカメラ内部パラメータと車両右視点画像のカメラ内部パラメータとに基づいて、車両左視点画像と車両右視点画像との視差図を決定する。
一例として、実行主体は、車両左視点画像及び車両右視点画像をPSMnetモデルに入力して、対応する視差図を得ることができる。遠く離れる検出対象車両の場合、スケーリングされた車両左視点画像及び車両右視点画像の解像度が高くなるため、元の左視点画像及び元の右視点画像から直接予測された視差図と比較すると、ステップS404で得られた視差図の精度がより高い。
ステップS405:車両左視点画像及び車両右視点画像を部位予測及びマスクセグメンテーションネットワークモデルにそれぞれ入力して、車両左視点画像の符号化特徴ベクトルと車両右視点画像の符号化特徴ベクトルとを得る。
本実施例では、部位予測及びマスクセグメンテーションネットワークモデルは、エンコーダ-デコーダフレームワークを採用するモデルであり、車両左視点画像及び車両右視点画像を部位予測及びマスクセグメンテーションネットワークモデルにそれぞれ入力してから、モデルにおけるエンコーダは、車両左視点画像の符号化特徴ベクトルと車両右視点画像の符号化特徴ベクトルとをそれぞれ生成する。
ステップS406:車両左視点画像の符号化特徴ベクトルと車両右視点画像の符号化特徴ベクトルとを融合して、融合された符号化特徴ベクトルを得る。
本実施例では、車両左視点画像の符号化特徴ベクトルと車両右視点画像の符号化特徴ベクトルとを融合(たとえば、加算、スプライシング、又は線形変換)することにより、車両左視点画像及び車両右視点画像の特徴融合を実現する。
ステップS407:融合された符号化特徴ベクトルをデコードして、基準画像における前景画素点及び各前景画素点の部位座標を得、基準画像は、車両左視点画像又は車両右視点画像である。
本実施例では、融合された符号化特徴ベクトルが車両左視点画像及び車両右視点画像の特徴を含むため、セグメンテーション精度に対する基準画像におけるオクルージョンエリアの悪影響を回避することができる。
ステップS408:車両左視点画像と車両右視点画像との視差図、前景画素点の部位座標及び基準画像のカメラ内部パラメータに基づいて、基準画像における前景画素点の座標をカメラ座標系における前景画素点の座標に変換して、疑似点群を得る。
本実施例では、車両左視点画像と車両右視点画像は、元の画像をスケーリングすることによって得られるため、疑似点群を構築するプロセスでは、スケーリング係数の影響を考慮する必要がある。たとえば、車両左視点画像及び車両右視点画像をスケーリング係数に応じて元のサイズに復元し、次に、シナリオ左視点画像及びシナリオ右視点画像に対応するカメラ内部パラメータに応じて、基準画像における前景画素点の2次元座標をカメラ座標系における前景画素点の3次元座標を変換して、疑似点群を得ることができる。
本実施例のいくつかのオプションの実装形態では、実行主体は、車両左視点画像及び車両右視点画像を元のサイズに復元する必要はなく、以下のステップでカメラ座標系における前景画素点の座標を直接決定することができ、式(1)と式(2)を組み合わせて例示する。
基準画像が車両左視点画像であると仮定すると、元の左視点画像における座標(x,y)を有する点の場合、基準画像におけるそれらの座標が(kx,my)であり、当該点で、車両左視点画像及び車両右視点画像に対応する視差補正が
Figure 2023510198000004
であり、車両左視点画像及び車両右視点画像のカメラ内部パラメータPとPとの間のベースライン距離
Figure 2023510198000005
は、次の式(3)で求めることができる。
基準画像におけるいずれかの前景画素点の場合、その座標は、(u,v)であり、カメラ座標系における当該前景画素点の3次元座標(x,y,z)は、次の式(4)で決定及び計算することができる。
Figure 2023510198000006
ここで、
Figure 2023510198000007
は、当該前景画素点の視差値を表し、ステップS404で得ることができる。
その後、実行主体は、疑似点群を事前構築された姿勢予測モデルに入力し、以下のステップS409~ステップS412により、検出対象車両の姿勢情報を予測することができる。
本実施例では、CNN(Convolutional Neural Networks:畳み込みニューラルネットワーク)モジュールを削除した後のDense Fusionモデルを姿勢予測モデルとして使用し、Dense Fusionモデルにおける色補間を利用して部位予測を実行する。
ステップS409:前景画素点の疑似点群座標及び部位座標に基づいて、検出対象車両のグローバル特徴ベクトルを決定する。
実行主体は、ステップS408で得られた疑似点群を事前構築された姿勢予測モデルに入力することができ、姿勢予測モデルのPoint Netは、前景画素点の疑似点群座標及び部位座標に基づいて幾何学的特徴ベクトル及び部位特徴ベクトルをそれぞれ生成し、次に、MLP(Multilayer Perceptron:人工ニューラルネットワーク)モジュールは、幾何学的特徴ベクトルと部位特徴ベクトルを融合し、平均プーリング層を介してグローバル特徴ベクトルを生成し、グローバル特徴ベクトルは、検出対象車両の全体的な特徴を特徴付けるために使用される。
ステップS410:疑似点群から事前設定された数の前景画素点をサンプリングする。
本実施例では、疑似点群における前景画素点はいずれも、検出対象車両の表面に分布しているため、疑似点群から事前設定された数の前景画素点をランダムにサンプリングすることができ、予測姿勢情報の精度に影響を与えることなく、計算量を減らすことができる。
ステップS411:事前設定された数の前景画素点の疑似点群座標、部位座標及びグローバル特徴ベクトルに基づいて、基準画像のカメラ外部パラメータを予測する。
実行主体は、サンプリングされた前景画素点の疑似点群座標、部位座標及びグローバル特徴ベクトルを姿勢予測モデルにおける姿勢予測と最適化サブネットワークに同時に入力し、それにより各前景画素点の特徴ベクトルには、疑似点群座標に対応する幾何学的特徴ベクトル、部位座標に対応する部位特徴ベクトル及びグローバル特徴ベクトルが含まれており、次に、各前景画素点の特徴ベクトルに基づいて基準画像に対応するカメラ外部パラメータ(すなわち、回転行列及び並進行列)を予測し、これにより得られた類似の外部パラメータは、より高い精度を有している。
ステップS412:基準画像のカメラ外部パラメータに基づいて、検出対象車両の姿勢情報を決定する。基準画像のカメラ外部パラメータと前景画素点の疑似点群座標に基づいて、世界座標系における前景画素点の座標を決定することができ、すなわち、検出対象車両の姿勢情報が得られる。
上記実施例のいくつかのオプションの実装形態では、それはさらに、融合された符号化特徴ベクトルを立体特徴ベクトルとして使用することと、立体特徴ベクトルとグローバル特徴ベクトルに基づいて、姿勢予測モデルの訓練をガイドするための3次元フィッティングスコアを得ることとを含むこともできる。たとえば、実行主体は、立体特徴ベクトルとグローバル特徴ベクトルを完全に接続されたネットワークに入力し、これにより3次元フィッティングスコアを得ることができる。姿勢予測モデルが出力する姿勢情報は、3次元フィッティングスコアにより、より正確に評価できるため、姿勢予測モデルの予測精度を向上させることができる。
図4から分かるように、図2に示される第1実施例と比較して、第2実施例は、スケーリングにより、同じサイズの車両左視点画像及び車両右視点画像を取得し、車両左視点画像及び車両右視点画像の特徴を融合することにより、基準画像における前景画素点を決定するということを具体化しており、遠く離れることによる検出対象車両の姿勢予測精度の低下を回避し、車両姿勢予測の精度をさらに向上させる。
図5は、本出願による車両姿勢を検出するための方法を実現する電子デバイスのブロック図を示す。当該電子デバイスは、
車両左視点画像及び車両右視点画像を車両部位の先験データに基づいて構築された部位予測及びマスクセグメンテーションネットワークモデルに入力し、基準画像における前景画素点及び各前景画素点の部位座標を決定するように構成されており、ここで、部位座標が検出対象車両の座標系における前景画素点の位置を特徴付けるために使用され、基準画像が車両左視点画像又は車両右視点画像である画像セグメンテーションモジュール501と、
車両左視点画像と車両右視点画像との視差図、前景画素点の部位座標及び基準画像のカメラ内部パラメータに基づいて、基準画像における前景画素点の座標をカメラ座標系における前景画素点の座標に変換して、疑似点群を得るように構成されている点群生成モジュール502と、
疑似点群を事前訓練された姿勢予測モデルに入力して、検出対象車両の姿勢情報を得るように構成されている姿勢予測モジュール503と
を含んでなる。
本実施例では、
装置は、
双眼カメラで収集された同じシナリオのシナリオ左視点画像及びシナリオ右視点画像から、検出対象車両の元の左視点画像及び元の右視点画像をそれぞれ抽出するステップと、元の左視点画像及び元の右視点画像をそれぞれプリセットサイズにスケーリングして、車両左視点画像及び車両右視点画像を得るステップとで、車両左視点画像及び車両右視点画像を決定するように構成されている画像スケーリングモジュールをさらに含み、
装置は、
シナリオ左視点画像の初期カメラ内部パラメータ、シナリオ右視点画像の初期カメラ内部パラメータ及びスケーリング係数に基づいて、車両左視点画像のカメラ内部パラメータと車両右視点画像のカメラ内部パラメータとをそれぞれ決定するステップと、車両左視点画像のカメラ内部パラメータと車両右視点画像のカメラ内部パラメータとに基づいて、車両左視点画像と車両右視点画像との視差図を決定するステップとで、車両左視点画像と車両右視点画像との視差図を決定するように構成されている視差図生成モジュールと
をさらに含む。
本実施例では、部位予測及びマスクセグメンテーションネットワークモデルは、エンコーダ-デコーダのフレームワークを採用するモデルであり、画像セグメンテーションモジュール501は、車両左視点画像及び車両右視点画像を部位予測及びマスクセグメンテーションネットワークモデルにそれぞれ入力して、車両左視点画像の符号化特徴ベクトルと車両右視点画像の符号化特徴ベクトルとを得、車両左視点画像の符号化特徴ベクトルと車両右視点画像の符号化特徴ベクトルとを融合して、融合された符号化特徴ベクトルを得、融合された符号化特徴ベクトルをデコードして、基準画像における前景画素点及び各前景画素点の部位座標を得るようにさらに構成されている。
本実施例では、姿勢予測モジュール503は、前景画素点の疑似点群座標及び部位座標に基づいて、検出対象車両のグローバル特徴ベクトルを決定し、疑似点群から事前設定された数の前景画素点をサンプリングし、事前設定された数の前景画素点の疑似点群座標、部位座標及びグローバル特徴ベクトルに基づいて、基準画像のカメラ外部パラメータを予測し、カメラ外部パラメータに基づいて、検出対象車両の姿勢情報を決定するようにさらに構成されている。
本実施例では、装置は、モデル訓練モジュールをさらに含み、それは、融合された符号化特徴ベクトルを立体特徴ベクトルとして使用し、立体特徴ベクトル及びグローバル特徴ベクトルに基づいて、姿勢予測モデルの訓練をガイドするための3次元フィッティングスコアを得るように構成されている。
本実施例では、点群生成モジュール502は、基準画像のカメラ内部パラメータと、車両左視点画像と車両右視点画像との視差図に基づいて、前景画素点の深度値を決定し、基準画像における前景画素点の座標及び深度値に基づいて、カメラ座標系における前景画素点の初期座標を得、前景画素点の部位座標に基づいて、初期座標を更新して、前景画素点の疑似点群座標を得るようにさらに構成されている。
本出願の実施例によれば、本出願は、電子デバイス及び読み取り可能な記憶媒体をさらに提供する。
図6に示すように、それは、本出願の実施例によるコンピュータ記憶可能媒体の方法を実現する電子デバイスのブロック図である。電子デバイスは、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表すことを目的としている。電子デバイスは、パーソナルデジタルプロセッサ、携帯電話、スマートフォン、ウェアラブルデバイス及び他の同様のコンピューティングデバイスなどの様々な形式のモバイルデバイスを表すこともできる。本明細書に示されるコンポーネント、それらの接続及び関係、ならびにそれらの機能は、単なる例であり、本明細書に記載及び/又は請求される、本出願の実現を制限することを意図するものではない。
図6に示すように、当該電子デバイスは、1つ又は複数のプロセッサ601と、メモリ602と、高速インターフェースと低速インターフェースを含む、各コンポーネントを接続するためのインターフェースとを含む。各コンポーネントは、異なるバスを利用して互いに接続され、公共のマザーボードに取り付けられ得るか、又は必要に応じて、他の方法で取り付けられ得る。プロセッサは、外部入力/出力装置(インターフェースにカップリングされたディスプレイデバイスなど)上にGUIのグラフィック情報を表示するために、メモリ内又はメモリ上に記憶された命令を含む、電子デバイス内で実行される命令を処理することができる。他の実施形態では、必要に応じて、複数のプロセッサ及び/又は複数のバスを、複数のメモリ及び複数のメモリとともに使用することができる。同様に、それは、複数の電子デバイスを接続することができ、各デバイスは、必要な操作の一部を提供する(たとえば、サーバアレイ、ブレードサーバのグループ、又はマルチプロセッサシステムとして)。図6では、1つのプロセッサ601を例とする。
メモリ602は、本出願が提供する非一時的なコンピュータ可読記憶媒体である。ここで、前記少なくとも1つのプロセッサは、本出願が提供するコンピュータ記憶可能媒体の方法を実行するように、前記メモリには、少なくとも1つのプロセッサによって実行可能な命令が記憶される。本出願の非一時的なコンピュータ可読記憶媒体は、コンピュータに本出願が提供するコンピュータ記憶可能媒体の方法を実行させるためのコンピュータ命令を記憶する。
非一時的なコンピュータ可読記憶媒体として、メモリ602は、非一時的なソフトウェアプログラムと、非一時的なコンピュータ実行可能プログラムと、本出願の実施例におけるコンピュータ記憶可能媒体の方法に対応するプログラム命令/モジュール(たとえば、図5に示される画像セグメンテーションモジュール501、点群生成モジュール52及び姿勢予測モジュール503)などのモジュールとを記憶するために使用され得る。プロセッサ601は、メモリ602に記憶された非一時的なソフトウェアプログラム、命令及びモジュールを実行することにより、サーバの様々な機能適用及びデータ処理を実行し、すなわち、上記方法実施例におけるコンピュータ記憶可能媒体の方法を実現する。
メモリ602は、ストレージプログラム領域とストレージデータ領域とを含み得、ここで、ストレージプログラム領域は、操作システム、及び少なくとも1つの機能に必要なアプリケーションプログラムを記憶することができ、ストレージデータ領域は、コンピュータ記憶可能媒体の電子デバイスの使用によって作成されたデータなどを記憶することができる。また、メモリ602は、高速ランダムアクセスメモリを含み得、非一時的なメモリをさらに含み得、たとえば、少なくとも1つのディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスである。いくつかの実施例では、メモリ602は、任意選択的に、ネットワークを介してコンピュータ記憶可能媒体の電子デバイスに接続され得る、プロセッサ601から離れて配置されたメモリを含み得る。上記ネットワークの例は、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク及びそれらの組み合わせを含むが、これらに限定されない。
コンピュータ記憶可能媒体の方法を実現する電子デバイスは、入力装置603と出力装置604とをさらに含み得る。プロセッサ601、メモリ602、入力装置603及び出力装置604は、バス又は他の方法で接続することができ、図6では、バスを介して接続することを例とする。
入力装置603は、入力された数字又は文字情報を受信することができ、コンピュータ記憶可能媒体の電子デバイスのユーザ設定及び機能制御に関連するキー信号入力を生成することができ、たとえば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、指示杆、1つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置604は、ディスプレイデバイス、補助照明デバイス(たとえば、LED)及び触覚フィードバックデバイス(たとえば、振動モータ)などを含み得る。当該ディスプレイデバイスは、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、及びプラズマディスプレイを含み得るが、これらに限定されない。いくつかの実施形態では、ディスプレイデバイスは、タッチスクリーンであってもよい。
本明細書で説明されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現することができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムで実施されることを含み得、当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムで実行及び/又は解釈され得、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、データ及び命令を当該記憶システム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置に送信することができる。
これらの計算プログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる)は、プログラマブルプロセッサの機械命令を含み、高レベルのプロセス及び/又はオブジェクト指向プログラミング言語、及び/又はアセンブリ/機械言語で、これらの計算プログラムを実施することができる。本明細書に使用されるように、用語「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、デバイス、及び/又は装置(たとえば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指し、機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。用語「機械読み取り可能な信号」は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。
ユーザとの対話を提供するために、コンピュータ上で、本明細書で説明されるシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(たとえば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)、キーボード及びポインティングデバイス(たとえば、マウス又はトラックボール)を有し、ユーザは、当該キーボード及び当該ポインティングデバイスを介して入力をコンピュータに提供することができる。他の種類の装置は、ユーザとの対話を提供するために使用されることもでき、たとえば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(たとえば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(音響入力、音声入力、又は触覚入力を含む)でユーザからの入力を受信することができる。
本明細書で説明されるシステム及び技術は、バックグラウンドコンポーネントを含む計算システム(たとえば、データサーバとして)、又はミドルウェアコンポーネントを含む計算システム(たとえば、アプリケーションサーバ)、又はフロントエンドコンポーネントを含む計算システム(たとえば、グラフィカルユーザインターフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインターフェース又は当該ウェブブラウザを介して、本明細書で説明されるシステム及び技術の実施形態と対話することができる)、又はこのようなバックグラウンドコンポーネント、ミドルウェアコンポーネント、又はフロントエンドコンポーネントの任意の組み合わせを含む計算システムで実施することができる。システムのコンポーネントは、任意の形式又は媒体のデジタルデータ通信(たとえば、通信ネットワーク)によって、相互に接続され得る。通信ネットワークの例は、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)及びインターネットを含む。
コンピュータシステムは、クライアント及びサーバを含み得る。クライアント及びサーバは、一般に互いに離れており、通常に通信ネットワークを介して対話する。対応するコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアント及びサーバの関係が生成される。
本出願の実施例の技術的解決手段によれば、車両部位の先験データに基づいて、収集された車両の左視点画像及び右視点画像に対して部位予測及びマスクセグメンテーションを実行することにより、より正確なセグメンテーション結果を取得することができるため、車両姿勢予測の精度が向上する。
上記の様々な形式のフローを使用して、ステップを再ソート、追加、又は削除するできることが理解されるべきである。たとえば、本出願に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよく、本出願で開示されている技術的解決手段が所望の結果を実現することができる限り、本明細書はここで限定されない。
上記の特定の実施形態は、本出願の保護範囲に対する制限を構成するものではない。当業者は、設計要件及び他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション及び代替を行うことができることを理解すべきである。任意の本開示の精神と原則内で行われる修正、同等の置換、及び改善などはいずれも、本出願の保護範囲内に含まれるべきである。

Claims (14)

  1. 車両左視点画像及び車両右視点画像を車両部位の先験データに基づいて構築された部位予測及びマスクセグメンテーションネットワークモデルに入力して、前記基準画像における前景画素点及び各前景画素点の部位座標を決定するステップであって、前記部位座標は、前記検出対象車両の座標系における前記前景画素点の位置を特徴付けるために使用され、前記基準画像は、前記車両左視点画像又は前記車両右視点画像であるステップと、
    前記車両左視点画像と前記車両右視点画像との視差図、前記前景画素点の部位座標及び前記基準画像のカメラ内部パラメータに基づいて、前記基準画像における前記前景画素点の座標をカメラ座標系における前記前景画素点の座標に変換して、疑似点群を得るステップと、
    前記疑似点群を事前訓練された姿勢予測モデルに入力して、前記検出対象車両の姿勢情報を得るステップと
    を含んでなる、車両姿勢を検出するための方法。
  2. 前記車両左視点画像及び前記車両右視点画像は、
    双眼カメラで収集された同じシナリオのシナリオ左視点画像及びシナリオ右視点画像から、前記検出対象車両の元の左視点画像及び元の右視点画像をそれぞれ抽出するステップと、
    元の左視点画像及び元の右視点画像をそれぞれプリセットサイズにスケーリングして、車両左視点画像及び車両右視点画像を得るステップとで決定され、
    前記車両左視点画像と前記車両右視点画像との視差図は、
    前記シナリオ左視点画像の初期カメラ内部パラメータ、前記シナリオ右視点画像の初期カメラ内部パラメータ及びスケーリング係数に基づいて、前記車両左視点画像のカメラ内部パラメータと前記車両右視点画像のカメラ内部パラメータとをそれぞれ決定するステップと、
    前記車両左視点画像のカメラ内部パラメータと前記車両右視点画像のカメラ内部パラメータとに基づいて、前記車両左視点画像と前記車両右視点画像との視差図を決定するステップとで決定される、請求項1に記載の方法。
  3. 前記部位予測及びマスクセグメンテーションネットワークモデルは、エンコーダ-デコーダのフレームワークを採用するモデルであり、
    前記車両左視点画像及び前記車両右視点画像を車両部位の先験データに基づいて構築された部位予測及びマスクセグメンテーションネットワークモデルに入力して、前記基準画像における前景画素点及び各前景画素点の部位座標を決定することは、
    前記車両左視点画像及び前記車両右視点画像を前記部位予測及びマスクセグメンテーションネットワークモデルにそれぞれ入力して、前記車両左視点画像の符号化特徴ベクトルと前記車両右視点画像の符号化特徴ベクトルとを得るステップと、
    前記車両左視点画像の符号化特徴ベクトルと前記車両右視点画像の符号化特徴ベクトルとを融合して、融合された符号化特徴ベクトルを得るステップと、
    前記融合された符号化特徴ベクトルをデコードして、前記基準画像における前景画素点及び各前景画素点の部位座標を得るステップと
    を含む、請求項1又は2に記載の方法。
  4. 前記疑似点群を事前訓練された姿勢予測モデルに入力して、前記検出対象車両の姿勢情報を得ることは、
    前記前景画素点の疑似点群座標及び部位座標に基づいて、前記検出対象車両のグローバル特徴ベクトルを決定するステップと、
    前記疑似点群から事前設定された数の前景画素点をサンプリングするステップと、
    前記事前設定された数の前景画素点の疑似点群座標、部位座標及び前記グローバル特徴ベクトルに基づいて、前記基準画像のカメラ外部パラメータを予測するステップと、
    前記カメラ外部パラメータに基づいて、前記検出対象車両の姿勢情報を決定するステップと
    を含む、請求項3に記載の方法。
  5. 前記融合された符号化特徴ベクトルを立体特徴ベクトルとして使用するステップと、
    前記立体特徴ベクトル及び前記グローバル特徴ベクトルに基づいて、前記姿勢予測モデルの訓練をガイドするための3次元フィッティングスコアを得るステップと
    をさらに含む、請求項4に記載の方法。
  6. 前記車両左視点画像と前記車両右視点画像との視差図と、前記前景画素点の部位座標と、前記基準画像のカメラ内部パラメータとに基づいて、前記基準画像における前記前景画素点の座標をカメラ座標系における前記前景画素点の座標に変換して、疑似点群を得ることは、
    前記基準画像のカメラ内部パラメータと、前記車両左視点画像と前記車両右視点画像との視差図に基づいて、前記前景画素点の深度値を決定するステップと、
    前記基準画像における前記前景画素点の座標及び前記深度値に基づいて、前記カメラ座標系における前記前景画素点の初期座標を得るステップと、
    前記前景画素点の部位座標に基づいて、前記初期座標を更新して、前記前景画素点の疑似点群座標を得るステップと
    を含む、請求項1~5のいずれか一項に記載の方法。
  7. 車両左視点画像及び車両右視点画像を車両部位の先験データに基づいて構築された部位予測及びマスクセグメンテーションネットワークモデルに入力して、前記基準画像における前景画素点及び各前景画素点の部位座標を決定するように構成されており、前記部位座標は、前記検出対象車両の座標系における前記前景画素点の位置を特徴付けるために使用され、前記基準画像は前記車両左視点画像又は前記車両右視点画像である、画像セグメンテーションモジュールと、
    前記車両左視点画像と前記車両右視点画像との視差図、前記前景画素点の部位座標及び前記基準画像のカメラ内部パラメータに基づいて、前記基準画像における前記前景画素点の座標をカメラ座標系における前記前景画素点の座標に変換して、疑似点群を得るように構成されている点群生成モジュールと、
    前記疑似点群を事前訓練された姿勢予測モデルに入力して、前記検出対象車両の姿勢情報を得るように構成されている姿勢予測モジュールと
    を含んでなる、車両姿勢を検出するための装置。
  8. 双眼カメラで収集された同じシナリオのシナリオ左視点画像及びシナリオ右視点画像から、前記検出対象車両の元の左視点画像及び元の右視点画像をそれぞれ抽出し、元の左視点画像及び元の右視点画像をそれぞれプリセットサイズにスケーリングして、車両左視点画像及び車両右視点画像を得ることで前記車両左視点画像及び前記車両右視点画像を決定するように構成されている画像スケーリングモジュールと、
    前記シナリオ左視点画像の初期カメラ内部パラメータ、前記シナリオ右視点画像の初期カメラ内部パラメータ及びスケーリング係数に基づいて、前記車両左視点画像のカメラ内部パラメータと前記車両右視点画像のカメラ内部パラメータとをそれぞれ決定し、前記車両左視点画像のカメラ内部パラメータと前記車両右視点画像のカメラ内部パラメータとに基づいて、前記車両左視点画像と前記車両右視点画像との視差図を決定することで前記車両左視点画像と前記車両右視点画像との視差図を決定するように構成されている視差図生成モジュールと
    をさらに含む、請求項7に記載の装置。
  9. 前記部位予測及びマスクセグメンテーションネットワークモデルは、エンコーダ-デコーダのフレームワークを採用するモデルであり、
    前記画像セグメンテーションモジュールは、
    前記車両左視点画像及び前記車両右視点画像を前記部位予測及びマスクセグメンテーションネットワークモデルにそれぞれ入力して、前記車両左視点画像の符号化特徴ベクトルと前記車両右視点画像の符号化特徴ベクトルとを得て、
    前記車両左視点画像の符号化特徴ベクトルと前記車両右視点画像の符号化特徴ベクトルとを融合して、融合された符号化特徴ベクトルを得て、
    前記融合された符号化特徴ベクトルをデコードして、前記基準画像における前景画素点及び各前景画素点の部位座標を得るようにさらに構成されている、請求項7又は8に記載の装置。
  10. 前記姿勢予測モジュールは、
    前記前景画素点の疑似点群座標及び部位座標に基づいて、前記検出対象車両のグローバル特徴ベクトルを決定し、
    前記疑似点群から事前設定された数の前景画素点をサンプリングし、
    前記事前設定された数の前景画素点の疑似点群座標、部位座標及び前記グローバル特徴ベクトルに基づいて、前記基準画像のカメラ外部パラメータを予測し、
    前記カメラ外部パラメータに基づいて、前記検出対象車両の姿勢情報を決定するようにさらに構成されている、請求項9に記載の装置。
  11. 前記融合された符号化特徴ベクトルを立体特徴ベクトルとして使用し、
    前記立体特徴ベクトルと前記グローバル特徴ベクトルに基づいて、前記姿勢予測モデルの訓練をガイドするための3次元フィッティングスコアを得るように構成されているモデル訓練モジュールをさらに含む、請求項10に記載の装置。
  12. 前記点群生成モジュールは、
    前記基準画像のカメラ内部パラメータと、前記車両左視点画像と前記車両右視点画像との視差図に基づいて、前記前景画素点の深度値を決定し、
    前記基準画像における前記前景画素点の座標及び前記深度値に基づいて、前記カメラ座標系における前記前景画素点の初期座標を得て、
    前記前景画素点の部位座標に基づいて、前記初期座標を更新して、前記前景画素点の疑似点群座標を得るようにさらに構成されている、請求項7~11のいずれか一項に記載の装置。
  13. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに通信可能に接続されるメモリと
    を備えてなり、
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令が前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに、請求項1~6のいずれか一項に記載の方法を実行させることを特徴とする電子デバイス。
  14. コンピュータ命令が記憶された非一時的なコンピュータ可読記憶媒体であって、
    前記コンピュータ命令は、請求項1~6のいずれか一項に記載の方法を前記コンピュータに実行させるために使用されることを特徴とする、非一時的なコンピュータ可読記憶媒体。
JP2022540700A 2020-04-28 2020-11-19 車両姿勢を検出するための方法及び装置 Pending JP2023510198A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010347485.7A CN111539973B (zh) 2020-04-28 2020-04-28 用于检测车辆位姿的方法及装置
CN202010347485.7 2020-04-28
PCT/CN2020/130107 WO2021218123A1 (zh) 2020-04-28 2020-11-19 用于检测车辆位姿的方法及装置

Publications (1)

Publication Number Publication Date
JP2023510198A true JP2023510198A (ja) 2023-03-13

Family

ID=71977314

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022540700A Pending JP2023510198A (ja) 2020-04-28 2020-11-19 車両姿勢を検出するための方法及び装置

Country Status (5)

Country Link
US (1) US20220270289A1 (ja)
EP (1) EP4050562A4 (ja)
JP (1) JP2023510198A (ja)
CN (1) CN111539973B (ja)
WO (1) WO2021218123A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111539973B (zh) * 2020-04-28 2021-10-01 北京百度网讯科技有限公司 用于检测车辆位姿的方法及装置
CN112200765B (zh) * 2020-09-04 2024-05-14 浙江大华技术股份有限公司 车辆中被误检的关键点的确定方法及装置
CN112766206B (zh) * 2021-01-28 2024-05-28 深圳市捷顺科技实业股份有限公司 一种高位视频车辆检测方法、装置、电子设备和存储介质
CN114419564B (zh) * 2021-12-24 2023-09-01 北京百度网讯科技有限公司 车辆位姿检测方法、装置、设备、介质及自动驾驶车辆
CN116013091B (zh) * 2023-03-24 2023-07-07 山东康威大数据科技有限公司 基于车流量大数据的隧道监控系统与分析方法
CN116206068B (zh) * 2023-04-28 2023-07-25 北京科技大学 基于真实数据集的三维驾驶场景生成与构建方法及装置
CN116740498A (zh) * 2023-06-13 2023-09-12 北京百度网讯科技有限公司 模型预训练方法、模型训练方法、对象处理方法及装置
CN116993817B (zh) * 2023-09-26 2023-12-08 深圳魔视智能科技有限公司 目标车辆的位姿确定方法、装置、计算机设备及存储介质
CN117496477B (zh) * 2024-01-02 2024-05-03 广汽埃安新能源汽车股份有限公司 一种点云目标检测方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016157188A (ja) * 2015-02-23 2016-09-01 株式会社デンソーアイティーラボラトリ 姿勢推定モデル生成装置及び姿勢推定装置
CN108749819A (zh) * 2018-04-03 2018-11-06 吉林大学 基于双目视觉的轮胎垂向力估算系统及估算方法
WO2019180414A1 (en) * 2018-03-20 2019-09-26 University Of Essex Enterprises Limited Localisation, mapping and network training

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100922429B1 (ko) * 2007-11-13 2009-10-16 포항공과대학교 산학협력단 스테레오 영상을 이용한 사람 검출 방법
GB2492779B (en) * 2011-07-11 2016-03-16 Toshiba Res Europ Ltd An image processing method and system
JP6551336B2 (ja) * 2016-08-12 2019-07-31 株式会社デンソー 周辺監査装置
CN106447661A (zh) * 2016-09-28 2017-02-22 深圳市优象计算技术有限公司 一种深度图快速生成方法
CN106908775B (zh) * 2017-03-08 2019-10-18 同济大学 一种基于激光反射强度的无人车实时定位方法
CN107505644B (zh) * 2017-07-28 2020-05-05 武汉理工大学 基于车载多传感器融合的三维高精度地图生成系统及方法
CN108381549B (zh) * 2018-01-26 2021-12-14 广东三三智能科技有限公司 一种双目视觉引导机器人快速抓取方法、装置及存储介质
CN108534782B (zh) * 2018-04-16 2021-08-17 电子科技大学 一种基于双目视觉系统的地标地图车辆即时定位方法
CN108765496A (zh) * 2018-05-24 2018-11-06 河海大学常州校区 一种多视点汽车环视辅助驾驶系统及方法
CN108961339B (zh) * 2018-07-20 2020-10-20 深圳辰视智能科技有限公司 一种基于深度学习的点云物体姿态估计方法、装置及其设备
CN109360240B (zh) * 2018-09-18 2022-04-22 华南理工大学 一种基于双目视觉的小型无人机定位方法
CN109278640A (zh) * 2018-10-12 2019-01-29 北京双髻鲨科技有限公司 一种盲区检测系统和方法
TWI700017B (zh) * 2018-10-17 2020-07-21 財團法人車輛研究測試中心 車輛偵測方法、基於光強度動態之夜間車輛偵測方法及其系統
CN110082779A (zh) * 2019-03-19 2019-08-02 同济大学 一种基于3d激光雷达的车辆位姿定位方法及系统
CN110208783B (zh) * 2019-05-21 2021-05-14 同济人工智能研究院(苏州)有限公司 基于环境轮廓的智能车辆定位方法
CN110738200A (zh) * 2019-12-23 2020-01-31 广州赛特智能科技有限公司 车道线3d点云地图构建方法、电子设备及存储介质
CN111539973B (zh) * 2020-04-28 2021-10-01 北京百度网讯科技有限公司 用于检测车辆位姿的方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016157188A (ja) * 2015-02-23 2016-09-01 株式会社デンソーアイティーラボラトリ 姿勢推定モデル生成装置及び姿勢推定装置
WO2019180414A1 (en) * 2018-03-20 2019-09-26 University Of Essex Enterprises Limited Localisation, mapping and network training
CN108749819A (zh) * 2018-04-03 2018-11-06 吉林大学 基于双目视觉的轮胎垂向力估算系统及估算方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
HENDRIK KONIGSHOF ET AL.: ""Realtime 3D Object Detection for Automated Driving Using Stereo Vision and Semantic Information"", 2019 IEEE INTELLIGENT TRANSPORTATION SYSTEMS CONFERENCE (ITSC), JPN6023018683, 27 October 2019 (2019-10-27), US, pages 1405 - 1410, XP033668652, ISSN: 0005056130, DOI: 10.1109/ITSC.2019.8917330 *
JIAMING SUN ET AL.: ""Disp R-CNN: Stereo 3D Object Detection via Shape Prior Guided Instance Disparity Estimation"", ARXIV, JPN7023001770, 7 April 2020 (2020-04-07), US, pages 1 - 10, ISSN: 0005056128 *
PEILIANG LI ET AL.: ""Stereo R-CNN Based 3D Object Detection for Autonomous Driving"", 2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), JPN6023018682, 15 June 2019 (2019-06-15), US, pages 7636 - 7644, ISSN: 0005056129 *
ZHENBO XU ET AL.: ""ZoomNet: Part-Aware Adaptive Zooming Neural Network for 3D Object Detection"", ARXIV, JPN7023001769, 1 March 2020 (2020-03-01), US, pages 1 - 9, ISSN: 0005056127 *

Also Published As

Publication number Publication date
EP4050562A4 (en) 2023-01-25
EP4050562A1 (en) 2022-08-31
CN111539973A (zh) 2020-08-14
CN111539973B (zh) 2021-10-01
US20220270289A1 (en) 2022-08-25
WO2021218123A1 (zh) 2021-11-04

Similar Documents

Publication Publication Date Title
JP2023510198A (ja) 車両姿勢を検出するための方法及び装置
JP6745328B2 (ja) 点群データを復旧するための方法及び装置
US11615605B2 (en) Vehicle information detection method, electronic device and storage medium
CN112419494B (zh) 用于自动驾驶的障碍物检测、标记方法、设备及存储介质
CN112652016B (zh) 点云预测模型的生成方法、位姿估计方法及其装置
CN111739005B (zh) 图像检测方法、装置、电子设备及存储介质
CN111666876B (zh) 用于检测障碍物的方法、装置、电子设备和路侧设备
JP7228623B2 (ja) 障害物検出方法、装置、設備、記憶媒体、及びプログラム
US11694445B2 (en) Obstacle three-dimensional position acquisition method and apparatus for roadside computing device
CN111401251B (zh) 车道线提取方法、装置、电子设备及计算机可读存储介质
JP7152554B2 (ja) 車載カメラ外部パラメータのキャリブレーション方法、装置、システム及び記憶媒体
CN110675635B (zh) 相机外参的获取方法、装置、电子设备及存储介质
EP3989117A1 (en) Vehicle information detection method and apparatus, method and apparatus for training detection model, electronic device, storage medium and program
JP2022050311A (ja) 車両の車線変更を検出するための方法、装置、電子機器、記憶媒体、路側機、クラウド制御プラットフォーム、及びコンピュータプログラム
KR20210042278A (ko) 정보를 생성하는 방법, 장치, 전자 기기, 저장 매체 및 프로그램
CN112487979A (zh) 目标检测方法和模型训练方法、装置、电子设备和介质
CN111311743B (zh) 三维重建精度测试方法、测试装置和电子设备
JP7194217B2 (ja) 障害物速度確定方法、装置、電子機器、記憶媒体およびコンピュータプログラム
CN111260722B (zh) 车辆定位方法、设备及存储介质
CN111767843A (zh) 三维位置预测方法、装置、设备以及存储介质
US11741671B2 (en) Three-dimensional scene recreation using depth fusion
CN111866493B (zh) 基于头戴显示设备的图像校正方法、装置及设备
CN111784659A (zh) 图像检测的方法、装置、电子设备以及存储介质
US11783501B2 (en) Method and apparatus for determining image depth information, electronic device, and media
CN117456085A (zh) 三维重建模型训练、图像重建方法和装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220713

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220713

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230511

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20231201