JP2023510198A

JP2023510198A - 車両姿勢を検出するための方法及び装置

Info

Publication number: JP2023510198A
Application number: JP2022540700A
Authority: JP
Inventors: ヂァン，ウェイ; イエ，シァオチン; タン，シィアオ; スゥン，ハオ; ウェン，シィーレェィ; ヂァン，ホォンウー; ディン，エールゥイ
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-04-28
Filing date: 2020-11-19
Publication date: 2023-03-13
Also published as: EP4050562A4; EP4050562A1; CN111539973A; CN111539973B; US20220270289A1; WO2021218123A1

Abstract

車両姿勢を検出するための方法及び装置であって、コンピュータビジョン及び自動運転の分野に関する。具体的な実装スキームは、車両左視点画像及び車両右視点画像を部位予測及びマスクセグメンテーションネットワークモデルに入力して、基準画像における前景画素点及びそれらの部位座標を決定し、車両左視点画像と車両右視点画像との視差図、前景画素点の部位座標及び基準画像のカメラ内部パラメータに基づいて、疑似点群を得て、疑似点群を事前訓練された姿勢予測モデルに入力して、検出対象車両の姿勢情報を得るものである。車両部位の先験データに基づいて、収集された車両の左視点画像及び右視点画像に対して部位予測及びマスクセグメンテーションを実行して、より正確なセグメンテーション結果を取得することができるため、車両姿勢予測の精度が向上する。

Description

＜関連出願の相互参照＞
本出願は、２０２０年０４月２８日に提出された、発明の名称が「車両姿勢を検出するための方法及び装置」である中国特許出願第２０２０１０３４７４８５．７の優先権を主張し、当該出願の全文は、引用することにより本明細書の一部をなすものとする。

本出願は、車両姿勢を検出するための方法及び装置を開示し、コンピュータ技術の分野に関し、特に自動運転の分野に関する。

３次元車両追跡は、自動運転やロボットなどの適用シナリオで不可欠で重要な技術であり、その固有の難しさは、各車両の正確な検出と測位を実現するために正確な深度情報を取得する方法である。３次元姿勢検出技術は、深度情報の取得方法によって、単眼視に基づく３次元姿勢検出技術、両眼視に基づく３次元姿勢検出技術、及びレーザレーダに基づく３次元姿勢検出技術の３つに分類することができる。

関連技術では、両眼視に基づいて車両の３次元姿勢を予測する方法は、２つに分けられて、１つは、Ｓｔｅｒｅｏ－ＲＣＮＮであり、当該方法では、左右の画像の２次元検出と検出フレームのマッチングを同時に完了することを実現することができ、次に、左右の検出フレームから抽出された特徴に基づいて、２次元キーポイントと３次元の長さ、幅、高さの情報を返し、最後に、キーポイントを利用して３次元－２次元投影方程式を確立し、解くことにより車両の３次元姿勢を得る。もう１つは、Ｐｓｅｕｄｏ－ＬｉＤＡＲであり、当該方法では、最初に、画像全体に対して画素レベルの視差推定を実行し、次に、比較的まばらな疑似点群を得、レーザレーダの実際の点群データに基づいて訓練して得られた点群３次元検出モデルを疑似点群に適用して、車両の３次元姿勢を予測する。

本出願の実施例は、車両姿勢を検出するための方法、装置、デバイス及び記憶媒体を提供する。

第１態様によれば、本出願の実施例は、車両姿勢を検出するための方法を提供し、
当該方法は、
車両左視点画像及び車両右視点画像を車両部位の先験データに基づいて構築された部位予測及びマスクセグメンテーションネットワークモデルに入力して、基準画像における前景画素点及び各前景画素点の部位座標を決定し、部位座標は、検出対象車両の座標系における前景画素点の位置を特徴付けるために使用され、基準画像は、車両左視点画像又は車両右視点画像であるステップと、
車両左視点画像と車両右視点画像との視差図、前景画素点の部位座標及び基準画像のカメラ内部パラメータに基づいて、基準画像における前景画素点の座標をカメラ座標系における前景画素点の座標に変換して、疑似点群を得るステップと、
疑似点群を事前訓練された姿勢予測モデルに入力して、検出対象車両の姿勢情報を得るステップと
を含んでなる。

第２態様によれば、本出願の実施例は、車両姿勢を検出するための装置を提供し、
当該装置は、
車両左視点画像と車両右視点画像を車両部位の先験データに基づいて構築された部位予測とマスクセグメンテーションネットワークモデルに入力して、基準画像における前景画素点及び各前景画素点の部位座標を決定するように構成されており、部位座標は、検出対象車両の座標系における前景画素点の位置を特徴付けるために使用され、基準画像は、車両左視点画像又は車両右視点画像である画像セグメンテーションモジュールと、
車両左視点画像と車両右視点画像との視差図、前景画素点の部位座標及び基準画像のカメラ内部パラメータに基づいて、基準画像における前景画素点の座標をカメラ座標系における前景画素点の座標に変換して、疑似点群を得るように構成されている点群生成モジュールと、
疑似点群を事前訓練された姿勢予測モデルに入力して、検出対象車両の姿勢情報を得るように構成されている姿勢予測モジュールと
を含んでなる。

本出願の上記実施例によれば、遮蔽現象が車両の３次元姿勢予測の精度を低下させるという問題が解決され、車両部位の先験データに基づいて収集された車両の左視点画像と右視点画像に対して部位予測及びマスクセグメンテーションを実行して、より正確なセグメンテーション結果を取得することができるため、車両姿勢予測の精度が向上する。

このセクションで説明されることは、本開示の実施例の重要又は重要な特徴を特定することを意図するものではなく、本開示の範囲を限定することを意図するものでもないことが理解されるべきである。本開示の他の特徴は、以下の説明から容易に理解される。

図面は、本解決策をよりよく理解するために使用されており、本出願を限定するものではない。
本出願の実施例を適用できる例示的なシステムアーキテクチャ図である。本出願の第１実施例による概略図である。本出願による実施例が提供する車両姿勢を検出するための方法のシナリオ実施例の概略図である。本出願の第２実施例による概略図である。本出願の実施例による車両姿勢を検出するための方法を実現するために使用される電子デバイスのブロック図である。本出願の実施例を実現できるコンピュータ記憶可能媒体のシナリオ図である。

以下、図面を参照して本出願の例示的な実施例を説明し、理解を容易にするために、その中には、本出願の実施例の様々な詳細が含まれており、それらは、単なる例示的なものであると見なされるべきである。したがって、当業者は、本出願の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更及び修正を行うことができることを認識するべきである。同様に、わかりやすく簡潔にするために、以下の説明では公知の機能及び構造の説明を省略する。

図１は、本出願の実施例を適用できる車両姿勢を検出するための方法又は車両姿勢を検出するための装置の例示的なシステムアーキテクチャ１００を示す。

図１に示すように、システムアーキテクチャ１００は、端末装置１０１、１０２、１０３、ネットワーク１０４及びサーバ１０５を含み得る。ネットワーク１０４は、端末装置１０１、１０２、１０３とサーバ１０５との間の通信リンクを提供するための媒体である。ネットワーク１０４は、有線、無線通信リンク又は光ファイバケーブルなどの様々な接続タイプを含み得る。

ユーザは、端末装置１０１、１０２、１０３を使用してネットワーク１０４を介してサーバ１０５と対話して、データなどを送受信することができ、たとえば、取得された検出対象車両の左視点画像及び右視点画像をサーバ１０５に送信し、及びサーバ１０５によって検出された検出対象車両の姿勢情報を受信する。

端末装置１０１、１０２、１０３は、ハードウェアであってもよいし、ソフトウェアであってもよい。端末装置１０１、１０２、１０３がハードウェアである場合、それらは、スマートフォン、タブレットコンピュータ及び車載コンピュータなどを含むがこれらに限定されないサーバとのデータ対話機能を有する様々な電子デバイスであってもよい。端末装置１０１、１０２、１０３がソフトウェアである場合、それらは、上記の電子デバイスにインストールすることができる。それらは、分散サービスを提供するための複数のソフトウェア又はソフトウェアモジュールとして実装されてもよいし、単一のソフトウェア又はソフトウェアモジュールとして実装されてもよい。ここでは特定の制限はない。

サーバ１０５は、端末装置１０１、１０２、１０３がアップロードした検出対象車両の左視点画像及び右視点画像を処理するバックグラウンドデータサーバなどのデータ処理サービスを提供するサーバであってもよい。

なお、本出願の実施例が提供する車両姿勢を検出するための方法は、サーバ１０５によって実行され得、それに応じて、車両姿勢を検出するための装置は、サーバ１０５に設置され得る。このとき、端末装置は、双眼カメラで収集されたシナリオ画像又は検出対象車両の左視点画像及び右視点画像を、ネットワークを介してサーバ１０５に送信することができ、サーバ１０５は、そこから車両の姿勢情報を予測する。本出願の実施例が提供する車両姿勢を検出するための方法はさらに、車載コンピュータなどの端末装置によって実行され得、それに応じて、車両姿勢を検出するための装置は、端末装置に設置され得、車載コンピュータは、車載双眼カメラで収集されたシナリオ画像から検出対象車両の左視点画像及び右視点画像を抽出し、その後、そこから検出対象車両の姿勢情報を予測し、本出願はこれを限定しない。

図２を参照し続けると、図２は、本出願による車両姿勢を検出するための方法の第１実施例のフローチャートを示し、それは、以下のステップを含む。

ステップＳ２０１：車両左視点画像及び車両右視点画像を車両部位の先験データに基づいて構築された部位予測及びマスクセグメンテーションネットワークモデルに入力し、基準画像における前景画素点及び各前景画素点の部位座標を決定する。ここで、部位座標は、検出対象車両の座標系における前景画素点の位置を特徴付けるために使用され、基準画像は、車両左視点画像又は車両右視点画像である。

本実施例では、前景画素点は、基準画像で検出対象車両の輪郭領域に位置する画素点、すなわち、実際のシナリオで検出対象車両の表面に位置する点を特徴付けるために使用される。

本実施例では、車両左視点画像及び車両右視点画像は、双眼カメラで収集されたシナリオ画像から抽出された検出対象車両の画像の２つのフレームであり、実行主体によって予測された姿勢情報は、基準画像に提示された検出対象車両の姿勢である。

一例として、実行主体は、双眼カメラで収集された同じシナリオのシナリオ左視点画像及びシナリオ右視点画像を、事前構築されたＳｔｅｒｅｏ－ＲＰＮモデルに入力することができ、シナリオ左視点画像及びシナリオ右視点画像の２次元検出及び検出フレームマッチングを同時に実現することができ、シナリオ画像の２つのフレームからセグメンテーションされた同じ車両インスタンスの画像の２つのフレームは、当該車両の車両左視点画像及び車両右視点画像である。実行主体はさらに、車両左視点画像及び車両右視点画像の事前訓練された抽出ネットワークを直接介して車両左視点画像及び車両右視点画像を取得することができる。その後、実際のニーズに応じて、車両左視点画像又は車両右視点画像を基準画像として選択することができる。たとえば、検出対象車両の被遮蔽領域の面積が小さい画像を選択して、より高い精度を取得することができ、画像の１つのフレームを基準画像としてランダムに選択することもできる。

本実施例では、部位予測及びマスクセグメンテーションネットワークモデルを構築する場合、基準画像から前景画素点をセグメンテーションする精度を向上させるために、車両部位の先験データが導入される。部位予測及びマスクセグメンテーションネットワークモデルは、部位予測サブネットワーク及びマスクセグメンテーションサブネットワークを含み、ここで、部位予測サブネットワークは、各前景画素点の部位座標を決定するために使用され、マスクセグメンテーションサブネットワークは、基準画像から前景画素点を決定するために使用される。

一例として、実行主体は、車両の輪郭に基づいてマスクを構築し、入力された車両左視点画像及び車両右視点画像におけるマスク領域に位置する画素点を前景画素点として使用し、車両左視点画像及び車両右視点画像の前景及び後景をセグメンテーションして、車両左視点画像及び車両右視点画像における前景画素点の集合をそれぞれ得ることができる。車両左視点画像又は車両右視点画像における前景画素点の画素座標に従って前景画素点を並べると、対応する画像における検出対象車両の画像輪郭を得ることができることが理解することができる。基準画像には大きな被遮蔽領域があるため、基準画像の前景及び後景のセグメンテーション境界が不正確になる可能性があり、したがって、基準画像の前景及び後景のセグメンテーションの精度は、画像の別のフレームの精度に比べて低下し、このとき、画像の別のフレームから抽出された前景画素点を基準画像から抽出された前景画素点と比較して、基準画像から前景画素点をセグメンテーションする精度を向上させることができる。

その後、部位予測ネットワークは、車両の３次元部位の先験データに基づいて、基準画像から抽出された前景画素点の画素座標からなる画像に従って、車両座標系を確立し、得られた車両座標系における前景画素点の座標は、前景画素点の部位座標であり、それは、検出対象車両の当該前景画素点の部位特徴を特徴付けるために使用される。

本実施例のいくつかのオプションの実装形態では、基準画像のみを車両部位の先験データに基づいて構築された部位予測及びマスクセグメンテーションネットワークモデルに入力して、基準画像における前景画素点及び各前景画素点の部位座標を得ることができる。

ステップＳ２０２：車両左視点画像と車両右視点画像との視差図、前景画素点の部位座標及び基準画像のカメラ内部パラメータに基づいて、基準画像における前景画素点の座標をカメラ座標系における前景画素点の座標に変換して、疑似点群を得る。

本実施例では、疑似点群における各前景画素点の特徴情報は、基準画像における当該前景画素点の位置特徴を含むだけでなく、検出対象車両における当該画素点の部位特徴をさらに含む。

一例として、実行主体は、以下のステップで疑似点群を生成することができる。まず、車両左視点画像と車両右視点画像との視差図に基づいて、基準画像における各前景画素点の深度値を計算して得、次に、基準画像に対応するカメラ内部パラメータと組み合わせて、基準画像における前景画素点の２次元座標をカメラ座標系の３次元座標に変換し、前景画素点からなる点群を得、このときの点群には、前景画素点の点群座標のみが含まれており、その後、前景画素点の部位座標を点群に集約すると、前景画素点からなる疑似点群を得ることができる。特定のシナリオを例に挙げて説明すると、基準画像には、Ｎ個の前景画素点が含まれていると仮定すると、疑似点群データの特徴次元は、Ｎ＊６であり、ここで、Ｎ＊３次元は、前景画素点の疑似点群座標であり、別のＮ＊３次元は、前景画素点の部位座標である。

視差図に従って画素点の深度値を決定し、カメラ内部パラメータと組み合わせて画素点の２次元座標を３次元座標に変換することは、コンピュータビジョンの分野で成熟した技術であることが理解することができ、本出願は、これを限定しない。

本実施例のいくつかのオプションの実装形態では、
実行主体は、
基準画像のカメラ内部パラメータと、車両左視点画像と車両右視点画像との視差図に基づいて、前景画素点の深度値を決定し、
基準画像における前景画素点の座標及び深度値に基づいて、カメラ座標系における前景画素点の初期座標を得て、
前景画素点の部位座標に基づいて、初期座標を更新して、前景画素点の疑似点群座標を得ることで、疑似点群を決定することもできる。

本実装形態では、実行主体は、前景画素点の部位座標を点群データに単純に集約するのではなく、前景画素点の部位座標を制約として使用して、前景画素点の初期座標を修正してから、修正された座標に基づいて疑似点群を構築し、それにより、より高精度な点群データを得る。

ステップＳ２０３：疑似点群を事前訓練された姿勢予測モデルに入力して、検出対象車両の姿勢情報を得る。

一例として、実行主体は、ステップＳ２０２で得られた疑似点群を事前訓練されたＤｅｎｓｅＦｕｓｉｏｎモデルに入力することができ、ＤｅｎｓｅＦｕｓｉｏｎモデルにおけるＰｏｉｎｔｎｅｔネットワークは、前景画素点の疑似点群座標と部位座標に基づいて、対応する幾何学的特徴ベクトルと部位特徴ベクトルを生成し、次に、幾何学的特徴ベクトルと部位特徴ベクトルを画素レベルのｆｕｓｉｏｎネットワークに入力し、ｆｕｓｉｏｎネットワークは、幾何学的特徴ベクトルと部位特徴ベクトルに基づいて基準画像のカメラ外部パラメータ（カメラの回転行列と並進行列）を予測し、次に、カメラ外部パラメータに基づいて、世界座標系における各前景画素点の座標を決定すると、検出対象車両の姿勢情報を得ることができる。

なお、カメラ外部パラメータに基づいて、カメラにおける画像の画素点の３次元座標を世界座標に変換することは、コンピュータビジョンの分野における成熟した技術的手段であり、ここでは繰り返されない。

本出願で開示されている上記実施例における車両姿勢を検出するための方法は、車両部位の先験データに基づいて、収集された車両の左視点画像及び右視点画像に対して部位予測及びマスクセグメンテーションを実行して、より正確なセグメンテーション結果を取得することができるため、車両姿勢予測の精度が向上する。

図３を参照し続けると、図３は、本出願が提供する車両姿勢を検出するための一適用シナリオを示す。図３の適用シナリオでは、実行主体３０１は、自動運転車における車載コンピュータであってもよく、同時に、自動運転車には、双眼カメラが設置される。車載コンピュータは、双眼カメラがリアルタイムで収集したシナリオ画像からシナリオにおける各検出対象車両の車両左視点画像及び車両右視点画像を抽出し、次に、各検出対象車両の車両左視点画像及び車両右視点画像から基準画像及び視差図を決定し、基準画像から前景画素点及び各前景画素点の部位座標を決定してから、得られた前景画素点に基づいて疑似点群を生成し、最後にシナリオにおける各検出対象車両の姿勢情報を予測し、それにより自動運転車の経路計画をサポートする。

図４を参照し続けると、図４は、本出願による車両姿勢を検出するための方法の第２実施例のフローチャートを示し、それは、以下のステップを含む。

ステップＳ４０１：双眼カメラで収集された同じシナリオのシナリオ左視点画像及びシナリオ右視点画像から、検出対象車両の元の左視点画像及び元の右視点画像をそれぞれ抽出する。

一例として、実行主体は、シナリオ左視点画像及びシナリオ右視点画像をＳｔｅｒｅｏ－ＲＰＮネットワークモデルに入力し、そこから検出対象車両の元の左視点画像及び元の右視点画像を抽出することができる。

ステップＳ４０２：元の左視点画像及び元の右視点画像をプリセットサイズにそれぞれスケーリングして、車両左視点画像及び車両右視点画像を得る。

一般に、双眼カメラが検出対象車両までの収集距離から離れるほど、ステップＳ４０１で取得された車両左視点画像及び車両右視点画像のサイズが小さくなり、両者のサイズも異なり、これに基づいて予測して得られた検出対象車両の姿勢情報の精度は、比較的低い。したがって、本実施例では、実行主体は、ステップＳ４０１で取得された元の左視点画像及び元の右視点画像をプリセットサイズにそれぞれスケーリングして、高解像度で同じサイズの車両左視点画像及び車両右視点画像を得る。

ステップＳ４０３：シナリオ左視点画像の初期カメラ内部パラメータ、シナリオ右視点画像の初期カメラ内部パラメータ及びスケーリング係数に基づいて、車両左視点画像のカメラ内部パラメータ及び車両右視点画像のカメラ内部パラメータをそれぞれ決定する。

本実施例では、車両左視点画像及び車両右視点画像は、スケーリング後に得られるため、車両左視点画像及び車両右視点画像に対応するカメラ内部パラメータと、シナリオ左視点画像及びシナリオ右視点画像に対応するカメラ内部パラメータは異なる。

一例として、実行主体は、次の式（１）及び式（２）により、車両左視点画像及び車両右視点画像のカメラ内部パラメータをそれぞれ決定することができる。

ここで、Ｐ_１及びＰ_２は、シナリオ左視点画像及びシナリオ右視点画像に対応するカメラ内部パラメータをそれぞれ特徴付け、Ｐ_３及びＰ_４は、車両左視点画像及び車両右視点画像のカメラ内部パラメータをそれぞれ特徴付け、ｋは、元の左視点画像に対する車両左視点画像の水平方向のスケーリング係数を表し、ｍは、元の右視点画像に対する車両左視点画像の垂直方向のスケーリング係数を表す。ｆ_ｕ及びｆ_ｖは、カメラの焦点距離を表し、ｃ_ｕ及びｃ_ｖは、主点オフセットを表し、ｂ_ｘは、参照カメラに対するベースラインを表す。

ステップＳ４０４：車両左視点画像のカメラ内部パラメータと車両右視点画像のカメラ内部パラメータとに基づいて、車両左視点画像と車両右視点画像との視差図を決定する。

一例として、実行主体は、車両左視点画像及び車両右視点画像をＰＳＭｎｅｔモデルに入力して、対応する視差図を得ることができる。遠く離れる検出対象車両の場合、スケーリングされた車両左視点画像及び車両右視点画像の解像度が高くなるため、元の左視点画像及び元の右視点画像から直接予測された視差図と比較すると、ステップＳ４０４で得られた視差図の精度がより高い。

ステップＳ４０５：車両左視点画像及び車両右視点画像を部位予測及びマスクセグメンテーションネットワークモデルにそれぞれ入力して、車両左視点画像の符号化特徴ベクトルと車両右視点画像の符号化特徴ベクトルとを得る。

本実施例では、部位予測及びマスクセグメンテーションネットワークモデルは、エンコーダ－デコーダフレームワークを採用するモデルであり、車両左視点画像及び車両右視点画像を部位予測及びマスクセグメンテーションネットワークモデルにそれぞれ入力してから、モデルにおけるエンコーダは、車両左視点画像の符号化特徴ベクトルと車両右視点画像の符号化特徴ベクトルとをそれぞれ生成する。

ステップＳ４０６：車両左視点画像の符号化特徴ベクトルと車両右視点画像の符号化特徴ベクトルとを融合して、融合された符号化特徴ベクトルを得る。

本実施例では、車両左視点画像の符号化特徴ベクトルと車両右視点画像の符号化特徴ベクトルとを融合（たとえば、加算、スプライシング、又は線形変換）することにより、車両左視点画像及び車両右視点画像の特徴融合を実現する。

ステップＳ４０７：融合された符号化特徴ベクトルをデコードして、基準画像における前景画素点及び各前景画素点の部位座標を得、基準画像は、車両左視点画像又は車両右視点画像である。

本実施例では、融合された符号化特徴ベクトルが車両左視点画像及び車両右視点画像の特徴を含むため、セグメンテーション精度に対する基準画像におけるオクルージョンエリアの悪影響を回避することができる。

ステップＳ４０８：車両左視点画像と車両右視点画像との視差図、前景画素点の部位座標及び基準画像のカメラ内部パラメータに基づいて、基準画像における前景画素点の座標をカメラ座標系における前景画素点の座標に変換して、疑似点群を得る。

本実施例では、車両左視点画像と車両右視点画像は、元の画像をスケーリングすることによって得られるため、疑似点群を構築するプロセスでは、スケーリング係数の影響を考慮する必要がある。たとえば、車両左視点画像及び車両右視点画像をスケーリング係数に応じて元のサイズに復元し、次に、シナリオ左視点画像及びシナリオ右視点画像に対応するカメラ内部パラメータに応じて、基準画像における前景画素点の２次元座標をカメラ座標系における前景画素点の３次元座標を変換して、疑似点群を得ることができる。

本実施例のいくつかのオプションの実装形態では、実行主体は、車両左視点画像及び車両右視点画像を元のサイズに復元する必要はなく、以下のステップでカメラ座標系における前景画素点の座標を直接決定することができ、式（１）と式（２）を組み合わせて例示する。

基準画像が車両左視点画像であると仮定すると、元の左視点画像における座標（ｘ，ｙ）を有する点の場合、基準画像におけるそれらの座標が（ｋｘ，ｍｙ）であり、当該点で、車両左視点画像及び車両右視点画像に対応する視差補正が

であり、車両左視点画像及び車両右視点画像のカメラ内部パラメータＰ_３とＰ_４との間のベースライン距離

は、次の式（３）で求めることができる。

基準画像におけるいずれかの前景画素点の場合、その座標は、（ｕ，ｖ）であり、カメラ座標系における当該前景画素点の３次元座標（ｘ，ｙ，ｚ）は、次の式（４）で決定及び計算することができる。

ここで、

は、当該前景画素点の視差値を表し、ステップＳ４０４で得ることができる。

その後、実行主体は、疑似点群を事前構築された姿勢予測モデルに入力し、以下のステップＳ４０９～ステップＳ４１２により、検出対象車両の姿勢情報を予測することができる。

本実施例では、ＣＮＮ（Convolutional Neural Networks：畳み込みニューラルネットワーク）モジュールを削除した後のＤｅｎｓｅＦｕｓｉｏｎモデルを姿勢予測モデルとして使用し、ＤｅｎｓｅＦｕｓｉｏｎモデルにおける色補間を利用して部位予測を実行する。

ステップＳ４０９：前景画素点の疑似点群座標及び部位座標に基づいて、検出対象車両のグローバル特徴ベクトルを決定する。

実行主体は、ステップＳ４０８で得られた疑似点群を事前構築された姿勢予測モデルに入力することができ、姿勢予測モデルのＰｏｉｎｔＮｅｔは、前景画素点の疑似点群座標及び部位座標に基づいて幾何学的特徴ベクトル及び部位特徴ベクトルをそれぞれ生成し、次に、ＭＬＰ（Multilayer Perceptron：人工ニューラルネットワーク）モジュールは、幾何学的特徴ベクトルと部位特徴ベクトルを融合し、平均プーリング層を介してグローバル特徴ベクトルを生成し、グローバル特徴ベクトルは、検出対象車両の全体的な特徴を特徴付けるために使用される。

ステップＳ４１０：疑似点群から事前設定された数の前景画素点をサンプリングする。

本実施例では、疑似点群における前景画素点はいずれも、検出対象車両の表面に分布しているため、疑似点群から事前設定された数の前景画素点をランダムにサンプリングすることができ、予測姿勢情報の精度に影響を与えることなく、計算量を減らすことができる。

ステップＳ４１１：事前設定された数の前景画素点の疑似点群座標、部位座標及びグローバル特徴ベクトルに基づいて、基準画像のカメラ外部パラメータを予測する。

実行主体は、サンプリングされた前景画素点の疑似点群座標、部位座標及びグローバル特徴ベクトルを姿勢予測モデルにおける姿勢予測と最適化サブネットワークに同時に入力し、それにより各前景画素点の特徴ベクトルには、疑似点群座標に対応する幾何学的特徴ベクトル、部位座標に対応する部位特徴ベクトル及びグローバル特徴ベクトルが含まれており、次に、各前景画素点の特徴ベクトルに基づいて基準画像に対応するカメラ外部パラメータ（すなわち、回転行列及び並進行列）を予測し、これにより得られた類似の外部パラメータは、より高い精度を有している。

ステップＳ４１２：基準画像のカメラ外部パラメータに基づいて、検出対象車両の姿勢情報を決定する。基準画像のカメラ外部パラメータと前景画素点の疑似点群座標に基づいて、世界座標系における前景画素点の座標を決定することができ、すなわち、検出対象車両の姿勢情報が得られる。

上記実施例のいくつかのオプションの実装形態では、それはさらに、融合された符号化特徴ベクトルを立体特徴ベクトルとして使用することと、立体特徴ベクトルとグローバル特徴ベクトルに基づいて、姿勢予測モデルの訓練をガイドするための３次元フィッティングスコアを得ることとを含むこともできる。たとえば、実行主体は、立体特徴ベクトルとグローバル特徴ベクトルを完全に接続されたネットワークに入力し、これにより３次元フィッティングスコアを得ることができる。姿勢予測モデルが出力する姿勢情報は、３次元フィッティングスコアにより、より正確に評価できるため、姿勢予測モデルの予測精度を向上させることができる。

図４から分かるように、図２に示される第１実施例と比較して、第２実施例は、スケーリングにより、同じサイズの車両左視点画像及び車両右視点画像を取得し、車両左視点画像及び車両右視点画像の特徴を融合することにより、基準画像における前景画素点を決定するということを具体化しており、遠く離れることによる検出対象車両の姿勢予測精度の低下を回避し、車両姿勢予測の精度をさらに向上させる。

図５は、本出願による車両姿勢を検出するための方法を実現する電子デバイスのブロック図を示す。当該電子デバイスは、
車両左視点画像及び車両右視点画像を車両部位の先験データに基づいて構築された部位予測及びマスクセグメンテーションネットワークモデルに入力し、基準画像における前景画素点及び各前景画素点の部位座標を決定するように構成されており、ここで、部位座標が検出対象車両の座標系における前景画素点の位置を特徴付けるために使用され、基準画像が車両左視点画像又は車両右視点画像である画像セグメンテーションモジュール５０１と、
車両左視点画像と車両右視点画像との視差図、前景画素点の部位座標及び基準画像のカメラ内部パラメータに基づいて、基準画像における前景画素点の座標をカメラ座標系における前景画素点の座標に変換して、疑似点群を得るように構成されている点群生成モジュール５０２と、
疑似点群を事前訓練された姿勢予測モデルに入力して、検出対象車両の姿勢情報を得るように構成されている姿勢予測モジュール５０３と
を含んでなる。

本実施例では、
装置は、
双眼カメラで収集された同じシナリオのシナリオ左視点画像及びシナリオ右視点画像から、検出対象車両の元の左視点画像及び元の右視点画像をそれぞれ抽出するステップと、元の左視点画像及び元の右視点画像をそれぞれプリセットサイズにスケーリングして、車両左視点画像及び車両右視点画像を得るステップとで、車両左視点画像及び車両右視点画像を決定するように構成されている画像スケーリングモジュールをさらに含み、
装置は、
シナリオ左視点画像の初期カメラ内部パラメータ、シナリオ右視点画像の初期カメラ内部パラメータ及びスケーリング係数に基づいて、車両左視点画像のカメラ内部パラメータと車両右視点画像のカメラ内部パラメータとをそれぞれ決定するステップと、車両左視点画像のカメラ内部パラメータと車両右視点画像のカメラ内部パラメータとに基づいて、車両左視点画像と車両右視点画像との視差図を決定するステップとで、車両左視点画像と車両右視点画像との視差図を決定するように構成されている視差図生成モジュールと
をさらに含む。

本実施例では、部位予測及びマスクセグメンテーションネットワークモデルは、エンコーダ－デコーダのフレームワークを採用するモデルであり、画像セグメンテーションモジュール５０１は、車両左視点画像及び車両右視点画像を部位予測及びマスクセグメンテーションネットワークモデルにそれぞれ入力して、車両左視点画像の符号化特徴ベクトルと車両右視点画像の符号化特徴ベクトルとを得、車両左視点画像の符号化特徴ベクトルと車両右視点画像の符号化特徴ベクトルとを融合して、融合された符号化特徴ベクトルを得、融合された符号化特徴ベクトルをデコードして、基準画像における前景画素点及び各前景画素点の部位座標を得るようにさらに構成されている。

本実施例では、姿勢予測モジュール５０３は、前景画素点の疑似点群座標及び部位座標に基づいて、検出対象車両のグローバル特徴ベクトルを決定し、疑似点群から事前設定された数の前景画素点をサンプリングし、事前設定された数の前景画素点の疑似点群座標、部位座標及びグローバル特徴ベクトルに基づいて、基準画像のカメラ外部パラメータを予測し、カメラ外部パラメータに基づいて、検出対象車両の姿勢情報を決定するようにさらに構成されている。

本実施例では、装置は、モデル訓練モジュールをさらに含み、それは、融合された符号化特徴ベクトルを立体特徴ベクトルとして使用し、立体特徴ベクトル及びグローバル特徴ベクトルに基づいて、姿勢予測モデルの訓練をガイドするための３次元フィッティングスコアを得るように構成されている。

本実施例では、点群生成モジュール５０２は、基準画像のカメラ内部パラメータと、車両左視点画像と車両右視点画像との視差図に基づいて、前景画素点の深度値を決定し、基準画像における前景画素点の座標及び深度値に基づいて、カメラ座標系における前景画素点の初期座標を得、前景画素点の部位座標に基づいて、初期座標を更新して、前景画素点の疑似点群座標を得るようにさらに構成されている。

本出願の実施例によれば、本出願は、電子デバイス及び読み取り可能な記憶媒体をさらに提供する。

図６に示すように、それは、本出願の実施例によるコンピュータ記憶可能媒体の方法を実現する電子デバイスのブロック図である。電子デバイスは、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表すことを目的としている。電子デバイスは、パーソナルデジタルプロセッサ、携帯電話、スマートフォン、ウェアラブルデバイス及び他の同様のコンピューティングデバイスなどの様々な形式のモバイルデバイスを表すこともできる。本明細書に示されるコンポーネント、それらの接続及び関係、ならびにそれらの機能は、単なる例であり、本明細書に記載及び／又は請求される、本出願の実現を制限することを意図するものではない。

図６に示すように、当該電子デバイスは、１つ又は複数のプロセッサ６０１と、メモリ６０２と、高速インターフェースと低速インターフェースを含む、各コンポーネントを接続するためのインターフェースとを含む。各コンポーネントは、異なるバスを利用して互いに接続され、公共のマザーボードに取り付けられ得るか、又は必要に応じて、他の方法で取り付けられ得る。プロセッサは、外部入力／出力装置（インターフェースにカップリングされたディスプレイデバイスなど）上にＧＵＩのグラフィック情報を表示するために、メモリ内又はメモリ上に記憶された命令を含む、電子デバイス内で実行される命令を処理することができる。他の実施形態では、必要に応じて、複数のプロセッサ及び／又は複数のバスを、複数のメモリ及び複数のメモリとともに使用することができる。同様に、それは、複数の電子デバイスを接続することができ、各デバイスは、必要な操作の一部を提供する（たとえば、サーバアレイ、ブレードサーバのグループ、又はマルチプロセッサシステムとして）。図６では、１つのプロセッサ６０１を例とする。

メモリ６０２は、本出願が提供する非一時的なコンピュータ可読記憶媒体である。ここで、前記少なくとも１つのプロセッサは、本出願が提供するコンピュータ記憶可能媒体の方法を実行するように、前記メモリには、少なくとも１つのプロセッサによって実行可能な命令が記憶される。本出願の非一時的なコンピュータ可読記憶媒体は、コンピュータに本出願が提供するコンピュータ記憶可能媒体の方法を実行させるためのコンピュータ命令を記憶する。

非一時的なコンピュータ可読記憶媒体として、メモリ６０２は、非一時的なソフトウェアプログラムと、非一時的なコンピュータ実行可能プログラムと、本出願の実施例におけるコンピュータ記憶可能媒体の方法に対応するプログラム命令／モジュール（たとえば、図５に示される画像セグメンテーションモジュール５０１、点群生成モジュール５２及び姿勢予測モジュール５０３）などのモジュールとを記憶するために使用され得る。プロセッサ６０１は、メモリ６０２に記憶された非一時的なソフトウェアプログラム、命令及びモジュールを実行することにより、サーバの様々な機能適用及びデータ処理を実行し、すなわち、上記方法実施例におけるコンピュータ記憶可能媒体の方法を実現する。

メモリ６０２は、ストレージプログラム領域とストレージデータ領域とを含み得、ここで、ストレージプログラム領域は、操作システム、及び少なくとも１つの機能に必要なアプリケーションプログラムを記憶することができ、ストレージデータ領域は、コンピュータ記憶可能媒体の電子デバイスの使用によって作成されたデータなどを記憶することができる。また、メモリ６０２は、高速ランダムアクセスメモリを含み得、非一時的なメモリをさらに含み得、たとえば、少なくとも１つのディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスである。いくつかの実施例では、メモリ６０２は、任意選択的に、ネットワークを介してコンピュータ記憶可能媒体の電子デバイスに接続され得る、プロセッサ６０１から離れて配置されたメモリを含み得る。上記ネットワークの例は、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク及びそれらの組み合わせを含むが、これらに限定されない。

コンピュータ記憶可能媒体の方法を実現する電子デバイスは、入力装置６０３と出力装置６０４とをさらに含み得る。プロセッサ６０１、メモリ６０２、入力装置６０３及び出力装置６０４は、バス又は他の方法で接続することができ、図６では、バスを介して接続することを例とする。

入力装置６０３は、入力された数字又は文字情報を受信することができ、コンピュータ記憶可能媒体の電子デバイスのユーザ設定及び機能制御に関連するキー信号入力を生成することができ、たとえば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、指示杆、１つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置６０４は、ディスプレイデバイス、補助照明デバイス（たとえば、ＬＥＤ）及び触覚フィードバックデバイス（たとえば、振動モータ）などを含み得る。当該ディスプレイデバイスは、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、及びプラズマディスプレイを含み得るが、これらに限定されない。いくつかの実施形態では、ディスプレイデバイスは、タッチスクリーンであってもよい。

本明細書で説明されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせで実現することができる。これらの様々な実施形態は、１つ又は複数のコンピュータプログラムで実施されることを含み得、当該１つ又は複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステムで実行及び／又は解釈され得、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信し、データ及び命令を当該記憶システム、当該少なくとも１つの入力装置、及び当該少なくとも１つの出力装置に送信することができる。

これらの計算プログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる）は、プログラマブルプロセッサの機械命令を含み、高レベルのプロセス及び／又はオブジェクト指向プログラミング言語、及び／又はアセンブリ／機械言語で、これらの計算プログラムを実施することができる。本明細書に使用されるように、用語「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」は、機械命令及び／又はデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、デバイス、及び／又は装置（たとえば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））を指し、機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。用語「機械読み取り可能な信号」は、機械命令及び／又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。

ユーザとの対話を提供するために、コンピュータ上で、本明細書で説明されるシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置（たとえば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）、キーボード及びポインティングデバイス（たとえば、マウス又はトラックボール）を有し、ユーザは、当該キーボード及び当該ポインティングデバイスを介して入力をコンピュータに提供することができる。他の種類の装置は、ユーザとの対話を提供するために使用されることもでき、たとえば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック（たとえば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形式（音響入力、音声入力、又は触覚入力を含む）でユーザからの入力を受信することができる。

本明細書で説明されるシステム及び技術は、バックグラウンドコンポーネントを含む計算システム（たとえば、データサーバとして）、又はミドルウェアコンポーネントを含む計算システム（たとえば、アプリケーションサーバ）、又はフロントエンドコンポーネントを含む計算システム（たとえば、グラフィカルユーザインターフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインターフェース又は当該ウェブブラウザを介して、本明細書で説明されるシステム及び技術の実施形態と対話することができる）、又はこのようなバックグラウンドコンポーネント、ミドルウェアコンポーネント、又はフロントエンドコンポーネントの任意の組み合わせを含む計算システムで実施することができる。システムのコンポーネントは、任意の形式又は媒体のデジタルデータ通信（たとえば、通信ネットワーク）によって、相互に接続され得る。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）及びインターネットを含む。

コンピュータシステムは、クライアント及びサーバを含み得る。クライアント及びサーバは、一般に互いに離れており、通常に通信ネットワークを介して対話する。対応するコンピュータ上で実行され、互いにクライアント－サーバ関係を有するコンピュータプログラムによってクライアント及びサーバの関係が生成される。

本出願の実施例の技術的解決手段によれば、車両部位の先験データに基づいて、収集された車両の左視点画像及び右視点画像に対して部位予測及びマスクセグメンテーションを実行することにより、より正確なセグメンテーション結果を取得することができるため、車両姿勢予測の精度が向上する。

上記の様々な形式のフローを使用して、ステップを再ソート、追加、又は削除するできることが理解されるべきである。たとえば、本出願に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよく、本出願で開示されている技術的解決手段が所望の結果を実現することができる限り、本明細書はここで限定されない。

上記の特定の実施形態は、本出願の保護範囲に対する制限を構成するものではない。当業者は、設計要件及び他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション及び代替を行うことができることを理解すべきである。任意の本開示の精神と原則内で行われる修正、同等の置換、及び改善などはいずれも、本出願の保護範囲内に含まれるべきである。

Claims

車両左視点画像及び車両右視点画像を車両部位の先験データに基づいて構築された部位予測及びマスクセグメンテーションネットワークモデルに入力して、前記基準画像における前景画素点及び各前景画素点の部位座標を決定するステップであって、前記部位座標は、前記検出対象車両の座標系における前記前景画素点の位置を特徴付けるために使用され、前記基準画像は、前記車両左視点画像又は前記車両右視点画像であるステップと、
前記車両左視点画像と前記車両右視点画像との視差図、前記前景画素点の部位座標及び前記基準画像のカメラ内部パラメータに基づいて、前記基準画像における前記前景画素点の座標をカメラ座標系における前記前景画素点の座標に変換して、疑似点群を得るステップと、
前記疑似点群を事前訓練された姿勢予測モデルに入力して、前記検出対象車両の姿勢情報を得るステップと
を含んでなる、車両姿勢を検出するための方法。
前記車両左視点画像及び前記車両右視点画像は、
双眼カメラで収集された同じシナリオのシナリオ左視点画像及びシナリオ右視点画像から、前記検出対象車両の元の左視点画像及び元の右視点画像をそれぞれ抽出するステップと、
元の左視点画像及び元の右視点画像をそれぞれプリセットサイズにスケーリングして、車両左視点画像及び車両右視点画像を得るステップとで決定され、
前記車両左視点画像と前記車両右視点画像との視差図は、
前記シナリオ左視点画像の初期カメラ内部パラメータ、前記シナリオ右視点画像の初期カメラ内部パラメータ及びスケーリング係数に基づいて、前記車両左視点画像のカメラ内部パラメータと前記車両右視点画像のカメラ内部パラメータとをそれぞれ決定するステップと、
前記車両左視点画像のカメラ内部パラメータと前記車両右視点画像のカメラ内部パラメータとに基づいて、前記車両左視点画像と前記車両右視点画像との視差図を決定するステップとで決定される、請求項１に記載の方法。
前記部位予測及びマスクセグメンテーションネットワークモデルは、エンコーダ－デコーダのフレームワークを採用するモデルであり、
前記車両左視点画像及び前記車両右視点画像を車両部位の先験データに基づいて構築された部位予測及びマスクセグメンテーションネットワークモデルに入力して、前記基準画像における前景画素点及び各前景画素点の部位座標を決定することは、
前記車両左視点画像及び前記車両右視点画像を前記部位予測及びマスクセグメンテーションネットワークモデルにそれぞれ入力して、前記車両左視点画像の符号化特徴ベクトルと前記車両右視点画像の符号化特徴ベクトルとを得るステップと、
前記車両左視点画像の符号化特徴ベクトルと前記車両右視点画像の符号化特徴ベクトルとを融合して、融合された符号化特徴ベクトルを得るステップと、
前記融合された符号化特徴ベクトルをデコードして、前記基準画像における前景画素点及び各前景画素点の部位座標を得るステップと
を含む、請求項１又は２に記載の方法。
前記疑似点群を事前訓練された姿勢予測モデルに入力して、前記検出対象車両の姿勢情報を得ることは、
前記前景画素点の疑似点群座標及び部位座標に基づいて、前記検出対象車両のグローバル特徴ベクトルを決定するステップと、
前記疑似点群から事前設定された数の前景画素点をサンプリングするステップと、
前記事前設定された数の前景画素点の疑似点群座標、部位座標及び前記グローバル特徴ベクトルに基づいて、前記基準画像のカメラ外部パラメータを予測するステップと、
前記カメラ外部パラメータに基づいて、前記検出対象車両の姿勢情報を決定するステップと
を含む、請求項３に記載の方法。
前記融合された符号化特徴ベクトルを立体特徴ベクトルとして使用するステップと、
前記立体特徴ベクトル及び前記グローバル特徴ベクトルに基づいて、前記姿勢予測モデルの訓練をガイドするための３次元フィッティングスコアを得るステップと
をさらに含む、請求項４に記載の方法。
前記車両左視点画像と前記車両右視点画像との視差図と、前記前景画素点の部位座標と、前記基準画像のカメラ内部パラメータとに基づいて、前記基準画像における前記前景画素点の座標をカメラ座標系における前記前景画素点の座標に変換して、疑似点群を得ることは、
前記基準画像のカメラ内部パラメータと、前記車両左視点画像と前記車両右視点画像との視差図に基づいて、前記前景画素点の深度値を決定するステップと、
前記基準画像における前記前景画素点の座標及び前記深度値に基づいて、前記カメラ座標系における前記前景画素点の初期座標を得るステップと、
前記前景画素点の部位座標に基づいて、前記初期座標を更新して、前記前景画素点の疑似点群座標を得るステップと
を含む、請求項１～５のいずれか一項に記載の方法。
車両左視点画像及び車両右視点画像を車両部位の先験データに基づいて構築された部位予測及びマスクセグメンテーションネットワークモデルに入力して、前記基準画像における前景画素点及び各前景画素点の部位座標を決定するように構成されており、前記部位座標は、前記検出対象車両の座標系における前記前景画素点の位置を特徴付けるために使用され、前記基準画像は前記車両左視点画像又は前記車両右視点画像である、画像セグメンテーションモジュールと、
前記車両左視点画像と前記車両右視点画像との視差図、前記前景画素点の部位座標及び前記基準画像のカメラ内部パラメータに基づいて、前記基準画像における前記前景画素点の座標をカメラ座標系における前記前景画素点の座標に変換して、疑似点群を得るように構成されている点群生成モジュールと、
前記疑似点群を事前訓練された姿勢予測モデルに入力して、前記検出対象車両の姿勢情報を得るように構成されている姿勢予測モジュールと
を含んでなる、車両姿勢を検出するための装置。
双眼カメラで収集された同じシナリオのシナリオ左視点画像及びシナリオ右視点画像から、前記検出対象車両の元の左視点画像及び元の右視点画像をそれぞれ抽出し、元の左視点画像及び元の右視点画像をそれぞれプリセットサイズにスケーリングして、車両左視点画像及び車両右視点画像を得ることで前記車両左視点画像及び前記車両右視点画像を決定するように構成されている画像スケーリングモジュールと、
前記シナリオ左視点画像の初期カメラ内部パラメータ、前記シナリオ右視点画像の初期カメラ内部パラメータ及びスケーリング係数に基づいて、前記車両左視点画像のカメラ内部パラメータと前記車両右視点画像のカメラ内部パラメータとをそれぞれ決定し、前記車両左視点画像のカメラ内部パラメータと前記車両右視点画像のカメラ内部パラメータとに基づいて、前記車両左視点画像と前記車両右視点画像との視差図を決定することで前記車両左視点画像と前記車両右視点画像との視差図を決定するように構成されている視差図生成モジュールと
をさらに含む、請求項７に記載の装置。
前記部位予測及びマスクセグメンテーションネットワークモデルは、エンコーダ－デコーダのフレームワークを採用するモデルであり、
前記画像セグメンテーションモジュールは、
前記車両左視点画像及び前記車両右視点画像を前記部位予測及びマスクセグメンテーションネットワークモデルにそれぞれ入力して、前記車両左視点画像の符号化特徴ベクトルと前記車両右視点画像の符号化特徴ベクトルとを得て、
前記車両左視点画像の符号化特徴ベクトルと前記車両右視点画像の符号化特徴ベクトルとを融合して、融合された符号化特徴ベクトルを得て、
前記融合された符号化特徴ベクトルをデコードして、前記基準画像における前景画素点及び各前景画素点の部位座標を得るようにさらに構成されている、請求項７又は８に記載の装置。
前記姿勢予測モジュールは、
前記前景画素点の疑似点群座標及び部位座標に基づいて、前記検出対象車両のグローバル特徴ベクトルを決定し、
前記疑似点群から事前設定された数の前景画素点をサンプリングし、
前記事前設定された数の前景画素点の疑似点群座標、部位座標及び前記グローバル特徴ベクトルに基づいて、前記基準画像のカメラ外部パラメータを予測し、
前記カメラ外部パラメータに基づいて、前記検出対象車両の姿勢情報を決定するようにさらに構成されている、請求項９に記載の装置。
前記融合された符号化特徴ベクトルを立体特徴ベクトルとして使用し、
前記立体特徴ベクトルと前記グローバル特徴ベクトルに基づいて、前記姿勢予測モデルの訓練をガイドするための３次元フィッティングスコアを得るように構成されているモデル訓練モジュールをさらに含む、請求項１０に記載の装置。
前記点群生成モジュールは、
前記基準画像のカメラ内部パラメータと、前記車両左視点画像と前記車両右視点画像との視差図に基づいて、前記前景画素点の深度値を決定し、
前記基準画像における前記前景画素点の座標及び前記深度値に基づいて、前記カメラ座標系における前記前景画素点の初期座標を得て、
前記前景画素点の部位座標に基づいて、前記初期座標を更新して、前記前景画素点の疑似点群座標を得るようにさらに構成されている、請求項７～１１のいずれか一項に記載の装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信可能に接続されるメモリと
を備えてなり、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶されており、前記命令が前記少なくとも１つのプロセッサによって実行されると、前記少なくとも１つのプロセッサに、請求項１～６のいずれか一項に記載の方法を実行させることを特徴とする電子デバイス。
コンピュータ命令が記憶された非一時的なコンピュータ可読記憶媒体であって、
前記コンピュータ命令は、請求項１～６のいずれか一項に記載の方法を前記コンピュータに実行させるために使用されることを特徴とする、非一時的なコンピュータ可読記憶媒体。