JP6186072B2 - 単一カメラを用いた3dでの移動物体の位置測定 - Google Patents

単一カメラを用いた3dでの移動物体の位置測定 Download PDF

Info

Publication number
JP6186072B2
JP6186072B2 JP2016504398A JP2016504398A JP6186072B2 JP 6186072 B2 JP6186072 B2 JP 6186072B2 JP 2016504398 A JP2016504398 A JP 2016504398A JP 2016504398 A JP2016504398 A JP 2016504398A JP 6186072 B2 JP6186072 B2 JP 6186072B2
Authority
JP
Japan
Prior art keywords
framework
observed
sfm
ground surface
covariance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016504398A
Other languages
English (en)
Other versions
JP2016516249A (ja
Inventor
マンモハン・チャンドレイカー
シユー・ソン
ユアンチン・リン
シャオユー・ワン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Laboratories America Inc
Original Assignee
NEC Laboratories America Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US14/184,766 external-priority patent/US9070202B2/en
Application filed by NEC Laboratories America Inc filed Critical NEC Laboratories America Inc
Publication of JP2016516249A publication Critical patent/JP2016516249A/ja
Application granted granted Critical
Publication of JP6186072B2 publication Critical patent/JP6186072B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Length Measuring Devices By Optical Means (AREA)
  • Image Analysis (AREA)

Description

本発明は、単眼SFM及び移動物体の位置測定に関する。
ステレオベースのSFMシステムは、現在、屋内及び屋外の両環境でリアルタイム性能を日常的に実現する。いくつかの単眼システムはまた、より小さなデスクトップ環境又は室内環境で良好な性能を実証してきた。成果を挙げた自律ナビゲーション用大規模単眼システムは、主にスケールドリフトの課題により、あまり現存していない。大規模単眼システムは、ループ閉合によってスケールドリフトを処理する。ループ閉合から遅延したスケール補正は、マップビルディングには望ましいが、自律運転のオプションではない。PTAMのような平行単眼アーキテクチャは、小作業領域用の洗練された解決策である。ただし、PTAMは既存の点分布を使用してエピポーラ検索範囲を制限する。これは、高速移動車両には望ましくない。これは、データ結合の改善及び束調整のために既知の領域を探索するときにマッピングスレッドの空き時間を使用するが、シーン見直しは自律運転において実行可能ではない。他のシステムは、連続したフレーム間の相対的な姿勢を計算する。ただし、2ビューの推定は、狭いベースラインの前進運動に対して高い並進誤差の原因となる。
単眼SFM及びシーン理解は、より低いコスト及び較正要件のため魅力的である。ただし、固定したステレオベースラインの不足は、スケールドリフトの原因となり、これは単眼SFMがステレオと同等の精度を実現することを妨げる主要な障害である。スケールドリフトに対応するには、予備知識を使用する必要があり、その一般的な方法は地表面上の既知のカメラの高さである。したがって、地表面のロバストかつ高精度の推定は、単眼のシーン理解において良好な性能を得るために、きわめて重要である。ただし、実世界の自律運転では、地表面は急速移動、ざらつきが少ない道路表面に対応し、画像データの検証からその推定を作成する。
一態様では、実世界の自律運転のための視覚に基づく、リアルタイムの単眼の運動からの構造復元(SFM)及び3Dの移動物体の位置測定が開示される。
別の態様では、単一カメラのみを使用する自律運転用のコンピュータ視覚システムは、
(i)地表面推定による物体検知及び単眼の運動からの構造復元(SFM)を利用する3Dでの移動物体の位置測定のためのリアルタイムフレームワークと、
(ii)移動する車の特徴点を追跡し、それらを3D方向推定に使用するリアルタイムフレームワークと、
(iii)疎な特徴と密なステレオ視覚データからのキューを結合する地表面推定を用いてスケールドリフトを修正する機構と、を含む。
更に別の態様では、単一カメラのみによる自律運転の方法は、地表面推定による物体検知及び単眼の運動からの構造復元(SFM)を利用するリアルタイムフレームワークによる3Dでの移動物体の位置測定と、リアルタイムフレームワークによる移動する車の特徴点の追跡及び3D方向推定への特徴点の使用と、疎な特徴と密なステレオ視覚データからのキューを結合する地表面推定を用いてスケールドリフトを補正することと、を含む。
システムの利点は、以下の1つ以上を含み得る。システムは、ロバストな単眼SFMを高精度で提供し、現在の最良のステレオシステムに近い回転精度及び他の単眼アーキテクチャをはるかに超える並進精度を実現する。疎な特徴及び密なステレオからのキューを結合する地表面推定を用いたスケールドリフト補正によって高い性能を実現する。キュー結合のためのデータ駆動型機構は、トレーニングデータからモデルを学習し、各キューに対する観測共分散を基になる変数の誤差分散に関連付ける。これは、視覚データから推測される相対信頼度に基づいた観測共分散のフレーム毎調節を可能にする。3Dでの移動物体の位置測定のフレームワークは、正確な地表面を通って、物体検知及びSFMの共通の利点を利用することにより高精度を実現する。SFMキュー及び地表面推定の結合は、3D位置測定フレームワークの性能を大幅に改善することができる。
単一カメラのみを使用する自律運転のための例示のコンピュータ視覚方法を示す。 物体検知プロセスの例示の選択的コンテキストモデリングを示す。 図1Aの一実施形態の動作を示す。 図1Aのシステムと連携する例示のコンピュータを示す。
図1Aは、単一カメラのみを使用する自律運転のための例示のコンピュータ視覚システムを示す。単一カメラのみによる自律運転の方法は、地表面推定(20)による物体検知及び単眼の運動からの構造復元(SFM)を利用するリアルタイムフレームワークによる3Dでの移動物体の位置測定と、リアルタイムフレームワークによる移動する車の特徴点の追跡及び3D方向推定(30)への特徴点の使用と、疎な特徴と密なステレオ視覚データ(40)からのキューを結合する地表面推定を用いてスケールドリフトを補正することと、を含む。
システムの高い性能は、疎な特徴及び密なステレオからのキューを結合する地表面推定を用いたスケールドリフト補正によるものである。キュー結合のためのデータ駆動型機構は、トレーニングデータからモデルを学習し、各キューに対する観測共分散を基になる変数の誤差挙動に関連付ける。試験の間、これは、視覚データから推測される相対信頼度に基づいた観測共分散のフレーム毎調節を可能にする。3Dでの移動物体の位置測定のフレームワークは、正確な地表面を通って、2D物体境界ボックス及びSFMの共通の利点を利用することにより高精度を実現する。
図1Bは、物体検知プロセスの例示の選択的コンテキストモデリングを示す。コンテキスト情報は、限定するものではないが、他の検知器からの反応、画像分類からの反応、又は背景からの外観を含む物体検知アルゴリズムで主に使用される。発明者らの提案は、効率的な背景コンテキストの学習の問題に対処する。全ての物体背景が物体検知に役立つとは限らない。有効な背景コンテキストを判定するために、本発明者らは背景領域のセットを提案する。ブースティング学習プロセスを用いてこれらの領域を探索し、最も特徴的なものを選択する。
図1Bに示すように、本発明者らの目的はオートバイを検出することである。背景コンテキストを組み込むために、物体境界ボックスを越えた拡張領域、即ち、ピンクの領域を使用する。本発明者らは、ピンクの物体背景から無作為に3000個の部分領域を選択する。これらの部分領域から抽出された特徴は、不得意な学習者の入力としてブースティングプロセスに送られる。最も特徴的なもの、即ち、物体検知の精度に最も役立つ部分領域が選択され、最終的なブースティング分類器に拡大される。本発明者らのアプローチは、PASCAL VOC 2007データセットにおいて物体検知平均精度を2%上げる。
本発明者らのシステムは、実世界の自律屋外運転アプリケーションを可能にする、包括的で正確なロバストの、かつリアルタイムに大規模な単眼の運動からの構造復元(SFM)システムを提供する。本発明者らのシステムは、大きな動きの処理及び高速移動車両の結像の迅速な変更を可能にする、運動からの構造復元のための新しいマルチスレッドアーキテクチャに頼る。システムの設計上のハイライトとして、長軌道上の特徴照合を広範囲にわたり確認する平行なエピポーラ検索及び低コストでの組み込みを可能にする新しいキーフレームアーキテクチャが挙げられる。これにより本発明者らは、平均30fpsでのシステムのロバスト操作で、出力がフレーム毎に50ms以内に保証されるという、自律運転の主要な要件を満たすことができる。単眼SFMのスケールの曖昧さを解決するために、本発明者らはフレーム毎に地表面の高さを推定する。地表面推定のキューは、三角測量された3Dの点及び平面によって誘導される密なステレオ照合を含む。これらのキューは、本発明者らが正しい経験的な共分散で動作するように厳密にトレーニングする、柔軟なカルマンフィルタ処理フレームワークで結合される。本発明者らは、難しいKITTIデータセットから50km近くの実世界の駆動シーケンスで広範囲にわたる確認を実行して、大規模スケールのリアルタイム単眼システムで現在までの最高精度である0.01°/フレーム回転及び4%の並進誤差を得ている。
システムの効果として、以下が挙げられる。
ステレオに匹敵する性能を実現する高精度リアルタイム単眼SFM。
フレーム毎の観測共分散を正しく重みづけするために、学習したモデルを用いた地表面推定の複数のキューを最適に結合することによるスケールドリフト補正。
近視野及び遠視野の両方で正確な位置測定を実現するために、地表面を通って検知と単眼SFMを結合する3D物体位置測定フレームワーク。
図2は、図1Aの一実施形態の動作を示す。最上部行で、本発明者らの単眼SFMは、実世界の運転の数キロメートル上でグランドトルースに近いカメラ軌道を得る。KITTIデータセットにおいて、本発明者らは、ステレオにも匹敵し、他の単眼SFMシステムよりはるかに低い並進誤差で、ローテーション中のほとんどのステレオシステムより優れている。新しい適応地表面推定を用いたスケールドリフト補正は、そのような精度及びロバスト性を可能にする。最下部行で、本発明者らは、SFMを2D物体境界ボックスと結合して、適応地表推定から利益を誘導する3D移動物体位置測定フレームワークを実証する。シアンは2D境界ボックスを示し、緑は推定した地表面からの地平線であり、赤は、マゼンタの距離と共に遠方及び近傍の物体の推定した3D位置測定を示す。
システムは、複数の方法の地表面推定からキューを組み込み、第2にそれらを、広範囲にわたるトレーニングデータから学習したモデルを用いて、フレーム毎の相対信頼度を説明する原理的なフレームワークに結合する。
キューを結合するために、システムは、フレーム毎に融合観測共分散を適合させるカルマンフィルタを使用して相対的不確実性を反映する。これは、一実施形態においてKITTIデータセットからの20000超のフレームでのトレーニング手順によって実現され、それによってそれぞれ基になる変数の誤差配分に応じた分散に対する各キューの観測共分散に関連するモデルが学習される。高精度の地表面は、3Dでの移動剛性物体(車)の単一カメラ位置測定などのシーン理解アプリケーションに即時の効果を有する。新しい位置測定フレームワークは地表面を通って、物体境界ボックスからの情報とSFM特徴追跡を結合する。直観的に、SFMは、近くの物体での正確な特徴照合を可能にすることができるが、遠くの物体の低解像度によって弱点を有する。他方では、物体検知又は外観ベースの追跡からの境界ボックスは、遠距離の物体に対して得られるが、しばしば近視野の3Dシーンと一致しない。したがって、SFM及び検知は、互いの欠点を相互に打ち消すことができる。適応地表面を通ってSFM及び検知を結合することによって、システムは、近傍及び遠方の両方の物体について3D位置測定を著しく改善する。本発明者らのキュー結合の効果は、より包括的な単眼シーン理解フレームワークでも使用可能である。
システムは、複数の方法の地表面推定からキューを組み込み、第2にそれらを、広範囲にわたるトレーニングデータから学習したモデルを用いて、フレーム毎の相対信頼度を説明する原理的なフレームワークに結合する。キューを結合するために、カルマンフィルタフレームワークは、フレーム毎に融合観測共分散を適合させて、各キューの相対的不確実性を反映する。これは、KITTIデータセットからの20000超のフレームでのトレーニング手順によって実現され、それによってその基になる変数の誤差挙動に対する各キューの観測共分散に関連するモデルが学習される。本発明者らの知っている限りでは、キュー結合の観測共分散のそのような適応的推定は、新しい。
高精度の地表面は、3Dでの移動剛性物体(車)の単一カメラ位置測定などのシーン理解アプリケーションに即時の効果を有する。それを実証するために、位置測定フレームワークは、地表面を通って、物体境界ボックスからの情報とSFM特徴追跡を結合する。直観的に、SFMは、近くの物体での正確な特徴照合を可能にすることができるが、遠くの物体の低解像度による弱点を有する。他方では、物体検知又は外観ベースの追跡からの境界ボックスは、遠距離の物体に対して得られるが、しばしば近視野の3Dシーンと一致しない。更に、単眼SFMにおける各単独の移動物体は、最善の状態で未知のスケール係数まで推定され得る。2D境界ボックスと正確な地表面との接触は、このスケールを決定するキューを提供する。
適応地表面を通したSFMと物体境界ボックスの結合は、近傍及び遠方の物体の両方に対して3D位置測定を著しく改善する。本発明者らのキュー結合の効果は、より包括的な単眼シーン理解フレームワークでも使用可能である。
ビジュアルオドメトリは、本質的に順次処理である。特に自律ナビゲーションでは、屋内のアプリケーション又はデスクトップアプリケーションと対照的に、同じシーン構造を繰り返し見る可能性が高い。可視視野における点の急速な変化について、束調整は、PTAMの遮断機構でではなくフレーム毎である必要があり、そうでなければ微細な点が使用可能になるまでに、それ以上有用ではない。したがって、マルチスレッドシステムの設計は、精度と待ち時間との間の微妙なバランスの実現を必要とする。
本発明者らのマルチスレッドアーキテクチャは、所望するだけ多くのスレッドへの洗練された拡張を可能にする。明らかな速度の利点の他に、マルチスレッドはまた、システムの精度及びロバスト性にも大きく寄与する。例として、本発明者らのエピポーラ拘束(contrained)検索を検討する。2D−3D対応に依存するシステムのシングルスレッドバージョンは、キーフレームより前のフレームでエピポーラ検索を実行することによって、安定点の集合を更新し得る。ただし、この機構によって導入される3D点のサポートは、サーキュラー整合及び三角測量に使用されるトリプレットだけに限定される。エピポーラ検索を別個のスレッドに移動し、全てのフレームでサーキュラー整合を実行することによって、本発明者らは、3D点に最大で先のキーフレームからの距離の長さの軌跡を与えることができる。明らかに、マルチスレッドシステム内のエピポーラスレッドによって提供される長い軌跡の集合は、外れ値を有さない可能性が極めて高い。
自律運転アプリケーションで視野外にシーン点が急速に移動するのに対処するため、姿勢推定に使用可能な候補点の集合は、専用のスレッドで常に更新される。大体の消失点推定を用いて高速に処理するためにエピポーラ更新を拡張する。位置(x,y)における直近のキーフレームの全ての特徴fに対し、カメラ速度に比例した辺長の、フレームn内の(x+Δx,y+Δy)を中心とした正方形を検討する。変位(Δx,Δy)は、消失点からの(x,y)の距離に基づき計算される。(Δx,Δy)の推定は、差異範囲が近視野と遠視野との間で大きく変更する場合がある高速のハイウェイシーケンスに役立つ。
スライディングウィンドウの束調整は、並列スレッドでエピポーラ検索と動作する。キーフレームはより大きな改良をもたらすために追加される。小さな運動の間に、キーフレームの追加を妨げ、前のキーフレームが束キャッシュに確実に含まれるようにすることによって結果は向上する。これは、ほぼ静止した状態に対する改善された姿勢推定を生じさせる。改良後、システムはまた、ぼやけ又は鏡面性のようなアーチファクトのために一時的に失われた3D点を再度見つける機会を与えられる。一般的に利用可能なSBAパッケージ[?]は、束調整に使用される。
スケールドリフトは、地表からのカメラの較正した高さ、
を用いて補正される。hを地表面の推定した高さとし、次にカメラの姿勢をスケール係数
によって調整し、続いて束調整を行う。セクション(Sec.)5では、高精度hを得るキュー結合に対する新しいアプローチを説明する。
様々な方法から推定を結合するために、システムは、カルマンフィルタを使用する。その状態発展のモデルは、次式であり、
ここで、xは状態変数であり、zは観測値であり、同時にQ及びUは、それぞれプロセスと観測ノイズの共分散であり、それらをゼロ平均の多変量正規分布とする。方法j=1,...,mが、それぞれその観測共分散Uと共に地表面の推定に使用されるとする。次に
を用いると、時刻kでの融合方程式は、次式となる。
全てのフレームでのUの、各キューに対する正確な比率
を用いた有意の推定は、原理的なキュー結合に必要である。伝統的に、固定共分散(fixed covariances)は、キューを結合するのに使用され、ビデオシーケンスにわたって各キューの有効性におけるフレーム毎の変動を説明しない。厳密なデータ駆動型モジュールは、基になる変数の誤差配分に基づき、各キューに対するフレーム毎の共分散に適合するモデルを学習する。
スケールドリフト補正は、単眼SFMの不可欠な構成要素である。実際には、精度を確保する、単一の最も重要な態様である。本発明者らは、スケール補正用カメラに対して地表面の奥行及び向きを推定する。
本発明者らは、特徴照合の三角測量及び密なステレオのような複数の方法を使用して地表面を推定する。システムは、これらのキューを結合して、本発明者らの確率を各キューの相対精度に反映させる。当然、この確率は、特定のフレームにおける入力及びトレーニングデータからの観測の両方から影響を受けるはずである。本発明者らは、基になる変数の誤差挙動に対する各キューの観測共分散に関連する広範囲に及ぶトレーニングデータからの学習モデルによってこれを得る。試験中、全てのフレームにおける誤差配分は、それらの学習されたモデルを用いてデータ融合観測共分散を適応させる。
平面によって誘導される密なステレオを次に詳述する。本発明者らは前景の領域(画像の下部3分の1の中部5分の1)が道路平面であると仮定する。(h,n)の仮定された値に対して、ステレオ費用関数の計算は、フレームkとk+1との間のホモグラフィーマッピングを
と決定し、ここで(R,T)は、単眼SFMからの相対姿勢である。tは、スケールドリフトの係数による正確な並進と異なり、本発明者らが推定しようとするhで符号化されることに注意されたい。フレームk+1内のピクセルは、フレームkにマッピングされ(サブピクセル精度は、良好な性能のために重要である)、誤差絶対値和(SAD)が二線補間された画像強度にわたって計算される。Nelder−Meadシンプレックスルーチンを使用して、この費用関数を最小にする(h,n)を推定する。最適化は、3つの変数h、n、及びnだけを必要とすることに注意されたい(PnP=1であるため)。実際には、図1に示すように最適化コスト関数は通常明確な極小を有する。最適化は、平均で10ms/フレームを必要とする。
次に三角測量された3D点を見ると、本発明者らは、上記関心領域内で計算される、フレームkとk+1との間の照合したSIFT記述子を検討する(ORB記述子は、道路の低い質感に対して力不足であることがわかり、リアルタイム性能はこの小さな領域でSIFTに関して達成可能である)。三角測量された3D点を通して平面を合わせるために、1つのオプションは平面を合わせるために3点RANSAC(3−point RANSAC)を用いて(h,n)を推定することであるが、本発明者らの経験ではより良好な結果は、カメラピッチを較正から固定されるものと仮定することによって[?]の方法を用いて得られる。全ての三角測量された3D点iに対し、高さの差
が全ての他の点jに関して計算される。推定された地表面の高さは、次式で示される最大スコアqに対応するiの高さである。
他のシステムでは、フレーム間のホモグラフィーマッピングGを分解してカメラの高さを得ることができる。ただし実際には、分解は、ノイズに非常に敏感であり、ホモグラフィーはざらつきが少ない道路表面からの特徴照合(feature maches)を用いて計算されるため、これは深刻な問題である。本発明者らは、ホモグラフィー分解及び3D点のキューの両方が特徴照合の同じ集合に依存するため、ホモグラフィー分解が3D点のキューより良好に実行することは期待できないことにも注意する。更に、道路領域がホモグラフィーによってマッピングされ得ることは、本発明者らの平面によって誘導される密なステレオによって既に利用されている。
キュー結合用のデータ駆動型学習を次に詳述する。上記の2つの方法によって提供される地表面のキューは、事前作業と著しく異なるカルマンフィルタフレームワークに結合される。各キューの相対的な強度における瞬間的な変動を説明するために、各キューの相対的有効性の確率に応じて観測共分散を適応させるモデルを学習するトレーニング機構を使用する。
本発明者らの実験のトレーニングデータは、KITTIデータセットのシーケンス0〜10のF=23201フレームからなり、Velodyne奥行センサー情報が含まれる。グランドトルースh及びnを決定するために、本発明者らは道路である、カメラに近い像の領域にラベルをつけ、平面を関連した3D点に合わせる(試験中に使用可能、又は使用されるラベル情報はない)。
(1)の状態変数は、単に地表面の方程式であり、したがって、x=(n,h)である。||n||=1であるため、nは、n及びnによって決定され、観測値はz=(n,n,h)である。したがって、本発明者らの状態遷移行列及び観測モデルは次式によって与えられる。
密なステレオ
本発明者らは状態変数が相関しない近似値を作成する。トレーニングイメージのために、
を密なステレオ方式によって推定された地表面とする。まず、範囲
内のhの50個の均一なサンプルについて
を固定し、フレームk〜k+1の
によって与えられるホモグラフィーマッピングを構成する。各ホモグラフィーマッピングに対して、二線補間された画像強度を用いて道路領域に対応するSADスコアを計算し、値s=1−ρ−SAD(ここでρ=1.5)を検討する。ここで単変量ガウス分布を、分散
がSAD分布のシャープネスを得るsの分布に合わせ、フレームkで密なステレオ方式から推定された高さhの精度に確率を反映する。同様の手順は、方向変数に対応する分散
をもたらす。
各フレームkに対して、
をグランドトルースに対して密なステレオ単独から推定された地表面の高さにおける誤差とする。次に、分散
にわたりB=1000ビンである
のヒストグラムを検討する。ビンの中心を
の密度に一致するように位置付けている(即ち、各ビン内においてF/B誤差観測結果を大まかに分配する)。各ビンb=1,...,B内において誤差es,hに対応する分散σs,h’を計算し、これは観測分散である。次に、本発明者らはσs,h’対σs,hの分布に曲線を合わせ、これは密なステレオの有効性に対してhにおける観測分散に関する学習されたモデルを提供する。経験的に、本発明者らは、直線が良好な適合を十分にもたらすことを観察している。同様のプロセスが、n及びnについて繰り返される。
三角測量された3D点を使用する方法の共分散推定は、法線nがカメラピッチから既知と考えられ、高さhだけが推定されたエンティティであるため、ステレオ方式とは異なる。トレーニングの間、
を、3D点を単独で用いてフレームkで推定された地表面の高さとする。
に対し、本発明者らは、グランドトルースに関する高さ誤差
及び(3)に定義されるqの合計を計算する。qは、3D点から推定された高さの精度に確率を反映することに注意されたい。密なステレオ同様に、ヒストグラムは、B=1000ビンで計算され、約F/Bの
の観測結果は、qを中心とし、q=,...,Bについて各ビンで記録される。KITTIデータセット用のヒストグラムは、図4に示される。
をビンbの分散とする。次に、本発明者らは、データ点
を通って適合する直線を計算し、これは、3D点キューの期待された有効性に対してhにおける観測共分散に関する学習されたモデルである。
n1及びnは、このキューについて固定であると考えられるため、固定分散推定
が、グランドトルースに関するn及びnにおける誤差の分散として計算される。
試験時間の間、フレームjにおける密なステレオキューについて、本発明者らは再度1Dガウス分布をホモグラフィーマッピングされたSADスコアに合わせて、
の値を得る。line−fitパラメータを用いて、本発明者らは
の対応値を予測する。密なステレオ方式の観測共分散は、ここで
として使用可能である。
フレームjにおける3D点キューについて、qの値が計算され、対応する
が図4の線フィットから推定される。この方式の観測共分散は、ここで
として使用可能である。
最後に、フレームjの適応共分散、Uは、(2)に従って
を結合することによって計算される。
3Dにおける移動物体の位置測定について、SFM及び2D物体境界ボックスは、シーン理解のための本質的に相補的なキューを提供する。SFMは、近くの物体に対し信頼できる追跡をもたらすが、遠視野の低解像度によって弱点を有する。他方では、検知又は追跡境界ボックスは、遠くの物体に対し3Dシーンと一致する傾向があるが、遠近法の課題のために近くのシーンで不正確に整合される場合がある。このセクションでは、本発明者らは正確な地表面を通してSFMと2D物体境界ボックスを結合するフレームワークを使用して、3Dにおいて近傍及び遠方の両方の物体を位置測定する。
正規軸(α,β,γ)を有するカメラ座標系C及び軸(α,β,γ)を有する物体座標Oを検討する。物体の背面が地表と交差する線分の中心に対応する、カメラ座標における物体座標の原点をc=(x,y,zとする。物体が地表面に横たわり、ヨー角ψで面内に回転自在であると仮定する。次に、物体の姿勢をΩ=(x,y,ψ,θ,φ,h)として定義し、そこで地表面を(n,h)=(cosθcosφ,cosθsinφ,sinθ,h)Tとしてパラメータ化する。座標系は、図1で可視化される。
N=[nα,nβ,nγ]を定義し、ここでnγ=(−n,n,−n、nβ=−n、及びnα=nβ×nγである。次に、物体からカメラ座標への転換は、次式と共に
によって与えられ、
ここでωψ=(0,ψ,0)及び[・]は、外積行列である。
次に、位置測定の合同最適化を詳述する。3Dにおいて物体を位置測定するために、M個のフレームのウィンドウにわたってSFM費用及び物体費用の加重和を最小化する。
SFM費用を決定するために、物体上のN個の特徴をフレームk=1,...,Mで、物体座標の3D位置がX=[x,...,x]によって与えられた状態で追跡されるものとする。フレームkにおける点xの投影
は、次の均質関係により与えられる。
次に、
が観測投影である場合、特徴追跡に対するSFM再投影誤差は、次式として定義することができる。
SFM単独で解決することができないCに関するOの原点に全体的な曖昧さが存在することに注意されたい。これを解決するには、物体境界ボックスからの入力を必要とする。
物体費用:(推定しようとする)物体の3D境界ボックスの寸法をα,β,γ軸に沿ってlα,lβ,lγとする。次に、3D境界ボックスの頂点の位置を物体座標で
とする。フレームkにおける3D頂点vの画像投影
は、次式である。
ここで
は、均一のスケール係数である。次式を
フレームkにおける境界ボックスの投影したエッジと定義する。次に、
がj=1,...,4に対して、境界ボックスの観測エッジである場合、「物体」再投影誤差を計算することができる。
合同最適化。物体の姿勢は、
として、γ及びαに沿った境界ボックスサイズの比をηにするように促す事前と共に計算される。この正則化の実際的な理由は、カメラの運動が大きく前進し、シーン内の大部分の他の自動車が同様に配向されていることであり、したがってγに沿った位置測定の不確実性がより高くなることが期待される。KITTIデータセットのグランドトルース3D境界ボックスでトレーニングすることによって、本発明者らはη=2.5をセットする。v及びδの値は経験的に、本発明者らの全ての実験にわたりそれぞれ100及び1にセットされる。
本発明者らは、E及びEの相補的な性質に留意する。SFMの項は、物体の向きを誘導するが、境界ボックスはサイズを解決し、物体の原点を固定する。(10)の最適化は、疎なLevenberg−Marquardtアルゴリズムを用いて解決することができ、したがってリアルタイム単眼SFMを照合するのに十分な速さである。
上に定義したように局所的最小化フレームワークの成功は、良好な初期化次第である。本発明者らは、変数を初期化するために、再度正確な地表面推定に加えて2D境界ボックス及びSFMの両方からのキューに依存する。
物体境界ボックスは、物体運動がしばしば互いに関係する運転シーンにおける運動分割の問題を回避する。それらはまた、各物体に対する独立した特徴追跡を可能にする。物点について、3Dの追跡は、上述のように同様のフレームワークを用いて推定される。剛体の運動は、境界ボックス内の非物点を外れ値として廃棄するためにPnP検証を可能にする。特徴追跡のためのウィンドウサイズを、通常遠くの物体はより小さな差異シグネチャを有するため、大まかな奥行推定に反比例するようにセットする。したがって、正確な地表面推定はまた、特徴追跡を安定させるために有用であると証明する。
物体スケールの曖昧さ(単眼SFMのスケールの曖昧さと異なる)を解決するために、本発明者らはΩ,...,Ωで推定された平均のhとして
を計算する。次にスケール係数は、
であり、ここで
は地表面の既知の高さである。物体の姿勢の長さ変数は、fx、fz、及びfhに更新され、(10)と同様の別の非線形の改良が続く。
本発明者らは、実世界の自律運転における優れた精度を達成するリアルタイム単眼SFM及び3D物体位置測定システムについて述べてきた。本発明者らの単眼SFMが、ステレオとほとんど同様に実行することは、スケールドリフトのロバスト補正に起因している。本発明者らは、事前作業で使用される従来の予備の特徴の他に、密なステレオのようなキューを含むことは有利であると実証してきた。このキュー結合は、トレーニングデータの事前知識によって通知される必要があり、加えてフレーム毎の相対信頼度、広範囲に及ぶ実験で確立される利益を反映する必要がある。SFMの他に、正確に推定された地表面もまた、3Dにおける移動物体の位置測定のようなアプリケーションを可能にする。本発明者らの単純な位置測定システムは、正確な地表面を通じて物体境界ボックスとSFM特徴追跡を結合して、現実の運転シーケンスで移動する車の高精度の3D位置を得る。
将来の作業で、物体検知又は追跡のより深い統合は、境界ボックスのスコアを高さ誤差にマッピングするセクション5のトレーニング手順を拡張することができ、したがって、(10)における物体の項はまた相対信頼度によって加重されてもよい。位置測定は、検出又は外観ベースの追跡を援助する後処理(偽陽性を削除するような)として現在使用されるが、より早い段階での3Dキューの組み込みにより、より大きな利益を得ることができる。
発明をハードウェア、ファームウェア、若しくはソフトウェア、又は3つの組み合わせに実装してもよい。好ましくは、発明をプロセッサ、データ格納システム、揮発性及び不揮発性メモリ並びに/又は格納要素、少なくとも1つの入力装置及び少なくとも1つの出力装置を有するプログラム可能なコンピュータで実行されるコンピュータプログラムに実装する。
例として、システムをサポートするコンピュータのブロック図が、図3に議論される。コンピュータは、好ましくはプロセッサ、ランダムアクセスメモリ(RAM)、プログラムメモリ(好ましくは、フラッシュROMのような書き込み可能な読み出し専用メモリ(ROM))、及びCPUバスによって接続された入力/出力(I/O)コントローラを含む。コンピュータは、ハードディスク及びCPUバスに連結されるハードドライブコントローラを任意追加的に含んでもよい。ハードディスクは、本発明、及びデータなどアプリケーションプログラムを格納するために使用されてもよい。あるいは、アプリケーションプログラムをRAM又はROMに格納してもよい。I/Oコントローラは、I/Oバスを用いてI/Oインタフェースに接続される。I/Oインタフェースは、アナログ又はデジタル形式のデータをシリアルリンク、企業内情報通信網、無線リンク、及びパラレルリンクのような通信リンク上で受信し送信する。任意追加的に、ディスプレー、キーボード、及びポインティング装置(マウス)もI/Oバスに接続されてもよい。あるいは、I/Oインタフェース、ディスプレー、キーボード、及びポインティング装置に別個の接続(別個のバス)を使用してもよい。プログラム可能な処理システムを前もってプログラムしてもよいか、又はプログラムを別のソース(例えば、フロッピー(登録商標)ディスク、読み出し専用コンパクトディスク、又は別のコンピュータ)からダウンロードすることによってプログラム(及び再プログラム)してもよい。
各コンピュータプログラムは、本明細書に説明した手順を実行するコンピュータによって記憶媒体又は装置が読み取られる際、コンピュータを構成及び制御する操作のために、一般的又は特別の目的のプログラム可能なコンピュータにより読み取り可能な機械可読記憶媒体又は装置(例えば、プログラムメモリ又は磁気ディスク)に目に見える方法で格納される。発明のシステムはまた、コンピュータプログラムと共に構成されたコンピュータ可読記憶媒体に具体化されると考えられてもよく、そのように構成された記憶媒体は、本明細書に説明した機能を実行する具体的なかつ既定の方法でコンピュータを動作させる。
発明は本明細書で、特許法に従うため、新しい原理を適用するために必要な情報を当業者に提供するため、要求されるような特殊化されたコンポーネントを構成及び使用するために、かなり詳細に説明されてきた。ただし、発明は、具体的に異なる機器及び装置によって実行することができること、並びに機器詳細及び動作手順に関する様々な修正を発明自体の範囲から逸脱することなく達成できることは、理解されるべきである。

Claims (15)

  1. 単一カメラのみを使用する自律運転のためのコンピュータ視覚方法であって、
    地表面推定による物体検知及び単眼の運動からの構造復元(SFM)を利用するリアルタイムフレームワークによる3Dでの移動物体の位置測定と、
    リアルタイムフレームワークによる移動する車の特徴点の追跡と、該特徴点の3D方向推定への使用と、
    疎な特徴と密なステレオ視覚データからのキューを結合する地表面推定を用いたスケールドリフト修正と、
    全てのフレームで融合観測共分散を適応させて各キューの相対的不確実性を反映するカルマンフィルタフレームワークの適用と、
    xは状態変数を示し、zは観測値、Q及びUはプロセス及び観測ノイズの共分散を示し、p(w):N(0,Q)及びp(v):N(0,U)に示されるようにゼロ平均の多変量正規分布とし、Aは状態遷移を示し、wはプロセスノイズ、Hは正確な状態空間を観測状態空間にマッピングする観測値、及びvは観測ノイズである、このような状態発展のモデルによるカルマンフィルタの適用と、を含む方法。
  2. 地表面推定の複数の方法から結合したキューを含む、請求項1に記載の方法。
  3. 広範囲にわたるトレーニングデータから学習されたモデルを使用してフレーム毎の相対信頼度を説明するフレームワークの適用を含む、請求項1に記載の方法。
  4. データセットからのフレームによるトレーニングを含み、基になる変数の誤差挙動に対する各キューの観測共分散に関連するモデルが学習される、請求項1に記載の方法。
  5. キュー結合に対する観測共分散の適応的推定の実行を含む、請求項1に記載の方法。
  6. 前記地表面を通じて物体境界ボックス及びSFM特徴追跡からの情報を結合する位置測定フレームワークを含む、請求項1に記載の方法。
  7. 近傍及び遠方の物体の3D位置測定用の適応地表面を通じたSFMと物体境界ボックスの結合を含む、請求項1に記載の方法。
  8. 大体の消失点推定を用いたエピポーラ更新の実行を含む、請求項1に記載の方法。
  9. 単一カメラのみを使用する自律運転のためのコンピュータ視覚システムであって、
    地表面推定による物体検知及び単眼の運動からの構造復元(SFM)を利用する3Dでの移動物体の位置測定のためのリアルタイムフレームワークと、
    移動する車の特徴点を追跡し、それらを3D方向推定に使用するリアルタイムフレームワークと、
    疎な特徴と密なステレオ視覚データからのキューを結合する地表面推定を用いてスケールドリフトを修正するコンピュータコードと、
    全てのフレームで融合観測共分散を適応させて各キューの相対的不確実性を反映するカルマンフィルタフレームワークと、
    xは状態変数を示し、zは観測値、Q及びUはプロセス及び観測ノイズの共分散を示し、p(w):N(0,Q)及びp(v):N(0,U)に示されるようにゼロ平均の多変量正規分布とし、Aは状態遷移を示し、wはプロセスノイズ、Hは正確な状態空間を観測状態空間にマッピングする観測値、及びvは観測ノイズである、このような状態発展のモデルによるカルマンフィルタと、を含むシステム
  10. フレームワークが地表面推定の複数の方法からキューを組み込む、請求項に記載のシステム
  11. 広範囲にわたるトレーニングデータから学習されたモデルを使用してフレーム毎の相対信頼度を説明するフレームワークを含む、請求項9に記載のシステム。
  12. 基になる変数の誤差挙動に対する各キューの観測共分散に関連するモデルが学習される、請求項に記載のシステム。
  13. キュー結合に対する観測共分散の適応的推定量を含む、請求項に記載のシステム。
  14. 前記地表面を通じて物体境界ボックス及びSFM特徴追跡からの情報を結合する位置測定フレームワークを含む、請求項に記載のシステム。
  15. 近傍及び遠方の物体の3D位置測定用の適応地表面を通じたSFM及び物体境界ボックスを含む、請求項に記載のシステム。
JP2016504398A 2014-02-20 2014-07-22 単一カメラを用いた3dでの移動物体の位置測定 Active JP6186072B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/184,766 2014-02-20
US14/184,766 US9070202B2 (en) 2013-03-14 2014-02-20 Moving object localization in 3D using a single camera
PCT/US2014/047569 WO2015126443A1 (en) 2013-03-14 2014-07-22 Moving object localization in 3d using a single camera

Publications (2)

Publication Number Publication Date
JP2016516249A JP2016516249A (ja) 2016-06-02
JP6186072B2 true JP6186072B2 (ja) 2017-08-23

Family

ID=56090686

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016504398A Active JP6186072B2 (ja) 2014-02-20 2014-07-22 単一カメラを用いた3dでの移動物体の位置測定

Country Status (1)

Country Link
JP (1) JP6186072B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018142493A1 (ja) * 2017-01-31 2018-08-09 富士通株式会社 画像処理装置、画像処理方法、画像処理プログラム、画像撮影方法、及び移動体
CN110274598B (zh) * 2019-06-24 2023-03-24 西安工业大学 一种机器人单目视觉鲁棒定位估计方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2071515A1 (en) * 2007-12-11 2009-06-17 Honda Research Institute Europe GmbH Visually tracking an object in real world using 2D appearance and multicue depth estimations
JP5212004B2 (ja) * 2008-10-08 2013-06-19 日本電気株式会社 車両追跡装置及び車両追跡方法

Also Published As

Publication number Publication date
JP2016516249A (ja) 2016-06-02

Similar Documents

Publication Publication Date Title
US9070202B2 (en) Moving object localization in 3D using a single camera
CN112292711B (zh) 关联lidar数据和图像数据
US10133279B2 (en) Apparatus of updating key frame of mobile robot and method thereof
US10706582B2 (en) Real-time monocular structure from motion
US10275649B2 (en) Apparatus of recognizing position of mobile robot using direct tracking and method thereof
US9969337B2 (en) Methods and systems for mobile-agent navigation
US10762643B2 (en) Method for evaluating image data of a vehicle camera
US11842512B2 (en) Apparatus for determining an angle of a trailer attached to a vehicle
JP6469905B2 (ja) 適応型グランドプレーン推定を用いた自律運転のためのモノキュラ3d位置特定
US10339389B2 (en) Methods and systems for vision-based motion estimation
US10307910B2 (en) Apparatus of recognizing position of mobile robot using search based correlative matching and method thereof
JP6349418B2 (ja) 高精度単眼移動によるオブジェクト位置特定
US20140139635A1 (en) Real-time monocular structure from motion
CN110176038B (zh) 校准车辆的摄像头的方法、系统和存储介质
US20200309534A1 (en) Systems and methods for robust self-relocalization in a pre-built visual map
Pascoe et al. Robust direct visual localisation using normalised information distance.
Fanani et al. Keypoint trajectory estimation using propagation based tracking
Hayakawa et al. Ego-motion and surrounding vehicle state estimation using a monocular camera
JP6186072B2 (ja) 単一カメラを用いた3dでの移動物体の位置測定
Hoang et al. Combining edge and one-point ransac algorithm to estimate visual odometry
Wong et al. Monocular localization within sparse voxel maps
Martínez et al. 3D shape reconstruction from a humanoid generated video sequence
Saeed Visual Odometry for Autonomous Vehicles
CN118115557A (zh) 关联lidar数据和图像数据

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20160225

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160906

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161025

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170112

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170704

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170728

R150 Certificate of patent or registration of utility model

Ref document number: 6186072

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350