JP6345147B2

JP6345147B2 - ステレオ画像の対において物体を検出する方法

Info

Publication number: JP6345147B2
Application number: JP2015075866A
Authority: JP
Inventors: ミン−ユ・リウ; オンセル・チュゼル
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2014-05-08
Filing date: 2015-04-02
Publication date: 2018-06-20
Anticipated expiration: 2035-04-02
Also published as: CN105096307A; US9195904B1; CN105096307B; JP2015215877A; US20150324659A1

Description

本発明はコンピュータービジョンに関し、より詳細には、ステレオ画像において物体を検出することに関する。

多くのコンピュータービジョンアプリケーションは、ステレオカメラによって取得したステレオ画像を用いて物体を検出する。ステレオカメラは通常、複数のレンズ及びセンサーを有する。通例、レンズ間の軸内距離は両眼間と同じ距離であり、重複したビューを提供する。

図７は、従来のステレオベースの物体検出システムを示している。ステレオカメラ１０１がステレオ画像１０２を取得する。検出方法は、以下のステップ、すなわち、ステレオ撮像１００、コストボリューム決定１１０、奥行き／視差マップ推定１２０及び物体検出１３０を含むことができる。

従来のステレオベースの物体検出方法のほとんどは、重複したエリア内のピクセルごとの奥行き情報に依存する（１２０）。このステップは一般に奥行き／範囲マップ推定と呼ばれる。このステップは、視差値、すなわち２つの画像における対応するピクセルの並進を求め、奥行きマップを求めることによって達成することができる。次に、この奥行きマップを物体検出１３０のために用いることができ、例えば、奥行きマップの勾配方向ヒストグラム（ＨｏＧ：ｈｉｓｔｏｇｒａｍｏｆｏｒｉｅｎｔｅｄｇｒａｄｉｅｎｔｓ）が物体記述のために用いられる。１つの方法は、部分画像領域における主要な視差を推定し、相対的な視差値の共起ヒストグラムを物体検出のために用いる。

奥行き／範囲／視差マップ推定は困難な問題である。局所的な方法は不正確な奥行き決定を被る一方で、大域的な方法は多大な計算リソースを必要とし、リアルタイムの用途に適していない。

幾つかの方法は、関心領域生成のためにステレオキュー（ｓｔｅｒｅｏｃｕｅ：立体手がかり）を用いることによって奥行きマップ決定ステップを回避する。例えば、１つの方法は、潜在的な物体ロケーションをマーク付けするｓｔｉｘｅｌマップを求める。各ｓｔｉｘｅｌはカメラに対する３Ｄ位置によって定義され、基面上に垂直に立つ。次に、色画像コンテンツに基づく検出器がロケーションに適用され、物体が検出される。

特許文献１は範囲マップを用いて関心エリアを決定し、輝度ヒストグラムに基づく分類器を用いて物体を検出する。

米国特許出願公開第２０１３／０１７７２３７号

関心領域法は物体検出に直接適用することができず、他の物体検出器と併用して適用されなくてはならない。さらに、関心エリアが物体をカバーしないとき、検出見逃しが確実となる。

本発明の実施形態は、ステレオ画像において物体を検出する方法を提供する。画像からコストボリュームが計算される。次に、コストボリュームから取得された特徴に物体検出が直接適用される。検出は、トレーニング特徴から学習したＴ決定木分類器（Ａｄａｂｏｏｓｔ）を用いる。

本発明は、従来技術の誤りを生じやすく計算が複雑な奥行きマップ推定ステップを回避し、正確で効率的な物体検出器をもたらす。本方法は、良好な奥行きマップを取得するのに必要な複雑な最適モジュールを要しないので、埋め込みシステムにより適している。さらに、本方法は、物体を検出するために入力画像内の全ての部分画像を探索する。これによって、関心領域生成技法に存在する検出見逃し問題が回避される。

本方法は、大量のトレーニングデータを活用し、機械学習手順を利用するので、検出が正確である。本方法は、検出正確度において、関心領域生成技法よりも性能が優れている。

本発明の実施形態による、ステレオベースの物体検出システムのブロック図である。図１のステレオベースの物体検出システムのための物体検出モジュールのブロック図である。本発明の実施形態による、ステレオベースの物体検出器を学習する方法のブロック図である。本発明の実施形態による、コストボリューム決定の概略図である。本発明の実施形態による、学習される特徴の概略図である。部分画像の大きな部分及び小さな部分を占める物体の概略図である。従来のステレオベースの物体検出システムのブロック図である。

図１は、本発明の実施形態による、ステレオ画像２００の対において物体２０１を検出する方法及びシステムを示している。これらのステレオ画像の対からコストボリューム２１１が生成される（２１０）。その後、特徴ベクトル２１６を選択及び抽出する（２１５）。次に、物体検出器２２０を特徴ベクトルボリュームに適用して物体を検出する。物体検出器は、トレーニング画像特徴２３１から学習した分類器２３０を用いる。物体が検出された後、その物体の場所を突き止めることができ、すなわち、画像における物体のロケーションを求めることができる。本方法は、当該技術分野において既知のバスによってメモリ及び入／出力インターフェースに接続されたプロセッサ２５０において実行することができる。

本発明は、奥行きマップがコストボリュームから導出されるので、奥行きマップにおいて利用可能な奥行き情報はコストボリュームにおいても利用可能であるという認識に基づいている。

コストボリュームを直接用いる本発明の検出器２２０は、奥行きマップに基づいて任意の検出器の性能をマッチングすることが理論的に可能である。さらに、コストボリュームは、従来の奥行きマップよりも表現が豊かである。奥行きマップはピクセルごとの奥行きしか提供しない一方で、コストボリュームは、真の奥行きを含む、ステレオ画像内の各ピクセルが有し得る広範な潜在的奥行きのマッチングコストを提供する。このため、検出器はコストボリュームから直接取得した特徴を用い、より多くの奥行き情報にアクセスすることができ、より良好な性能を達成することができる。

図２に示すように、本発明の１つの実施形態は、コストボリューム生成２１０と、特徴抽出３１０と、物体検出及びロケーション特定３２０と、学習される弁別的特徴３３０と、学習される物体分類モデル３４０とを含む。ロケーション特定は、物体が検出される場所を求める。

図３は、弁別的特徴を学習するための機械学習手順と、学習される物体分類モデルとを示している。特徴は、トレーニングステレオ画像の対を含むトレーニングデータ４００から選択及び学習される（４１０）。

コストボリューム生成
図４は、コストボリュームＣ２１１の生成を示している。コストボリュームＣ：Ｘ×Ｙ×Ｄは、メモリ内に記憶される３次元データ構造であり、Ｘは画像のｘ軸を表し、Ｙは画像のｙ軸を表し、Ｄは１組の視差値を表す。これらの視差値は、２つのステレオ画像Ｉ_Ｌ５０１及びＩ_Ｒ５０２における対応するピクセル間の並進である。Ｉ_Ｌ及びＩ_Ｒは調整されていると仮定する。これは、レンズ歪み効果が補償されるように画像が変換されており、１つの画像の行内のピクセルが、他の画像の同じ行内のピクセルにマッピングされていることを意味する。次に、ステレオ画像Ｉ_Ｌ及びＩ_Ｒの対においてピクセル外観をマッチングすることによって、コストボリュームを求めることができる。

コストボリュームを求める１つの方法は、任意の（ｘ，ｙ，ｄ）∈Ｘ×Ｙ×Ｄについて、

によって与えられるマッピングを適用することである。ここで、

はユークリッドノルムを表し、Ｉ_Ｌ（ｘ，ｙ）はＩ_Ｌ画像の（ｘ，ｙ）ロケーションにおけるピクセル色値を指し、Ｉ_Ｒ（ｘ，ｙ）はＩ_Ｒ画像の（ｘ，ｙ）ロケーションにおけるピクセル色値を指し、ｇｒａｄ（Ｉ_Ｌ（ｘ，ｙ））はＩ_Ｌ画像の（ｘ，ｙ）ロケーションにおける勾配を指し、ｇｒａｄ（Ｉ_Ｒ（ｘ−ｄ，ｙ））は、Ｉ_Ｒ画像の（ｘ，ｙ）ロケーションにおける勾配を指し、λは勾配情報の重要度を制御する重みである。バイラテラルフィルタリング又は誘導フィルタリング等の画像平滑化技法を適用してコストボリュームを向上させることができることに留意されたい。

特徴抽出
図５は、図１の特徴選択及び抽出２１５を示している。部分画像内に物体が存在するか否かを判断するために、各部分画像６００からＫ次元特徴ベクトルを抽出する。部分画像は、例えば複数のスケールにおいてピクセルごとにラスター走査順で、画像の上を通過する移動ウィンドウとみなすことができる。

実施形態は、特徴を求めるためにコストボリュームを直接用いることしかしないことに留意されたい。従来技術におけるような奥行きマップ推定は行われない。

特徴ベクトルの各次元は、部分画像６００内の２つの、例えば矩形の領域

６０１及び

６０２のＦｉｇコスト視差値間の数値比較結果に対応する。部分画像がＪとして示され、特徴ベクトルのｋ番目の次元がｆ_ｋ（Ｊ）として表されるものとする。ｆ_ｋ（Ｊ）の値は、

であり、ここで、

は、部分画像の

の領域内の最小（ｍｉｎ）累積コストを有する視差値を表す。すなわち、以下となる。

領域内の最小コスト視差値を求めることは、当該技術分野において既知の積分画像技法を用いて累積コストを効率的に取得することができるので比較的簡単であることに留意されたい。領域のロケーション及びサイズは、以下で説明する機械学習手順を用いて学習される。

物体検出及びロケーション特定
部分画像と関連付けられたＫ次元特徴ベクトルは、検出スコアを求めるためにアンサンブル分類器に渡される。アンサンブル分類器はＴ決定木分類器を含む。各決定木分類器は、Ｋ次元特徴の少数の次元を入力として取り、部分画像を正（物体を含む）又は負（物体を含まない）として分類する。部分画像Ｊについて分類器から取得される検出スコアｓは以下によって与えられる。

ここで、δ_ｔは決定木分類器であり、θ_ｔは対応する重みである。スコアが予め設定された閾値よりも大きい場合、システムは部分画像における検出を宣言する。

図６に示すように、分類器は、物体が部分画像７０１のより大きな部分を占める場合に、より高いスコアを与え、物体が部分画像７０２の小さな部分のみを占める場合に、より低いスコアを与えるようにトレーニングすることができる。なぜなら、より大きな物体は、より小さな物体よりも、画像内でその物体が位置する場所のより良好な推定値を与えるためである。

特徴選択及び分類器学習手順
領域

の選択用、及び決定木分類器重み

の学習用に、別個のＡｄａＢｏｏｓｔ手順を用いる。

学習タスクのための１組のデータを収集する。このデータは１組のステレオトレーニング画像を含む。物体を含む部分画像は、正のインスタンスとしてラベル付けされる一方、他の部分画像は負のインスタンスとしてラベル付けされる。正の部分画像及び負の部分画像の中心が一致するように、それらの部分画像を位置合わせする。また、部分画像は同じ高さを有するようにスケーリングされる。位置合わせ及びスケーリングされた部分画像は、

として表される。ここで、Ｊ_ｉはｉ番目の部分画像を示し、ｌ_ｉはラベルであり、Ｖは部分画像の総数である。

１組のＮ個の領域を特徴プール｛Ｒ_ｉ，ｉ＝１，２，．．．，Ｎ｝としてサンプリングする。特徴プールは様々なロケーション及びサイズを有し、位置合わせされた部分画像によってカバーされる。２つの領域をランダムで対にし、最小コストのそれらの視差値を比較する。これは、Ｋ次元特徴ベクトルを構築するようにＫ回行われる。

Ｔ決定木分類器及びそれらの重みを学習するのに別個のＡｄａＢｏｏｓｔ手順を用いる。この手順は、トレーニングサンプルに一様な重みを割り当てることから始まる。次に、現在のトレーニングサンプル重みに基づいて決定木が学習される。不正確に分類されたサンプルの重みは、それらの重みが決定木分類器学習の次のラウンド中により大きな影響を有するように増大される。重み付けされた誤り率に基づいて決定木分類器に重みを割り当てる。このプロセスは、Ｔ決定木分類器のアンサンブル分類器を構築するようにＴ回繰り返される。手順の擬似コードを以下に記載する。

入力：特徴ベクトル及びクラスラベルＤ＝｛（ｆ（Ｊ_ｉ），ｌ_ｉ），ｉ＝１，２，．．．，Ｖ｝
出力：アンサンブル分類器

一様な重み

から開始
Ｆｏｒｔ＝１，２，．．．，Ｔ
１．重みｗ_ｉを用いて決定木分類器δ_ｔ（Ｊ）∈｛−１．１｝を学習する；
２．誤り率ε＝Σ_ｉｗ_ｉ｜（δ_ｔ（Ｊ_ｉ）≠ｌ_ｉ）を求める；
３．決定木分類器重み

を求める；
４．ｉ＝１，２，．．．，Ｖについて、ｗ_ｉ←ｗ_ｉｅｘｐ（θ_ｔ｜δ_ｔ（Ｊ_ｉ）≠ｌ_ｉ）を設定する；及び、
５．サンプル重みを正規化する

ステップ２及び４において用いられる関数δ_ｔは指示関数を表し、この指示関数は、括弧内の記述が真である場合に１を返し、そうでない場合にゼロを返す。

Claims

シーンから取得されたステレオ画像の対において物体を検出する方法であって、各ステレオ画像はピクセルを含み、該方法は、
前記ステレオ画像の対からコストボリュームを生成するステップであって、該コストボリュームは、前記対内の前記ステレオ画像間でのピクセルごとの広範な視差値のマッチングコストを含む、ステップと、
前記コストボリューム内の部分画像から、該部分画像内部の領域内の最小累積コストを有する前記視差値の特徴関数を用いて特徴ベクトルを求めるステップと、
前記特徴ベクトルに分類器を適用するステップであって、前記部分画像が前記物体を含むか否かを検出するステップと、
を含み、前記ステップはプロセッサにおいて実行される、シーンから取得されたステレオ画像の対において物体を検出する方法。
前記ステレオ画像内の前記物体のロケーションを特定することを更に含む、請求項１に記載の方法。
前記分類器は、トレーニングステレオ画像の対から学習される、請求項１に記載の方法。
前記ステレオ画像の対を調整することを更に含む、請求項１に記載の方法。
前記ステレオ画像の対を平滑化することを更に含む、請求項１に記載の方法。
前記生成することは、
ユークリッドノルムを用いて前記ステレオ画像の対における前記ピクセルの色及び勾配をマッチングすることを更に含む、請求項１に記載の方法。
前記特徴関数は

であり、ここで、Ｊは前記部分画像を表し、ｋは前記特徴ベクトルの次元を表し、ｍｉｎは最小値を返す関数を表し、

は前記部分画像内の

の矩形エリアにおいて最小累積コストを有する前記視差値を表し、iは前記矩形エリアを表す、請求項１に記載の方法。
であり、ここで、Ｃ（ｘ，ｙ，ｄ）は前記コストボリュームを表す、請求項７に記載の方法。
前記分類器は、Ｔ決定木分類器を含むアンサンブル分類器である、請求項１に記載の方法。
前記分類器は、部分画像Ｊの検出スコアｓを提供し、該検出スコアは、

であり、ここで、δ_ｔは前記決定木分類器であり、θ_ｔは対応する重みである、請求項９に記載の方法。