JP5773935B2

JP5773935B2 - シーンにおけるオブジェクトを分類する方法

Info

Publication number: JP5773935B2
Application number: JP2012090679A
Authority: JP
Inventors: ジュネイト・オンジェル・トゥゼル; グンゴール・ポラトゥカン
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2011-04-22
Filing date: 2012-04-12
Publication date: 2015-09-02
Anticipated expiration: 2032-04-12
Also published as: JP2012230671A

Description

本発明は、包括的には画像処理に関し、より詳細には、コンピュータービジョン応用において、レンジスキャナーを用いてオブジェクトを分類することに関する。

オブジェクト分類は、コンピュータービジョン応用で広く用いられている。最も一般的な応用は、２Ｄカメラ画像を用いるが、３Ｄ距離データ用の正確な分類方法が必要である。例えば、オブジェクトは、組立ライン上で移動している部品である場合がある。

新しいセンサー技術の革新により、新しいタイプのデータ収集技法がもたらされる。関連して、オートメーションの新たな応用が現れ、機械がますます多くの人間の労働に取って代わっている。

一般に、オブジェクト分類は、誘導ループ検出器、映像検出器、音響検出器、距離センサー及び赤外線検出器等のいくつかのタイプのデータ取得技法を使用することができる。１つのシステムは、オブジェクト検出及びオブジェクト分類のために距離情報及び輝度情報を出力するレーザーセンサーを使用する。

オブジェクトを分類する方法を提供することが求められている。

本発明の実施の形態は、１組の１つ又は複数の１次元レーザーラインスキャナーを備えたスキャナーによって取得される距離データの最大マージン分類及び識別確率的逐次モデリングに基づいて、オブジェクトを分類する方法を提供する。

本方法は、前処理段階及び分類段階を含む。前処理ステップ中に、メディアンフィルター処理、背景及び前景検出、３次元再構築並びにオブジェクト事前情報等の種々の技法を用いることにより、距離データからノイズを除去し、最大識別特徴を抽出する。そして、分類器は訓練される。分類器は、外観分類器（ａｐｐｅａｒａｎｃｅｃｌａｓｓｉｆｉｅｒ）、種々の推論技法を用いる系列分類器（ｓｅｑｕｅｎｃｅｃｌａｓｓｉｆｉｅｒ）及び状態機械実施部（ｅｎｆｏｒｃｅｍｅｎｔ）から構成される。

これにより、オブジェクトを分類する方法を提供することができる。

本発明の実施の形態によるオブジェクト分類のブロック図である。本発明の実施の形態による１次元レーザーラインスキャナーを備えたスキャナーの概略図である。

表記法
本明細書では、以下の表記法を用いて、明示的に定義されているか又は説明から明らかである、本明細書に記載する全ての変数を表す。本明細書では、太字を用いて、ベクトル、すなわちこの場合はデータ列を表し、非太字を用いて単一変数を表す。なお、本明細書の数式を除く本文では、太字に相当する文字を、当該文字にｂを付して表記する（すなわち、太字のｘをｘｂと表記する）。例えば、

は、添え字ｉが付されている列であり、ｘ_ｉ，ｊは、時間ステップｊにおける列ｉの単一変数を表す。任意の単一列に対して、本明細書では、列の添え字ｉを省き、列をＸｂ_ｉ＝＜ｘ，ｘ_２，…，ｘ_Ｔ＞と書く。

概要
図１は、本発明の実施形態によるオブジェクト８０を分類するシステム及び方法を示す。距離データ１０１は、スキャナー９０によって本方法に対する入力としてのオブジェクト８０から取得される。

図２に示すように、スキャナー９０は、１次元レーザーラインセンサーを含む。スキャナーは、特定されるべきオブジェクトの近くのポール２０１に配置される。本発明を、１つのセンサーのみで機能させることができることが理解される。

図２は、各センサーに対する視野２０３も示す。センサーは、オブジェクトの１つ又は複数の側面図を取得する。

距離データの１次元（ライン）測定値が経時的に蓄積され、オブジェクトの距離プロファイルの２次元画像が構成される。２次元距離画像は、オブジェクトタイプの分類に用いられる。出力は、オブジェクトのクラス１０９である。

上記ステップは、本技術分野において既知であるようにメモリ及び入出力インターフェースに接続されたプロセッサにおいて実行することができる。

本方法は、前処理段階及び分類段階を含む。前処理中、本発明では、距離データからノイズを除去し（１１０）、無関係な背景情報を除去し（１２０）、距離情報及びセンサーがスキャンした幾何学的形状を用いて残りの前景画素を３次元に投影し（１３０）、距離を補正し（１４０）、特徴を抽出する（１５５）。

分類１７０のために、本発明では、多クラスサポートベクトルマシン（ＳＶＭ：ｓｕｐｐｏｒｔｖｅｃｔｏｒｍａｃｈｉｎｅ）等の外観分類器の出力を、条件付き確率場（ＣＲＦ：ｃｏｎｄｉｔｉｏｎａｌｒａｎｄｏｍｆｉｅｌｄ）分類等の系列分類器に対する特徴として使用して、初期クラスラベルを取得し、オブジェクト及び特徴属性の識別特性並びに逐次構造を用いてオブジェクトの構造を実施し（１８０）、最後にオブジェクトクラス１０９を取得する。

前処理
初期ノイズ除去
距離データに関する１つの主な問題は、非ゼロの入射角、オブジェクト表面の反射率、スキャナーの不完全な動作及び環境からの干渉ノイズによるノイズである。したがって、本発明では、まず距離データのノイズを除去する。

本発明では、２次元メディアンフィルターを用いて距離データからノイズを除去する。メディアンフィルター処理は、信号からノイズを除去しながら、詳細情報、例えばエッジを保存する傾向がある。本発明では、フィルター処理されるべき入力画像の対応する画素の周囲でＭ×Ｎ近傍ウインドウを使用し、ここでＭ及びＮはデータから経験的に指定される。メディアンフィルター処理は、比較的小さい近傍であっても大幅にノイズを低減する。詳細情報とノイズ除去の量とのトレードオフは、フィルターの次数によってバランスがとられる。次数が高いほどノイズ低減が高いが、画像に残る詳細が少なくなる。

背景推定及び除去
取得中にいくつかの画素が完全に破損される可能性がある。そのため、背景推定の第１のステップにおいて、本発明では、画素の各行の中央振幅に基づいて「良」画素及び「不良」画素を確定する。そして、シーンにオブジェクトがないときに各良画素の距離値の履歴に単一ガウス分布を当てはめることにより、画素に基づく背景推定を用いる。同じ画素からの新たなテストサンプル各々において、確定は、前景又は背景のいずれかとして仮説検定に基づく。不良画素の場合、判断は、信号の振幅値を用いる仮説検定に基づく。最後に、ノイズを含む画素の無関係な領域を除去するために、背景マッピングに対してメディアンフィルター処理を用いる。

３次元投影
環境条件及び配置エラーに応じて、オブジェクトに対するセンサーの位置及び向きが不正確である場合がある。この問題を解決するために、初期センサー情報を用いて良前景画素を３次元に逆投影し、基礎面（ｇｒｏｕｎｄｐｌａｎｅ）に平面を当てはめる。平面当てはめに対して、ランダムサンプルコンセンサス（ＲＡＮＳＡＣ：ＲＡＮｄｏｍＳＡｍｐｌｅＣｏｎｓｅｎｓｕｓ）プロセスを用いる。この平面は、センサー位置及び向きを変更する。推定された基準面（ｂａｓｅｐｌａｎｅ）は、ワールド座標系のｙ＝０面に対応するものと仮定される。基準面及びセンサーの視野に対するセンサーの相対位置及び向きが与えられると、逆投影によりワールド座標系における各センサー測定値の三次元座標を確定する。３次元投影は、以下の方法で有用である。本発明では、３次元値から、距離補正の間に用いる平面的な側面図情報、及び特徴を抽出する。さらに、画像面に対するワールドの遠近歪みの影響を受けやすい２次元画像とは異なり、３次元値から取得する特徴は、スケール不変であり、より多くの情報を含んでいる。

距離補正
測定値のノイズレベルは、表面反射に基づいて変化する。例えば、黒いオブジェクトは、ノイズを含む測定値をもたらす可能性がある。本発明では、オブジェクトの３次元情報及び平面的な側面構造を利用して、距離値を更に補正する。ここでは、測定値の各列は３次元空間の垂直線に由来するものと仮定する。しかしながら、スキャンのラインが異なると奥行き値が異なる可能性がある（ポール及び本体が異なる奥行き値にある可能性がある）。本発明では、最初に、測定値の各列に対する奥行き値の最上位３０％を確定する。

次に、経験的に指定されたフィルター次数を用いて経時的にこれらの測定値をメディアンフィルター処理し、測定値の各列の奥行き値を取得する。メディアンフィルターの次数が大きいほど、同じ奥行きを有すると仮定される面積が広くなる。そして、推定された平面に投影された距離値を用いて異常な距離値を補正する。距離補正後、ノイズを含むサンプルは、正しい位置に再配置され、オブジェクトは平滑な構造を有する。

特徴
本発明では、３次元投影の量子化側面図に等しい、２値高さマップを本発明の特徴として用いる。最初に、基準面の上方のオブジェクトの一部を取得し、各画素が小さい高さ値に対応するように量子化する。いくつかのオブジェクトに対し、背景を除去したために、基準（ｂａｓｅ）に接触するオブジェクトの部分が除去される。したがって、まず、側面図におけるオブジェクトの底部を検出し、そのオブジェクトを、基準に接触するようにシフトさせる。さらに、部分的な時間情報を組み込むために、スライディングウィンドウ技法を用いて画素のオーバーラップしている７０×１１パッチを取得する。画像の各列に対して１つのパッチが取得される。そして、このパッチは、中心列の分類を取得するための特徴として、分類段階に渡される。

分類
分類は、以下のステップによって行われる。まず、外観分類１６０において高さ特徴が分類され、系列分類１７０を用いて、外観分類出力からノイズが除去される。この手法は、ＳＶＭ等の外観分類の最大マージン性と、ＣＲＦ等の識別確率的逐次モデルの能力との両方から利益を得るため、非常に正確である。最後に、有限状態機械を用いる構造実施を使用して、無効な予測、例えば単一のタイヤしかないオブジェクトといった予測を防止する。

外観分類
多クラス最大マージン分類器ＳＶＭは、画像系列の各時間ステップに初期ラベルを割り当てる。データの逐次構造は、特徴抽出におけるウインドウ生成手順を除き、このステップでの学習中は考慮されない。ＳＶＭは、上述した７０×１１寸法の高さ特徴を取得し、各特徴に対し、オブジェクト本体、タイヤ又はポール状態のいずれかとしてラベル付けする。長さ１１のウインドウは、時間軸に沿ってシフトし、距離データの各列は、検定中にそのように分類される。本発明では、高速処理を可能にする線形カーネルＳＶＭを用いる。

系列分類
ＳＶＭは、初期ラベルを割り当てるが、オブジェクトの逐次構造は考慮しない。したがって、本発明では、追加の層としてＣＲＦを用いて、時間ステップ間の逐次相関を利用する。この段階は、ＳＶＭの予測に対してノイズ除去部分として働き、不整合性を除去する。逐次学習問題を、以下のように、Ｎ個の訓練系列が与えられると、ｙｂ＝ｆ（ｘｂ）を予測することができる最適な関数ｆを見つけるものとして定式化することができ、

及び

はラベル系列である。

確率的逐次モデリングを用いて系列ラベル付け問題を解決する１つの一般的な手法は、系列ラベル付け問題に対し、隠れマルコフモデル（ＨＭＭ：ｈｉｄｄｅｎＭａｒｋｏｖｍｏｄｅｌｓ）等の生成モデルを用いるというものである。別の一般的な手法は、識別モデルを使用するというものである。こうしたモデルの１つは最大エントロピーマルコフモデル（ＭＥＭＭ：ｍａｘｉｍｕｎｅｎｔｒｏｐｙＭａｒｋｏｖｍｏｄｅｌ）である。ＭＥＭＭは、識別モデルであることに加えて、観測系列の任意の特徴をモデル化することを可能にする。このようにオーバーラップしている特徴を扱うことができる。しかしながら、ラベルバイアス問題がＭＥＭＭの性能を制限する。

したがって、本発明では、系列ラベル付け器としてＣＲＦを用いて、ノイズを含むＳＶＭ出力を平滑化する。線形連鎖（ｌｉｎｅａｒｃｈａｉｎ）条件付き確率場は以下のように定義される。

ここで、

は、ポテンシャル関数であり、

は、状態からの遷移素性関数であり、

は、状態ｙ_ｔにおける状態素性関数であり、λ_ｊ及びμ_ｋは、学習プロセスにおいて推定されたパラメーターであり、Ｚ（ｘｂ）は、観測系列の関数としての正規化係数である。上記指数型分布族の最大尤度パラメーター推定値は、最大エントロピー解に対応する。

推論
モデルパラメーターが学習された後、推論プロセスがテスト系列にラベル付けする。本明細書では、確率的逐次モデルに対する従来の推論方法を簡単に概説する。テスト系列にラベル付けする１つの方法は、同時確率密度関数ｙｂ^＊＝ａｒｇｍａｘ_ｙｂｐ（ｙｂ｜ｘｂ）を用いる最大尤度ラベル付けである。解を、以下のように再帰を用いるビタビプロセスを介して効率的に求めることができ、

それは、最大乗法定理に基づいて最尤パスを伝播する。しかしながら、多くの応用では、ラベル系列全体を正確に予測することは非常に困難であるため、個々の予測が使用される。これは、動的プログラミング順方向−逆方向（ｆｏｒｗａｒｄ−ｂａｃｋｗａｒｄ）手順を用いて周辺分布ｐ（ｙ_ｉ，ｔ｜ｘｂ_ｉ）からｙ_ｉ，ｔを予測することによって達成される。

順方向再帰は、

であり、ここでα_ｔ（ｊ）は順方向変数である。逆方向再帰は、

であり、ここでβ_ｔ（ｊ）は逆方向変数であり、そこから周辺確率を求めることができる。

構造実施
分類の最終ステップは、オブジェクト制約の実施である。このモジュールはＣＲＦの出力を取得する。ラベルが有効なオブジェクトに対応しない場合、言い換えれば、ラベルは何らかの有限状態機械に対応しない。本発明では、ラベルを、オブジェクト文法（ｏｂｊｅｃｔｇｒａｍｍａｒ）で定義される最類似（ｍｏｓｔｓｉｍｉｌａｒ）有効オブジェクトモデルのラベルに変換する。ＣＲＦの結果が有効である場合、これは、いかなる補正も不要であることを意味する。これは、オブジェクトの大半に当てはまる。プロセスは、誤り訂正正規文法パーサーである。

Claims

シーンにおけるオブジェクトを分類する方法であって、
画像の系列を前処理するステップであって、スキャナーによって前記シーンにおける前記オブジェクトの各画像が取得され、前記スキャナーは１次元レーザーラインセンサーを有し、前記各画像は画素の列を含み、前記各画素は、前記各画像が距離画像であるように関連する奥行き値を有し、前記前処理するステップは、
前記系列における前記各画像からノイズを除去することと、
前記各画像から背景画素を除去することと、
３次元において、前記各画像を３次元ワールド座標系に投影することと、
奥行き値を補正することと、
特徴を抽出することと、
を更に含む、前処理するステップと、
前記画像の系列を分類するステップであって、前記分類するステップは、
前記特徴に外観分類器を適用することであって、ラベルを取得する、適用することと、
系列分類器を適用することであって、前記ラベルを平滑化する、適用することと、
前記オブジェクトの構造を実施することであって、前記オブジェクトのクラスを確定する、実施することと、
を更に含む、分類するステップと、
を含み、
前記各ステップはプロセッサで実行され、
前記構造実施は、平滑化された前記ラベルを、オブジェクトの文法において定義される最類似有効オブジェクトモデルのラベルに変換する
シーンにおけるオブジェクトを分類する方法。
前記１次元レーザーラインスキャナーは、前記オブジェクトの側面をスキャンする、請求項１に記載の方法。
前記ノイズを除去することは、２次元メディアンフィルターを使用する、請求項１に記載の方法。
前記シーンの背景は、前記各画素に対するガウス分布を用いてモデル化される、請求項１に記載の方法。
前記シーンにおける基礎面は、ランダムサンプルコンセンサス（ＲＡＮＳＡＣ）プロセスを用いて推定される、請求項１に記載の方法。
前記オブジェクトの表面上のノイズを含む距離測定値は、垂直面を前記各列に当てはめることによって補正される、請求項１に記載の方法。
前記特徴はスケール不変である、請求項１に記載の方法。
前記特徴は、前記３次元投影の量子化された側面図に等しい２値高さマップである、請求項１に記載の方法。
前記スキャナーは前記オブジェクトの近くのポールに取り付けられる、請求項１に記載の方法。
前記ラベルは、時間軸に沿ったスライディングウィンドウ技法によって前記外観分類器を用いて評価することによって確定される、請求項１に記載の方法。
前記外観分類器はサポートベクトルマシンである、請求項１に記載の方法。
前記外観分類器の出力は、前記系列分類器を用いて平滑化される、請求項１に記載の方法。
前記系列分類器は、条件付き確率場モデル又は隠れマルコスモデルを使用する、請求項１に記載の方法。
前記構造実施は、誤り訂正正規文法パーサーを使用する、請求項１に記載の方法。