JP2018185655A

JP2018185655A - 物体検出装置、物体検出方法、物体検出プログラムおよび物体検出システム

Info

Publication number: JP2018185655A
Application number: JP2017086992A
Authority: JP
Inventors: 橋本　直己; Naoki Hashimoto; 直己橋本; 小林　大祐; Daisuke Kobayashi; 大祐小林
Original assignee: University of Electro Communications NUC
Current assignee: University of Electro Communications NUC
Priority date: 2017-04-26
Filing date: 2017-04-26
Publication date: 2018-11-22

Abstract

【課題】照明変化や対象物体の位置姿勢の変動や自己遮蔽に対する頑健さと位置姿勢の推定の精度の向上とを同時に満たすことができる手法を提供する。【解決手段】検出の対象物体の様々な姿勢の画像から抽出したパッチ画像の特徴量に基づいて学習され、前記対象物体を撮影して得た入力画像のパッチ画像をいずれかの姿勢クラスに分類する第１の識別器と、前記対象物体の様々な姿勢の画像から抽出したパッチ画像の特徴量に基づいて学習され、姿勢クラスが推定された入力画像のパッチ画像をいずれかの姿勢パラメータに分類する第２の識別器とを備える。【選択図】図２

Description

本発明は、物体検出装置、物体検出方法、物体検出プログラムおよび物体検出システムに関する。

ファクトリ・オートメーション、拡張現実感（ＡＲ：Augmented Reality）、映像投影を用いた空間演出、プロジェクションマッピング等のエンターテインメント等において、対象物体の位置姿勢（位置、方向）の検出が必要となる場面がある。例えば、ファクトリ・オートメーションにおいては、生産ラインを流れる部品・製品等の外観から部品・製品等の特定や載置された位置・方向を検出し、その部品・製品等に対するその後の処理を決定する場合がある。また、拡張現実感、映像投影を用いた空間演出、プロジェクションマッピング等のエンターテインメント等では、映像を重ねる対象物体の位置姿勢の検出が必須となる。

従来、画像中から対象物体の位置姿勢を検出（推定）する手法として、特徴点マッチングによる手法と、テンプレートマッチングによる手法と、投票ベースによる手法とが用いられていた。なお、ここでは対象物体の形状は変化しないものとする。

特徴点マッチングによる手法は、予め登録しておいた対象物体の特徴点の３次元位置と入力画像から検出した特徴点との複数の対応関係から位置姿勢を推定するものである。この手法では、照明変化や部分的な特徴点の遮蔽（自己遮蔽）に頑健であるが、表面に模様等が存在しないか少ないテクスチャレス物体に対しては、有効な特徴点が抽出しづらく、安定した位置姿勢の推定が行えないという問題がある。プロジェクションマッピング等では、投影による映像効果を高めるため、単色（白色等）の対象物体が用いられることが多く、テクスチャレス物体への対応は重要である。

テンプレートマッチングによる手法は、入力画像上を走査し、予め位置姿勢に対応させて登録しておいた２次元画像のテンプレートデータベースから類似度の高いテンプレートを選択することによって位置姿勢の推定を行うものである。この手法では、テクスチャレス物体に対しても有効であるが、ある位置姿勢における対象物体の全体の画像に基づいたテンプレートを用いるため、対象物体の微小な変動や自己遮蔽に対して頑健ではないという問題がある。

この点につき、位置姿勢の変動に対応する手法として、微小な変動を考慮したテンプレートマッチングによる手法が提案されている（例えば、特許文献１、非特許文献１等を参照）。これは、３次元のＣＡＤ（Computer-Aided Design）データからテンプレート画像のデータベースを作成する際に、ＣＡＤモデルを微小に変動させた際の輝度勾配方向を累積させることによって、３次元の姿勢の変動に頑健な特徴量を生成し、それを推定に用いるものである。この手法では、ＣＡＤモデルを変動させる際に観測される輝度勾配の出現の頻度によって画素に重みを加えているが、ＣＡＤモデルの重心から離れるほど変動量が増えるため、特徴量として選択されにくくなる。そのため、重心から離れた画像の特徴量が推定に反映されず、推定の精度を高められないという問題がある。また、この手法も、自己遮蔽に関しては考慮されていない。

投票ベースによる手法は、画像を小さなサイズのパッチ画像に分け、対象物体かどうかのクラス確率とその物体中心へのオフセット量を複数の決定木で学習（機械学習）する。そして、識別時に決定木による識別結果を画像空間に投票することで、投票密度の高い点から物体中心を求め、位置姿勢を推定するものである。この手法は、対象物体の微小な変動や自己遮蔽に対しては頑健であるが、一元的な処理により推定を行うことと、処理能力の関係から学習に用いることのできるパッチ数に限界があることから、位置姿勢の推定の精度が低いという問題がある。

特開２０１５‐００７９７２号公報

小西嘉典，半澤雄希，川出雅人，橋本学："階層的統合モデルを用いた単眼カメラからの高速３次元物体位置・姿勢認識，Vision Engineering workshop (2015).

上述したように、テクスチャレス物体に対しては、輝度勾配方向を累積させたテンプレートマッチングによる手法や、投票ベースによる手法が有利と考えられる。しかし、照明変化や対象物体の位置姿勢の変動や自己遮蔽に対する頑健さと位置姿勢の推定の精度の向上とを同時に満たすことができる手法は存在しなかった。

本発明は上記の従来の問題点に鑑み提案されたものであり、その目的とするところは、照明変化や対象物体の位置姿勢の変動や自己遮蔽に対する頑健さと位置姿勢の推定の精度の向上とを同時に満たすことができる手法を提供することにある。

上記の課題を解決するため、本発明にあっては、検出の対象物体の様々な姿勢の画像から抽出したパッチ画像の特徴量に基づいて学習され、前記対象物体を撮影して得た入力画像のパッチ画像をいずれかの姿勢クラスに分類する第１の識別器と、前記対象物体の様々な姿勢の画像から抽出したパッチ画像の特徴量に基づいて学習され、姿勢クラスが推定された入力画像のパッチ画像をいずれかの姿勢パラメータに分類する第２の識別器とを備える。

本発明にあっては、照明変化や対象物体の位置姿勢の変動や自己遮蔽に対する頑健さと位置姿勢の推定の精度の向上とを同時に満たすことができる。

プロジェクションマッピングに適用した一実施形態のシステム構成例を示す図である。実施形態の機能構成例を示す図である。情報処理装置のハードウェア構成例を示す図である。オフライン処理の例を示すフローチャートである。３Ｄモデルからポジティブ画像を生成する例を示す図である。パッチ画像の抽出の例を示す図である。特徴量の例を示す図である。記憶されるパッチ情報のデータ構造例を示す図である。機械学習に用いられる決定木の例を示す図である。オンライン処理の例を示すフローチャートである。あるスケールに対応する投票空間への投票結果の例を示す図である。エッジ点の例を示す図である。対象物体への投影の例を示す図である。第２実施形態の機能構成例を示す図である。第２実施形態におけるオンライン処理の例を示すフローチャートである。処理結果例を示す図である。実験に用いた対象物体を示す図である。平行移動の実験結果を示す図である。回転運動の実験結果を示す図である。

以下、本発明の好適な実施形態につき説明する。

（第１実施形態）

＜構成＞
図１はプロジェクションマッピングに適用した一実施形態のシステム構成例を示す図である。図１において、事前に行われるオフライン処理のためのＰＣ（Personal Computer）等の情報処理装置１と、本番におけるオンライン処理のためのＰＣ等の情報処理装置２とが設けられている。なお、情報処理装置１によるオフライン処理の結果は、決定木パラメータとして情報処理装置２に引き渡される。なお、情報処理装置１と情報処理装置２は同じ装置を用いてもよく、その場合は決定木パラメータの引き渡しは必要ない。

オンライン処理においては、情報処理装置２のほかに、カメラ３とプロジェクタ４と赤外照明５とが設けられ、対象物体Ｏをカメラ３により撮影した入力画像が情報処理装置２に入力され、情報処理装置２からは出力画像（投影映像）がプロジェクタ４に出力される。なお、カメラ３とプロジェクタ４は、チェッカーボード等を用いたキャリブレーションが予め行われ、画素位置の対応付けがなされる。また、カメラ３は、プロジェクタ４により対象物体Ｏ上に投影される画像や外光による影響を受けないように、赤外線カメラが用いられる。更に、対象物体Ｏの動きへの追跡が容易となるように、カメラ３には高速度（フレームレートが高）のものが用いられる。

図２は実施形態の機能構成例を示す図である。図２において、オフライン処理を実行する情報処理装置１による機能構成として、パッチ画像抽出部１３と特徴量抽出部１４と決定木学習部１６とを備えている。パッチ画像抽出部１３は、ＣＡＤモデルを使用して生成されたポジティブ画像１１と、背景画像等のネガティブ画像１２とを入力し、複数（多数）の小サイズのパッチ画像を抽出する機能を有している。特徴量抽出部１４は、パッチ画像抽出部１３により抽出されたパッチ画像から画像の特徴量を抽出し、学習時および識別（オンライン処理における初期の位置姿勢推定）時に用いる他の情報を付加したパッチ情報をパッチ情報記憶部１５に格納する機能を有している。特徴量としては、ポジティブ画像１１については主に累積勾配方向特徴量を用い、ネガティブ画像１２については量子化勾配方向特徴量を用いている。なお、ポジティブ画像１１について累積勾配方向特徴量を用いることで効率的な学習が可能になるが、量子化勾配方向特徴量を用いてもよい。累積勾配方向特徴量と量子化勾配方向特徴量の詳細については後述する。決定木学習部１６は、パッチ情報記憶部１５に格納されたパッチ情報に基づき、決定木のパラメータ（決定木パラメータ）を機械学習し、学習結果の決定木パラメータを決定木パラメータ記憶部１７に格納する機能を有している。

一方、オンライン処理を実行する情報処理装置２による機能構成として、パッチ画像・特徴量抽出部２２と位置姿勢推定部（初期）２３と位置姿勢推定部（追跡）２４と投影画像生成部２５とを備えている。位置姿勢推定部２３は、姿勢クラス・重心位置・スケール推定部２３１と姿勢パラメータ・スケール推定部２３２とを備えている。位置姿勢推定部２４は、位置姿勢追跡部２４１と動き予測部２４２とを備えている。位置姿勢追跡部２４１は、エッジ点抽出部２４１１と入力画像-エッジ間マッチング部２４１２と誤差最小化部２４１３とを備えている。

パッチ画像・特徴量抽出部２２は、カメラ３による撮影で取得された画像を複数のスケールにした入力画像２１からパッチ画像を抽出し、その特徴量を抽出する機能を有している。特徴量としては、量子化勾配方向特徴量を用いている。複数のスケールの入力画像２１とするのは、対象物体Ｏのカメラ３からの距離を推定するためである。

位置姿勢推定部２３は、入力画像２１の１フレーム目または追跡失敗後の先頭フレームからパッチ画像・特徴量抽出部２２により抽出されたパッチ画像の特徴量に基づき、オフライン処理で学習された決定木パラメータに基づいて対象物体Ｏの初期の位置姿勢を推定する機能を有している。姿勢クラス・重心位置・スケール推定部２３１は、第１段階（Layer1）の推定として、対象物体Ｏの姿勢クラスと重心位置とスケールを推定する機能を有している。スケールは、パッチ画像の生成時の仮想カメラと対象物体Ｏの関係から距離に変換することが可能であり、カメラ３と対象物体Ｏの距離の表現方法の一つである。この姿勢クラス・重心位置・スケール推定部２３１は、入力画像２１のパッチ画像を姿勢クラスに分類する第１の識別器として動作する。姿勢パラメータ・スケール推定部２３２は、第２段階（Layer2）の推定として、姿勢クラス・重心位置・スケール推定部２３１により推定された対象物体Ｏの姿勢クラスと重心位置とスケールに基づき、詳細な姿勢パラメータとスケール（第１段階よりも細分化したもの）を推定する機能を有している。第２段階で最終的に推定されたスケールから、カメラ３と対象物体Ｏの距離が求められる。この姿勢パラメータ・スケール推定部２３２は、姿勢クラス・重心位置・スケール推定部２３１により推定された姿勢クラス内で、入力画像２１のパッチ画像を詳細な姿勢パラメータに分類する第２の識別器として動作する。

位置姿勢推定部２４は、初期値の例となる、位置姿勢推定部２３により推定された対象物体Ｏの位置姿勢推定値に基づき、位置姿勢の誤差の補正およびその後の対象物体Ｏの追跡を行う機能を有している。追跡が失敗した場合、位置姿勢推定部２４は位置姿勢推定部２３に対して追跡失敗を通知する。位置姿勢追跡部２４１は、位置姿勢推定部２３により推定された対象物体Ｏの位置姿勢推定値によるＣＡＤモデル上のエッジ点と入力画像２１のエッジ点とを比較することにより、推定後に変化した対象物体Ｏの位置姿勢に補正する機能を有している。なお、この位置姿勢の補正は、位置姿勢推定部２３による位置姿勢の推定の誤差を補正することにもなり、位置姿勢の精度向上に寄与する。

エッジ点抽出部２４１１は、入力画像２１から対象物体Ｏの輪郭を示すエッジ点を抽出するとともに、位置姿勢推定部２３により推定された対象物体Ｏの位置姿勢推定値によるＣＡＤモデル上のエッジ点を抽出する機能を有している。入力画像-エッジ間マッチング部２４１２は、ＣＡＤモデル上のエッジ点と入力画像２１のエッジ点とを対応付ける機能を有している。誤差最小化部２４１３は、位置姿勢推定部２３により推定された対象物体Ｏの位置姿勢推定値によるＣＡＤモデル上のエッジ点と入力画像２１のエッジ点との誤差が最小化するように位置姿勢を補正する機能を有している。

動き予測部２４２は、追跡中の対象物体Ｏの位置姿勢から、後続の投影画像の生成および対象物体Ｏへの投影に要する遅延時間後の対象物体Ｏの位置姿勢を予測する機能を有している。

投影画像生成部２５は、位置姿勢推定部２４により推定された対象物体Ｏの位置姿勢に基づいて、その位置姿勢に整合させた投影画像を生成し、出力画像２６として出力する機能を有している。

なお、オンライン処理においては、初期の位置姿勢推定と、その後の追跡における位置姿勢推定とを同時に実施する場合について記載しているが、それぞれを単独で実施することもできる。例えば、追跡が必要ない場合または他の手法により追跡を行う場合は、初期の位置姿勢推定を単独で実施することができる。また、初期の位置姿勢推定を他の手法により行う場合は、追跡における位置姿勢推定を単独で実施することができる。

図３は情報処理装置１、２のハードウェア構成例を示す図である。図３において、情報処理装置１、２は、バス１０７を介して相互に接続されたＣＰＵ（Central Processing Unit）１０１、ＲＯＭ（Read Only Memory）１０２、ＲＡＭ（Random Access Memory）１０３を備えている。なお、ＣＰＵ１０１には、汎用的なＣＰＵの他に、ＧＰＵ（Graphic Processing Unit）も含まれるものとする。また、情報処理装置１、２は、ＨＤＤ（Hard Disk Drive）／ＳＳＤ（Solid State Drive）１０４、接続Ｉ／Ｆ（Interface）１０５、通信Ｉ／Ｆ１０６を備えている。ＣＰＵ１０１は、ＲＡＭ１０３をワークエリアとしてＲＯＭ１０２またはＨＤＤ／ＳＳＤ１０４等に格納されたプログラムを実行することで、情報処理装置１、２の動作を統括的に制御する。接続Ｉ／Ｆ１０５は、情報処理装置１、２に接続される機器とのインタフェースである。通信Ｉ／Ｆ１０６は、ネットワークを介して他の情報処理装置と通信を行うためのインタフェースである。

図２で説明した情報処理装置１、２の機能は、ＣＰＵ１０１において所定のプログラムが実行されることで実現される。プログラムは、記録媒体を経由して取得されるものでもよいし、ネットワークを経由して取得されるものでもよいし、ＲＯＭ組込でもよい。処理に際して参照・更新されるデータは、ＲＡＭ１０３またはＨＤＤ／ＳＳＤ１０４に保持される。

＜動作＞
図４はオフライン処理の例を示すフローチャートである。図４において、情報処理装置１では、検出対象となる対象物体ＯのＣＡＤモデルからポジティブ画像１１を生成する（ステップＳ１１）。なお、他の情報処理装置においてポジティブ画像１１を生成し、それを情報処理装置１で取得するようにしてもよい。

図５は３Ｄモデルからポジティブ画像を生成する例を示す図である。図５において、対象物体ＯのＣＡＤによる３Ｄモデルを中心とした所定半径の仮想球面上に仮想カメラＶＣを置き、様々な位置からのポジティブ画像１１を取得する。仮想カメラＶＣの位置をｖ_ｘ、ｖ_ｙ、ｖ_ｚ、仮想カメラＶＣの光軸回りの回転角をθ_ｒｏとすると、姿勢パラメータθは、
θ＝｛ｖ_ｘ，ｖ_ｙ，ｖ_ｚ，θ_ｒｏ｝
と表すことができる。

また、２段階の機械学習における第１段階の機械学習に対応させるため、仮想カメラＶＣを置く球面を例えば８つの領域（クラス）に区分する。８つの領域は、例えば、球面を北半球と南半球に分けた上で、それぞれを経度方向に４つに区分する。そして、８つの領域内において、仮想カメラＶＣの位置と回転を均等に変化させてポジティブ画像１１を取得する。なお、ポジティブ画像１１の特徴量に用いる累積勾配方向特徴量を得ることができるように、位置姿勢を微小に変化させたポジティブ画像１１を併せて取得する。ただし、対象物体Ｏの重心を中心に位置姿勢を変化させた場合には重心から遠くなる点が特徴量に反映されにくくなるため、空間的に均等に配置されたサンプリング点を中心に位置姿勢を微小に変化させる。なお、照明の強度についても一様乱数で変化させる。

図４に戻り、背景画像や、対象物体Ｏ以外の誤検出される可能性のある物体についてネガティブ画像１２を取得する（ステップＳ１２）。ネガティブ画像１２は、デジタルカメラ等により撮影したもの等を用いることができる。

次いで、情報処理装置１のパッチ画像抽出部１３は、ポジティブ画像１１およびネガティブ画像１２からそれぞれパッチ画像を抽出する（ステップＳ１３）。抽出したパッチ画像は、相対位置（ポジティブ画像１１にあっては対象物体Ｏの重心からのオフセット）と対応付けておく。図６はパッチ画像の抽出の例を示しており、対象物体Ｏからパッチ画像Ｐを抽出する様子を示している。パッチ画像Ｐは、重複を許容し、縦横に数ピクセルずつずらしながら、多数抽出する。

図４に戻り、情報処理装置１の特徴量抽出部１４は、パッチ画像抽出部１３により抽出されたパッチ画像から画像の特徴量を抽出し（ステップＳ１４）、学習時および識別時に用いる他の情報を付加したパッチ情報をパッチ情報記憶部１５に格納する（ステップＳ１５）。

図７は、パッチ画像Ｐをグリッド状に分割した各格子内における輝度勾配（矢印で示す）の例を示している。輝度勾配は画像にsobelフィルタを適用することで求めることができる。各格子内で輝度勾配の大きさが所定の閾値を超えるものの勾配方向を例えば８つの方向に量子化したものが量子化勾配方向特徴量である。また、ポジティブ画像１１の生成時にサンプリング点を中心に位置姿勢を微小に変化させた複数のポジティブ画像１１から抽出した近傍にある複数のパッチ画像における量子化勾配方向特徴量を累積し、出現頻度が所定の閾値を超えるものを抽出したものが累積勾配方向特徴量である。また、その際の出現頻度は累積勾配方向特徴量の重みとする。

図８はパッチ情報記憶部１５に記憶されるパッチ情報のデータ構造例を示す図である。ポジティブ画像１１に対するパッチ情報は、「量子化勾配方向特徴量」「累積勾配方向特徴量」「累積勾配方向特徴量の重み」「パッチのクラスラベル」「パッチの姿勢方向ラベル」「オフセットベクトル」「姿勢パラメータ」「対象物体との距離」等を含んでいる。ネガティブ画像１２に対するパッチ情報は、「量子化勾配方向特徴量」「パッチのクラスラベル」等を含んでいる。この場合の「パッチのクラスラベル」は、ポジティブ画像１１の位置姿勢（図５において撮影を行う８つの領域に対応）のクラスラベル（例えば、１〜８）とは異なるクラスラベル（例えば、０）が設定される。

図４に戻り、情報処理装置１の決定木学習部１６は、パッチ情報記憶部１５に格納されたパッチ情報に基づいて２段階（２層）の機械学習を行い（ステップＳ１６）、学習結果の決定木パラメータを決定木パラメータ記憶部１７に格納する（ステップＳ１７）。なお、この決定木パラメータが示す分岐条件に基づいて、決定木は、パッチ画像を分類し、分類結果を出力する。

図９は機械学習に用いられる決定木の例を示す図であり、決定木は複数設けられ、各決定木はルートのノードから２つに分岐して行き、以降のノードでも２つに分岐し、末端のノードに達する。各ノードには分岐関数が設定され、判断結果により左か右に分岐する。各ノードの分岐関数は、学習サンプルとなるパッチ画像と、比較対象としてランダムに選択されるパッチ画像の特徴量とから類似度を計算し、類似度を所定の閾値と比較して、閾値以上であるか否かの判断を行う。なお、一般にはRandom Forestsと呼ばれる、各ノードの分岐関数が異なるものが用いられるが、本実施形態では、演算処理の高速化のために、１つの決定木において、同じ階層のノードにおける分岐関数を同じにしたRandom Fernsと呼ばれる形式を用いている。

第１段階（Layer1）の学習では、パッチ情報記憶部１５に格納された多数のパッチ情報からランダムにサンプリングしたデータセットと、サンプル内からランダムに取り出したポジティブ画像のパッチ情報とに基づいて決定木で分岐する。第２段階（Layer1）の学習では、クラスラベル（例えば、１〜８）毎に、各クラスに属するパッチ情報のデータセットと、同じクラス内からランダムに取り出したポジティブ画像のパッチ情報とに基づいて決定木で分岐する。そして、第１段階および第２段階のいずれにおいても、ポジティブ画像のパッチ情報と分岐関数の閾値とをランダムに変動させ、分岐結果のエントロピーが最小になるように各ノードのポジティブ画像のパッチ情報と閾値を決定する。

第１段階（Layer1）の決定木は、並列的に複数（例えば、２０）設けられ、各決定木の末端のノードにはクラスラベル（例えば、０、１〜８）が割り当てられ、更に「クラス確率」と「オフセットベクトル」が保持される。「クラス確率」は、末端のノードに割り当てられたクラスラベルに実際に分類された同クラスラベルのパッチ画像の比率である。例えば、クラスラベル「４」が割り当てられた末端のノードに１０個のパッチ画像が分類され、そのうちクラスラベル「４」のパッチ画像が３個ある場合、クラス確率は０．３（＝３÷１０）となる。「オフセットベクトル」は、末端のノードに割り当てられたクラスラベルに実際に分類された同クラスラベルのパッチ画像のオフセットベクトルの平均である。各ノードにおける比較対象のパッチ情報と閾値と、末端のノードのクラスラベルとクラス確率とオフセットベクトルは、第１段階の決定木の決定木パラメータとして決定木パラメータ記憶部１７に格納される。

第２段階（Layer2）の決定木は、ポジティブ画像に対応するクラスラベル（例えば、１〜８）のそれぞれに複数（例えば、２０）設けられ、決定木の末端のノードには「姿勢パラメータ」が保持される。「姿勢パラメータ」は、末端のノードに分類されたパッチ画像の姿勢パラメータの平均である。各ノードにおける比較対象のパッチ情報と閾値と、末端のノードの姿勢パラメータは、第２段階の決定木の決定木パラメータとして決定木パラメータ記憶部１７に格納される。

図１０はオンライン処理の例を示すフローチャートである。図１０において、情報処理装置２のパッチ画像・特徴量抽出部２２は、カメラ３による撮影で取得された画像を複数のスケールにした入力画像２１からパッチ画像を抽出し、その特徴量を抽出する（ステップＳ２０１）。特徴量としては、量子化勾配方向特徴量を用いる。

次いで、位置姿勢推定部（初期）２３は、入力画像２１の１フレーム目または追跡失敗後の先頭フレームからパッチ画像・特徴量抽出部２２により抽出されたパッチ画像の特徴量に基づき、オフライン処理で学習された決定木パラメータに基づいて対象物体Ｏの初期の位置姿勢を推定する（ステップＳ２０２）。

すなわち、位置姿勢推定部２３の姿勢クラス・重心位置・スケール推定部２３１は、第１段階（Layer1）の推定として、対象物体Ｏの姿勢クラスと重心位置とスケールを推定する（ステップＳ２０３）。より具体的には、次のような処理を行う。先ず、各スケールおよび姿勢方向クラスに対するｘｙ空間の投票空間（投票平面）（より具体的には、スケール毎の投影平面（ｘｙ空間）が、スケール分だけ重なったような３次元空間）を作成しておく。入力画像２１から抽出したパッチ画像を第１段階の決定木パラメータに基づく決定木に入力し、各ノードの分岐関数に基づいて分岐させる。末端のノードに辿りついた際に、格納されている姿勢方向のクラスおよびスケールに対応する投票空間に投票する。図１１はあるスケールに対応する投票空間への投票結果の例を示す図であり、台風の目のように見える点が極大値（あるスケールでの重心）を示しており、ｘ，ｙ，scaleで構築される３次元空間の中なら、ｍｅａｎｓｈｉｆｔ法を使って極大が求められる。全ての決定木の結果を投票した上で、極大が求められ、その位置、スケールおよび姿勢方向クラスが第１段階の推定の結果として出力される。なお、姿勢クラスには別に投票処理が用意され、末端に到達したパッチ数と、末端に保持されているクラス確率とが掛け合わされ、全末端ノード分を足し合わせた中から最大となるクラスが求められる。

図１０に戻り、位置姿勢推定部２３の姿勢パラメータ・スケール推定部２３２は、第２段階（Layer2）の推定として、姿勢クラス・重心位置・スケール推定部２３１により推定された対象物体Ｏの姿勢クラスと重心位置とスケールに基づき、詳細な姿勢パラメータとスケール（第１段階よりも細分化したもの）を推定する（ステップＳ２０４）。より具体的には、次のような処理を行う。先ず、各スケール（第１段階よりも細分化したもの）および姿勢パラメータに対応するｘｙ空間の投票空間（各スケール毎に投票平面を考え、これを積み重ねた３次元空間）を作成しておく。第１段階の推定で得られた姿勢方向クラスに対応する第２段階の決定木に対して、第１段階で検出した領域内（第１段階で検出した重心を中心とした、対象物体が含まれると想定される領域内）のパッチ情報を入力して分岐させる。末端のノードに辿りついた際に、スケールに対応する投票空間（スケールと、それに対応する重心（ｘ，ｙ）で構成される３次元空間）に投票する。姿勢パラメータに対しては、投票空間に、決定木の末端に設定された姿勢パラメータに、到達したパッチ画像数を重みとして、平均を求めて、姿勢パラメータを加えていく。全ての決定木の結果を投票した上で、極大を求め、その位置、スケールおよび加重平均した姿勢パラメータが最終的な結果として出力される。順番的には、まずスケールと重心を全ての木の結果を総合して求め、それに対応する姿勢パラメータ（つまり回転）を求める。推定されたスケールからは、学習時にサンプルを撮影した距離を利用して、距離が算出される。

次いで、位置姿勢推定部（追跡）２４は、位置姿勢推定部２３により推定された対象物体Ｏの位置姿勢推定値に基づき、位置姿勢の誤差の補正およびその後の対象物体Ｏの追跡を行う（ステップＳ２０５）。すなわち、位置姿勢推定部２４の位置姿勢追跡部２４１のエッジ点抽出部２４１１は、入力画像２１から対象物体Ｏの輪郭を示すエッジ点を抽出するとともに、位置姿勢推定部２３により推定された対象物体Ｏの位置姿勢推定値によるＣＡＤモデル上のエッジ点を抽出する（ステップＳ２０６）。次いで、入力画像-エッジ間マッチング部２４１２は、ＣＡＤモデル上のエッジ点と入力画像２１のエッジ点とを対応付ける（ステップＳ２０７）。そして、誤差最小化部２４１３は、位置姿勢推定部２３により推定された対象物体Ｏの位置姿勢推定値によるＣＡＤモデル上のエッジ点と入力画像２１のエッジ点との誤差（位置誤差の総和）が最小化するように対象物体Ｏの位置姿勢を補正する（ステップＳ２０８）。図１２はエッジ点の例を示しており、入力画像２１から得られた輪郭をＥ１、ＣＡＤモデルから得られた輪郭をＥ２で示している。ＣＡＤモデルの位置姿勢を変化させて入力画像２１から得られたエッジ点とできるだけ一致させることで、対象物体Ｏの位置姿勢を補正する。

図１０に戻り、エッジ点間の誤差が所定の閾値以下であって補正可である場合（ステップＳ２０９のＹｅｓ）、過去の対象物体Ｏの動きの変化から所定の遅延後の対象物体Ｏの位置姿勢を予測して出力し（ステップＳ２１０）、位置姿勢の追跡（ステップＳ２０５）を繰り返す。カメラ３により撮影された入力画像２１による対象物体Ｏの位置姿勢の推定は、撮影後の処理による遅延により既に実際の位置姿勢から遅延したものであり、更に、その後に投影画像を生成して実際に投影するまでには更に処理の遅延が起きるため、それらの合計の遅延に相当する予測を行う。位置姿勢の予測は、例えば、直前までの対象物体Ｏの並行移動の速度および回転の角速度から予測する。また、誤差が所定の閾値より大きく補正不可である場合（ステップＳ２０９のＮｏ）、パッチ画像および特徴量の抽出（ステップＳ２０１）および初期の位置姿勢の推定（ステップＳ２０２）から処理を繰り返す。

一方、投影画像生成部２５は、出力された位置姿勢に基づいて投影画像を生成して出力する（ステップＳ２１１）。図１３は対象物体Ｏへの投影の例を示しており、テクスチャレス物体である対象物体Ｏに顔の画像を投影した状態を示している。対象物体Ｏの位置姿勢はリアルタイムに推定・予測され、その位置姿勢に応じた投影画像が生成されて投影されるため、対象物体Ｏを動かしても、自然な投影を行うことができる。

＜総括＞
以上説明したように、本実施形態によれば、照明変化や対象物体の位置姿勢の変動や自己遮蔽に対する頑健さと位置姿勢の推定の精度の向上とを同時に満たすことができる。

（第２実施形態）
第２実施形態は、例えば、第１実施形態と同様のシステム構成及びハードウェア構成によって実現できる。以下、第１実施形態と同様のシステム構成及びハードウェア構成による例で説明し、重複する説明を省略する。また、同一の構成は、同一の符号を付し、説明を省略する。以下、第１実施形態と異なる点を中心に説明する。具体的には、第１実施形態と比較すると、以下のように、機能構成及びオンライン処理が異なる。

＜構成＞
図１４は第２実施形態の機能構成例を示す図である。図２と比較すると、図１４に示す機能構成例は、動き予測部２４２が、第１動き予測部２４２１と、第２動き予測部２４２２となる点が異なる。

第１動き予測部２４２１は、第１実施形態における動き予測部２４２と同一の構成である。

第２動き予測部２４２２は、例えば、第１動き予測部２４２１と同様の方法によって動きを予測する。第１動き予測部２４２１が、後続における投影画像生成部２５によって出力画像が生成され、投影されるまでの遅延時間分を予測するのに対して、第２動き予測部２４２２は、次の入力画像２１が撮影されるまでの遅延時間分を予測する点が異なる。

具体的には、まず、入力画像２１がカメラによって撮影される時刻を「時刻ａ」とし、位置姿勢追跡部２４１によって追跡処理が終了する時刻を「時刻ｂ」とする。

この場合には、第１動き予測部２４２１は、時間「ｂ−ａ」に加えて、出力画像２６が投影されるまでの遅延分を補償する。一方で、第２動き予測部２４２２は、時間「ｂ−ａ」に加えて、「時刻ｂ」から次の入力画像２１が取得されるまでの遅延分を補償する。

なお、第１動き予測部２４２１及び第２動き予測部２４２２による処理は、例えば、並列の関係となる。

＜動作＞
図１５は第２実施形態におけるオンライン処理の例を示すフローチャートである。図１０、すなわち、第１実施形態と比較すると、図１５は、ステップＳ３０１で追加される点が異なる。

第２動き予測部２４２２は、対象物体の過去の位置姿勢の変化から、対象物体が次に撮影されるまでの遅延後の位置姿勢を予測する（ステップＳ３０１）。補正可と判断されると（ステップＳ２０９でＹＥＳ）、ステップＳ２０８のように位置姿勢が補正される。

ステップＳ３０１では、第２動き予測部２４２２は、ステップＳ２０８によって補正された位置姿勢の時点から、次の入力画像が撮影される時点までの遅延後の位置姿勢を予測する。そして、ステップＳ２０６では、ステップＳ３０１で予測された位置姿勢におけるＣＡＤモデル上のエッジ点が抽出される。

図１６は処理結果例を示す図である。以下、図１６（Ａ）に示すような対象物体Ｏ２を例に説明する。まず、前フレームの入力画像による補正又は初期の位置姿勢の推定結果に基づいて、対象物体Ｏ２が、図１６（Ａ）に示すような位置姿勢であると推定されるとする。図１６（Ａ）に示す位置姿勢は、前フレームの入力画像等によって推定された位置姿勢であるため、現時点では、位置姿勢が変化している場合がある。

そこで、第２動き予測部２４２２は、前フレームの入力画像等の時点から、次の入力画像が撮影されるまでの遅延分を予測する（ステップＳ３０１）。次に、ステップＳ２０６では、ステップＳ３０１で予測された３ＤモデルＭＤＬからエッジ点を抽出する。

具体的には、ステップＳ２０６では、図示するように、まず、３ＤモデルＭＤＬから、３Ｄモデルの輝度勾配ＬＵが検出される。次に、輝度勾配ＬＵから、エッジ点ＥＤが抽出される。このようにステップＳ３０１で予測された３ＤモデルＭＤＬからエッジ点を抽出されると、より実際の状態に近い状態から、エッジ点ＥＤが抽出できる。

そのため、図１６（Ｂ）に示すように、入力画像と、エッジ点ＥＤとの対応付けにおいて、マッチング精度が向上する。このようにして、図１６（Ｃ）に示すように、誤差を最小化した位置姿勢に更新できる。

＜実験結果＞
図１７は実験に用いた対象物体を示す図である。以下、奥行き方向を「Ｚ軸」とする。また、高さ方向を「Ｙ軸」とする。さらに、右手方向を「Ｘ軸」とする。

また、対象物体は、Ｚ軸に３３センチメートル、Ｙ軸に１８センチメートル及びＸ軸に２０センチメートルの大きさである。

図示するような対象物体をＸ軸方向へ５０センチメートル程度往復運動させた「平行移動」の実験結果及びＺ軸方向において（Ｒｏｌｌ回転）０度乃至９０度の回転をさせた「回転運動」の実験結果を以下に説明する。なお、値は、平均誤差である。

図１８は平行移動の実験結果を示す図である。図１８（Ａ）及び図１８（Ｂ）に示す実験結果は、追跡精度である。追跡精度は、入力画像から位置姿勢を追跡した際の実際の位置との誤差、すなわち、投影される前段階における精度である。したがって、図は、値が小さいほど精度が良いことを示す。

また、図１８はＸ軸方向への並進運動であるため、Ｘ軸方向に大きな位置ずれが生じやすい運動である。

図１８（Ｃ）及び図１８（Ｄ）に示す実験結果は、投影精度である。投影精度は、プロジェクタによって投影された画像の位置と、対象物体との誤差である。

図では、「位置」は、Ｘ軸、Ｙ軸又はＺ軸における位置を示し、「回転」は、Ｘ軸（Ｔｉｌｔ軸）、Ｙ軸（Ｐａｎ軸）又はＺ軸（Ｒｏｌｌ軸）における角度を示す。

図示するように、追跡精度は、比較対象とする３Ｄセンサカメラ程度に近い精度を出すことができた。一方で、投影精度は、３Ｄセンサカメラより精度良くできた。

なお、実験では、３Ｄセンサカメラは、３０ｆｐｓ（フレーム毎秒）であった。一方で、本実施形態は、１３３ｆｐｓの更新速度であった。

図示するように、３Ｄセンサカメラでは、投影における遅延に対して予測がかけにくいため、３Ｄセンサカメラは、投影精度が悪くなる。一方で、本実施形態は、投影における遅延があっても精度良く画像を投影できる。また、本実施形態では、上記のような更新速度によって、より精度良く予測ができる。さらに、本実施形態は、このような更新速度による予測よって、追跡の際と同じ程度の誤差とすることができる。

以上のように、大きな位置ずれが生じやすいＸ軸方向への並進運動において、本実施形態は、Ｘ軸方向における誤差を少なく抑えることができる。なお、本実施形態は、他の軸においては、誤差を計測誤差程度に抑えることができた。

図１９は回転運動の実験結果を示す図である。図１８（Ａ）及び図１８（Ｂ）と同様に、図１９（Ａ）及び図１９（Ｂ）は、回転運動における追跡精度を示す。

また、図１８（Ｃ）及び図１８（Ｄ）と同様に、図１９（Ｃ）及び図１９（Ｄ）は、回転運動における投影精度を示す。

図示するように、Ｚ軸回転の誤差が生じやすい回転運動であっても、追跡精度は、Ｚ軸回転において、３Ｄセンサカメラ程度に近い精度を出すことができた。また、投影精度は、３Ｄセンサカメラより精度良くできた。

＜他の実施形態＞
なお、実施形態は、１以上の情報処理装置を有する物体検出システムによって実現されてもよい。すなわち、物体検出システムは、図１に示すように、オフライン処理を行う情報処理装置と、オンライン処理を行う情報処理装置とを有する構成である。なお、情報処理装置は、１台でもよく、複数台で構成されてもよい。

以上、本発明の好適な実施の形態により本発明を説明した。ここでは特定の具体例を示して本発明を説明したが、特許請求の範囲に定義された本発明の広範な趣旨および範囲から逸脱することなく、これら具体例に様々な修正および変更を加えることができることは明らかである。すなわち、具体例の詳細および添付の図面により本発明が限定されるものと解釈してはならない。

１情報処理装置
１１ポジティブ画像
１２ネガティブ画像
１３パッチ画像抽出部
１４特徴量抽出部
１５パッチ情報記憶部
１６決定木学習部
１７決定木パラメータ記憶部
２情報処理装置
２１入力画像
２２パッチ画像・特徴量抽出部
２３位置姿勢推定部
２３１姿勢クラス・重心位置・スケール推定部
２３２姿勢パラメータ・スケール推定部
２４位置姿勢推定部
２４１位置姿勢追跡部
２４１１エッジ点抽出部
２４１２入力画像-エッジ間マッチング部
２４１３誤差最小化部
２４２動き予測部
２４２１第１動き予測部
２４２２第２動き予測部
２５投影画像生成部
２６出力画像
３カメラ
４プロジェクタ
５赤外照明
Ｏ、Ｏ２対象物体

Claims

検出の対象物体の様々な姿勢の画像から抽出したパッチ画像の特徴量に基づいて学習され、前記対象物体を撮影して得た入力画像のパッチ画像をいずれかの姿勢クラスに分類する第１の識別器と、
前記対象物体の様々な姿勢の画像から抽出したパッチ画像の特徴量に基づいて学習され、姿勢クラスが推定された入力画像のパッチ画像をいずれかの姿勢パラメータに分類する第２の識別器と
を備えたことを特徴とする物体検出装置。
前記入力画像を赤外線カメラから入力する
ことを特徴とする請求項１に記載の物体検出装置。
前記特徴量として累積勾配方向特徴量または量子化勾配方向特徴量を用いる
ことを特徴とする請求項１または２に記載の物体検出装置。
前記第１の識別器および前記第２の識別器は、前記入力画像の個々のパッチ画像による分類結果の総合的な投票結果に基づいて分類を行う
ことを特徴とする請求項１乃至３のいずれか一項に記載の物体検出装置。
前記第１の識別器および前記第２の識別器は、前記第１の識別器および前記第２の識別器を構成する決定木をRandom Ferns形式で構成する
ことを特徴とする請求項１乃至４のいずれか一項に記載の物体検出装置。
前記第２の識別器により推定された姿勢パラメータを初期値として、前記入力画像により前記対象物体の位置姿勢を追跡する位置姿勢追跡部と、
前記対象物体の過去の位置姿勢の変化から所定の遅延後の前記対象物体の位置姿勢を予測する動き予測部と
を備えたことを特徴とする請求項１乃至５のいずれか一項に記載の物体検出装置。
前記位置姿勢追跡部は、前記初期値における前記対象物体のＣＡＤモデル上のエッジ点と前記入力画像から抽出した前記対象物体のエッジ点との誤差を最小化するように位置姿勢に補正を加える
ことを特徴とする請求項６に記載の物体検出装置。
対象物体の姿勢パラメータの初期値を入力し、前記対象物体を撮影して得た入力画像により前記対象物体の位置姿勢を追跡する位置姿勢追跡部と、
前記対象物体の過去の位置姿勢の変化から所定の遅延後の前記対象物体の位置姿勢を予測する動き予測部と
を備えたことを特徴とする物体検出装置。
検出の対象物体の様々な姿勢の画像から抽出したパッチ画像の特徴量に基づいて学習され、前記対象物体を撮影して得た入力画像のパッチ画像をいずれかの姿勢クラスに分類する第１の識別手順と、
前記対象物体の様々な姿勢の画像から抽出したパッチ画像の特徴量に基づいて学習され、姿勢クラスが推定された入力画像のパッチ画像をいずれかの姿勢パラメータに分類する第２の識別手順と
をコンピュータが実行することを特徴とする物体検出方法。
対象物体の姿勢パラメータの初期値を入力し、前記対象物体を撮影して得た入力画像により前記対象物体の位置姿勢を追跡する位置姿勢追跡手順と、
前記対象物体の過去の位置姿勢の変化から所定の遅延後の前記対象物体の位置姿勢を予測する動き予測手順と
をコンピュータが実行することを特徴とする物体検出方法。
検出の対象物体の様々な姿勢の画像から抽出したパッチ画像の特徴量に基づいて学習され、前記対象物体を撮影して得た入力画像のパッチ画像をいずれかの姿勢クラスに分類する第１の識別手順と、
前記対象物体の様々な姿勢の画像から抽出したパッチ画像の特徴量に基づいて学習され、姿勢クラスが推定された入力画像のパッチ画像をいずれかの姿勢パラメータに分類する第２の識別手順と
をコンピュータに実行させることを特徴とする物体検出プログラム。
対象物体の姿勢パラメータの初期値を入力し、前記対象物体を撮影して得た入力画像により前記対象物体の位置姿勢を追跡する位置姿勢追跡手順と、
前記対象物体の過去の位置姿勢の変化から所定の遅延後の前記対象物体の位置姿勢を予測する動き予測手順と
をコンピュータに実行させることを特徴とする物体検出プログラム。
１以上の情報処理装置を有する物体検出システムであって、
検出の対象物体の様々な姿勢の画像から抽出したパッチ画像の特徴量に基づいて学習され、前記対象物体を撮影して得た入力画像のパッチ画像をいずれかの姿勢クラスに分類する第１の識別器と、
前記対象物体の様々な姿勢の画像から抽出したパッチ画像の特徴量に基づいて学習され、姿勢クラスが推定された入力画像のパッチ画像をいずれかの姿勢パラメータに分類する第２の識別器と、
前記第２の識別器により推定された姿勢パラメータを初期値として、前記入力画像により前記対象物体の位置姿勢を追跡する位置姿勢追跡部と、
前記対象物体の過去の位置姿勢の変化から所定の遅延後の前記対象物体の位置姿勢を予測する動き予測部と
を備えたことを特徴とする物体検出システム。
対象物体の姿勢パラメータの初期値を入力し、前記対象物体を撮影して得た入力画像により前記対象物体の位置姿勢を追跡する位置姿勢追跡部と、
前記対象物体の過去の位置姿勢の変化から、前記対象物体が投影されるまでに発生する遅延後の位置姿勢を予測する第１動き予測部と、
前記対象物体の過去の位置姿勢の変化から、前記対象物体が次に撮影されるまでの遅延後の位置姿勢を予測する第２動き予測部と
を備えたことを特徴とする物体検出装置。