JP6305856B2

JP6305856B2 - 画像処理装置、画像処理方法、およびプログラム

Info

Publication number: JP6305856B2
Application number: JP2014143691A
Authority: JP
Inventors: 小林　達也; 達也小林; 加藤　晴久; 晴久加藤
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2014-07-11
Filing date: 2014-07-11
Publication date: 2018-04-04
Anticipated expiration: 2034-07-11
Also published as: JP2016021097A; MY178928A

Description

本発明は、画像処理装置、画像処理方法、およびプログラムに関する。

近年、現実空間の画像（映像）をコンピュータで処理して仮想情報を重畳するＡＲ（拡張現実感）技術が注目を集めている。ＡＲ技術を用いることで、ユーザの行動を支援したり、ユーザに直観的な情報提示を行ったりすることが可能となる。例えば、ユーザの周囲に存在する看板や広告にＡＲ技術を用いることで、限られたスペースでは伝えることのできない詳細な情報や動画や３Ｄコンテンツなどを提示したり、場所や時間や閲覧者の属性などによって提示する情報を適宜変更したりすることができる。

ＡＲ技術の主要なプラットフォームとして、携帯端末が期待されている。この携帯端末としては、例えば、撮像装置（カメラ）およびディスプレイを搭載し、画像処理に十分な処理性能を備えたスマートフォンやＨＭＤ（Head Mounted Display）などの端末がある。

ＡＲ技術では、仮想情報を正しい位置に重畳するために、撮像装置と現実空間との相対的な姿勢（位置および向き）をリアルタイムで推定する必要がある。

上述の姿勢推定の手法として、例えば、認識対象となる基準マーカを用いる手法が提案されている（例えば、非特許文献１、２参照）。基準マーカとして、非特許文献１ではＡＲマーカが適用され、非特許文献２では任意の画像が適用される。しかし、非特許文献１、２に示されている手法では、上述の姿勢推定を行う装置に、基準マーカを予め登録しておく必要がある。

そこで、上述の姿勢推定の手法として、仮想情報を重畳する前段階の処理で現実空間をモデリングし、復元（モデリング）された空間全体を基準マーカとして扱うための手法が提案されている（例えば、非特許文献３参照）。この手法によれば、基準マーカを適宜作成するので、上述の姿勢推定を行う装置に、基準マーカを予め登録しておく必要がなくなる。

これらＡＲマーカを用いる手法と、任意の画像を用いる手法と、基準マーカを適宜作成する手法とには、それぞれ利便性や処理負荷のトレードオフが存在する。このため、適切な手法を、状況に応じて選択する必要がある。

また、処理性能の低い端末でも上述のような各種手法に対応できるように、認識アルゴリズムの高速化（効率化）の検討が進められている。例えば特許文献１には、初期姿勢の推定処理と、姿勢の追跡処理と、を組み合わせ、姿勢の追跡処理では連続的に入力されるプレビュー画像内で特徴点の追跡を行う手法が提案されている。この手法によれば、処理性能の低い端末でも、姿勢の推定をリアルタイムで行うことができる。

ところで、ＡＲ技術において、仮想情報を配置する方法として、２つの方法がある。１つ目の方法は、基準マーカに対する仮想情報の相対的な位置関係を登録しておくことで、仮想情報をＡＲ空間内に固定配置する方法である。２つ目の方法は、基準マーカとは異なるオブジェクトに対する仮想情報の相対的な位置関係を登録しておくことで、仮想情報をＡＲ空間内に配置する方法である。

２つ目の方法では、カメラの動きや、基準となるオブジェクトの動きに合わせて、仮想情報の表示位置が変化する。この２つ目の方法は、例えばトレーディングカードの上に３Ｄモデルといった仮想情報を表示する場合に用いられる。

トレーディングカードの上に３Ｄモデルといった仮想情報を表示する場合、オブジェクト（トレーディングカード）と現実空間との間の姿勢が固定ではないため、ＡＲ空間（例えばカードゲームのフィールドなど）を提示するためには、固定配置された基準マーカが必要になる。また、オブジェクトの認識についても、基準マーカを認識する際と同様の処理が必要になる。さらに、複数のオブジェクト上に仮想情報を表示する場合には、各オブジェクトを認識する（姿勢を推定する）必要があるため、高い処理能力が端末に要求される。

特開２０１３−５０８８４４号公報

H. Kato and M. Billinghurst, "Marker tracking and hmd calibration for a video-based augmented reality conferencing system," in Proc. Of IEEE and ACM International Workshop on Augmented Reality, 1999. D. Wagner, G. Reitmayr, A. Mulloni, T. Drummond, and D. Schmalstieg, "Real-time detection and tracking for augmented reality on mobile phones," IEEE Trans. On Visualization and Computer Graphics, 2010. G. Klein and D. Murray. Parallel tracking and mapping for small ar workspaces. In Proc. Of International Symposium on Mixed and Augmented Reality, 2007. S. Benhimane and E. Malis, "Homography-based 2d visual tracking and servoing," International Journal of Robotics Research, 2007.

特許文献１や非特許文献１、２の手法では、仮想情報をオブジェクトに登録した場合、各端末は、独立してオブジェクトを認識する必要がある。このため、オブジェクトの数が増加するに従って、各端末における処理負荷が増大し、各端末でのリアルタイム処理の実現が困難となり、その結果、各端末が表示可能な仮想情報の数が限定されてユーザビリティが低下してしまうおそれがあった。

また、オブジェクトの姿勢の推定は、プレビュー画像ごとに独立に行われる。このため、オクルージョン（遮蔽）や光の反射（白飛び）などによって、オブジェクトの認識に一時的に失敗してしまい、仮想情報の表示が中断してしまうことがあった。

さらに、初期姿勢を推定する処理は、姿勢の追跡処理と比べて撮影角度や撮影距離に対する頑健性に欠けることがあるので、撮影位置によっては、仮想情報の表示が中断すると、仮想情報の表示を再開できないこともあった。

そこで、本発明は、上述の課題に鑑みてなされたものであり、ＡＲ技術において、処理負荷を軽減したり、オブジェクトの認識の頑健性を向上させたりすることを目的とする。

本発明は、上記の課題を解決するために、以下の事項を提案している。
（１）本発明は、プレビュー画像に仮想情報を重畳させる画像処理装置（例えば、図１の画像処理装置１に相当）であって、前記プレビュー画像を取得する画像取得手段（例えば、図１の画像取得部１０に相当）と、前記画像取得手段により取得されたプレビュー画像内のオブジェクトを認識する画像認識手段（例えば、図１の画像認識部２０に相当）と、前記画像認識手段により認識されたオブジェクト間の関係性（例えば、後述のオブジェクト間の相対姿勢に相当）を推定し、推定結果に基づいてオブジェクトを分類し、同一のグループに分類したオブジェクトのうちの１つである主要オブジェクトの前記画像認識手段による認識結果に基づいて、当該グループに分類した当該主要オブジェクト以外のオブジェクトを認識するオブジェクト関係推定手段（例えば、図１のオブジェクト関係推定部３０に相当）と、前記画像認識手段による認識結果と、前記オブジェクト関係推定手段による認識結果と、に基づいて、前記画像取得手段により取得されたプレビュー画像に仮想情報を重畳させる仮想情報表示手段（例えば、図１の仮想情報表示部７０に相当）と、を備えることを特徴とする画像処理装置を提案している。

この発明によれば、プレビュー画像に仮想情報を重畳させる画像処理装置に、画像取得手段、画像認識手段、オブジェクト関係推定手段、および仮想情報表示手段を設け、画像取得手段により、プレビュー画像を取得することとした。また、画像認識手段により、画像取得手段により取得されたプレビュー画像内のオブジェクトを認識することとした。また、オブジェクト関係推定手段により、画像認識手段により認識されたオブジェクト間の関係性を推定し、推定結果に基づいてオブジェクトを分類し、同一のグループに分類したオブジェクトのうちの１つである主要オブジェクトの画像認識手段による認識結果に基づいて、このグループに分類した主要オブジェクト以外のオブジェクトを認識することとした。また、仮想情報表示手段により、画像認識手段による認識結果と、オブジェクト関係推定手段による認識結果と、に基づいて、画像取得手段により取得されたプレビュー画像に仮想情報を重畳させることとした。このため、オブジェクト関係推定手段により、オブジェクトを、このオブジェクトと関係性の高いオブジェクトの認識結果に基づいて認識することができる。したがって、オブジェクト関係推定手段によりオブジェクトを認識することで、画像認識手段により認識するオブジェクトの数を減少させたり、画像認識手段では認識できなかったオブジェクトを認識したりすることができる。よって、ＡＲ技術において、処理負荷を軽減したり、オブジェクトの認識の頑健性を向上させたりすることができる。

（２）本発明は、（１）の画像処理装置について、前記オブジェクト関係推定手段は、前記主要オブジェクトとして、前記画像認識手段により認識できたオブジェクトを適用し、前記主要オブジェクトと同一のグループに分類した当該主要オブジェクト以外のオブジェクトとして、当該主要オブジェクトと同一のグループに分類されているとともに前記画像認識手段により認識できなかったオブジェクトを適用することを特徴とする画像処理装置を提案している。

この発明によれば、（１）の画像処理装置において、オブジェクト関係推定手段により、主要オブジェクトとして、画像認識手段により認識できたオブジェクトを適用し、主要オブジェクトと同一のグループに分類した主要オブジェクト以外のオブジェクトとして、主要オブジェクトと同一のグループに分類されているとともに画像認識手段により認識できなかったオブジェクトを適用することとした。このため、画像認識手段では認識できなかったオブジェクトを、主要オブジェクトの認識結果に基づいて認識することができる。

（３）本発明は、（１）または（２）の画像処理装置について、前記オブジェクト関係推定手段は、各グループからオブジェクトを１つずつ主要オブジェクトとして選択し、前記主要オブジェクトと同一のグループに分類された当該主要オブジェクト以外のオブジェクトについて、前記画像認識手段による認識を休止させる認識処理制御手段（例えば、図１１の認識処理制御部４０に相当）を備えることを特徴とする画像処理装置を提案している。

この発明によれば、（１）または（２）の画像処理装置において、オブジェクト関係推定手段により、各グループからオブジェクトを１つずつ主要オブジェクトとして選択することとした。また、（１）または（２）の画像処理装置に、主要オブジェクトと同一のグループに分類された主要オブジェクト以外のオブジェクトについて、画像認識手段による認識を休止させる認識処理制御手段を設けることとした。このため、主要オブジェクトと同一のグループに分類された主要オブジェクト以外のオブジェクトについて、画像認識手段による認識を休止させてもオブジェクト関係推定手段により認識することができるので、画像認識手段により認識するオブジェクトの数を減少させることができる。

（４）本発明は、（３）の画像処理装置について、前記認識処理制御手段は、前記画像認識手段による主要オブジェクトの認識が失敗すると、当該主要オブジェクトと同一のグループに分類された当該主要オブジェクト以外のオブジェクトについて、前記画像認識手段による認識を再開させることを特徴とする画像処理装置を提案している。

この発明によれば、（３）の画像処理装置において、認識処理制御手段により、画像認識手段による主要オブジェクトの認識が失敗すると、主要オブジェクトと同一のグループに分類された主要オブジェクト以外のオブジェクトについて、画像認識手段による認識を再開させることとした。このため、オブジェクト関係推定手段による認識ができなくなった場合には、画像認識手段による認識を再開させることができ、オブジェクトの認識の頑健性をさらに向上させることができる。

（５）本発明は、（３）または（４）の画像処理装置について、前記認識処理制御手段は、前記画像認識手段による認識を休止させているオブジェクトについての前記オブジェクト関係推定手段による認識結果を、前記画像取得手段により取得されたプレビュー画像と照合し、照合に失敗すれば、当該オブジェクトについて前記画像認識手段による認識を再開させることを特徴とする画像処理装置を提案している。

この発明によれば、（３）または（４）の画像処理装置において、認識処理制御手段により、画像認識手段による認識を休止させているオブジェクトについてのオブジェクト関係推定手段による認識結果を、画像取得手段により取得されたプレビュー画像と照合し、照合に失敗すれば、オブジェクトについて画像認識手段による認識を再開させることとした。このため、オブジェクト関係推定手段による認識結果が正しいか否かを判定することができる。

（６）本発明は、（３）から（５）のいずれかの画像処理装置について、前記認識処理制御手段は、前記画像認識手段による認識を再開させる際に、前記画像取得手段により前回取得されたプレビュー画像における前記オブジェクト関係推定手段による認識結果を初期値として、前記画像認識手段に姿勢を追跡させることを特徴とする画像処理装置を提案している。

ここで、オクルージョンや光の反射などによってオブジェクトの認識に失敗してしまうのが、一時的なものであれば、オブジェクトの認識の失敗の解消時には、姿勢追跡部２３による姿勢の追跡処理に成功することが想定される。一般的に、初期姿勢推定部２２による姿勢の初期値の推定よりも、正確な姿勢の初期値を用いた画像認識手段による姿勢の追跡処理の方が、処理負荷や、姿勢推定の精度や、認識の頑健性に優れる。そこで、この発明によれば、（３）から（５）のいずれかの画像処理装置において、認識処理制御手段により、画像認識手段による認識を再開させる際に、画像取得手段により前回取得されたプレビュー画像におけるオブジェクト関係推定手段による認識結果を初期値として、画像認識手段に姿勢を追跡させることとした。このため、処理負荷を軽減することができるとともに、姿勢推定の精度および認識の頑健性を向上させることができる。

（７）本発明は、（３）から（６）のいずれかの画像処理装置について、前記認識処理制御手段は、前記画像認識手段による認識を休止させているオブジェクトについての前記オブジェクト関係推定手段による認識結果に基づいて、当該オブジェクトを前記画像取得手段により取得されたプレビュー画像に投影して投影画像を作成するとともに、前記投影画像と、前記画像取得手段により取得されたプレビュー画像と、の類似度が閾値未満であれば、照合に失敗したと判定することを特徴とする画像処理装置を提案している。

この発明によれば、（３）から（６）のいずれかの画像処理装置において、認識処理制御手段により、画像認識手段による認識を休止させているオブジェクトについてのオブジェクト関係推定手段による認識結果に基づいて、オブジェクトを画像取得手段により取得されたプレビュー画像に投影して投影画像を作成するとともに、投影画像と、画像取得手段により取得されたプレビュー画像と、の類似度が閾値未満であれば、照合に失敗したと判定することとした。このため、オブジェクト関係推定手段による認識結果が正しいか否かを判定することができる。

（８）本発明は、（７）の画像処理装置について、前記認識処理制御手段は、前記類似度が最大化する姿勢を反復計算により推定して、前記オブジェクト関係推定手段による認識結果を補正することを特徴とする画像処理装置を提案している。

この発明によれば、（７）の画像処理装置において、認識処理制御手段により、類似度が最大化する姿勢を反復計算により推定して、オブジェクト関係推定手段による認識結果を補正することとした。このため、ＡＲ技術において、処理負荷をさらに軽減したり、オブジェクトの認識の頑健性をさらに向上させたりすることができる。

（９）本発明は、（３）から（８）のいずれかの画像処理装置について、前記認識処理制御手段は、前記画像認識手段による認識を休止させているオブジェクトについての前記オブジェクト関係推定手段による認識結果に基づいて、当該オブジェクトを前記画像取得手段により取得されたプレビュー画像に投影して投影画像を作成するとともに、前記投影画像と、前記画像取得手段により取得されたプレビュー画像と、のテンプレートマッチングにより一致箇所を推定し、一致箇所における応答値が閾値未満であれば、照合に失敗したと判定することを特徴とする画像処理装置を提案している。

この発明によれば、（３）から（８）のいずれかの画像処理装置において、認識処理制御手段により、画像認識手段による認識を休止させているオブジェクトについてのオブジェクト関係推定手段による認識結果に基づいて、オブジェクトを画像取得手段により取得されたプレビュー画像に投影して投影画像を作成するとともに、投影画像と、画像取得手段により取得されたプレビュー画像と、のテンプレートマッチングにより一致箇所を推定し、一致箇所における応答値が閾値未満であれば、照合に失敗したと判定することとした。このため、オブジェクト関係推定手段による認識結果が正しいか否かを判定することができる。

（１０）本発明は、（１）から（９）のいずれかの画像処理装置について、前記画像処理装置とは異なる第１の画像処理装置で認識されたオブジェクトの認識結果を、当該画像処理装置を基準とした認識結果に変換する協調認識処理手段（例えば、図１６の協調認識処理部６０に相当）を備え、前記仮想情報表示手段は、前記画像認識手段による認識結果と、前記オブジェクト関係推定手段による認識結果と、前記協調認識処理手段による認識結果と、に基づいて、前記画像取得手段により取得されたプレビュー画像に仮想情報を重畳させることを特徴とする画像処理装置を提案している。

この発明によれば、（１）から（９）のいずれかの画像処理装置において、画像処理装置とは異なる第１の画像処理装置で認識されたオブジェクトの認識結果を、画像処理装置を基準とした認識結果に変換する協調認識処理手段を設けることとした。また、仮想情報表示手段により、画像認識手段による認識結果と、オブジェクト関係推定手段による認識結果と、協調認識処理手段による認識結果と、に基づいて、画像取得手段により取得されたプレビュー画像に仮想情報を重畳させることとした。このため、プレビュー画像への仮想情報の重畳に、他の画像処理装置で認識結果も用いることができるので、ＡＲ技術において、処理負荷をさらに軽減したり、オブジェクトの認識の頑健性をさらに向上させたりすることができる。

（１１）本発明は、（１）から（１０）のいずれかの画像処理装置について、前記オブジェクト関係推定手段は、前記画像認識手段により認識されたオブジェクト間の関係性として、当該オブジェクト同士の相対的な位置関係を示す相対姿勢を求めることを特徴とする画像処理装置を提案している。

この発明によれば、（１）から（１０）のいずれかの画像処理装置において、オブジェクト関係推定手段により、画像認識手段により認識されたオブジェクト間の関係性として、オブジェクト同士の相対的な位置関係を示す相対姿勢を求めることとした。このため、オブジェクト間の相対姿勢を用いて、同様の動きをしているオブジェクト同士といった、関係性の高いオブジェクト同士を検索することができる。

（１２）本発明は、（１）から（１１）のいずれかの画像処理装置について、前記オブジェクト関係推定手段は、前記画像取得手段によりプレビュー画像が取得されるたびに、当該プレビュー画像内のオブジェクト間の相対姿勢を求め、予め定められた数のプレビュー画像に亘って連続して、相対姿勢のプレビュー画像間での変化量が閾値未満であるオブジェクトを、同一のグループに分類することを特徴とする画像処理装置を提案している。

この発明によれば、（１）から（１１）のいずれかの画像処理装置において、オブジェクト関係推定手段により、画像取得手段によりプレビュー画像が取得されるたびに、プレビュー画像内のオブジェクト間の相対姿勢を求め、予め定められた数のプレビュー画像に亘って連続して、相対姿勢のプレビュー画像間での変化量が閾値未満であるオブジェクトを、同一のグループに分類することとした。このため、複数の連続するプレビュー画像におけるオブジェクト同士の関係性を考慮して、オブジェクトを分類することができる。

（１３）本発明は、（１２）の画像処理装置について、前記オブジェクト関係推定手段は、前記画像取得手段により取得された最新のプレビュー画像において求めた相対姿勢と、当該最新のプレビュー画像よりも前のプレビュー画像において求めた相対姿勢の平均と、の差分を前記変化量として求めることを特徴とする画像処理装置を提案している。

この発明によれば、（１２）の画像処理装置において、オブジェクト関係推定手段により、画像取得手段により取得された最新のプレビュー画像において求めた相対姿勢と、最新のプレビュー画像よりも前のプレビュー画像において求めた相対姿勢の平均と、の差分を変化量として求めることとした。このため、オブジェクト同士の関係性をより考慮して、オブジェクトをより適切に分類することができる。

（１４）本発明は、（１）から（１３）のいずれかの画像処理装置について、前記画像認識手段は、オブジェクトごとの認識結果に、当該認識結果の認識精度の指標となる情報を付加し、前記オブジェクト関係推定手段は、前記画像認識手段により付加された認識精度の指標が閾値以上であるオブジェクト間の相対姿勢を、安定していると判定することを特徴とする画像処理装置を提案している。

この発明によれば、（１）から（１３）のいずれかの画像処理装置において、画像認識手段により、オブジェクトごとの認識結果に、認識結果の認識精度の指標となる情報を付加し、オブジェクト関係推定手段により、画像認識手段により付加された認識精度の指標が閾値以上であるオブジェクト間の相対姿勢を、安定していると判定することとした。このため、オブジェクトの認識結果の認識精度を考慮して、オブジェクトを分類することができる。

（１５）本発明は、（１）から（１４）のいずれかの画像処理装置について、前記画像認識手段は、オブジェクトごとの認識結果に、当該認識結果の認識精度の指標となる情報を付加し、前記オブジェクト関係推定手段は、前記画像認識手段により付加された認識精度の指標の最も高いオブジェクトを、前記主要オブジェクトに適用することを特徴とする画像処理装置を提案している。

この発明によれば、（１）から（１４）のいずれかの画像処理装置において、画像認識手段により、オブジェクトごとの認識結果に、認識結果の認識精度の指標となる情報を付加し、オブジェクト関係推定手段により、画像認識手段により付加された認識精度の指標の最も高いオブジェクトを、主要オブジェクトに適用することとした。このため、認識精度の最も高いオブジェクトとの関係性を用いて、オブジェクト関係推定手段によりオブジェクトを認識することができるので、オブジェクトの認識の頑健性をさらに向上させることができる。

（１６）本発明は、（１４）または（１５）の画像処理装置について、前記画像認識手段は、前記認識精度の指標として、オブジェクトに対する撮影距離と、オブジェクトに対する撮影角度と、のうち少なくともいずれかを用いることを特徴とする画像処理装置を提案している。

この発明によれば、（１４）または（１５）の画像処理装置において、画像認識手段により、認識精度の指標として、オブジェクトに対する撮影距離と、オブジェクトに対する撮影角度と、のうち少なくともいずれかを用いることとした。このため、オブジェクトに対する撮影距離や、オブジェクトに対する撮影角度を用いて、認識精度の指標を設定することができる。

（１７）本発明は、（１４）から（１６）のいずれかの画像処理装置について、前記画像認識手段は、前記認識精度の指標として、局所特徴量のマッチング数と、局所特徴量のマッチングのスコアと、のうち少なくともいずれかを用いることを特徴とする画像処理装置を提案している。

この発明によれば、（１４）から（１６）のいずれかの画像処理装置において、画像認識手段により、認識精度の指標として、局所特徴量のマッチング数と、局所特徴量のマッチングのスコアと、のうち少なくともいずれかを用いることとした。このため、局所特徴量のマッチング数や、局所特徴量のマッチングのスコアを用いて、認識精度の指標を設定することができる。

（１８）本発明は、（１４）から（１７）のいずれかの画像処理装置について、前記画像認識手段は、前記認識精度の指標として、ＳＳＤ（Sum of Squared Difference）の応答値と、ＮＣＣ（Normalized Cross Correlation）の応答値と、のうち少なくともいずれかを用いることを特徴とする画像処理装置を提案している。

この発明によれば、（１４）から（１７）のいずれかの画像処理装置において、画像認識手段により、認識精度の指標として、ＳＳＤの応答値と、ＮＣＣの応答値と、のうち少なくともいずれかを用いることとした。このため、ＳＳＤの応答値や、ＮＣＣの応答値を用いて、認識精度の指標を設定することができる。

（１９）本発明は、（１）から（１８）のいずれかの画像処理装置について、前記画像認識手段は、オブジェクトごとの認識結果に、当該オブジェクトの認識に要する処理負荷の指標となる情報を付加し、前記オブジェクト関係推定手段は、前記画像認識手段により付加された処理負荷の指標が閾値未満であるオブジェクトを、前記主要オブジェクトに適用することを特徴とする画像処理装置を提案している。

この発明によれば、（１）から（１８）のいずれかの画像処理装置において、画像認識手段により、オブジェクトごとの認識結果に、オブジェクトの認識に要する処理負荷の指標となる情報を付加し、オブジェクト関係推定手段により、画像認識手段により付加された処理負荷の指標が閾値未満であるオブジェクトを、主要オブジェクトに適用することとした。このため、処理負荷の低いオブジェクトとの関係性を用いて、オブジェクト関係推定手段によりオブジェクトを認識することができるので、処理負荷をさらに軽減することができる。

（２０）本発明は、（１９）の画像処理装置について、前記画像認識手段は、前記処理負荷の指標として、認識に要した時間を用いることを特徴とする画像処理装置を提案している。

この発明によれば、（１９）の画像処理装置において、画像認識手段により、処理負荷の指標として、認識に要した時間を用いることとした。このため、認識に要した時間を用いて、処理負荷の指標を設定することができる。

（２１）本発明は、（１９）の画像処理装置について、前記画像認識手段は、前記処理負荷の指標として、オブジェクトの種類に応じた値を設定することを特徴とする画像処理装置を提案している。

この発明によれば、（１９）の画像処理装置において、画像認識手段により、処理負荷の指標として、オブジェクトの種類に応じた値を用いることとした。このため、オブジェクトの種類に応じた値を用いて、処理負荷の指標を設定することができる。

（２２）本発明は、画像取得手段（例えば、図１の画像取得部１０に相当）、画像認識手段（例えば、図１の画像認識部２０に相当）、オブジェクト関係推定手段（例えば、図１のオブジェクト関係推定部３０に相当）、および仮想情報表示手段（例えば、図１の仮想情報表示部７０に相当）を備え、プレビュー画像に仮想情報を重畳させる画像処理装置（例えば、図１の画像処理装置１に相当）における画像処理方法であって、前記画像取得手段が、前記プレビュー画像を取得する第１のステップと、前記画像認識手段が、前記第１のステップで取得されたプレビュー画像内のオブジェクトを認識する第２のステップと、前記オブジェクト関係推定手段が、前記第２のステップで認識されたオブジェクト間の関係性（例えば、後述のオブジェクト間の相対姿勢に相当）を推定し、推定結果に基づいてオブジェクトを分類し、同一のグループに分類したオブジェクトのうちの１つである主要オブジェクトの前記第２のステップによる認識結果に基づいて、当該グループに分類した当該主要オブジェクト以外のオブジェクトを認識する第３のステップと、前記仮想情報表示手段が、前記第２のステップによる認識結果と、前記第３のステップによる認識結果と、に基づいて、前記第１のステップで取得されたプレビュー画像に仮想情報を重畳させる第４のステップと、を備えることを特徴とする画像処理方法を提案している。

この発明によれば、上述した効果と同様の効果を奏することができる。

（２３）本発明は、画像取得手段（例えば、図１の画像取得部１０に相当）、画像認識手段（例えば、図１の画像認識部２０に相当）、オブジェクト関係推定手段（例えば、図１のオブジェクト関係推定部３０に相当）、および仮想情報表示手段（例えば、図１の仮想情報表示部７０に相当）を備え、プレビュー画像に仮想情報を重畳させる画像処理装置（例えば、図１の画像処理装置１に相当）における画像処理方法を、コンピュータに実行させるためのプログラムであって、前記画像取得手段が、前記プレビュー画像を取得する第１のステップと、前記画像認識手段が、前記第１のステップで取得されたプレビュー画像内のオブジェクトを認識する第２のステップと、前記オブジェクト関係推定手段が、前記第２のステップで認識されたオブジェクト間の関係性（例えば、後述のオブジェクト間の相対姿勢に相当）を推定し、推定結果に基づいてオブジェクトを分類し、同一のグループに分類したオブジェクトのうちの１つである主要オブジェクトの前記第２のステップによる認識結果に基づいて、当該グループに分類した当該主要オブジェクト以外のオブジェクトを認識する第３のステップと、前記仮想情報表示手段が、前記第２のステップによる認識結果と、前記第３のステップによる認識結果と、に基づいて、前記第１のステップで取得されたプレビュー画像に仮想情報を重畳させる第４のステップと、をコンピュータに実行させるためのプログラムをコンピュータに実行させるためのプログラムを提案している。

この発明によれば、コンピュータを用いてプログラムを実行することで、上述した効果と同様の効果を奏することができる。

本発明によれば、ＡＲ技術において、処理負荷を軽減したり、オブジェクトの認識の頑健性を向上させたりすることができる。

本発明の第１実施形態に係る画像処理装置のブロック図である。本発明の第１実施形態に係る画像処理装置の利用例を示す模式図である。本発明の第１実施形態に係る画像処理装置の利用例を示す模式図である。本発明の第１実施形態に係る画像処理装置の利用例を示す模式図である。本発明の第１実施形態に係る画像処理装置の利用例を示す模式図である。本発明の第１実施形態に係る画像処理装置のフローチャートである。本発明の第１実施形態に係る画像処理装置のフローチャートである。本発明の第１実施形態に係る画像処理装置のフローチャートである。本発明の第１実施形態に係る画像処理装置のフローチャートである。本発明の第１実施形態に係る画像処理装置のフローチャートである。本発明の第２実施形態に係る画像処理装置のブロック図である。本発明の第２実施形態に係る画像処理装置のフローチャートである。本発明の第２実施形態に係る画像処理装置のフローチャートである。本発明の第２実施形態に係る画像処理装置のフローチャートである。本発明の第２実施形態に係る画像処理装置のフローチャートである。本発明の第３実施形態に係る画像処理装置のブロック図である。

以下、本発明の実施の形態について図面を参照しながら説明する。なお、以下の実施形態における構成要素は適宜、既存の構成要素などとの置き換えが可能であり、また、他の既存の構成要素との組み合せを含む様々なバリエーションが可能である。したがって、以下の実施形態の記載をもって、特許請求の範囲に記載された発明の内容を限定するものではない。

＜第１実施形態＞
［画像処理装置１の概要］
図１は、本発明の第１実施形態に係る画像処理装置１のブロック図である。画像処理装置１は、ＡＲ技術に対応している。この画像処理装置１の概要について、図２、３、４、５を用いて以下に説明する。

図２は、第１の視点から、画像処理装置１の搭載されている端末１００が撮影している例を示す模式図である。図２では、テーブルＡＡの上に３つのオブジェクトＭ１、Ｍ２、Ｍ３が直線状に配置されている。端末１００は、内蔵しているカメラで、オブジェクトＭ１の側からテーブルＡＡ上を撮影している。

図３は、図２における端末１００の表示画面１１０ａを示す図である。表示画面１１０ａには、下方（図３において下方）から上方（図３において上方）に向かってオブジェクトＭ１、Ｍ２、Ｍ３の順番にオブジェクトＭ１からＭ３が表示されている。また、オブジェクトＭ１の右方（図３において右方）には、オブジェクトＭ１に紐付けられた仮想情報Ｃ１が重畳されている。また、オブジェクトＭ２の右方（図３において右方）には、オブジェクトＭ２に紐付けられた仮想情報Ｃ２が重畳されている。また、オブジェクトＭ３の右方（図３において右方）には、オブジェクトＭ３に紐付けられた仮想情報Ｃ３が重畳されている。このため、端末１００の所有者は、表示画面１１０ａを通して、ＡＲ空間に存在する仮想情報Ｃ１からＣ３を認識することができる。

図４は、第２の視点から、画像処理装置１の搭載されている端末１００が撮影している例を示す模式図である。端末１００は、内蔵しているカメラで、オブジェクトＭ３の側からテーブルＡＡ上を撮影している。

図５は、図４における端末１００の表示画面１１０ｂを示す図である。表示画面１１０ｂには、上方（図５において上方）から下方（図５において下方）に向かってオブジェクトＭ１、Ｍ２、Ｍ３の順番にオブジェクトＭ１からＭ３が表示されている。また、オブジェクトＭ１の左方（図５において左方）には、オブジェクトＭ１に紐付けられた仮想情報Ｃ１が重畳されている。また、オブジェクトＭ２の左方（図５において左方）には、オブジェクトＭ２に紐付けられた仮想情報Ｃ２が重畳されている。また、オブジェクトＭ３の左方（図５において左方）には、オブジェクトＭ３に紐付けられた仮想情報Ｃ３が重畳されている。このため、端末１００の所有者は、表示画面１１０ｂを通しても、ＡＲ空間に存在する仮想情報Ｃ１からＣ３を認識することができる。

なお、表示画面１１０ｂでは、仮想情報Ｃ１からＣ３のそれぞれは、表示画面１１０ａに表示されている仮想情報Ｃ１からＣ３を１８０度回転させた状態で表示されている。これは、表示画面１１０ｂを表示している際の端末１００が、表示画面１１０ａを表示している際の端末１００と１８０度反対の方向から、オブジェクトＭ１からＭ３のそれぞれを撮影しているためである。このため、端末１００の所有者は、表示画面１１０ｂを通して、仮想情報Ｃ１からＣ３に対する視点を図２における視点から１８０度回転させると、視点の回転に追随して、ＡＲ空間において仮想情報Ｃ１からＣ３も１８０度回転したと認識することができる。

図２から図５では、端末を動かした場合を示しているが、オブジェクトを動かした場合にも、オブジェクトの動きに追随して、仮想情報も端末１００の表示画面上で動く。なお、端末やオブジェクトを動かした際に、仮想情報は、オブジェクトとの相対的な位置関係を保持した状態で動く。また、仮想情報Ｃ１からＣ３のそれぞれは、現実空間には存在しておらず、オブジェクトＭ１からＭ３のそれぞれと紐付けて端末１００に記憶されている。

ここで、画像認識処理におけるオブジェクトの認識精度は、オブジェクトとカメラとの距離が離れるに従って低下する。また、オクルージョンや光の反射などによって、オブジェクトがプレビュー画像に一時的に写らなくなり、このオブジェクトの認識に一時的に失敗してしまうことがある。このような理由により、例えば、オブジェクトＭ１について、図２の第１の視点では認識できるが、図４の第２の視点では認識できないといった状況が起こり得る。

そこで、まず、図２から５を用いて上述したＡＲ空間を、上述の特許文献１の技術で実現する場合について、以下に説明する。この場合において、上述の状況が起こると、オブジェクトＭ１についての姿勢の追跡処理を行っても、オブジェクトを認識できないので、オブジェクトＭ１の認識処理を、初期姿勢の推定処理からやり直す必要がある。しかし、初期姿勢の推定処理の、オブジェクトとカメラとの距離や角度に対する頑健性は低い。このため、初期姿勢の推定処理からやり直しても、オブジェクトＭ１の認識を再開できない可能性がある。

次に、図２から５を用いて上述したＡＲ空間を、本実施形態に係る画像処理装置１で実現する場合について、以下に説明する。この場合、画像処理装置１は、オブジェクトＭ１を認識するために、オブジェクトＭ１と他のオブジェクトとの相対的な位置関係を示す相対姿勢を予め推定しておく。オブジェクトＭ１の認識に失敗すると、推定しておいた相対姿勢を用いて、他のオブジェクトの認識結果を、オブジェクトＭ１の認識結果に変換する。これによれば、端末１００がオブジェクトＭ１を直接認識できなくても、他のオブジェクトの認識結果を変換して、オブジェクトＭ１を認識することができる。このため、オブジェクトの認識の頑健性を向上させることができ、端末１００の表示画面１１０に仮想情報Ｃ１を表示することができるので、

［画像処理装置１の構成］
以上の画像処理装置１について、以下に詳述する。図１に戻って、画像処理装置１は、デスクトップＰＣといった据え置き型のコンピュータや、ラップトップＰＣ、携帯電話機、携帯ゲーム機、ＨＭＤなどの携帯型の情報端末に搭載可能である。この画像処理装置１は、画像取得部１０、画像認識部２０、オブジェクト関係推定部３０、および仮想情報表示部７０を備える。

［画像取得部１０の構成および動作］
画像取得部１０は、ＷＥＢカメラやカメラモジュールといった撮像装置で撮影された画像を連続的に取得する。本実施形態では、画像取得部１０は、６０ｆｐｓのフレームレートで画像を取得するものとする。なお、画像を連続的に撮影する撮像装置は、画像処理装置１の内部に設けられるものであってもよいし、画像処理装置１の外部に設けられるものであってもよい。

［画像認識部２０の構成および動作］
画像認識部２０は、画像取得部１０により取得された画像（以降、プレビュー画像とする）を入力とする。この画像認識部２０は、入力されたプレビュー画像内のオブジェクトを識別し、識別した各オブジェクトの姿勢を推定して、識別した各オブジェクトを認識する。この画像認識部２０は、オブジェクト識別部２１、初期姿勢推定部２２、および姿勢追跡部２３を備える。

オブジェクト識別部２１は、画像取得部１０により取得されたプレビュー画像を入力とする。このオブジェクト識別部２１は、入力されたプレビュー画像内のオブジェクトの識別処理を行う。識別処理では、プレビュー画像から局所特徴量を検出し、特徴量データベース（辞書）に予め登録されているオブジェクトごとの局所特徴量と照合して、オブジェクトを識別する。

なお、オブジェクトの識別処理は、例えば外部サーバで行われるものとしてもよい。この場合には、オブジェクト識別部２１は、プレビュー画像を外部サーバに送信し、外部サーバから識別処理の結果を受け取ることになる。これによれば、識別処理をアウトソースすることができるので、大規模なオブジェクトや多数のオブジェクトを扱う場合に好適である。

一方、オブジェクトの数が少数である場合には、画像認識部２０からオブジェクト識別部２１を省くことが可能である。

初期姿勢推定部２２は、画像取得部１０により取得されたプレビュー画像を入力とする。この初期姿勢推定部２２は、入力されたプレビュー画像に含まれる、オブジェクト識別部２１により識別されたオブジェクトについて、姿勢を推定し、推定結果を姿勢の初期値とする。初期姿勢推定部２２は、後述の姿勢追跡部２３によるオブジェクトの姿勢の追跡を開始する際と、姿勢追跡部２３によるオブジェクトの姿勢の追跡を行わなくなった場合と、において上述の姿勢の推定を行う。

本実施形態では、オブジェクトの姿勢を六自由度の姿勢行列（４行４列）で表現する。姿勢行列は、画像取得部１０が取得するプレビュー画像を撮影する撮像装置と、オブジェクトと、の相対的な位置関係を示す情報を有するものであり、三次元特殊ユークリッド群ＳＥ（３）に属し、ともに三自由度の三次元回転行列および三次元並進ベクトルで表される。姿勢行列を用いる場合、プレビュー画像中におけるオブジェクトのピクセル座標と、初期姿勢推定部２２に予め登録されているこのオブジェクト上の座標と、の関係は、以下の数式（１）で表すことができる。

数式（１）において、Ａは、撮像装置の内部パラメータを示す。撮像装置の内部パラメータは、予めカメラキャリブレーションによって求めておくことが好ましい。ただし、撮像装置の内部パラメータは、実際の値とずれていたとしても、最終的に推定した姿勢行列と打ち消し合うため、仮想情報を重畳する位置には影響しない。このため、撮像装置の内部パラメータには、一般的なカメラの内部パラメータを代用することが可能である。

数式（１）において、Ｒは、三次元空間内の回転を表すパラメータを示す。Ｒにおける各パラメータは、オイラー角といった表現により三パラメータで表現することが可能である。

数式（１）において、ｔは、三次元空間内の平行移動を表すパラメータを示す。また、Ｘ、Ｙ、Ｚのそれぞれは、初期姿勢推定部２２に予め登録されているオブジェクト上のＸ座標、Ｙ座標、Ｚ座標のそれぞれを示す。また、ｕ、ｖは、プレビュー画像中のｕ座標およびｖ座標を示す。

なお、本実施形態では、姿勢行列の推定を、画像内の自然特徴を用いて行うものとする。自然特徴とは、画像間の点対応の取得やマッチングを行うために、画像の局所領域から算出される特徴のことであり、画像内のエッジやコーナーなどの、対応付けの容易な局所領域から抽出される。自然特徴の代表例としては、ＳＩＦＴ（Scale Invariant Feature Transform）やＳＵＲＦ（Speed Up Robust Features）などの、高精度な対応付けが可能な局所特徴量があり、これらを用いて姿勢行列を算出する手法は一般に知られている。

オブジェクトの姿勢は、オブジェクトや撮像装置が動くことによって、画像取得部１０により連続的に取得されるプレビュー画像中において刻々と変化する。このため、初期姿勢推定部２２には、上述のオブジェクト識別部２１と比べて処理速度が求められる。したがって、画像取得部１０は、画像処理装置１の内部に設けられる必要があり、非特許文献２に開示されているように処理負荷の小さいアルゴリズムを用いることが望ましい。

姿勢追跡部２３は、画像取得部１０により取得されたプレビュー画像と、初期姿勢推定部２２により推定されたオブジェクトの姿勢の初期値と、を入力とする。この姿勢追跡部２３は、入力されたプレビュー画像およびオブジェクトの姿勢の初期値に基づいて、オブジェクトの姿勢の追跡処理を行ってオブジェクトの姿勢を推定し、オブジェクトを認識する。

姿勢追跡部２３は、オブジェクトの姿勢の追跡に成功した場合、すなわちオブジェクトの認識に成功した場合には、認識に成功したオブジェクトの識別子（ＩＤ）と、認識に成功したオブジェクトの姿勢の推定値と、を認識結果として出力する。また、この認識結果を、画像取得部１０により取得された次フレームのプレビュー画像において追跡処理を行う際の初期値として用いる。このため、オブジェクトの姿勢の追跡に成功している間は、このオブジェクトに対して初期姿勢推定部２２による処理を行う必要がない。

また、オブジェクトの姿勢の追跡に成功している間は、このオブジェクトに対する追跡処理を、画像取得部１０によりプレビュー画像が取得されるたびに行う必要がある。このため、姿勢追跡部２３には、上述の初期姿勢推定部２２と比べて処理速度が求められる。したがって、姿勢追跡部２３は、画像処理装置１の内部に設けられる必要があるとともに、オブジェクトの姿勢の追跡処理を最低でもリアルタイムで行うことができる必要があり、非特許文献２に開示されているように処理負荷の小さい姿勢追跡アルゴリズムを用いることが望ましい。

非特許文献２に開示されている手法では、姿勢の初期値から線形予測によって姿勢の予測値を推定し、オブジェクト内の特徴点の移動量を、予測値からの探索によって推定する。探索は、特徴点の周囲から、局所領域の相関値が最も高い箇所を求めることで行われる。各特徴点の移動量から、上述の数式（１）を満たすように、姿勢の推定値を予測値から更新する。姿勢の追跡処理が反復してリアルタイムで行われる場合、フレーム間の特徴点の移動量は小さいため、特徴点の探索幅を限定することで、処理負荷の軽減を実現できる。

また、カメラやオブジェクトが急速に移動するなどによって、特徴点の移動量が探索幅を超えた場合には、上述の手法では姿勢の追跡に失敗する。この場合、上述の手法は、追跡に失敗したことを特徴点の探索状況によって検知することが可能である。例えば、探索に成功した（相関値が閾値以上の箇所が求められた）特徴点の数が閾値以下となった場合には、姿勢の推定値の更新を中断して、追跡に失敗したことを示す信号を出力することが可能である。追跡に失敗したことを示す信号が出力された場合、姿勢追跡部２３による追跡処理を中断し、次フレーム以降において初期姿勢推定部２２による姿勢の初期値を推定する処理を実行すればよい。

なお、オブジェクトの姿勢の追跡処理をリアルタイムで行うために、追跡可能なオブジェクト数の上限を予め設定しておき、上限を超えたオブジェクトについては追跡処理を行わないようにしてもよい。これによれば、追跡するオブジェクト数が上限に達している場合には、オブジェクト識別部２１による識別処理と、初期姿勢推定部２２による姿勢の初期値を推定する処理と、を休止することになる。なお、上述の上限は、画像処理装置１の処理能力に応じて設定されることが好ましい。

以上の画像認識部２０は、上述のオブジェクトの姿勢の推定を、オブジェクトごとに行う。オブジェクトごとの姿勢の推定処理は、互いに独立であるため並列に実施してもよいし、順番に実施してもよい。

また、ＡＲ空間内に仮想情報を固定配置して重畳させる場合には、画像認識部２０は、オブジェクトの認識に加えて、基準マーカの認識も行う。オブジェクトを認識する場合と同様の処理で基準マーカを認識できる場合には、画像認識部２０は、オブジェクトと基準マーカとを区別することなく認識を行う。一方、基準マーカが、非特許文献１の手法で認識可能なＡＲマーカである場合や、非特許文献３の手法で認識可能な復元された空間である場合には、基準マーカをオブジェクトと区別して、基準マーカのみ、対応する認識手法で認識を行う。ＡＲ空間内に固定配置して重畳させる仮想情報がない場合や、そもそも基準マーカが存在しない場合には、画像認識部２０は、オブジェクトの認識のみ行う。

いずれにせよ、画像認識部２０が行うことは、オブジェクト（存在する場合には基準マーカも）の姿勢の推定である。なお、基準マーカの有無、基準マーカの種類、および姿勢の推定に用いる認識手法は、上述の手法に限定されるものではない。

［オブジェクト関係推定部３０の構成および動作］
オブジェクト関係推定部３０は、画像認識部２０による認識結果を入力とする。このオブジェクト関係推定部３０は、画像認識部２０により認識されたオブジェクト間の関係性を推定し、推定結果に基づいてオブジェクトを分類する。また、認識に失敗したオブジェクトについては、このオブジェクトと同一のグループに分類したオブジェクトのうちの１つである主要オブジェクトの画像認識部２０による認識結果に基づいて、認識する。このオブジェクト関係推定部３０は、オブジェクト関係推定処理部３１および姿勢変換処理部３２を備える。

オブジェクト関係推定処理部３１は、画像認識部２０による認識結果を入力とする。このオブジェクト関係推定処理部３１は、画像認識部２０により認識されたオブジェクト間の関係性を推定して分類する。具体的には、画像認識部２０により認識されたオブジェクト間の相対姿勢を算出し、相対姿勢の変動に応じて各オブジェクトを分類する。なお、本実施形態では、相対姿勢も上述の姿勢行列で表現するものとする。このオブジェクト関係推定処理部３１について、以下に詳述する。

オブジェクト関係推定処理部３１は、画像認識部２０により認識されたオブジェクトの数が２つ以上である場合に動作する。ここで、例えば、第１の視点におけるオブジェクトＡの姿勢行列のことを姿勢行列Ｗ_Ａ１とし、第１の視点におけるオブジェクトＢの姿勢行列のことを姿勢行列Ｗ_Ｂ１とする。すると、オブジェクトＡとオブジェクトＢとの間の相対姿勢Ｗ_ＡＢは、以下の数式（２）により求めることができる。

ここで、仮に、カメラが移動して第１の視点から第２の視点に移動している間、オブジェクトＡ、Ｂの双方が固定配置されていて移動しない場合には、以下の数式（３）に示すように相対姿勢Ｗ_ＡＢは変動しない。また、オブジェクトＡ、Ｂの双方が同一の剛体オブジェクトに固定配置されている場合にも、剛体オブジェクトが動いても、相対姿勢Ｗ_ＡＢは変動しない。

そこで、オブジェクト関係推定処理部３１は、まず、画像取得部１０により取得されたプレビュー画像がフレームごとに、画像認識部２０により認識されたオブジェクト間の相対姿勢を推定する。次に、オブジェクト間ごとに、相対姿勢のフレーム間での変化量を相対姿勢変化量として求め、相対姿勢変化量が閾値β未満であるオブジェクト間について、相対姿勢が１フレーム安定したと判定する。次に、αフレーム以上に亘って連続して相対姿勢の安定しているオブジェクト間について、これらオブジェクトを同一のグループに分類する。

なお、上述の相対姿勢変化量は、以下のようにして求められる。前フレームで相対姿勢が安定していないと判定した場合には、前フレームにおいて推定した相対姿勢から、現フレームにおいて推定した相対姿勢までの変化量を、上述の相対姿勢変化量として求める。一方、ｎフレーム（ただし、ｎは、ｎ＞１を満たす任意の整数）に亘って連続して相対姿勢が安定していると判定している場合には、ｎフレーム前から前フレームまでの間に推定した相対姿勢の平均（平均相対姿勢）を求め、この平均相対姿勢と、現フレームにおいて推定した相対姿勢と、の差分を、上述の相対姿勢変化量として求める。

また、上述の相対姿勢変化量は、並進と回転とに分けて、それぞれ独立した閾値と比較してもよい。

また、オブジェクト関係推定処理部３１が動作を開始した段階、すなわちグループ分けの初期状態では、画像認識部２０により認識された全てのオブジェクトは、それぞれ別々のグループに属している状態（オブジェクト数＝グループ数）となる。また、同一のグループには、３つ以上のオブジェクトを分類することが可能であり、例えばオブジェクトＡとオブジェクトＢとの間の相対姿勢Ｗ_ＡＢと、オブジェクトＡとオブジェクトＣとの間の相対姿勢Ｗ_ＡＣと、がそれぞれαフレーム以上に亘って連続して安定している場合には、オブジェクトＡ、Ｂ、Ｃの３つを同一のグループに分類することができる。

また、同一のグループに分類されていたオブジェクト間の相対姿勢について、安定していないと判定した場合には、これらオブジェクトのグループ化を解除して、これらオブジェクトを別々のグループに分ける。オブジェクトのグループ化を解除する場合としては、例えば、これらオブジェクトのうち少なくともいずれかが動いた場合が想定される。

また、オクルージョンや光の反射などによって、このオブジェクトの認識に一時的に失敗してしまうことがある。このような場合には、オブジェクト間の相対姿勢を推定することができないが、同一のグループに分類されているオブジェクト間の相対姿勢は、変化していないことが想定されるため、グループ化の解除は行わない。

ただし、オブジェクト間の相対姿勢を推定できないフレームが連続して発生し続けると、相対姿勢が変化していないこと（相対姿勢の不変性）を保証できなくなってしまう。また、オブジェクト間の相対姿勢を推定できない原因がオクルージョンや光の反射などの一時的なものである場合には、この原因が解消して、オブジェクト間の相対姿勢の推定を再開できると考えられる。そこで、θフレーム以上に亘って連続してオブジェクト間の相対姿勢を推定できない場合には、グループ化を解除する。

ここで、オブジェクト間の相対姿勢を推定できないのは、認識できなかったオブジェクトとの間の相対姿勢である。すなわち、認識できていないオブジェクトについては、このオブジェクトと他のオブジェクトとの間の相対姿勢を推定できない。このため、θフレーム以上に亘って連続して認識できていないオブジェクトについては、他のオブジェクトとの間の相対姿勢をθフレーム以上に亘って連続して推定できないことになり、グループ化が解除されることになる。

姿勢変換処理部３２は、画像認識部２０による認識結果と、オブジェクト関係推定処理部３１による分類結果および相対姿勢の推定結果と、を入力とする。この姿勢変換処理部３２は、画像認識部２０による認識に失敗したオブジェクトについて、同一のグループに分類されている他のオブジェクトについての画像認識部２０による認識結果を、この他のオブジェクトとの間の相対姿勢を用いて認識する。姿勢変換処理部３２について、以下に詳述する。

姿勢変換処理部３２は、同一のグループに分類されているオブジェクトが１組以上存在している場合、すなわち２つ以上のオブジェクトが同一のグループに分類されている場合に、動作する。ここで、例えば、オブジェクトＥの認識には画像認識部２０が失敗しているとともに、オブジェクトＥと同一のグループに分類されているオブジェクトＦの認識には画像認識部２０が成功しており、オブジェクトＥとオブジェクトＦとの間の相対姿勢Ｗ_ＥＦが推定されているものとする。また、画像認識部２０による成功した認識により、第１の視点におけるオブジェクトＦの姿勢行列Ｗ_Ｆ１が得られているものとする。すると、オブジェクトＦを上述の主要オブジェクトとして、第１の視点におけるオブジェクトＥの姿勢行列Ｗ_Ｅ１を、以下の数式（４）により求めることができる。

［仮想情報表示部７０の構成および動作］
仮想情報表示部７０は、画像取得部１０により取得されたプレビュー画像と、画像認識部２０による認識結果と、オブジェクト関係推定部３０による認識結果と、を入力とする。この仮想情報表示部７０は、プレビュー画像に、画像認識部２０およびオブジェクト関係推定部３０による認識結果に基づいて仮想情報を重畳させる。なお、仮想情報を重畳させる際に、仮想情報表示部７０は、撮像装置の内部パラメータ行列（画角といった情報を含む）と、重畳させる仮想情報が紐付けられているオブジェクトの姿勢行列と、を用いて、３Ｄレンダリングによって対応する位置にこの仮想情報を重畳させる。また、仮想情報を重畳させる際に、仮想情報表示部７０は、統合認識結果に基づいて仮想情報の位置や向きを補正する。

なお、仮想情報表示部７０は、有線ケーブルや無線ネットワークを介して自端末と接続された外部モニタや、自端末に搭載されているディスプレイ（網膜投影型を含む）や、プロジェクタなどの、映像をユーザに掲示するための表示装置を制御するものである。この表示装置が、例えば、光学シースルー型のＨＭＤや、プロジェクタを用いて視界に直接付加情報を重畳するものである場合には、プレビュー画像は表示させず、仮想情報のみを表示させることとしてもよい。

［画像処理装置１の動作］
以上の構成を備える画像処理装置１の動作について、図６から１０を用いて以下に説明する。

図６は、画像処理装置１のフローチャートである。

ステップＳ１００において、画像処理装置１は、画像取得部１０によりプレビュー画像を取得し、ステップＳ１０１に処理を移す。

ステップＳ１０１において、画像処理装置１は、画像認識部２０およびオブジェクト関係推定処理部３１により第１の画像認識処理を行って、ステップＳ１００で取得したプレビュー画像内の各オブジェクトを認識し、ステップＳ１０２に処理を移す。なお、第１の画像認識処理の詳細については、図７を用いて後述する。

ステップＳ１０２において、画像処理装置１は、オブジェクト関係推定処理部３１により、ステップＳ１０１において現フレームで認識した全てのオブジェクトの中から２つを選択し、ステップＳ１０３に処理を移す。

ステップＳ１０３において、画像処理装置１は、オブジェクト関係推定処理部３１により、ステップＳ１０２またはステップＳ１０７で選択した２つのオブジェクトに対する相対姿勢連続推定回数カウンタのカウンタ値がゼロであるか否かを判別する。ゼロであると判別した場合には、ステップＳ１０４に処理を移し、ゼロではないと判別した場合には、ステップＳ１０５に処理を移す。なお、相対姿勢連続推定回数カウンタは、ステップＳ１０２またはステップＳ１０７で選択した２つのオブジェクトごとに設けられ、２つのオブジェクトごとに、何フレームに亘って連続して相対姿勢を求めたかを計数するためのものである。

ステップＳ１０４において、画像処理装置１は、オブジェクト関係推定処理部３１により、相対姿勢算出処理を行って、ステップＳ１０６に処理を移す。なお、相対姿勢算出処理の詳細については、図８を用いて後述する。

ステップＳ１０５において、画像処理装置１は、オブジェクト関係推定処理部３１により、分類処理を行って、ステップＳ１０６に処理を移す。なお、分類処理の詳細については、図９を用いて後述する。

ステップＳ１０６において、画像処理装置１は、オブジェクト関係推定処理部３１により、ステップＳ１０１において現フレームで認識した全てのオブジェクトについて、２つで１つの組として、全ての組み合わせを現フレームで選択したか否かを判別する。選択したと判別した場合には、ステップＳ１０８に処理を移し、選択していないと判別した場合には、ステップＳ１０７に処理を移す。

ステップＳ１０７において、画像処理装置１は、オブジェクト関係推定処理部３１により、ステップＳ１０１において現フレームで認識した全てのオブジェクトのうち、選択していない組み合わせを構成する２つのオブジェクトを選択し、ステップＳ１０３に処理を戻す。

ステップＳ１０８において、画像処理装置１は、姿勢変換処理部３２および仮想情報表示部７０により、第１の重畳表示処理を行って、図６に示した処理を終了する。なお、第１の重畳表示処理の詳細については、図１０を用いて後述する。

図７は、画像処理装置１が行う上述の第１の画像認識処理のフローチャートである。

ステップＳ１１０において、画像処理装置１は、姿勢追跡部２３により、ステップＳ１００で取得したプレビュー画像中に、前フレームで認識したオブジェクトが含まれているか否かを判別する。含まれていると判別した場合には、ステップＳ１１１に処理を移し、含まれていないと判別した場合には、ステップＳ１１６に処理を移す。

ステップＳ１１１において、画像処理装置１は、姿勢追跡部２３により、ステップＳ１１０において前フレームで認識したと判別した各オブジェクトについて、前フレームでの姿勢を初期値として姿勢の追跡処理を行って認識し、ステップＳ１１２に処理を移す。

ステップＳ１１２において、画像処理装置１は、オブジェクト関係推定処理部３１により、ステップＳ１１１において現フレームで姿勢を追跡できた各オブジェクトについて、対応する姿勢追跡連続失敗回数カウンタをリセットし、ステップＳ１１３に処理を移す。これによれば、画像取得部１０により取得されたプレビュー画像に含まれている全てのオブジェクトのうち、現フレームで認識できたオブジェクトに対する姿勢追跡連続失敗回数カウンタが、リセットされることになる。なお、姿勢追跡連続失敗回数カウンタは、オブジェクトごとに設けられ、オブジェクトごとに、何フレームに亘って連続して姿勢の追跡に失敗したかを計数するためのものである。

ステップＳ１１３において、画像処理装置１は、オブジェクト関係推定処理部３１により、ステップＳ１１１において現フレームで姿勢を追跡できなかった各オブジェクトについて、対応する姿勢追跡連続失敗回数カウンタをインクリメントし、ステップＳ１１４に処理を移す。これによれば、画像取得部１０により取得されたプレビュー画像に含まれている全てのオブジェクトのうち、現フレームで認識できなかったオブジェクトに対する姿勢追跡連続失敗回数カウンタが、１だけ加算されることになる。

ステップＳ１１４において、画像処理装置１は、オブジェクト関係推定処理部３１により、姿勢追跡連続失敗回数カウンタの値が閾値θ以上であるオブジェクトについて、姿勢追跡連続失敗回数カウンタをリセットするとともに、グループ化を解除して、ステップＳ１１５に処理を移す。これによれば、画像取得部１０により取得されたプレビュー画像に含まれている全てのオブジェクトのうち、θフレーム以上に亘って連続して認識できなかったオブジェクトについて、姿勢追跡連続失敗回数カウンタがリセットされるとともに、グループ化が解除されることになる。

ステップＳ１１５において、画像処理装置１は、姿勢追跡部２３により、追跡中のオブジェクトの数が、予め定められた上限値に達したか否かを判別する。達した場合には、図７に示した処理を終了し、達していない場合には、ステップＳ１１６に処理を移す。

ステップＳ１１６において、画像処理装置１は、オブジェクト識別部２１により、ステップＳ１００で取得したプレビュー画像内のオブジェクトを識別し、ステップＳ１１７に処理を移す。

ステップＳ１１７において、画像処理装置１は、初期姿勢推定部２２により、ステップＳ１１０で取得したプレビュー画像に含まれるステップＳ１１６で識別したオブジェクトのうち、前フレームで認識していないオブジェクトのそれぞれと、現フレームで姿勢の追跡に失敗したオブジェクトのそれぞれと、について、姿勢の初期値を求めて認識し、ステップＳ１１８に処理を移す。

ステップＳ１１８において、画像処理装置１は、オブジェクト関係推定処理部３１により、ステップＳ１１７で姿勢の初期値を求めた各オブジェクトに対して姿勢追跡連続失敗回数カウンタを新たに設け、新たに設けた姿勢追跡連続失敗回数カウンタをリセットし、図７に示した処理を終了する。

図８は、画像処理装置１が行う上述の第１の相対姿勢算出処理のフローチャートである。

ステップＳ１２０において、画像処理装置１は、オブジェクト関係推定処理部３１により、ステップＳ１０２またはステップＳ１０７で選択した２つのオブジェクト間の、現フレームにおける相対姿勢を求め、図８に示した処理を終了する。

図９は、画像処理装置１が行う上述の分類処理のフローチャートである。

ステップＳ１３０において、画像処理装置１は、オブジェクト関係推定処理部３１により、ステップＳ１０２またはステップＳ１０７で選択した２つのオブジェクト間の、現フレームにおける相対姿勢を求め、ステップＳ１３１に処理を移す。

ステップＳ１３１において、画像処理装置１は、オブジェクト関係推定処理部３１により、ステップＳ１０２またはステップＳ１０７で選択した２つのオブジェクト間の相対姿勢について、相対姿勢連続推定回数カウンタのカウンタ値を「１」にインクリメントしたフレーム（以降、平均相対姿勢推定開始フレームとする）から前フレームまでの各フレームで推定したものの平均値を、平均相対姿勢として求め、ステップＳ１３２に処理を移す。

なお、平均相対姿勢は、前フレームにおいて計算した平均相対姿勢（平均相対姿勢推定開始フレームから２フレーム前のフレームまでの平均相対姿勢）と、前フレームにおいて計算した相対姿勢Ｗ_Ｎ−１と、から加重平均として求めることができる。前フレームにおいて計算した平均相対姿勢は、以下の数式（５）により求めることができ、加重平均は、以下の数式（６）により求めることができる。上述の相対姿勢Ｗ_Ｎ−１や数式（５）、（６）において、Ｎは、平均相対姿勢を推定する際の相対姿勢連続推定回数カウンタのカウンタ値を表すものとする。

ステップＳ１３２において、画像処理装置１は、オブジェクト関係推定処理部３１により、ステップＳ１０２またはステップＳ１０７で選択した２つのオブジェクト間について、平均相対姿勢と、現フレームで推定した相対姿勢と、の差分の絶対値を、相対姿勢変化量として求め、ステップＳ１３３に処理を移す。

ステップＳ１３３において、画像処理装置１は、オブジェクト関係推定処理部３１により、ステップＳ１３２により求めた相対姿勢変化量が閾値β未満であるか否かを判別する。相対姿勢変化量が閾値β未満であると判別した場合には、ステップＳ１３４に処理を移し、相対姿勢変化量が閾値β以上である場合には、ステップＳ１３７に処理を移す。

ステップＳ１３４において、画像処理装置１は、オブジェクト関係推定処理部３１により、ステップＳ１３３で相対姿勢変化量が閾値β未満であると判別した２つのオブジェクトに対する相対姿勢連続推定回数カウンタをインクリメントし、ステップＳ１３５に処理を移す。

ステップＳ１３５において、画像処理装置１は、オブジェクト関係推定処理部３１により、ステップＳ１３３で相対姿勢変化量が閾値β未満であると判別した２つのオブジェクトに対する相対姿勢連続推定回数カウンタのカウンタ値が閾値α以上であるか否かを判別する。カウンタ値が閾値α以上であると判別した場合には、ステップＳ１３６に処理を移し、カウンタ値が閾値α未満であると判別した場合には、図９に示した処理を終了する。

ステップＳ１３６において、画像処理装置１は、オブジェクト関係推定処理部３１により、ステップＳ１３５でカウンタ値が閾値α以上であると判別した２つのオブジェクトを、同一のグループに分類し、図９に示した処理を終了する。

ステップＳ１３７において、画像処理装置１は、オブジェクト関係推定処理部３１により、ステップＳ１３３で相対姿勢変化量が閾値β以上であると判別した２つのオブジェクトに対する相対姿勢連続推定回数カウンタをリセットし、ステップＳ１３８に処理を移す。

ステップＳ１３８において、画像処理装置１は、オブジェクト関係推定処理部３１により、ステップＳ１３３で相対姿勢変化量が閾値β以上であると判別した２つのオブジェクトは、同一のグループに分類されているか否かを判別する。同一のグループに分類されていると判別した場合には、ステップＳ１３９に処理を移し、同一のグループに分類されていないと判別した場合には、図９に示した処理を終了する。

ステップＳ１３９において、画像処理装置１は、ステップＳ１３３で相対姿勢変化量が閾値β以上であると判別した２つのオブジェクトについて、同一のグループに分類されているのを解除し、図９に示した処理を終了する。

図１０は、画像処理装置１が行う上述の第１の重畳表示処理のフローチャートである。

ステップＳ１４０において、画像処理装置１は、姿勢変換処理部３２により、前フレームで認識したオブジェクトの中に、現フレームで認識していないオブジェクト（消失オブジェクト）が存在しているか否かを判別する。存在していると判別した場合には、ステップＳ１４１に処理を移し、存在していないと判別した場合には、ステップＳ１４３に処理を移す。

ステップＳ１４１において、画像処理装置１は、姿勢変換処理部３２により、消失オブジェクトと前フレームで同一のグループに分類されていたオブジェクトが存在しているか否かを判別する。存在していると判別した場合には、ステップＳ１４２に処理を移し、存在していないと判別した場合には、ステップＳ１４３に処理を移す。

ステップＳ１４２において、画像処理装置１は、姿勢変換処理部３２により、ステップＳ１４１において消失オブジェクトと前フレームで同一のグループに分類されていたと判別したオブジェクト（上述の主要オブジェクト）の現フレームにおける姿勢を、消失オブジェクトと主要オブジェクトとの間の前フレームで推定した相対姿勢を用いて、消失オブジェクトの現フレームにおける姿勢に変換し、ステップＳ１４３に処理を移す。

ステップＳ１４３において、画像処理装置１は、仮想情報表示部７０により、ステップＳ１１１やステップＳ１１７における認識結果と、ステップＳ１４２により推定した姿勢と、を用いて、ステップＳ１００で取得したプレビュー画像に仮想情報を重畳させ、図１０に示した処理を終了する。

以上の画像処理装置１によれば、以下の効果を奏することができる。

画像処理装置１は、画像認識部２０により認識できなかったオブジェクトが存在する場合に、オブジェクト関係推定部３０により、このオブジェクトと同一のグループに分類されているとともに画像認識部２０により認識できたオブジェクトを主要オブジェクトとして適用して、画像認識部２０では認識できなかったオブジェクトを、主要オブジェクトの認識結果に基づいて認識する。このため、画像認識部２０では認識できなかったオブジェクトを、このオブジェクトと関係性の高いオブジェクトの認識結果に基づいて認識することができる。したがって、画像認識部２０では認識できなかったオブジェクトを認識することができるので、ＡＲ技術において、オブジェクトの認識の頑健性を向上させることができる。

また、画像処理装置１は、オブジェクト関係推定部３０により、画像認識部２０により認識されたオブジェクト間の関係性として、オブジェクト間の相対姿勢を求める。このため、オブジェクト間の相対姿勢を用いて、同様の動きをしているオブジェクト同士といった、関係性の高いオブジェクト同士を検索することができる。

また、画像処理装置１は、オブジェクト関係推定部３０により、画像取得部１０によりプレビュー画像が取得されるたびに、プレビュー画像内のオブジェクト間の相対姿勢を求め、αフレームに亘って連続して、相対姿勢のプレビュー画像間での変化量が閾値未満であるオブジェクトを、同一のグループに分類する。このため、複数の連続するプレビュー画像におけるオブジェクト同士の関係性を考慮して、オブジェクトを分類することができる。

また、画像処理装置１は、オブジェクト関係推定部３０により、画像取得部１０により取得された最新のプレビュー画像において求めた相対姿勢と、最新のプレビュー画像よりも前のプレビュー画像において求めた相対姿勢の平均と、の差分を変化量として求める。このため、オブジェクト同士の関係性をより考慮して、オブジェクトをより適切に分類することができる。

また、画像処理装置１は、平均相対姿勢を、前フレームにおいて計算した平均相対姿勢と、前フレームにおいて計算した相対姿勢Ｗ_Ｎ−１と、から加重平均として求める。このため、前フレームにおいて計算した平均相対姿勢を用いて、現フレームの平均相対姿勢を更新する形になる。したがって、フレームが切り替わるたびに、平均相対姿勢推定開始フレームから前フレームまでの各フレームで推定した相対姿勢の平均値を初めから計算し直して平均相対姿勢を求める場合と比べて、処理負荷を軽減することができるとともに、各フレームにおいて計算した平均姿勢を記憶しておく必要がなくなるため、必要とするメモリ容量を小さくすることができる。

＜第２実施形態＞
［画像処理装置１Ａの概要］
図１１は、本発明の第２実施形態に係る画像処理装置１Ａのブロック図である。画像処理装置１Ａは、図１に示した本発明の第１実施形態に係る画像処理装置１とは、認識処理制御部４０を備える点で異なる。なお、画像処理装置１Ａにおいて、画像処理装置１と同一の構成要件については、同一符号を付し、その説明を省略する。

ここで、まず、図２から５を用いて上述したＡＲ空間を、上述の特許文献１の技術で実現する場合について、以下に説明する。この場合、端末１００は、オブジェクトＭ１からＭ３をそれぞれリアルタイムで認識し続ける必要があり、処理負荷が高くなってしまう。

次に、図２から５を用いて上述したＡＲ空間を、本実施形態に係る画像処理装置１Ａで実現する場合について、以下に説明する。この場合、端末１００は、例えばオブジェクトＭ１からＭ３を同一のグループに分類していれば、これらオブジェクトＭ１からＭ３のうち、１つだけ追跡処理により認識すれば、他の２つについては相対姿勢を用いて認識することができる。これによれば、端末１００が姿勢追跡部２３による追跡処理を行わなくてはならないオブジェクトの数が減少するので、端末１００の処理負荷を軽減することができる。

［画像処理装置１Ａの構成］
以上の画像処理装置１Ａについて、以下に詳述する。

［認識処理制御部４０の構成および動作］
図１１に戻って、画像処理装置１Ａに設けられた認識処理制御部４０は、オブジェクト関係推定処理部３１によるオブジェクトの分類結果と、画像認識部２０による認識結果と、を入力とする。この認識処理制御部４０は、認識処理制御処理部４１および姿勢照合処理部４２を備える。

認識処理制御処理部４１は、オブジェクト関係推定処理部３１によるオブジェクトの分類結果と、画像認識部２０による認識結果と、を入力とする。この認識処理制御処理部４１は、同一のグループに分類されているオブジェクトの中に、認識に成功したオブジェクトが２つ以上存在している場合に、これら認識に成功したオブジェクトのうち、１つを主要オブジェクトとして登録し、残りを認識休止オブジェクトとして登録する。また、認識休止オブジェクトについて、姿勢追跡部２３による姿勢の追跡処理を休止させる。

ここで、オクルージョンや光の反射などによってオブジェクトの認識に失敗してしまうのが、一時的なものであれば、オブジェクトの認識の失敗の解消時には、姿勢追跡部２３による姿勢の追跡処理に成功することが想定される。一般的に、初期姿勢推定部２２による姿勢の初期値の推定よりも、正確な姿勢の初期値を用いた姿勢追跡部２３による姿勢の追跡処理の方が、処理負荷や、姿勢推定の精度や、認識の頑健性に優れる。そこで、画像認識部２０による認識に失敗したオブジェクトについては、本来であれば、初期姿勢推定部２２による姿勢の初期値の推定からやり直すが、画像認識部２０による認識に失敗したオブジェクトが主要オブジェクトと同一のグループに分類されている場合には、認識処理制御処理部４１は、画像認識部２０による認識に失敗したオブジェクトについての姿勢を姿勢変換処理部３２により求め、その結果を姿勢の初期値として姿勢追跡部２３による追跡処理を行わせる。

姿勢照合処理部４２は、画像取得部１０により取得されたプレビュー画像と、姿勢変換処理部３２による変換により得られた認識休止オブジェクトの認識結果と、を入力とする。ここで、認識休止オブジェクトについては、姿勢追跡部２３による姿勢の追跡処理を休止するので、主要オブジェクトとの間の相対姿勢を推定することができない。このため、認識休止オブジェクトが動いた場合に、相対姿勢を適切に更新することができず、その結果、姿勢変換処理部３２による変換により得られた認識休止オブジェクトの認識結果が適切ではなく、認識休止オブジェクトに対して正しい位置に仮想情報を重畳させることができなくなってしまう。そこで、姿勢照合処理部４２は、認識休止オブジェクトについて、姿勢変換処理部３２の変換により得られた認識結果が正しいかどうか、すなわち相対姿勢が変動しているかどうかの照合を行う。

具体的には、姿勢照合処理部４２は、ＳＳＤ（Sum of Squared Difference）やＮＣＣ（Normalized Cross Correlation）などの画像の類似度を評価する手法を用いて、高速に姿勢を照合する。この際、画像認識部２０が用いるオブジェクトの参照モデル（平面オブジェクトの場合には画像、三次元オブジェクトの場合には３Ｄモデル）を、姿勢変換処理部３２による変換により得られた認識結果で投影してテンプレート画像を生成し、プレビュー画像とマッチングすることで、類似度を評価する。姿勢変換処理部３２による変換により得られた認識結果が正しい場合には、ＳＳＤやＮＣＣの応答値（類似度）が高くなることが想定されるため、姿勢照合処理部４２は、類似度が閾値γを下回る場合に、このオブジェクトを認識休止オブジェクトから除外する。

また、相対姿勢や主要オブジェクトの姿勢の誤差が大きい場合には、姿勢変換処理部３２による変換により得られた認識結果には、誤差が含まれることがあり得る。そこで、姿勢照合処理部４２は、ＳＳＤやＮＣＣなどの画像の類似度の評価の際に、テンプレート画像を上下左右に一定範囲内でスライドさせて、最も類似度の高い箇所をテンプレートマッチングによって推定し、最も類似度の高い箇所における応答値を類似度としてもよい。

また、姿勢変換処理部３２による変換により得られた認識結果に含まれる誤差を補正するために、姿勢照合処理部４２は、ＳＳＤやＮＣＣなどの画像の類似度の評価の際に、姿勢におけるＳＳＤやＮＣＣのヤコビアンを計算し、反復計算により、類似度を最大化する姿勢を推定してもよい。例えば、非特許文献４には、平面オブジェクトに対して、ＳＳＤを最小化する姿勢を効率的な反復計算により推定する手法（ＥＳＭ：Efficient Second Order Minimization）が開示されており、この際の初期値に、姿勢変換処理部３２により得られた姿勢を用いることで、少ない反復回数で姿勢を最小化して、ＡＲ技術において、処理負荷をさらに軽減したり、オブジェクトの認識の頑健性をさらに向上させたりすることができる。

［画像処理装置１Ａの動作］
以上の構成を備える画像処理装置１Ａの動作について、図１２から１５を用いて以下に説明する。

図１２は、画像処理装置１Ａのフローチャートである。

ステップＳ２００において、画像処理装置１Ａは、画像取得部１０によりプレビュー画像を取得し、ステップＳ２０１に処理を移す。

ステップＳ２０１において、画像処理装置１Ａは、画像認識部２０とオブジェクト関係推定処理部３１と認識処理制御部４０とにより第２の画像認識処理を行って、ステップＳ２００で取得したプレビュー画像内の各オブジェクトを認識し、ステップＳ２０２に処理を移す。なお、第２の画像認識処理の詳細については、図１３を用いて後述する。

ステップＳ２０２において、画像処理装置１Ａは、オブジェクト関係推定処理部３１により、ステップＳ２０１において現フレームで認識した全てのオブジェクトのうち、前フレームで主要オブジェクトに登録したオブジェクトを１つ選択するとともに、前フレームで他のオブジェクトと同一のグループに分類されていないオブジェクトを１つ選択して、ステップＳ２０３に処理を移す。

ステップＳ２０３において、画像処理装置１Ａは、オブジェクト関係推定処理部３１により、ステップＳ２０２またはステップＳ２０７で選択した２つのオブジェクトに対する相対姿勢連続推定回数カウンタのカウンタ値がゼロであるか否かを判別する。ゼロであると判別した場合には、ステップＳ２０４に処理を移し、ゼロではないと判別した場合には、ステップＳ２０５に処理を移す。

ステップＳ２０４において、画像処理装置１Ａは、オブジェクト関係推定処理部３１により、図８に示した相対姿勢算出処理を行って、ステップＳ２０６に処理を移す。

ステップＳ２０５において、画像処理装置１Ａは、オブジェクト関係推定処理部３１により、図９に示した分類処理を行って、ステップＳ２０６に処理を移す。

ステップＳ２０６において、画像処理装置１Ａは、オブジェクト関係推定処理部３１により、ステップＳ２０１において現フレームで認識した全てのオブジェクトのうち、前フレームで主要オブジェクトに登録したオブジェクトと、前フレームで他のオブジェクトと同一のグループに分類されていないオブジェクトと、について、全ての組み合わせを現フレームで選択したか否かを判別する。選択したと判別した場合には、ステップＳ２０８に処理を移し、選択していないと判別した場合には、ステップＳ２０７に処理を移す。

ステップＳ２０７において、画像処理装置１Ａは、オブジェクト関係推定処理部３１により、ステップＳ２０１において現フレームで認識した全てのオブジェクトのうち、前フレームで主要オブジェクトに登録したオブジェクトと、前フレームで他のオブジェクトと同一のグループに分類されていないオブジェクトと、について、選択していない組み合わせを構成する２つのオブジェクトを選択し、ステップＳ２０３に処理を戻す。

ステップＳ２０８において、画像処理装置１Ａは、姿勢変換処理部３２および仮想情報表示部７０により、第２の重畳表示処理を行って、図１２に示した処理を終了する。なお、第２の重畳表示処理の詳細については、図１５を用いて後述する。

図１３および図１４は、画像処理装置１Ａが行う上述の第２の画像認識処理のフローチャートである。

ステップＳ２１０において、画像処理装置１Ａは、姿勢追跡部２３により、ステップＳ２００で取得したプレビュー画像中に、前フレームで認識したオブジェクトが含まれているか否かを判別する。含まれていると判別した場合には、ステップＳ２１１に処理を移し、含まれていないと判別した場合には、ステップＳ２２５に処理を移す。

ステップＳ２１１において、画像処理装置１Ａは、認識処理制御処理部４１により、ステップＳ２００で取得したプレビュー画像中に、同一のグループに分類されており前フレームにおいて認識に成功したオブジェクトが２つ以上存在しているか否かを判別する。存在していると判別した場合には、ステップＳ２１２に処理を移し、存在していないと判別した場合には、ステップＳ２２０に処理を移す。

ステップＳ２１２において、画像処理装置１Ａは、認識処理制御処理部４１により、ステップＳ２１１で認識に成功したと判別した２つ以上のオブジェクトのうち、１つを主要オブジェクトとして登録し、残りを認識休止オブジェクトとして登録し、ステップＳ２１３に処理を移す。

ステップＳ２１３において、画像処理装置１Ａは、姿勢追跡部２３により、ステップＳ２１２で主要オブジェクトに登録した各オブジェクトについて、前フレームでの姿勢を初期値として姿勢の追跡処理を行って認識し、ステップＳ２１４に処理を移す。

ステップＳ２１４において、画像処理装置１Ａは、認識処理制御処理部４１により、ステップＳ２１３で追跡に失敗した主要オブジェクトがあるか否かを判別する。あると判別した場合には、ステップＳ２１５に処理を移し、ないと判別した場合には、ステップＳ２２０に処理を移す。

ステップＳ２１５において、画像処理装置１Ａは、認識処理制御処理部４１により、ステップＳ２１３で追跡に失敗した主要オブジェクトと同一のグループに分類されているオブジェクトを、全て認識休止オブジェクトから除外し、ステップＳ２１６に処理を移す。

ステップＳ２１６において、画像処理装置１Ａは、姿勢照合処理部４２により、ステップＳ２１３で追跡に成功した主要オブジェクトがあるか否かを判別する。あると判別した場合には、ステップＳ２１７に処理を移し、ないと判別した場合には、ステップＳ２２０に処理を移す。

ステップＳ２１７において、画像処理装置１Ａは、姿勢変換処理部３２により、ステップＳ２１３で追跡に成功した主要オブジェクトの姿勢を、同一のグループに分類されている認識休止オブジェクトの姿勢に変換し、姿勢照合処理部４２により、変換した姿勢を照合し、ステップＳ２１８に処理を移す。

ステップＳ２１８において、画像処理装置１Ａは、姿勢照合処理部４２により、ステップＳ２１７の照合に失敗したオブジェクトがあるか否か、すなわち照合によって求められた類似度が閾値γを下回るオブジェクトがあるか否かを判別する。あると判別した場合には、ステップＳ２１９に処理を移し、ないと判別した場合には、ステップＳ２２０に処理を移す。

ステップＳ２１９において、画像処理装置１Ａは、姿勢照合処理部４２により、ステップＳ２１８で照合に失敗したオブジェクトを、認識休止オブジェクトから除外し、ステップＳ２２０に処理を移す。

ステップＳ２２０において、画像処理装置１Ａは、姿勢追跡部２３により、前フレームにおいて認識したが同一グループに他のオブジェクトが分類されていないオブジェクトと、ステップＳ２１９で認識休止オブジェクトから除外されたオブジェクトと、について、前フレームでの姿勢を初期値として姿勢を追跡処理を行って認識し、ステップＳ２２１に処理を移す。

ステップＳ２２１からＳ２２７のそれぞれにおいて、画像処理装置１Ａは、図７のステップＳ１１２からＳ１１８のそれぞれにおいて画像処理装置１が行う処理と同様の処理を行う。

図１５は、画像処理装置１Ａが行う上述の第２の重畳表示処理のフローチャートである。

ステップＳ２３０において、画像処理装置１Ａは、仮想情報表示部７０により、ステップＳ２１３やステップＳ２２０における認識結果と、ステップＳ１４２により推定した姿勢と、を用いて、ステップＳ２００で取得したプレビュー画像に仮想情報を重畳させ、図１５に示した処理を終了する。

以上の画像処理装置１Ａによれば、画像処理装置１が奏することのできる上述の効果に加えて、以下の効果を奏することができる。

画像処理装置１Ａは、オブジェクト関係推定部３０により、各グループからオブジェクトを１つずつ主要オブジェクトとして選択し、認識処理制御部４０により、主要オブジェクトと同一のグループに分類された主要オブジェクト以外のオブジェクトについて、画像認識部２０による認識を休止させる。また、オブジェクト関係推定部３０により、画像認識部２０による認識を休止させているオブジェクトを、主要オブジェクトの認識結果に基づいて認識する。このため、主要オブジェクトと同一のグループに分類された主要オブジェクト以外のオブジェクトについて、画像認識部２０による認識を休止させてもオブジェクト関係推定部３０により認識することができるので、画像認識部２０により認識するオブジェクトの数を減少させることができる。したがって、ＡＲ技術において、処理負荷を軽減することができる。

また、画像処理装置１Ａは、認識処理制御部４０により、画像認識部２０による認識を休止させているオブジェクトについてのオブジェクト関係推定部３０による認識結果を、画像取得部１０により取得されたプレビュー画像と照合し、照合に失敗すれば、オブジェクトについて画像認識部２０による認識を再開させる。このため、オブジェクト関係推定部３０による認識結果が正しいか否かを判定することができる。

また、画像処理装置１Ａは、認識処理制御部４０により、画像認識部２０による認識を再開させる際に、画像取得部１０により前フレームにおけるオブジェクト関係推定部３０による認識結果を初期値として、画像認識部２０に姿勢を追跡させる。このため、処理負荷を軽減することができるとともに、姿勢推定の精度および認識の頑健性を向上させることができる。

また、画像処理装置１Ａは、認識処理制御部４０により、画像認識部２０による認識を休止させているオブジェクトについてのオブジェクト関係推定部３０による認識結果に基づいて、オブジェクトを画像取得部１０により取得されたプレビュー画像に投影して投影画像を作成するとともに、投影画像と、画像取得部１０により取得されたプレビュー画像と、の類似度が閾値γ未満であれば、照合に失敗したと判定する。このため、オブジェクト関係推定部３０による認識結果が正しいか否かを判定することができる。

＜第３実施形態＞
［画像処理装置１Ｂの概要］
図１６は、本発明の第３実施形態に係る画像処理装置１Ｂのブロック図である。画像処理装置１Ｂは、図１１に示した本発明の第２実施形態に係る画像処理装置１Ａとは、認識結果共有処理部５０および協調認識処理部６０を備える点で異なる。なお、画像処理装置１Ｂにおいて、画像処理装置１Ａと同一の構成要件については、同一符号を付し、その説明を省略する。

本実施形態では、画像処理装置１Ｂを搭載した端末として、自端末および他端末を想定し、これら２つの端末が同一のＡＲ空間を共有することを想定している。この場合、自端末と他端末とでは、オブジェクトからカメラまでの距離や、オブジェクトに対するカメラの位置や向きが異なるため、一方の端末では認識できるオブジェクトを他方の端末では認識できないといったことが起こり得る。そこで、自端末と他端末との間でも、オブジェクトの認識結果を共有する。

［認識結果共有処理部５０の構成および動作］
認識結果共有処理部５０は、自端末の画像認識部２０による認識結果と、他端末の画像認識部２０による認識結果と、を入力とするとともに、入力された自端末の画像認識部２０による認識結果を他端末の画像認識部２０に送信する。これによれば、自端末と他端末との間で、画像認識部２０による認識結果を共有することができる。

他端末の画像認識部２０との認識結果の送受信は、アドホック通信で実現される。これによれば、同一ＬＡＮ内の他端末と通信を行うことができる。また、アクセスポイントが存在しない場合でも、Ｗｉ−ＦｉＤｉｒｅｃｔやＢｌｕｅｔｏｏｔｈ（登録商標）を用いて近接する端末間で通信を行うことが可能である。アドホック通信に必要なペアリング機能、ディスカバリ機能などを備えたソフトウェア（ライブラリ）は一般に公開されており、このようなライブラリを利用することで本機能の実現は容易に可能である。ただし、本機能は、無線ネットワークや有線ケーブルを介して、一般的な通信プロトコルを利用して実現することも可能である。

なお、認識結果共有処理部５０による処理は、自端末と他端末とで同期する必要がないため、自端末の画像認識部２０による認識結果を他端末の画像認識部２０に送信する処理と、他端末の画像認識部２０による認識結果を自端末の画像認識部２０で受信する処理と、は独立に実行することが可能である。また、認識結果の送受信のための通信処理では、一般的に遅延が発生するため、他端末の画像認識部２０との認識結果の送信処理および受信処理は、他の処理とは独立に（プログラム上の別スレッドで）実行することが可能である。

［協調認識処理部６０の構成および動作］
協調認識処理部６０は、自端末の画像認識部２０による認識結果と、他端末の画像認識部２０による認識結果と、を入力とする。協調認識処理部６０は、他端末での認識結果を、自端末を基準とした認識結果に変換し、自端末での認識結果と統合する。この協調認識処理部６０は、相対姿勢推定部６１および姿勢変換部６２を備える。

相対姿勢推定部６１は、自端末の画像認識部２０による認識結果と、他端末の画像認識部２０による認識結果と、を入力とする。この相対姿勢推定部６１は、自端末での認識結果と、他端末での認識結果と、に基づいて、自端末と他端末との相対的な位置関係を示す姿勢（相対姿勢）を推定する。なお、以降では、画像処理装置１Ｂが搭載された自端末のことを自端末Ｓとし、画像処理装置１Ｂが搭載された他端末のことを他端末Ｔとする。

相対姿勢の推定は、自端末Ｓでの認識結果および他端末Ｔでの認識結果の双方に、同一のオブジェクトについての認識結果が含まれている場合に、実行可能である。なお、同一のオブジェクトは、基準マーカであってもよい。

ここで、以降では、上述の同一のオブジェクトのことをオブジェクトａとする。また、自端末Ｓの姿勢追跡部２３により推定されたオブジェクトａの姿勢行列のことを姿勢行列Ｗ_Ｓａとし、他端末Ｔの姿勢追跡部２３により推定されたオブジェクトａの姿勢行列のことを姿勢行列Ｗ_Ｔａとする。すると、以下の数式（７）により、自端末Ｓと他端末Ｔとの相対姿勢Ｗ_ＳＴを求めることができる。

なお、上述の同一のオブジェクトとして基準マーカが存在する場合には、上述のオブジェクトａとして基準マーカを用いることが好ましい。これは、基準マーカが、一般的に容易に認識できるようにデザインされており、他のオブジェクトと比べて画像認識部２０による認識精度が高いためである。

一方、上述の同一のオブジェクトとして基準マーカが存在しない場合には、自端末および他端末の双方で認識できているオブジェクトを、上述のオブジェクトａとして用いればよい。上述の同一のオブジェクトとして基準マーカが存在しない場合としては、画像取得部１０により取得されたプレビュー画像内にそもそも基準マーカが存在しない場合や、画像取得部１０により取得されたプレビュー画像内に基準マーカは存在しているものの自端末および他端末のうち少なくともいずれかで認識できていない場合が考えられる。

なお、数式（７）を用いて上述した相対姿勢の推定は、自端末Ｓおよび他端末Ｔの２台の端末が存在している場合である。端末が３台以上存在している場合には、以下のようにして相対姿勢を推定することもできる。ここで、例えば、３台の端末を、自端末Ｓ、他端末Ｔ、他端末Ｕとし、自端末Ｓと他端末Ｔとの相対姿勢Ｗ_ＳＴと、他端末Ｔと他端末Ｕとの相対姿勢Ｗ_ＴＵと、を求めることができているものとする。この場合、自端末Ｓと他端末Ｕとの相対姿勢Ｗ_ＳＵは、以下の数式（８）により求めることができる。

このため、自端末Ｓおよび他端末Ｕの双方で認識できているオブジェクトが存在していない場合でも、数式（７）の代わりに数式（８）を用いることで、自端末Ｓと他端末Ｕとの相対姿勢Ｗ_ＳＵを求めることができる。ただし、この場合には、協調認識処理部６０に、他端末Ｔと他端末Ｕとの相対姿勢Ｗ_ＴＵが、他端末Ｔまたは他端末Ｕの少なくともいずれかから入力される必要がある。

姿勢変換部６２は、他端末の画像認識部２０による認識結果と、相対姿勢推定部６１により推定された相対姿勢Ｗ_ＳＴと、を入力とする。この姿勢変換部６２は、相対姿勢Ｗ_ＳＴを用いて、他端末での認識結果を、自端末を基準とした認識結果に変換する。

ここで、自端末Ｓが認識できていないオブジェクトｂについての認識結果が、他端末Ｔでの認識結果に含まれており、他端末Ｔの姿勢追跡部２３により推定されたオブジェクトｂの姿勢行列が姿勢行列Ｗ_Ｔｂで表されているものとする。すると、以下の数式（９）により、他端末Ｔの姿勢追跡部２３により推定されたオブジェクトｂの姿勢行列Ｗ_Ｔｂを、自端末Ｓにおけるオブジェクトｂの姿勢行列Ｗ_Ｓｂに変換し、自端末Ｓにおけるオブジェクトｂの認識結果とすることができる。

これによれば、自端末Ｓの姿勢変換部６２は、自端末Ｓの画像認識部２０により認識されていないオブジェクトｂについても、他端末Ｔの画像認識部２０による認識結果と、自端末Ｓと他端末Ｔとの相対姿勢と、に基づいて認識することができる。

また、姿勢変換部６２は、この自端末Ｓにおけるオブジェクトｂの認識結果と、自端末Ｓの画像認識部２０による認識結果（自端末Ｓにおけるオブジェクトａの認識結果）と、を統合し、統合認識結果とする。これによれば、姿勢変換部６２は、オブジェクトａおよびオブジェクトｂについて、自端末Ｓにおける認識結果を得ることができる。

なお、上述のように相対姿勢を用いることで、他端末での認識結果に含まれる全てのオブジェクトについて、他端末での認識結果から、自端末を基準とした認識結果に変換することができる。ただし、他端末での認識結果に含まれる全てのオブジェクトのうち、相対姿勢を求める際に用いたオブジェクトについては、この相対姿勢を用いて自端末における認識結果に変換すると、自端末におけるこのオブジェクトの認識結果に一致することになる。このため、他端末での認識結果に含まれる全てのオブジェクトのうち、相対姿勢を求める際に用いたオブジェクトについては、相対姿勢を用いて変換することに意味はない。

また、自端末および他端末の双方で認識できているオブジェクトについては、自端末での認識結果と、他端末での認識結果を相対姿勢を用いて変換したものと、のいずれかを用いることができる。ただし、本実施形態では、自端末での認識結果を優先的に用い、自端末で認識していないオブジェクトについてのみ、他端末での認識結果を相対姿勢を用いて変換したものを用いるものとする。なお、自端末で認識していないオブジェクトとは、自端末で認識処理を行ったが認識に失敗してしまったオブジェクトと、そもそも自端末で認識処理が行われていないオブジェクトと、のことである。

仮想情報表示部７０は、プレビュー画像に、画像認識部２０およびオブジェクト関係推定部３０による認識結果に加えて、姿勢変換部６２による認識結果に基づいて、仮想情報を重畳させる。

以上の画像処理装置１Ｂによれば、画像処理装置１Ａが奏することのできる上述の効果に加えて、以下の効果を奏することができる。

画像処理装置１Ｂは、協調認識処理部６０により、他の画像処理装置で認識されたオブジェクトの認識結果を、画像処理装置１Ｂを基準とした認識結果に変換する。また、仮想情報表示部７０により、画像認識部２０による認識結果と、オブジェクト関係推定部３０による認識結果と、協調認識処理部６０による認識結果と、に基づいて、画像取得部１０により取得されたプレビュー画像に仮想情報を重畳させる。このため、プレビュー画像への仮想情報の重畳に、他の画像処理装置で認識結果も用いることができるので、ＡＲ技術において、処理負荷をさらに軽減したり、オブジェクトの認識の頑健性をさらに向上させたりすることができる。

なお、本発明の画像処理装置１、１Ａ、１Ｂの処理を、コンピュータ読み取り可能な非一時的な記録媒体に記録し、この記録媒体に記録されたプログラムを画像処理装置１、１Ａ、１Ｂに読み込ませ、実行することによって、本発明を実現できる。

ここで、上述の記録媒体には、例えば、ＥＰＲＯＭやフラッシュメモリといった不揮発性のメモリ、ハードディスクといった磁気ディスク、ＣＤ−ＲＯＭなどを適用できる。また、この記録媒体に記録されたプログラムの読み込みおよび実行は、画像処理装置１、１Ａ、１Ｂに設けられたプロセッサによって行われる。

また、上述のプログラムは、このプログラムを記憶装置などに格納した画像処理装置１、１Ａ、１Ｂから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネットなどのネットワーク（通信網）や電話回線などの通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。

また、上述のプログラムは、上述の機能の一部を実現するためのものであってもよい。さらに、上述の機能を画像処理装置１、１Ａ、１Ｂにすでに記録されているプログラムとの組み合せで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。

以上、この発明の実施形態につき、図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計なども含まれる。

例えば、上述の各実施形態では、オブジェクトとして、図２から４では二次元バーコードを記載したが、これに限らず、任意の図や文字や物体などであってもよい。

また、上述の第２実施形態において、認識処理制御部４０により、画像認識部２０による主要オブジェクトの認識が失敗すると、主要オブジェクトと同一のグループに分類された主要オブジェクト以外のオブジェクトについて、画像認識部２０による認識を再開させることとしてもよい。これによれば、オブジェクト関係推定部３０による認識ができなくなった場合には、画像認識部２０による認識を再開させることができ、オブジェクトの認識の頑健性をさらに向上させることができる。

また、上述の各実施形態において、画像認識部２０により、オブジェクトごとの認識結果に、認識結果の認識精度の指標となる情報を付加し、オブジェクト関係推定部３０により、画像認識部２０により付加された認識精度の指標が閾値以上であるオブジェクト間の相対姿勢を、安定していると判定することとしてもよい。さらに、認識精度の最も高いオブジェクトを、主要オブジェクトとしてもよい。これらによれば、オブジェクトの認識結果の認識精度を考慮して、オブジェクトを分類することができる。なお、上述の認識精度の指標としては、例えば、オブジェクトに対する撮影距離や撮影角度を採用したり、局所特徴量のマッチング数やマッチングのスコアを採用したり、ＳＳＤ（Sum of Squared Difference）やＮＣＣ（Normalized Cross Correlation）といったテンプレートマッチングの手法を用いる場合にはＳＳＤやＮＣＣの応答値をそのまま採用したりすることができる。

また、上述の各実施形態において、画像認識部２０により、オブジェクトごとの認識結果に、オブジェクトの認識に要する処理負荷の指標となる情報を付加し、オブジェクト関係推定部３０により、画像認識部２０により付加された処理負荷の指標が閾値未満であるオブジェクトを、主要オブジェクトとしてもよい。これによれば、処理負荷の低いオブジェクトとの関係性を用いて、オブジェクト関係推定部３０によりオブジェクトを認識することができるので、処理負荷をさらに軽減することができる。なお、上述の処理負荷の指標としては、例えば、認識に要した時間を採用したり、オブジェクトの種類に応じた値を設定したりすることができる。

１、１Ａ、１Ｂ；画像処理装置
１０；画像取得部
２０；画像認識部
３０；オブジェクト関係推定部
４０；認識処理制御部
５０；認識結果共有処理部
６０；協調認識処理部
７０；仮想情報表示部
Ｃ１、Ｃ２、Ｃ３；仮想情報
Ｍ１、Ｍ２、Ｍ３；オブジェクト

Claims

プレビュー画像に仮想情報を重畳させる画像処理装置であって、
前記プレビュー画像を取得する画像取得手段と、
前記画像取得手段により取得されたプレビュー画像内のオブジェクトを認識する画像認識手段と、
前記画像認識手段により認識されたオブジェクト間の関係性を推定し、推定結果に基づいてオブジェクトを分類し、同一のグループに分類したオブジェクトのうちの１つである主要オブジェクトの前記画像認識手段による認識結果に基づいて、当該グループに分類した当該主要オブジェクト以外のオブジェクトを認識するオブジェクト関係推定手段と、
前記画像認識手段による認識結果と、前記オブジェクト関係推定手段による認識結果と、に基づいて、前記画像取得手段により取得されたプレビュー画像に仮想情報を重畳させる仮想情報表示手段と、を備えることを特徴とする画像処理装置。
前記オブジェクト関係推定手段は、
前記主要オブジェクトとして、前記画像認識手段により認識できたオブジェクトを適用し、
前記主要オブジェクトと同一のグループに分類した当該主要オブジェクト以外のオブジェクトとして、当該主要オブジェクトと同一のグループに分類されているとともに前記画像認識手段により認識できなかったオブジェクトを適用することを特徴とする請求項１に記載の画像処理装置。
前記オブジェクト関係推定手段は、
各グループからオブジェクトを１つずつ前記主要オブジェクトとして選択し、
前記主要オブジェクトと同一のグループに分類された当該主要オブジェクト以外のオブジェクトについて、前記画像認識手段による認識を休止させる認識処理制御手段を備えることを特徴とする請求項１または２に記載の画像処理装置。
前記認識処理制御手段は、前記画像認識手段による主要オブジェクトの認識が失敗すると、当該主要オブジェクトと同一のグループに分類された当該主要オブジェクト以外のオブジェクトについて、前記画像認識手段による認識を再開させることを特徴とする請求項３に記載の画像処理装置。
前記認識処理制御手段は、前記画像認識手段による認識を休止させているオブジェクトについての前記オブジェクト関係推定手段による認識結果を、前記画像取得手段により取得されたプレビュー画像と照合し、照合に失敗すれば、当該オブジェクトについて前記画像認識手段による認識を再開させることを特徴とする請求項３または４に記載の画像処理装置。
前記認識処理制御手段は、前記画像認識手段による認識を再開させる際に、前記画像取得手段により前回取得されたプレビュー画像における前記オブジェクト関係推定手段による認識結果を初期値として、前記画像認識手段に姿勢を追跡させることを特徴とする請求項３から５のいずれかに記載の画像処理装置。
前記認識処理制御手段は、
前記画像認識手段による認識を休止させているオブジェクトについての前記オブジェクト関係推定手段による認識結果に基づいて、当該オブジェクトを前記画像取得手段により取得されたプレビュー画像に投影して投影画像を作成するとともに、
前記投影画像と、前記画像取得手段により取得されたプレビュー画像と、の類似度が閾値未満であれば、照合に失敗したと判定することを特徴とする請求項３から６のいずれかに記載の画像処理装置。
前記認識処理制御手段は、前記類似度が最大化する姿勢を反復計算により推定して、前記オブジェクト関係推定手段による認識結果を補正することを特徴とする請求項７に記載の画像処理装置。
前記認識処理制御手段は、
前記画像認識手段による認識を休止させているオブジェクトについての前記オブジェクト関係推定手段による認識結果に基づいて、当該オブジェクトを前記画像取得手段により取得されたプレビュー画像に投影して投影画像を作成するとともに、
前記投影画像と、前記画像取得手段により取得されたプレビュー画像と、のテンプレートマッチングにより一致箇所を推定し、一致箇所における応答値が閾値未満であれば、照合に失敗したと判定することを特徴とする請求項３から８のいずれかに記載の画像処理装置。
前記画像処理装置とは異なる第１の画像処理装置で認識されたオブジェクトの認識結果を、当該画像処理装置を基準とした認識結果に変換する協調認識処理手段を備え、
前記仮想情報表示手段は、前記画像認識手段による認識結果と、前記オブジェクト関係推定手段による認識結果と、前記協調認識処理手段による認識結果と、に基づいて、前記画像取得手段により取得されたプレビュー画像に仮想情報を重畳させることを特徴とする請求項１から９のいずれかに記載の画像処理装置。
前記オブジェクト関係推定手段は、前記画像認識手段により認識されたオブジェクト間の関係性として、当該オブジェクト同士の相対的な位置関係を示す相対姿勢を求めることを特徴とする請求項１から１０のいずれかに記載の画像処理装置。
前記オブジェクト関係推定手段は、
前記画像取得手段によりプレビュー画像が取得されるたびに、当該プレビュー画像内のオブジェクト間の相対姿勢を求め、
予め定められた数のプレビュー画像に亘って連続して、相対姿勢のプレビュー画像間での変化量が閾値未満であるオブジェクトを、同一のグループに分類することを特徴とする請求項１から１１のいずれかに記載の画像処理装置。
前記オブジェクト関係推定手段は、前記画像取得手段により取得された最新のプレビュー画像において求めた相対姿勢と、当該最新のプレビュー画像よりも前のプレビュー画像において求めた相対姿勢の平均と、の差分を前記変化量として求めることを特徴とする請求項１２に記載の画像処理装置。
前記画像認識手段は、オブジェクトごとの認識結果に、当該認識結果の認識精度の指標となる情報を付加し、
前記オブジェクト関係推定手段は、前記画像認識手段により付加された認識精度の指標が閾値以上であるオブジェクト間の相対姿勢を、安定していると判定することを特徴とする請求項１から１３のいずれかに記載の画像処理装置。
前記画像認識手段は、オブジェクトごとの認識結果に、当該認識結果の認識精度の指標となる情報を付加し、
前記オブジェクト関係推定手段は、前記画像認識手段により付加された認識精度の指標の最も高いオブジェクトを、前記主要オブジェクトに適用することを特徴とする請求項１から１４のいずれかに記載の画像処理装置。
前記画像認識手段は、前記認識精度の指標として、オブジェクトに対する撮影距離と、オブジェクトに対する撮影角度と、のうち少なくともいずれかを用いることを特徴とする請求項１４または１５に記載の画像処理装置。
前記画像認識手段は、前記認識精度の指標として、局所特徴量のマッチング数と、局所特徴量のマッチングのスコアと、のうち少なくともいずれかを用いることを特徴とする請求項１４から１６のいずれかに記載の画像処理装置。
前記画像認識手段は、前記認識精度の指標として、ＳＳＤ（Sum of Squared Difference）の応答値と、ＮＣＣ（Normalized Cross Correlation）の応答値と、のうち少なくともいずれかを用いることを特徴とする請求項１４から１７のいずれかに記載の画像処理装置。
前記画像認識手段は、オブジェクトごとの認識結果に、当該オブジェクトの認識に要する処理負荷の指標となる情報を付加し、
前記オブジェクト関係推定手段は、前記画像認識手段により付加された処理負荷の指標が閾値未満であるオブジェクトを、前記主要オブジェクトに適用することを特徴とする請求項１から１８のいずれかに記載の画像処理装置。
前記画像認識手段は、前記処理負荷の指標として、認識に要した時間を用いることを特徴とする請求項１９に記載の画像処理装置。
前記画像認識手段は、前記処理負荷の指標として、オブジェクトの種類に応じた値を設定することを特徴とする請求項１９に記載の画像処理装置。
画像取得手段、画像認識手段、オブジェクト関係推定手段、および仮想情報表示手段を備え、プレビュー画像に仮想情報を重畳させる画像処理装置における画像処理方法であって、
前記画像取得手段が、前記プレビュー画像を取得する第１のステップと、
前記画像認識手段が、前記第１のステップで取得されたプレビュー画像内のオブジェクトを認識する第２のステップと、
前記オブジェクト関係推定手段が、前記第２のステップで認識されたオブジェクト間の関係性を推定し、推定結果に基づいてオブジェクトを分類し、同一のグループに分類したオブジェクトのうちの１つである主要オブジェクトの前記第２のステップによる認識結果に基づいて、当該グループに分類した当該主要オブジェクト以外のオブジェクトを認識する第３のステップと、
前記仮想情報表示手段が、前記第２のステップによる認識結果と、前記第３のステップによる認識結果と、に基づいて、前記第１のステップで取得されたプレビュー画像に仮想情報を重畳させる第４のステップと、を備えることを特徴とする画像処理方法。
画像取得手段、画像認識手段、オブジェクト関係推定手段、および仮想情報表示手段を備え、プレビュー画像に仮想情報を重畳させる画像処理装置における画像処理方法を、コンピュータに実行させるためのプログラムであって、
前記画像取得手段が、前記プレビュー画像を取得する第１のステップと、
前記画像認識手段が、前記第１のステップで取得されたプレビュー画像内のオブジェクトを認識する第２のステップと、
前記オブジェクト関係推定手段が、前記第２のステップで認識されたオブジェクト間の関係性を推定し、推定結果に基づいてオブジェクトを分類し、同一のグループに分類したオブジェクトのうちの１つである主要オブジェクトの前記第２のステップによる認識結果に基づいて、当該グループに分類した当該主要オブジェクト以外のオブジェクトを認識する第３のステップと、
前記仮想情報表示手段が、前記第２のステップによる認識結果と、前記第３のステップによる認識結果と、に基づいて、前記第１のステップで取得されたプレビュー画像に仮想情報を重畳させる第４のステップと、をコンピュータに実行させるためのプログラム。