JP4668220B2

JP4668220B2 - 画像処理装置および画像処理方法、並びにプログラム

Info

Publication number: JP4668220B2
Application number: JP2007038853A
Authority: JP
Inventors: 辰吾鶴見
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2007-02-20
Filing date: 2007-02-20
Publication date: 2011-04-13
Anticipated expiration: 2027-02-20
Also published as: CN101251897B; JP2008204128A; CN101251897A; US8126206B2; US20080199044A1

Description

本発明は、画像処理装置および画像処理方法、並びにプログラムに関し、特に、リアルタイムで高精度のトラッキングを行うことができるようにした画像処理装置および画像処理方法、並びにプログラムに関する。

例えば、入力画像から、予め登録されているモデル画像を認識する画像処理装置として、入力画像の解像度を、予め定められている割合で低下させることで、複数の異なる解像度の画像からなる多重解像度画像を生成し、その多重解像度画像の各解像度の画像における特徴点の特徴量と、モデル画像の特徴量とを比較し、類似する特徴量を有する特徴点の組としての候補対応特徴点組に基づいて、モデル画像の入力画像中の位置と姿勢を推定する画像処理装置が提案されている（例えば、特許文献１参照）。
特開２００６−０６５３９９号公報

しかしながら、この画像処理装置は、多重解像度画像を生成し、全解像度の画像において特徴量の比較を行うので、モデル画像の入力画像中の位置と姿勢を推定するための処理時間が比較的長くなる。また、データベース等に登録されている多数のモデル画像の特徴量との比較を行うため、データベース内のデータ量が増加するほど、処理時間が長くなる。従って、この画像処理装置で推定された位置と姿勢に基づいて、入力画像中のモデル画像を、リアルタイムでトラッキングすることは困難であった。

本発明は、このような状況に鑑みてなされたものであり、リアルタイムで高精度のトラッキングを行うことができるようにするものである。

本発明の第１の側面の画像処理装置は、撮像画像から予め登録されている登録画像に対応する物体を認識する画像処理装置において、被写体を撮像し、前記被写体の前記撮像画像を取得する撮像手段と、前記撮像画像から、前記登録画像に対応する物体を認識する認識手段と、前記認識手段による認識に用いられる撮像画像である認識対象画像を順に第１の認識対象画像として、前記第１の認識対象画像が取得されてから、その第１の認識対象画像の次の認識対象画像である第２の認識対象画像の認識が終了するまでに取得される複数枚の撮像画像において、前記第１の認識対象画像に対する認識の結果に基づいて指定される第１の指定領域をトラッキングする第１の指定領域トラッキング処理を行う第１の指定領域トラッキング手段と、前記第１の指定領域トラッキング手段による第１の指定領域トラッキング処理に用いられる複数枚の撮像画像である第１のトラッキング対象画像内の最後の撮像画像が取得されてから、次の第１の指定領域トラッキング処理に用いられる複数枚の撮像画像である第２のトラッキング対象画像内の最後の撮像画像が取得されるまでに取得される複数の撮像画像である第２のトラッキング対象画像において、前記第１のトラッキング対象画像に対する前記第１の指定領域トラッキング処理の結果に基づいて指定される第２の指定領域をトラッキングする第２の指定領域トラッキング処理を行う第２の指定領域トラッキング手段とを備え、前記第１のトラッキング対象画像は、前記第１の認識対象画像が取得されてから、前記第２の指定領域トラキング手段がリアルタイムでトラッキング可能になるまでに取得される複数枚の撮像画像である。

本発明の第１の側面の画像処理装置は、前記第２の指定領域トラッキング処理の結果と、前記登録画像とに基づいて、前記物体と同一のサイズで、かつ同一の姿勢の登録画像を、前記撮像画像を補正する補正画像として生成する生成手段と、前記第２の指定領域トラッキング処理の結果に基づいて、前記撮像画像中の前記第２の指定領域に前記補正画像を合成する合成手段とをさらに設けることができる。

本発明の第１の側面の画像処理装置においては、前記合成手段は、前記撮像画像を表示する画面の面積の、前記補正画像の面積に対する比が基準値以上である場合、前記撮像画像中の前記第２の指定領域に前記補正画像を合成し、前記基準値以上ではない場合、前記補正画像を前記画面全体の画像として、前記撮像画像に合成することができる。

本発明の第１の側面の画像処理装置は、前記第２の指定領域トラッキング処理の結果と、前記登録画像とに基づいて、前記物体と同一のサイズで、かつ所定の姿勢の登録画像を、前記撮像画像を補正する補正画像として生成する生成手段と、前記第２の指定領域トラッキング処理の結果に基づいて、前記撮像画像中の前記第２の指定領域の位置に前記補正画像を合成する合成手段とをさらに設けることができる。

本発明の第１の側面の画像処理装置は、前記第２の指定領域トラッキング処理の結果と、前記登録画像に関連する関連画像とに基づいて、前記物体と同一のサイズで、かつ同一の姿勢の関連画像を、前記撮像画像を補正する補正画像として生成する生成手段と、前記第２の指定領域トラッキング処理の結果に基づいて、前記撮像画像中の前記第２の指定領域に前記補正画像を合成する合成する合成手段とをさらに設けることができる。

本発明の第１の側面の画像処理装置においては、前記第１の指定領域トラッキング手段が、前記第１の認識対象画像に対する認識の結果に基づいて、前記第１の指定領域を指定する第１の指定手段と、前記第１のトラッキング対象画像の前記撮像画像である第１トラッキング処理画像を順に第１の処理画像として、前記第１の処理画像の前記第１の指定領域内の第１の特徴点を抽出する第１の抽出手段と、前記第１の処理画像内の前記第１の特徴点と、その第１の処理画像の前の第１トラッキング処理画像である第２の処理画像内の前記第１の特徴点を用いて、前記第１の処理画像の前記第１の特徴点の動きを表す第１の動き情報を演算する第１の演算手段と、前記第１の処理画像の前記第１の動き情報と、前記第２の処理画像の前記第１の動き情報を用いて、前記第１の処理画像の前記第１の指定領域の位置と姿勢を表す第１のパラメータを演算する第１のパラメータ演算手段と、前記第１のパラメータと、前記第２の処理画像の前記第１の指定領域内の前記第１の特徴点の位置を表す値とを乗算した乗算値と、前記第１の処理画像の前記第１の指定領域内の前記第１の特徴点の位置を表す値との誤差である第１の誤差を演算する第１の誤差演算手段と、前記第１の誤差に基づいて、前記第１のパラメータの第１のスコアを演算する第１のスコア演算手段とを備え、前記第１の指定手段は、前記第１のスコアの最も大きい第１のパラメータに基づいて、前記第１の指定領域を遷移させ、前記第２の指定領域トラッキング手段が、前記第１のトラッキング対象画像内の最後の前記１の処理画像の前記第１のパラメータであって、前記第１のスコアの最も大きい前記第１のパラメータに基づいて、前記第２の指定領域を指定する第２の指定手段と、前記第２のトラッキング対象画像の撮像画像である第２トラッキング処理画像を順に第３の処理画像として、前記第３の処理画像の前記第２の指定領域内の第２の特徴点を抽出する第２の抽出手段と、前記第３の処理画像内の前記第２の特徴点と、その第３の処理画像の前の第２トラッキング処理画像である第４の処理画像内の前記第２の特徴点を用いて、前記第３の処理画像の前記第２の特徴点の動きを表す第２の動き情報を演算する第２の演算手段と、前記第３の処理画像の前記第２の動き情報と、前記第４の処理画像の前記第１の動き情報を用いて、前記第３の処理画像の前記第２の指定領域の位置と姿勢を表す第２のパラメータを演算する第２のパラメータ演算手段と、前記第２のパラメータと、前記第４の処理画像の前記第２の指定領域内の前記第２の特徴点の位置を表す値とを乗算した乗算値と、前記第３の処理画像の前記第２の指定領域内の前記第２の特徴点の位置を表す値との誤差である第２の誤差を演算する第２の誤差演算手段と、前記第２の誤差に基づいて、前記第２のパラメータの第２のスコアを演算する第２のスコア演算手段とを備え、前記第２の指定手段は、前記第２のスコアの最も大きい第２のパラメータに基づいて、前記第２の指定領域を遷移させることができる。

本発明の第１の側面の画像処理装置においては、前記第１と第２の動き情報が、オプティカルフローであるようにすることができる。

本発明の第１の側面の画像処理装置においては、前記第１と第２のパラメータは、アフィン変換または射影変換のパラメータであるようにすることができる。

本発明の第１の側面の画像処理装置においては、前記第１の抽出手段は、３個以上または４個以上の前記第１の特徴点を抽出し、前記第１のパラメータ演算手段は、前記第１の処理画像の３個以上または４個以上の前記第１の特徴点の前記第１の動き情報と、前記第２の処理画像の３個以上または４個以上の前記第１の特徴点の前記第１の動き情報を用いて、前記第１のパラメータを演算し、前記第２の抽出手段は、３個以上または４個以上の前記第２の特徴点を抽出し、前記第２のパラメータ演算手段は、前記第３の処理画像の３個以上または４個以上の前記第２の特徴点の前記第２の動き情報と、前記第４の処理画像の３個以上または４個以上の前記第３の特徴点の前記第３の動き情報を用いて、前記第２のパラメータを演算することができる。

本発明の第１の側面の画像処理方法は、撮像画像から予め登録されている登録画像に対応する物体を認識する画像処理装置の画像処理方法において、被写体を撮像して、前記被写体の前記撮像画像を取得し、前記撮像画像から、前記登録画像に対応する物体を認識し、その認識に用いられる撮像画像である認識対象画像を順に第１の認識対象画像として、前記第１の認識対象画像が取得されてから、その第１の認識対象画像の次の認識対象画像である第２の認識対象画像の認識が終了するまでに取得される複数枚の撮像画像において、前記第１の認識対象画像に対する認識の結果に基づいて指定される第１の指定領域をトラッキングする第１の指定領域トラッキング処理を行い、その第１の指定領域トラッキング処理に用いられる複数枚の撮像画像である第１のトラッキング対象画像内の最後の撮像画像が取得されてから、次の第１の指定領域トラッキング処理に用いられる複数枚の撮像画像である第２のトラッキング対象画像内の最後の撮像画像が取得されるまでに取得される複数の撮像画像である第２のトラッキング対象画像において、前記第１のトラッキング対象画像に対する前記第１の指定領域トラッキング処理の結果に基づいて指定される第２の指定領域をトラッキングする第２の指定領域トラッキング処理を行うステップを含み、前記第１のトラッキング対象画像は、前記第１の認識対象画像が取得されてから、前記第２の指定領域をリアルタイムでトラッキング可能になるまでに取得される複数枚の撮像画像である。

本発明の第１の側面のプログラムは、撮像画像から予め登録されている登録画像に対応する物体を認識する認識処理を、コンピュータに行わせるプログラムにおいて、被写体を撮像して取得された前記撮像画像から、前記登録画像に対応する物体を認識し、その認識に用いられる撮像画像である認識対象画像を順に第１の認識対象画像として、前記第１の認識対象画像が取得されてから、その第１の認識対象画像の次の認識対象画像である第２の認識対象画像の認識が終了するまでに取得される複数枚の撮像画像において、前記第１の認識対象画像に対する認識の結果に基づいて指定される第１の指定領域をトラッキングする第１の指定領域トラッキング処理を行い、その第１の指定領域トラッキング処理に用いられる複数枚の撮像画像である第１のトラッキング対象画像内の最後の撮像画像が取得されてから、次の第１の指定領域トラッキング処理に用いられる複数枚の撮像画像である第２のトラッキング対象画像内の最後の撮像画像が取得されるまでに取得される複数の撮像画像である第２のトラッキング対象画像において、前記第１のトラッキング対象画像に対する前記第１の指定領域トラッキング処理の結果に基づいて指定される第２の指定領域をトラッキングする第２の指定領域トラッキング処理を行うステップを含み、前記第１のトラッキング対象画像は、前記第１の認識対象画像が取得されてから、前記第２の指定領域をリアルタイムでトラッキング可能になるまでに取得される複数枚の撮像画像である。

本発明の第２の側面の画像処理装置は、撮像画像から予め登録されている登録画像に対応する物体を認識する画像処理装置において、被写体を撮像し、前記被写体の前記撮像画像を取得する撮像手段と、前記撮像画像から、前記登録画像に対応する物体を認識する認識手段と、前記認識手段による認識に用いられる撮像画像である認識対象画像を１つおきに順に第１の認識対象画像として、前記第１の認識対象画像が取得されてから、その第１の認識対象画像の次の認識対象画像である第２の認識対象画像の認識が終了するまでに取得される複数枚の撮像画像において、前記第１の認識対象画像に対する認識の結果に基づいて指定される第１の指定領域をトラッキングする２つの指定領域トラッキング手段とを備え、２つの指定領域トラッキング手段は、前記認識対象画像を交互に前記第１の認識対象画像とし、２つの前記指定領域トラッキング手段のうちの一方の前記複数枚の撮像画像は、前記第１の認識対象画像が取得されてから、他方の前記指定領域トラッキング手段がリアルタイムでトラッキング可能になるまでに取得される複数枚の撮像画像である。

本発明の第２の側面の画像処理方法は、撮像画像から予め登録されている登録画像に対応する物体を認識する画像処理装置の画像処理方法において、被写体を撮像して、前記被写体の前記撮像画像を取得し、前記撮像画像から、前記登録画像に対応する物体を認識し、その認識に用いられる撮像画像である認識対象画像を１つおきに順に第１の認識対象画像として、前記第１の認識対象画像が取得されてから、その第１の認識対象画像の次の認識対象画像である第２の認識対象画像の認識が終了するまでに取得される複数枚の撮像画像において、前記第１の認識対象画像に対する認識の結果に基づいて指定される指定領域をトラッキングする２つの処理を、前記認識対象画像を交互に前記処理の前記第１の認識対象画像として実行するステップを含み、前記２つの処理のうちの一方の前記複数枚の撮像画像は、前記第１の認識対象画像が取得されてから、他方の前記処理がリアルタイムでトラッキング可能になるまでに取得される複数枚の撮像画像である。

本発明の第２の側面のプログラムは、撮像画像から予め登録されている登録画像に対応する物体を認識する認識処理を、コンピュータに行わせるプログラムにおいて、被写体を撮像して取得された前記撮像画像から、前記登録画像に対応する物体を認識し、その認識に用いられる撮像画像である認識対象画像を１つおきに順に第１の認識対象画像として、前記第１の認識対象画像が取得されてから、その第１の認識対象画像の次の認識対象画像である第２の認識対象画像の認識が終了するまでに取得される複数枚の撮像画像において、前記第１の認識対象画像に対する認識の結果に基づいて指定される指定領域をトラッキングする２つの処理を、前記認識対象画像を交互に前記処理の前記第１の認識対象画像として実行するステップを含み、前記２つの処理のうちの一方の前記複数枚の撮像画像は、前記第１の認識対象画像が取得されてから、他方の前記処理がリアルタイムでトラッキング可能になるまでに取得される複数枚の撮像画像である。

本発明の第１の側面においては、被写体を撮像して取得された撮像画像から、登録画像に対応する物体が認識され、その認識に用いられる撮像画像である認識対象画像を順に第１の認識対象画像として、第１の認識対象画像が取得されてから、後述する第２の指定領域をリアルタイムでトラッキング可能になるまでに取得される複数枚の撮像画像において、第１の認識対象画像に対する認識の結果に基づいて指定される第１の指定領域をトラッキングする第１の指定領域トラッキング処理が行われ、その第１の指定領域トラッキング処理に用いられる複数枚の撮像画像である第１のトラッキング対象画像内の最後の撮像画像が取得されてから、次の第１の指定領域トラッキング処理に用いられる複数枚の撮像画像である第２のトラッキング対象画像内の最後の撮像画像が取得されるまでに取得される複数の撮像画像である第２のトラッキング対象画像において、第１のトラッキング対象画像に対する第１の指定領域トラッキング処理の結果に基づいて指定される第２の指定領域をトラッキングする第２の指定領域トラッキング処理が行われる。

本発明の第２の側面においては、被写体を撮像して取得された撮像画像から、登録画像に対応する物体が認識され、その認識に用いられる撮像画像である認識対象画像を１つおきに順に第１の認識対象画像として、第１の認識対象画像が取得されてから、その第１の認識対象画像の次の認識対象画像である第２の認識対象画像の認識が終了するまでに取得される複数枚の撮像画像において、第１の認識対象画像に対する認識の結果に基づいて指定される指定領域をトラッキングする２つの処理が、認識対象画像を交互に処理の第１の認識対象画像として実行される。なお、２つの処理のうちの一方の複数枚の撮像画像は、第１の認識対象画像が取得されてから、他方の処理においてリアルタイムでトラッキング可能になるまでに取得される複数枚の撮像画像である。

以上のように、本発明によれば、トラッキングを行うことができる。特に、本発明によれば、リアルタイムで高精度のトラッキングを行うことができる。

以下に本発明の実施の形態を説明するが、本発明の構成要件と、明細書又は図面に記載の実施の形態との対応関係を例示すると、次のようになる。この記載は、本発明をサポートする実施の形態が、明細書又は図面に記載されていることを確認するためのものである。従って、明細書又は図面中には記載されているが、本発明の構成要件に対応する実施の形態として、ここには記載されていない実施の形態があったとしても、そのことは、その実施の形態が、その構成要件に対応するものではないことを意味するものではない。逆に、実施の形態が構成要件に対応するものとしてここに記載されていたとしても、そのことは、その実施の形態が、その構成要件以外の構成要件には対応しないものであることを意味するものでもない。

本発明の第１の側面の画像処理装置は、撮像画像から予め登録されている登録画像に対応する物体を認識する画像処理装置（例えば、図２の画像処理装置１１）において、被写体を撮像し、前記被写体の前記撮像画像を取得する撮像手段（例えば、図２の撮像部２１）と、前記撮像画像から、前記登録画像に対応する物体を認識する認識手段（例えば、図２の認識部２３）と、前記認識手段による認識に用いられる撮像画像である認識対象画像を順に第１の認識対象画像として、前記第１の認識対象画像が取得されてから、その第１の認識対象画像の次の認識対象画像である第２の認識対象画像の認識が終了するまでに取得される複数枚の撮像画像において、前記第１の認識対象画像に対する認識の結果に基づいて指定される第１の指定領域をトラッキングする第１の指定領域トラッキング処理を行う第１の指定領域トラッキング手段（例えば、図２の指定領域トラッキング部４１）と、前記第１の指定領域トラッキング手段による第１の指定領域トラッキング処理に用いられる複数枚の撮像画像である第１のトラッキング対象画像内の最後の撮像画像が取得されてから、次の第１の指定領域トラッキング処理に用いられる複数枚の撮像画像である第２のトラッキング対象画像内の最後の撮像画像が取得されるまでに取得される複数の撮像画像である第２のトラッキング対象画像において、前記第１のトラッキング対象画像に対する前記第１の指定領域トラッキング処理の結果に基づいて指定される第２の指定領域をトラッキングする第２の指定領域トラッキング処理を行う第２の指定領域トラッキング手段（例えば、図２の指定領域トラッキング部４２）とを備え、前記第１のトラッキング対象画像は、前記第１の認識対象画像が取得されてから、前記第２の指定領域トラキング手段がリアルタイムでトラッキング可能になるまでに取得される複数枚の撮像画像である。

本発明の第１の側面の画像処理装置は、前記第２の指定領域トラッキング処理の結果と、前記登録画像とに基づいて、前記物体と同一のサイズで、かつ同一の姿勢の登録画像を、前記撮像画像を補正する補正画像（例えば、図２３に示される補正画像）として生成する生成手段（例えば、図２の補正画像生成部２５）と、前記第２の指定領域トラッキング処理の結果に基づいて、前記撮像画像中の前記第２の指定領域に前記補正画像を合成する合成手段（例えば、図２の合成部２６）とをさらに備えることができる。

本発明の第１の側面の画像処理装置は、前記第２の指定領域トラッキング処理の結果と、前記登録画像とに基づいて、前記物体と同一のサイズで、かつ所定の姿勢の登録画像を、前記撮像画像を補正する補正画像（例えば、図２４または図２５に示される補正画像）として生成する生成手段（例えば、図２の補正画像生成部２５）と、前記第２の指定領域トラッキング処理の結果に基づいて、前記撮像画像中の前記第２の指定領域の位置に前記補正画像を合成する合成手段（例えば、図２の合成部２６）とをさらに備えることができる。

本発明の第１の側面の画像処理装置は、前記第２の指定領域トラッキング処理の結果と、前記登録画像に関連する関連画像とに基づいて、前記物体と同一のサイズで、かつ同一の姿勢の関連画像を、前記撮像画像を補正する補正画像として生成する生成手段例えば、図４６の眼鏡型ウェアラブルコンピュータ４０１の図２の補正画像生成部２５と同様に構成される補正画像生成部）と、前記第２の指定領域トラッキング処理の結果に基づいて、前記撮像画像中の前記第２の指定領域に前記補正画像を合成する合成する合成手段（例えば、図４６の眼鏡型ウェアラブルコンピュータ４０１の図２の合成部２６と同様に構成される合成部）とをさらに備えることができる。

本発明の第１の側面の画像処理装置においては、前記第１の指定領域トラッキング手段は、前記第１の認識対象画像に対する認識の結果に基づいて、前記第１の指定領域を指定する第１の指定手段（例えば、図１７の領域指定部１４１）と、前記第１のトラッキング対象画像の前記撮像画像である第１トラッキング処理画像を順に第１の処理画像として、前記第１の処理画像の前記第１の指定領域内の第１の特徴点を抽出する第１の抽出手段（例えば、図１７の特徴点抽出部１４２）と、前記第１の処理画像内の前記第１の特徴点と、その第１の処理画像の前の第１トラッキング処理画像である第２の処理画像内の前記第１の特徴点を用いて、前記第１の処理画像の前記第１の特徴点の動きを表す第１の動き情報を演算する第１の演算手段（例えば、図１７のオプティカルフロー演算部１４３）と、前記第１の処理画像の前記第１の動き情報と、前記第２の処理画像の前記第１の動き情報を用いて、前記第１の処理画像の前記第１の指定領域の位置と姿勢を表す第１のパラメータを演算する第１のパラメータ演算手段（例えば、図１７のアフィン行列演算部１４４）と、前記第１のパラメータと、前記第２の処理画像の前記第１の指定領域内の前記第１の特徴点の位置を表す値とを乗算した乗算値と、前記第１の処理画像の前記第１の指定領域内の前記第１の特徴点の位置を表す値との誤差である第１の誤差を演算する第１の誤差演算手段（例えば、図１７の誤差演算部１４５）と、前記第１の誤差に基づいて、前記第１のパラメータの第１のスコアを演算する第１のスコア演算手段（例えば、図１７のスコア演算部１４６）とを備え、前記第１の指定手段は、前記第１のスコアの最も大きい第１のパラメータに基づいて、前記第１の指定領域を遷移させ、前記第２の指定領域トラッキング手段は、前記第１のトラッキング対象画像内の最後の前記１の処理画像の前記第１のパラメータであって、前記第１のスコアの最も大きい前記第１のパラメータに基づいて、前記第２の指定領域を指定する第２の指定手段（例えば、図２８の領域指定部２１１）と、前記第２のトラッキング対象画像の撮像画像である第２トラッキング処理画像を順に第３の処理画像として、前記第３の処理画像の前記第２の指定領域内の第２の特徴点を抽出する第２の抽出手段（例えば、図２８の特徴点抽出部１２２）と、前記第３の処理画像内の前記第２の特徴点と、その第３の処理画像の前の第２トラッキング処理画像である第４の処理画像内の前記第２の特徴点を用いて、前記第３の処理画像の前記第２の特徴点の動きを表す第２の動き情報を演算する第２の演算手段（例えば、図２２のオプティカルフロー演算部２１３）と、前記第３の処理画像の前記第２の動き情報と、前記第４の処理画像の前記第１の動き情報を用いて、前記第３の処理画像の前記第２の指定領域の位置と姿勢を表す第２のパラメータを演算する第２のパラメータ演算手段（例えば、図２２のアフィン行列演算部２１４）と、前記第２のパラメータと、前記第４の処理画像の前記第２の指定領域内の前記第２の特徴点の位置を表す値とを乗算した乗算値と、前記第３の処理画像の前記第２の指定領域内の前記第２の特徴点の位置を表す値との誤差である第２の誤差を演算する第２の誤差演算手段（例えば、図２２の誤差演算部２１５）と、前記第２の誤差に基づいて、前記第２のパラメータの第２のスコアを演算する第２のスコア演算手段（例えば、図２２のスコア演算部２１６）とを備え、前記第２の指定手段は、前記第２のスコアの最も大きい第２のパラメータに基づいて、前記第２の指定領域を遷移させる。

本発明の第１の側面の画像処理方法は、撮像画像から予め登録されている登録画像に対応する物体を認識する画像処理装置（例えば、図２の画像処理装置１１）の画像処理方法において、被写体を撮像して、前記被写体の前記撮像画像を取得し（例えば、図１５のステップＳ１０１）、前記撮像画像から、前記登録画像に対応する物体を認識し（例えば、図３４乃至図３６の一般物体認識処理）、その認識に用いられる撮像画像である認識対象画像を順に第１の認識対象画像として、前記第１の認識対象画像が取得されてから、その第１の認識対象画像の次の認識対象画像である第２の認識対象画像の認識が終了するまでに取得される複数枚の撮像画像において、前記第１の認識対象画像に対する認識の結果に基づいて指定される第１の指定領域をトラッキングする第１の指定領域トラッキング処理を行い（例えば、図１８の第１の指定領域トラッキング処理）、その第１の指定領域トラッキング処理に用いられる複数枚の撮像画像である第１のトラッキング対象画像内の最後の撮像画像が取得されてから、次の第１の指定領域トラッキング処理に用いられる複数枚の撮像画像である第２のトラッキング対象画像内の最後の撮像画像が取得されるまでに取得される複数の撮像画像である第２のトラッキング対象画像において、前記第１のトラッキング対象画像に対する前記第１の指定領域トラッキング処理の結果に基づいて指定される第２の指定領域をトラッキングする第２の指定領域トラッキング処理を行う（例えば、図２９の第２の指定領域トラッキング処理）ステップを含み、前記第１のトラッキング対象画像は、前記第１の認識対象画像が取得されてから、前記第２の指定領域をリアルタイムでトラッキング可能になるまでに取得される複数枚の撮像画像である。

本発明の第２の側面の画像処理装置は、撮像画像から予め登録されている登録画像に対応する物体を認識する画像処理装置（例えば、図４２の画像処理装置１１）において、被写体を撮像し、前記被写体の前記撮像画像を取得する撮像手段（例えば、図４２の撮像部２１）と、前記撮像画像から、前記登録画像に対応する物体を認識する認識手段（例えば、図４２の認識部２３）と、前記認識手段による認識に用いられる撮像画像である認識対象画像を１つおきに順に第１の認識対象画像として、前記第１の認識対象画像が取得されてから、その第１の認識対象画像の次の認識対象画像である第２の認識対象画像の認識が終了するまでに取得される複数枚の撮像画像において、前記第１の認識対象画像に対する認識の結果に基づいて指定される指定領域をトラッキングする２つの指定領域トラッキング手段（例えば、図４２の指定領域トラッキング部３１１と指定領域トラッキング部３１２）とを備え、２つの指定領域トラッキング手段は、前記認識対象画像を交互に前記第１の認識対象画像とし、２つの前記指定領域トラッキング手段のうちの一方の前記複数枚の撮像画像は、前記第１の認識対象画像が取得されてから、他方の前記指定領域トラッキング手段がリアルタイムでトラッキング可能になるまでに取得される複数枚の撮像画像である。

本発明の第２の側面の画像処理方法は、撮像画像から予め登録されている登録画像に対応する物体を認識する画像処理装置（例えば、図４２の画像処理装置１１）の画像処理方法において、被写体を撮像して、前記被写体の前記撮像画像を取得し（例えば、図１５のステップＳ１０１）、前記撮像画像から、前記登録画像に対応する物体を認識し（例えば、図４３のステップＳ５３１）、その認識に用いられる撮像画像である認識対象画像を１つおきに順に第１の認識対象画像として、前記第１の認識対象画像が取得されてから、その第１の認識対象画像の次の認識対象画像である第２の認識対象画像の認識が終了するまでに取得される複数枚の撮像画像において、前記第１の認識対象画像に対する認識の結果に基づいて指定される指定領域をトラッキングする２つの処理を、前記認識対象画像を交互に前記処理の前記第１の認識対象画像として実行する（例えば、図４４のステップＳ５６１，Ｓ５６３，Ｓ５６４）ステップを含み、前記２つの処理のうちの一方の前記複数枚の撮像画像は、前記第１の認識対象画像が取得されてから、他方の前記処理においてリアルタイムでトラッキング可能になるまでに取得される複数枚の撮像画像である。

以下、本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。

図１は、本発明を適用した画像処理システム１の概要を示している。

図１の画像処理システム１は、画像処理装置１１Ａ、および、それとインターネット等のネットワーク１２により接続される画像処理装置１１Ｂにより構成される。画像処理装置１１Ａにより撮像される被写体Ａ（Ａさん）は、ネットワーク１２を介して、画像処理装置１１Ｂにより撮像される被写体Ｂ（Ｂさん）とテレビコミュニケーションを行う。

具体的には、画像処理装置１１Ａに設けられた撮像部２１Ａは、被写体Ａを撮像する。画像処理装置１１Ａは、その結果得られる被写体Ａの撮像画像を、ネットワーク１２を介して、画像処理装置１１Ｂに送信する。一方、画像処理装置１１Ｂに設けられた撮像部２１Ｂは、被写体Ｂを撮像する。画像処理装置１１Ｂは、その結果得られる被写体Ｂの撮像画像を、ネットワーク１２を介して、画像処理装置１１Ａに送信する。

画像処理装置１１Ａに設けられた出力部２７Ａの画面全体には、画像処理装置１１Ｂから受信した被写体Ｂの撮像画像が表示される。なお、このとき、図１に示すように、出力部２７Ａの画面の右上のウィンドウ２７ＴＡには、撮像部２１Ａにより撮像された被写体Ａの撮像画像も表示される。

同様に、画像処理装置１１Ｂに設けられた出力部２７Ｂの画面全体には、画像処理装置１１Ａから受信した被写体Ａの撮像画像が表示され、画面の右上のウィンドウ２７ＴＢには、撮像部２１Ｂにより撮像された被写体Ｂの撮像画像が表示される。

ここで、図１に示すように、被写体Ａが、予め登録されている写真の印刷物、または、予め登録されている静止画像や動画像が表示部に表示されたデジタルカメラや携帯電話機など（以下、予め登録されている写真、静止画像、動画像などを、適宜、登録画像という）を手に所持している場合、画像処理装置１１Ａは、撮像部２１Ａにより撮像された被写体Ａの撮像画像中の登録画像に対応する物体(ここでは、登録画像の画像)の位置と姿勢を認識する。そして、画像処理装置１１Ａは、認識した位置と姿勢に基づいて、被写体Ａの撮像画像中の登録画像に対応する物体(以下、適宜、対象物体という)を、予め登録されている登録画像に変更する。

すなわち、被写体Ａの撮像画像において、被写体Ａが所持している印刷された写真、またはデジタルカメラや携帯電話機などの表示部に表示されている静止画像や動画像が、予め登録されている、その写真、または、静止画像や動画像に変更される。画像処理装置１１Ａは、変更後の被写体Ａの撮像画像を、ネットワーク１２を介して画像処理装置１１Ｂに送信する。これにより、画像処理装置１１Ｂの出力部２７Ｂには、被写体Ａの撮像のうちの、対象物体の画像としては、登録画像そのものに差し替えられた画像が表示されるので、被写体Ｂは、差し替えられない画像を含む被写体Ａの撮像画像が表示される場合に比べて、被写体Ａが所持している画像を、より鮮明な画像として見ることができる。

なお、以下では、画像処理装置１１Ａと画像処理装置１１Ｂを特に区別する必要がない場合、それらをまとめて画像処理装置１１という。また同様に、撮像部２１Ａと撮像部２１Ｂをまとめて撮像部２１といい、出力部２７Ａと出力部２７Ｂをまとめて出力部２７という。

図２は、画像処理装置１１の構成例を示すブロック図である。

図２の画像処理装置１１は、撮像部２１、記憶部２２、認識部２３、トラッキング部２４、補正画像生成部２５、合成部２６、出力部２７、制御部２８、およびサーバ２９により構成される。

撮像部２１は、例えばCCD（Charge Coupled Device）、CMOS（Complementary Metal-Oxide Semiconductor）センサなどの光学的な映像を電気信号に変換する光電変換素子を有するビデオカメラなどからなり、被写体を撮像する。撮像部２１は、その結果得られるフレーム単位の撮像画像を、入力画像として、記憶部２２、認識部２３、トラッキング部２４、および合成部２６に供給する。

記憶部２２は、撮像部２１から供給される入力画像を記憶する。記憶部２２には、例えば、100フレーム分の入力画像が記憶可能になっており、100フレームを越える入力画像が撮像部２１から供給された場合には、古いものから順に削除される。その結果、最新の100フレーム分の画像が記憶される。

認識部２３は、撮像部２１から供給される入力画像と、制御部２８から供給される認識対象とする対象物体に対応する登録画像と、登録画像のＩＤ(以下、登録ＩＤという)に基づいて、入力画像中の対象物体を認識する。認識部２３は、入力画像のフレーム番号、並びに、認識の結果得られる入力画像中に含まれる対象物体に対応する登録ＩＤ、および、対象物体の位置と姿勢を表す物体パラメータを、トラッキング部２４に供給する。

なお、入力画像のフレーム番号とは、例えば撮像部２１により撮像された順に、フレームごとに付された番号である。また、登録ＩＤとは、登録画像に固有のＩＤであり、登録画像に対応付けて登録される。認識部２３の詳細は、図３を参照して後述する。

トラッキング処理は、２つのスレッドに区分され、このためトラッキング部２４は、２つのスレッドの各々を実行する指定領域トラッキング部４１と指定領域トラッキング部４２により構成される。

指定領域トラッキング部４１は、認識部２３から供給されるフレーム番号に基づいて、記憶部２２に記憶されている入力画像を読み出す。指定領域トラッキング部４１は、認識部２３から供給される物体パラメータに基づいて、トラッキング対象とする領域を指定領域として指定する。指定領域トラッキング部４１は、記憶部２２から読み出された入力画像において指定領域をトラッキングする。指定領域トラッキング部４１は、認識部２３から供給される登録ＩＤと、トラッキングの結果得られる物体パラメータを指定領域トラッキング部４２に供給する。この指定領域トラッキング部４１の詳細は、図１７を参照して後述する。

指定領域トラッキング部４２は、指定領域トラッキング部４１から供給される物体パラメータに基づいて、トラッキング対象とする領域を指定領域として指定する。指定領域トラッキング部４２は、撮像部２１から供給される入力画像において指定領域をトラッキングする。指定領域トラッキング部４２は、指定領域トラッキング部４１から供給される登録ＩＤと、トラッキングの結果得られる物体パラメータを補正画像生成部２５に供給する。この指定領域トラッキング部４２の詳細は、図２８を参照して後述する。

補正画像生成部２５は、指定領域トラッキング部４２から供給される登録ＩＤを制御部２８に供給し、その登録ＩＤに対応する登録画像を制御部２８に要求する。補正画像生成部２５は、その要求に応じて制御部２８から供給される登録画像と、指定領域トラッキング部４２から供給される物体パラメータとに基づいて、対象物体と同一のサイズかつ同一の姿勢の登録画像を、入力画像を補正する補正画像として生成する。補正画像生成部２５は、指定領域トラッキング部４２から供給される物体パラメータと、補正画像を合成部２６に供給する。

合成部２６は、補正画像生成部２５から供給される物体パラメータに基づいて、撮像部２１から供給される入力画像と、補正画像生成部２５から供給される補正画像を合成し、その結果得られる合成画像を出力部２７と制御部２８に供給する。出力部２７は、合成部２６から供給される合成画像を画面の右上のウィンドウ２７Ｔに表示するとともに、ネットワーク１２と制御部２８を介して他の画像処理装置１１から送信されてくる、他の画像処理装置１１により撮像された画像を画面全体に表示する。

制御部２８は、サーバ２９に登録されている登録画像と登録ＩＤを読み出し、認識部２３に供給する。制御部２８はまた、補正画像生成部２５から供給される登録ＩＤに基づいて、サーバ２９に登録されている登録画像を読み出し、補正画像生成部２５に供給する。さらに、制御部２８は、合成部２６から供給される合成画像を、ネットワーク１２を介して、他の画像処理装置１１に送信する。制御部２８は、他の画像処理装置１１からネットワーク１２を介して送信されてくる画像を受信し、出力部２７に供給する。

また、制御部２８は、例えば、ネットワーク１２を介して、図示せぬ他の装置から送信されてくる登録画像を受信し、例えば受信順に登録画像に登録ＩＤを付与する。制御部２８は、受信した登録画像と、それに付与した登録ＩＤをサーバ２９に供給して登録する。サーバ２９は、制御部２８から供給された登録画像と登録ＩＤを対応づけて登録する。なお、このサーバ２９は、ネットワーク１２を介して制御部２８に接続させることもできる。

図３は、図２の認識部２３の詳細構成例を示すブロック図である。この認識部２３は、登録画像の学習処理を行う学習部１１１と、入力画像中の対象物体を認識する認識部１１２の２つの部分から構成される。

学習部１１１は、多重解像度生成部１２１、特徴点抽出部１２２、特徴量抽出部１２３、および登録画像辞書登録部１２４により構成されている。

多重解像度生成部１２１は、制御部２８から入力された登録画像から多重解像度の画像を生成する。特徴点抽出部１２２は、多重解像度生成部１２１により生成された多重解像度の各画像から特徴点を抽出する。特徴量抽出部１２３は、特徴点抽出部１２２により抽出された各特徴点の特徴量を抽出する。登録画像辞書登録部１２４は、特徴量抽出部１２３により抽出された登録画像の特徴量群と、制御部２８から入力された登録ＩＤを対応付けて登録する。なお、登録画像辞書登録部１２４は、実際には、サーバ２９に構築される。データの授受は制御部２８を介して実行される。

認識部１１２は、多重解像度生成部１３１、特徴点抽出部１３２、特徴量抽出部１３３、kdツリー構築部１３４、特徴量比較部１３５、および推定部１３６により構成される。

多重解像度生成部１３１は、撮像部２１から入力された入力画像から、多重解像度の画像を生成する。特徴点抽出部１３２は、多重解像度生成部１３１により生成された多重解像度の各画像から特徴点を抽出する。特徴量抽出部１３３は、特徴点抽出部１３２により抽出された各特徴点の特徴量を抽出する。これらの多重解像度生成部１３１、特徴点抽出部１３２、および特徴量抽出部１３３により行われる処理は、学習部１１１における多重解像度生成部１２１、特徴点抽出部１２２、および特徴量抽出部１２３において行われる処理と同様の処理である。

kdツリー構築部１３４は、登録画像辞書登録部１２４に登録されている特徴量からkdツリーを構築する。特徴量比較部１３５は、特徴量抽出部１３３により抽出された特徴量と、kdツリー構築部１３４により構築されたkdツリーとして表現された認識対象となる全対象物体に対応する全登録画像（または対象物体毎処理を行う場合には各対象物体に対応する各登録画像）の特徴量群を比較する。推定部１３６は、特徴量比較部１３５による比較結果に基づいて、入力画像に含まれる対象物体の有無と、その位置および姿勢を推定し、その位置と姿勢を表す物体パラメータと、対象物体に対応する登録ＩＤとを出力する。

なお、学習部１１１と認識部１１２は、常に両方が同時に存在する必要はない。学習部１１１により予め学習された結果、必要な情報が登録された登録画像辞書登録部１２４を認識部１１２に搭載するか、或いは無線で利用できるようにするようにしてもよい。

次に、図４と図５のフローチャートを参照して、学習部１１１における学習処理について説明する。この処理は、ユーザが学習処理の開始を指令したとき開始される。なお、認識部１１２における一般物体認識処理については、図３４乃至図３６を参照して後述する。

多重解像度生成部１２１は、後述するステップＳ２８において、全登録画像を処理したと判定するまで、ステップＳ１１乃至Ｓ２７の処理を繰り返す。そこで、ステップＳ１１において、多重解像度生成部１２１は、１つの未処理登録画像を選択する。ステップＳ１２において、多重解像度生成部１２１は、多重解像度群を生成する。具体的には、多重解像度生成部１２１は、学習対象の登録画像を所定の倍率に従って縮小し、多重解像度画像群を生成する。例えば、最低解像度の画像である原画像からの縮小率をα、出力する多重解像度画像の数をＮ（原画像を含む）とするとき、ｋ番目（原画像をｋ＝０とする）の多重解像度の解像度画像Ｉ^[k]は、原画像Ｉ^[0]を縮小率α×（Ｎ−ｋ）で、線形補間縮小することで生成される。

あるいは他の方法としては、解像度の一段階低い画像を生成するための縮小率をγ（固定値）とする、つまりＩ^[0]を縮小率γ^kで、線形補間縮小することでＩ^[k]を生成する方法も考えられる。

図６は、パラメータＮ＝１０，α＝0.1とした場合に生成される多重解像度画像群を示す。図６の例においては、原画像Ｉ^[0]を縮小率0.9で縮小した画像Ｉ^[1]、縮小率0.8で縮小した画像Ｉ^[2]、・・・、縮小率0.1で縮小した画像Ｉ^[9]の合計１０段階の多重解像度画像が生成されている。縮小率を規定する係数ｋの値が大きくなるほど画像がより小さい大きさに縮小される結果、各フレームの画枠自体も、係数ｋの値が大きい程小さくなる。

次に、特徴点抽出部１２２は、後述するステップＳ２７において、全解像度画像を処理したと判定するまで、ステップＳ１３乃至Ｓ２６の処理を繰り返し、多重解像度生成部１２１により生成された各解像度画像Ｉ^[k]（ｋ＝０，・・・，Ｎ−１）から、画像の拡大縮小変換（スケール変換）があってもロバストに抽出されるような特徴点（スケール不変特徴点）を抽出するのであるが、スケール不変特徴点の抽出法としては、画像のスケールスペースを構築し、各スケール画像のDifference of Gaussian（DoG）フィルタ出力の局所極大点（局所的な所定の範囲の最大点）及び局所極小点（局所的な所定の範囲の最小点）のうち、スケール方向の変化によっても位置が変化しない点をスケール特徴点として抽出する方法（D. Lowe, “Object recognition from local scale-invariant features,” in Proc. International Conference on Computer Vision, Vol. 2, pp. 1150-1157, September 20-25, 1999, Corfu, Greece.）や、画像のスケールスペースを構築し、各スケール画像からHarrisコーナー検出器により抽出されたコーナー点のうち、スケールスペース画像のLaplacian of Gaussian（LoG）フィルタ出力の局所極大を与える点を特徴点として抽出する方法（K. Mikolajczyk, C. Schmid, “Indexing based on scale invariant interest points,” International Conference on Computer Vision, 525-531, July 2001.）などがある。スケール不変特徴点が抽出できる手法であれば、どのような抽出法でも特徴点抽出部１２２に適用が可能である。

ここでは発明の一実施の形態として、スケール不変特徴点の抽出法として、D.ロー（D. Lowe）が提案する方法（“Distinctive image features from scale-invariant keypoints,” accepted for publication in the International Journal of Computer Vision, 2004.）を基礎とした方法を説明する。この手法では、スケール不変特徴点抽出対象画像のスケールスペース表現（T. Lindeberg, “Scale-space: A framework for handling image structures at multiple scales.”, Journal of Applied Statistics, vol. 21, no. 2, pp. 224-270, 1994”）を介して、当該画像のDoGフィルタ出力から、スケール方向も考慮に入れた局所極大点及び局所極小点が特徴点として抽出される。

そこで、ステップＳ１３において、特徴点抽出部１２２は、各解像度画像のうちの未処理解像度画像を選択する。そして、ステップＳ１４において、特徴点抽出部１２２は、スケールスペースの解像度画像を生成する。すなわち、スケール不変特徴点抽出対象画像Ｉ（多重解像度生成部１２１で生成された各解像度画像（ｋ＝０，１，２，・・・，９の各解像度画像）のうちの１つの解像度画像がスケール不変特徴点抽出対象画像となる）のスケールスペースが生成される。スケールスペースのｓ番目（ｓ＝０,・・・，Ｓ−１）の解像度画像Ｌ_sは、スケール不変特徴点抽出対象画像Ｉを式（１）に示される２次元ガウス関数を用いて、σ＝ｋ^s σ₀で畳み込み積分（ガウスフィルタリング）することで生成される。

ここでσ₀は、スケール不変特徴点抽出対象画像Ｉのノイズ除去を目的としたぼかし度を決めるパラメータであり、ｋはスケールスペースの各解像度間で共通のぼかし度に関するコンスタントファクタであり、解像度画像Ｉ^[k]のｋとは別のファクタである。なお、画像の水平方向をＸ軸、垂直方向をＹ軸としている。

図７は、このようにして生成されたスケールスペースの例を表している。この例においては、画像Ｉにそれぞれ以下の５個の２次元ガウス関数を用いて生成された解像度画像Ｌ₀乃至Ｌ₄を表している。

なお、式（２）乃至式（６）の右辺の畳み込み積分の記号の右辺の項は、次式を表す。すなわち、実質的に式（１）と同一である。

図７では、解像度レベル数Ｓ＝５とされている。

次に、ステップＳ１５で、特徴点抽出部１２２は、DoGフィルタ出力画像を演算する。すなわち、このように得られた特徴点抽出対象画像Iのスケールスペースの各解像度画像Ｌ_sのDoGフィルタ出力画像が求められる。このDoGフィルタは、画像の輪郭強調のために用いられる２次微分フィルタの一種であり、人間の視覚系で網膜から外側膝状体で中継されるまでに行われている処理の近似モデルとして、LoGフィルタと共によく用いられるものである。DoGフィルタの出力は、２つのガウスフィルタ出力画像の差分を取ることで効率よく得られる。すなわち、図７の中央の列に示されるように、ｓ番目（ｓ＝０,・・・，Ｓ−２）の解像度のDoGフィルタ出力画像Ｄ_sは、解像度画像Ｌ_sを、その１段上の階層の解像度画像Ｌ_s+1から減算する（Ｌ_s+1−Ｌ_sを演算する）ことで得られる。

次に、ステップＳ１６で、特徴点抽出部１２２は、スケール不変特徴点を抽出する。具体的には、DoGフィルタ出力画像Ｄ_s（ｓ＝１,・・・，Ｓ−３）上のピクセルのうち、DoGフィルタ出力画像Ｄ_sの直接近傍領域（本実施の形態の場合、所定の位置の３×３個の画素の領域）、それより１段下位のDoGフィルタ出力画像Ｄ_s-1、並びにそれより１段上位のDoGフィルタ出力画像Ｄ_s+1上の同位置（対応する位置）の直接近傍領域の合わせて２７ピクセルにおいて、局所極大（２７ピクセルのうちの最大値）、局所極小（２７ピクセルのうちの最小値）となるピクセルがスケール不変特徴点として抽出され、特徴点群Ｋ_s（ｓ＝１,・・・，Ｓ−３）として保持される。図７の右側の列に、この特徴点群Ｋ_sが示されている。こうして抽出された特徴点はファクタがｋ²の解像度変化（つまりスケール変化）に対して、位置の不変性を持つスケール不変特徴点である。

特徴点抽出部１２２は、後述するステップＳ２７で、全解像度画像を処理したと判定するまで、ステップＳ１３乃至Ｓ１６の処理を繰り返し、多重解像度生成部１２１により生成された多重解像度レベル画像Ｉ^[k]のそれぞれに対し、スケール不変特徴点群を抽出する。

次に、特徴量抽出部１２３は、ステップＳ１７乃至Ｓ２５の処理を、ステップＳ２６で全特徴点を処理したと判定するまで繰り返し、各多重解像度レベル画像Ｉ^[k]から抽出された各特徴点における特徴量を抽出する。以下においては、特徴点における特徴量を、文脈に応じて、特徴点特徴量または単に特徴量と呼ぶ。

特徴点特徴量としては、画像の回転変換、明度変化に対して不変な特徴量が用いられる。１つの特徴点に対して、複数の特徴量をあててもかまわない。その場合には、後段の特徴量比較部１３５において、異なる特徴量での比較結果を統合する処理が必要となる。この実施の形態の場合、特徴量として、当該特徴点が抽出された画像の特徴点近傍領域の濃度勾配情報（各点における濃度勾配強度及び濃度勾配方向）から導出される２つの特徴量が用いられる。１つは、当該特徴点近傍領域における支配的な濃度勾配方向（以下、カノニカル方向と呼ぶ）で補正された方向ヒストグラムであり、他の１つは、カノニカル方向で補正された低次元縮退された濃度勾配ベクトルである。

第１の特徴量（タイプ１の特徴量）は、特徴点近傍の濃度勾配方向に関するヒストグラム（方向ヒストグラム）を、その支配的方向でゼロ補正したものである。この第１の特徴量を抽出するために、特徴量抽出部１２３は、ステップＳ１７において、１つの未処理特徴点を選択する。そして、ステップＳ１８で、特徴量抽出部１２３は、濃度勾配強度Ｍ_x,yと方向Ｒ_x,yを求める。すなわち、図８に示されるように、特徴点近傍（本実施の形態では、当該特徴点Ｐを中心として直径７ピクセル（半径3.5ピクセル）の範囲に入るピクセル群）の濃度勾配強度Ｍ_x,y、及び方向Ｒ_x,yが、それぞれ式（８）と式（９）により求められる。同式中のｘ，ｙは、濃度勾配を求めるピクセルの画像上の座標であり、Ｉ_x,yは、その画素値である。

次に、ステップＳ１９で、特徴量抽出部１２３は方向ヒストグラムを生成する。具体的には、特徴点近傍中の各ピクセルの方向Ｒ_x,yに基づいて、階級幅Δθ、階級数360°／Δθの方向ヒストグラム（本実施の形態では、Δθ＝１０°）の該当する階級に、各ピクセルの度数が累積される。このとき、図９に示されるように階級の量子化誤差の影響を小さくするため、度数（図９における縦軸）としては、階級（図９における横軸）の中心値から方向Ｒ_x,yへの距離の近さに比例した値が累積される。つまり、方向Ｒ_x,yから最も近い２つの階級をｇ，ｇ＋１とし、それぞれの中心値と方向Ｒ_x,yとの距離をｄ₁，ｄ₂とすると、階級ｇ，ｇ＋１に加算する度数値は、それぞれｄ₂／（ｄ₁＋ｄ₂），ｄ₁／（ｄ₁＋ｄ₂）となる。これにより、量子化誤差が少なくなる。

次に、ステップＳ２０で、特徴量抽出部１２３は度数を正規化する。すなわち、得られた方向ヒストグラムの度数が、特徴点近傍ピクセル数（直径７ピクセルの範囲に入るピクセル数）で割算することにより正規化される。このように、勾配方向のみを累積することで、明度変化に対して強い特徴量を得ることができる。

さらに、特徴量抽出部１２３は、ステップＳ２１でカノニカル方向を抽出し、ステップＳ２２で角度をカノニカル方向で正規化する。具体的には、回転変換に不変な特徴量とするために、得られた方向ヒストグラムの強いピークを与える角度としてのカノニカル方向が抽出され、そのカノニカル方向としての角度が０度になるようにヒストグラムをシフトすることで、角度の正規化が行われる。コーナー付近に抽出された特徴点に関するヒストグラムでは、そのエッジに垂直な方向に複数の強いピークが現れるため、このような場合は、強いピークごとにその角度が０度になるように補正した（正規化した）方向ヒストグラムが生成される。つまり、カノニカル方向の数だけ、別々に特徴量が生成される。ピークがカノニカル方向であるための基準は、例えば、最大累積値の８０％以上の累積値を与えるピーク方向とされる。

例えば、図１０に示される方向ヒストグラムにおいては、角度80度の度数Ｖ₈₀と角度200度の度数Ｖ₂₀₀の２つのピークが存在する。すなわち、角度80度と角度200度が、カノニカル方向となる。この場合、図１１に示されるように、カノニカル方向としての角度80度が０度となるように正規化されたヒストグラムと、図１２に示されるように、カノニカル方向としての角度200度が０度になるように正規化されたヒストグラムが生成される。

以上の処理で得られるタイプ１の特徴量は、方向ヒストグラムの階級数と同じ次元の特徴ベクトル（本実施の形態では、３６（＝360°／10°）次元ベクトル、すなわち、３６個の階級の度数を表わす数字からなるベクトル）となる。

次に、第２の特徴量（タイプ２の特徴量）として、低次元縮退濃度勾配ベクトルが求められる。タイプ１の特徴量が、特徴点近傍内ピクセルの空間的配置を無視し、特徴点近傍局所領域での濃度勾配ベクトルの方向の傾向（頻度）のみに注目しているのに対し、タイプ２の特徴量は、特徴点近傍の各濃度勾配ベクトルの空間的配置に注目する。この２種類の特徴量を後述する手法で特徴量比較に用いることで、視点変化、明度変化に強い認識を実現する。

タイプ２の特徴量の抽出のために、まず、ステップＳ２３で、特徴量抽出部１２３は、特徴点近傍画像を回転補正する。すなわち、上述の処理で得られた特徴点近傍のカノニカル方向が０度になるように特徴点近傍画像が回転補正される。さらに、ステップＳ２４で、特徴量抽出部１２３は、濃度勾配ベクトル群を演算する。例えば、図１３の上段に示されている特徴点近傍のピクセルの濃度勾配が、図１０に示されるように分布している場合、上述したように、カノニカル方向は、80度と200度の方向となる。そこで、図１３の中段の左側の図に示されるように、上段の画像をカノニカル方向80度が０度になるように、特徴点近傍画像が、この例の場合時計方向に回転される。そして、その濃度勾配ベクトル群が演算される。このことは、結局、図１０の角度80度のカノニカル方向を０度として正規化して得られた図１１の方向ヒストグラムの濃度勾配ベクトル群を得ることに等しい。

また、同様に、図１３の中段の右側に示されるように、特徴点近傍画像が、200度のカノニカル方向が０度になるように回転補正される。そして、その画像の濃度勾配ベクトル群が演算される。このことは、図１０の角度200度のカノニカル方向を０度として正規化することで得られた図１２の方向ヒストグラムの濃度勾配ベクトル群を得ることに等しい。

次に、ステップＳ２５において、特徴量抽出部１２３は、濃度勾配ベクトル群を次元縮退する。すなわち、数ピクセル程度の特徴点抽出位置のずれを吸収できるようにするために、この濃度勾配ベクトル群が、図１３の下段の左右に示されているように、例えば、直径７ピクセルの円の内側にほぼ内接する四角形内の５×５ピクセルのベクトル群から、３×３個のベクトル群に線形補間リサンプルすることで次元縮退される。

線形補間リサンプルは、具体的には、図１４に示されるように、リサンプル画像のピクセル値を、その近傍４個の元画像ピクセルからの距離の比率で以下の式により演算することで行われる。

f(X,Y)=(1-q)・{(1-p)・f(x,y)+p・f(x+1,y)}+q・{(1-p)・f(x,y+1)+p・f（x+1,y+1）｝
・・・（１０）

上記式において、（Ｘ，Ｙ）はリサンプル画像のピクセル、（ｘ，ｙ），（ｘ＋１，ｙ），（ｘ，ｙ＋１），（ｘ＋１，ｙ＋１）は、リサンプル画像（Ｘ，Ｙ）近傍の元画像ピクセル、ｆ（ａ，ｂ）は座標（ａ，ｂ）のピクセル値、ｐ，ｑは、図１４に示されるように、近傍ピクセルからリサンプル画像（Ｘ，Ｙ）へのｘ座標方向とｙ座標方向の距離比である。

こうして、次元縮退されたベクトルのｘ，ｙ各成分を特徴ベクトルの各次元にあてることで、タイプ２の特徴量が得られる。線形補間リサンプルにより、３×３ベクトル群にリサンプルした場合には、１８（＝３×３×２）次元の特徴量となる。

なお、リサンプル後の目標の画像サイズが元画像サイズの半分以下の場合には、元画像を0.5倍ずつ縮小していき、目標サイズより大きい最小の0.5倍乗数サイズの画像が得られたら、その画像から式（１０）のリサンプリングを行うことでリサンプリング時の誤差を小さくすることが可能である。例えば元画像の0.2倍サイズの画像を線形補間リサンプリングで作る場合には、0.5倍リサンプルを２回かけて得られる元画像の0.25倍サイズ画像に式（１０）の線形補間リサンプリングを行う。

ステップＳ２６において、特徴量抽出部１２３は、全特徴点を処理したかを判定し、まだ処理していない特徴点が存在する場合には、処理をステップＳ１７に戻し、それ以降の処理を繰り返し実行する。ステップＳ２６において、全特徴点を処理したと判定された場合（ステップＳ１７乃至ステップＳ２５の処理が、全ての特徴点について行われた場合）、ステップＳ２７において、特徴点抽出部１２２は、全解像度画像を処理したかを判定する。まだ処理していない解像度画像が存在する場合には、処理はステップＳ１３に戻り、それ以降の処理が繰り返し実行される。ステップＳ１３乃至ステップＳ２５の処理が、全ての解像度画像について行われたと判定された場合、ステップＳ２８において、多重解像度生成部１２１は、全登録画像を処理したかを判定する。まだ処理していない登録画像が存在する場合には、処理はステップＳ１１に戻り、それ以降の処理が繰り返し実行される。ステップＳ１１乃至ステップＳ２５の処理が、全ての登録画像について実行されたと判定された場合、処理はステップＳ２９に進む。

登録画像辞書登録部１２４は、ステップＳ２９において、以上のように抽出された特徴点特徴量をラベル付けし、登録する。この場合、どの登録ＩＤの登録画像の多重解像度画像群の、どの画像の、どのスケールから抽出された、どの特徴点の特徴量なのか、が参照できるようにラベル付けされ、登録画像辞書登録部１２４に登録される。

以上のようにして、登録画像辞書登録部１２４には、認識させたい対象物体に対応する登録画像が特徴量として予め登録される。

学習部１１１と認識部１１２の両方を認識部２３が有する場合には、認識部１１２は、この登録画像辞書登録部１２４をそのまま利用することが可能である。学習部１１１と認識部１１２が別の画像処理装置として構成される場合には、以上のようにして必要な情報が登録された登録画像辞書登録部１２４が、認識部１１２を有する画像処理装置に搭載されるか、或いは有線または無線通信により利用可能とされる。

次に、図１５のフローチャートを参照して、図２の画像処理装置１１における記憶処理について説明する。この記憶処理は、例えば、ユーザによりテレビコミュニケーションの開始が指示されたとき、開始される。

ステップＳ１０１において、撮像部２１は、被写体を撮像し、その結果得られる入力画像を、記憶部２２、認識部２３、トラッキング部２４、および合成部２６に入力する。ステップＳ１０２において、記憶部２２は、撮像部２１から入力された入力画像を100フレーム分記憶する。100フレーム以上の入力画像が入力された場合には、古い画像が順次上書きされ、最新の100フレーム分の画像が記憶される。

ステップＳ１０３において、撮像部２１は、ユーザによりテレビコミュニケーションの終了が指示されたかを判定する。まだテレビコミュニケーションの終了が指示されていない場合には、処理はステップＳ１０１に戻り、それ以降の処理が繰り返し実行される。テレビコミュニケーションの終了が指示されたと判定された場合、処理は終了する。

このようにして、撮像部２１が撮像処理を実行しているとき、最新の100フレーム分の入力画像が記憶部２２に記憶される。

次に、図１６のフローチャートを参照して、図２の画像処理装置１１における第１のリアルタイムトラッキング処理について説明する。この第１のリアルタイムトラッキング処理は、図３４乃至図３６を参照して後述する認識部２３における一般物体認識処理により、登録ＩＤ、フレーム番号、および物体パラメータが出力されたとき、開始される。

一般物体認識処理の詳細は、図３４乃至図３６を参照して後述するが、この処理により、入力画像の中から、学習処理で登録された登録画像に対応する対象物体が認識された場合、その登録画像の登録ＩＤ、フレーム番号、および物体パラメータが出力される。

ステップＳ１３１において、トラッキング部２４の指定領域トラッキング部４１は、認識部２３から入力された物体パラメータに基づく指定領域をトラッキングする第１の指定領域トラッキング処理を行う。この第１の指定領域トラッキング処理については、図１８を参照して後述するが、この処理により、認識部２３の認識結果に基づき指定された指定領域を高速でトラッキングする処理が実行される。

ステップＳ１３２において、指定領域トラッキング部４１は、ユーザによりテレビコミュニケーションの終了が指示されたかを判定する。まだテレビコミュニケーションの終了が指示されていない場合には、処理はステップＳ１３１に戻り、上述した処理が繰り返し実行される。テレビコミュニケーションの終了が指示されたと判定された場合には、処理は終了する。

図２の指定領域トラッキング部４１は、第１の指定領域トラッキング処理を実行するために、図１７に示すような構成を有している。

図１７の指定領域トラッキング部４１は、領域指定部１４１、特徴点抽出部１４２、オプティカルフロー演算部１４３、アフィン行列演算部１４４、誤差演算部１４５、およびスコア演算部１４６により構成される。

領域指定部１４１には、認識部２３またはスコア演算部１４６から物体パラメータが供給される。領域指定部１４１は、その物体パラメータに基づいて指定領域を指定し、その指定領域を特徴点抽出部１４２に供給する。

特徴点抽出部１４２には、認識部２３からフレーム番号が供給され、特徴点抽出部１４２は、フレーム番号に基づいて、入力画像を、処理の対象とする入力画像（以下、対象入力画像という）として、記憶部２２から読み出す。

特徴点抽出部１４２は、対象入力画像から、例えば図３の特徴点抽出部１２２と同様に特徴点を抽出する。特徴点抽出部１４２は、領域指定部１４１から供給される指定領域に基づいて、抽出した特徴点のうち、指定領域外に位置する特徴点を削除し、指定領域内の特徴点の位置を表す特徴点情報を一時的に保持する。また、特徴点抽出部１４２は、対象入力画像の指定領域内の特徴点の特徴点情報(以下、対象フレーム特徴点情報という)、対象入力画像の１フレーム前の入力画像(以下、前入力画像という)の指定領域内の特徴点の特徴点情報（以下、前フレーム特徴点情報という）、および対象入力画像を、オプティカルフロー演算部１４３に供給する。また、特徴点抽出部１４２は、対象フレーム特徴点情報と前フレーム特徴点情報を、誤差演算部１４５に供給する。

オプティカルフロー演算部１４３は、特徴点抽出部１４２から供給される対象フレーム特徴点情報、前フレーム特徴点情報、および対象入力画像に基づいて、各特徴点の動き情報としてオプティカルフローを演算し、そのオプティカルフローをアフィン行列演算部１４４に供給する。

アフィン行列演算部１４４は、オプティカルフロー演算部１４３から供給される各特長点のオプティカルフローのうちの、３個の特徴点のオプティカルフローから、アフィン変換を行うためのアフィン行列を演算する。アフィン行列演算部１４４は、そのアフィン行列を誤差演算部１４５に供給する。

誤差演算部１４５は、特徴点抽出部１４２から供給される前フレーム特徴点情報が表す各特徴点の位置と、アフィン行列演算部１４４から供給されるアフィン行列を乗算する。そして、誤算演算部１４５は、その乗算の結果得られる各特徴点の位置と、特徴点抽出部１４２から供給される対象フレーム特徴点情報が表す各特徴点の位置との誤差を演算し、各特徴点における誤差とアフィン行列をスコア演算部１４６に供給する。

スコア演算部１４６は、誤差演算部１４５から供給される誤差のうち、予め設定された閾値Ｔより小さい誤差があるかを判定する。スコア演算部１４６は、その判定の結果に応じて、その誤差に対応するアフィン行列のスコアを決定する。なお、ここでは、誤差が閾値Ｔより小さい特徴点の数が多いほど、スコアが大きくなるように、スコアが決定されるものとする。

スコア演算部１４６は、対象入力画像におけるアフィン行列のうち、スコアの最も大きいアフィン行列を、指定領域の代表アフィン行列として選択する。スコア演算部１４６は、代表アフィン行列のパラメータを物体パラメータとして領域指定部１４１に供給する。また、スコア演算部１４６には、認識部２３から登録ＩＤが供給され、スコア演算部１４６は、所定のタイミングで、その登録ＩＤとともに、代表アフィン行列のパラメータを物体パラメータとして、指定領域トラッキング部４２に供給する。

次に、図１８のフローチャートを参照して、図１６のステップＳ１３１の第１の指定領域トラッキング処理の詳細について説明する。

ステップＳ１５１において、領域指定部１４１は、認識部２３による一般物体認識処理の結果得られた物体パラメータに基づいて指定領域を指定する。すなわち、物体パラメータの位置情報（座標データ）に基づいて、トラッキングすべき指定領域が指定され、その指定領域が特徴点抽出部１４２に供給される。ステップＳ１５２において、特徴点抽出部１４２は、認識部２３から供給される、認識された対象物体を含むフレームのフレーム番号に基づいて、記憶部２２に記憶されている入力画像の中から、そのフレーム番号の入力画像を対象入力画像として読み出す。ステップＳ１５３において、特徴点抽出部１４２は、対象入力画像から特徴点を抽出する。この特徴点は、上述した図４のステップＳ１６における場合と同様の特徴点とすることができる。

ステップＳ１５４において、特徴点抽出部１４２は、ステップＳ１５３で抽出した特徴点から、領域指定部１４１から供給された指定領域の外に位置する特徴点を削除し、指定領域内の特徴点の位置を表す特徴点情報を一時的に保持する。また、特徴点抽出部１４２は、対象フレーム特徴点情報、前フレーム特徴点情報、および対象画像を、オプティカルフロー演算部１４３に供給し、対象フレーム特徴点情報と前フレーム特徴点情報を誤差演算部１４５に供給する。

ステップＳ１５５において、オプティカルフロー演算部１４３は、特徴点抽出部１４２から供給される対象フレーム特徴点情報、前フレーム特徴点情報、および対象画像に基づいて、例えばＬＫ(Lucas Kanade)法により、各特徴点のオプティカルフローを演算する。

図１９を参照して、この演算について説明する。なお、図１９では、ＬＫ法により、光軸と直交する方向への特徴点Ｐのオプティカルフローを演算する場合について説明する。

オプティカルフローの演算では、対象フレーム特徴点情報が位置を表す特徴点と、前フレーム特徴点情報が位置を表す特徴点の移動を解析するが、より具体的には、入力画像から、解像度を段階的に低下させた画像を複数形成し、先ず解像度を低下させた画像同士で比較が行われる。これにより、特徴点の移動を解析する際の演算処理量を最小限に抑えることができる。

図１９Ａと図１９Ｂに示すように、撮像部２１で時刻ｔ−１に撮像された前入力画像１５１Ａと、時刻ｔに撮像された対象入力画像１５１Ｂの画素数を320×240ピクセルとすると、オプティカルフロー演算部１４３は、図１９Ａに示すように、前入力画像１５１Ａに基づいて、その解像度を1/4に低下させた160×120ピクセルの画像１５２Ａ、更に解像度を1/4に低下させた80×60ピクセルの画像１５３Ｂの２種類の画像を生成する。また、同様に、オプティカルフロー演算部１４３は、対象入力画像１５１Ｂに基づいて、その解像度を1/4に低下させた160×120ピクセルの画像１５２Ｂ、更に解像度を1/4に低下させた80×60ピクセルの画像１５３Ｂの２種類の画像を生成する。

なお、画像１５２Ａ（１５２Ｂ）と画像１５３Ａ（１５３Ｂ）は、元の320×240ピクセルの前入力画像１５１Ａ（対象入力画像１５１Ｂ）と同じ画面領域の画像であるが、画素数を少なくすることで解像度が低下されている。また、対象入力画像１５１Ｂ、画像１５２Ｂ、および画像１５３Ｂは、オプティカルフロー演算部１４３に保持され、次の対象入力画像の特徴点のオプティカルフローの演算に用いられる。すなわち、前入力画像１５１Ａ、画像１５２Ａ、および画像１５３Ａは、前回の演算時に保持されたものである。

最初に、オプティカルフロー演算部１４３は、最も解像度の低い画像１５３Ａと画像１５３Ｂを比較し、特徴点Ｐの大まかな移動を解析する。画像１５３Ａと画像１５３Ｂは、画素数が少なく、探索範囲が少ないため、オプティカルフローを演算する演算処理を少ない負荷で行うことができる。オプティカルフロー演算部１４３は、画像１５３Ａと１５３Ｂを比較することにより、時刻ｔにおける特徴点Ｐ（ｔ−１）から、時刻ｔにおける特徴点Ｐ（ｔ）に向かうベクトルを、特徴点Ｐ（ｔ）のオプティカルフローとして簡易的に求める。

次に、オプティカルフロー演算部１４３は、画像１５３Ａと画像１５３Ｂで特徴点Ｐのオプティカルフローが検出された範囲を中心として、画像１５２Ａと画像１５２Ｂを比較し、特徴点Ｐの移動をより詳細に解析する。画像１５３Ａと画像１５３Ｂに比べて画像１５２Ａと１５２Ｂの画素数は多いが、画像１５３Ａと画像１５３Ｂの解析により探索範囲を絞り込むことで、演算処理の負荷を軽減することができる。

次に、オプティカルフロー演算部１４３は、画像１５２Ａと画像１５２Ｂで特徴点Ｐのオプティカルフローが検出された範囲を中心として、撮像部２１で撮像された320×240ピクセルの前入力画像１５１Ａと対象入力画像１５１Ｂを比較し、特徴点Ｐの移動をより詳細に解析する。ここでは、画像１５２Ａと画像１５２Ｂの解析により探索範囲がさらに絞り込まれるため、画素数の最も多い前入力画像１５１Ａと対象入力画像１５１Ｂを用いて、特徴点Ｐ（ｔ）のオプティカルフローを、少ない負荷で精度良く演算することができる。

図１９に示したように、ＬＫ法によれば、時系列のフレーム毎に特徴点の移動を解析する際に、処理量を抑えることができ、時間遅れを最小限に抑えた状態で、時系列の画像の動きを解析することができる。このようなＬＫ法によるオプティカルフローの画像処理については、例えばホームページ(http://robots.stanford.edu/cs223b04/algo_tracking.pdf)に掲載された論文「Pyramidal Implementation of the Lucas Kanade Feature Tracker Description of the algorithm; Jean-Yves Bouguet, Intel Corporation, Microprocessor Research Labs」に記載された手法により行うことができる。このように、オプティカルフローの演算に強い特徴点に対してＬＫ法を適用し、解像度を段階的に可変した画像を用いて特徴点の動きを解析することで、短時間で高精度に特徴点のオプティカルフローを演算することができる。

また、オプティカルフローの演算は、ＬＫ法以外の他の方法で行っても良く、例えば公知のブロックマッチング(Block Matching)法、勾配法などの方法で行ってもよい。

以上のようにして演算された各特長点のオプティカルフローは、アフィン行列演算部１４４に供給される。次に、ステップＳ１５６において、アフィン行列演算部１４４は、オプティカルフロー演算部１４３から供給されるオプティカルフローに対応する各特長点から、特徴点を３個選択する。

ステップＳ１５７において、アフィン行列演算部１４４は、ステップＳ１５６で選択された３個の特徴点のオプティカルフローから、３個の特徴点の、アフィン変換を行うためのアフィン行列を演算する。ここで、アフィン変換は、平行移動及び回転変換（ユークリッド変換）に拡大縮小変換を加えた相似変換に、せん断変形を許すような変換で、元の図形で直線上に並ぶ点は変換後も直線上に並び、平行線は変換後も平行線であるなど、幾何学的性質が保たれる変換である。

アフィン変換を行うためのアフィン行列について説明すると、前画像の特徴点のオプティカルフロー［ｘｙ］^Tの対象入力画像の特徴点のオプティカルフロー［ｕｖ］^Tへのアフィン変換は、以下の式（１１）で与えられる。

この式（１１）において、ａ_i（ｉ＝１，…，４）は回転、拡大縮小、せん断変形を決定するパラメータを表し、［ｂ₁ ｂ₂］^Tは、平行移動パラメータを表す。演算すべきアフィン行列のパラメータ(アフィン変換パラメータ)はａ₁，…，ａ₄及びｂ₁，ｂ₂の６つであるため、特徴点の組が３組あれば、アフィン行列を決定することができる。即ち、アフィン変換を行うためのアフィン行列（アフィン変換パラメータ）を演算するためには特徴点の組が３組以上必要となる。そこで、ステップＳ１５６では、特徴点が３個選択され、ステップＳ１５７において、その３個の特徴点のオプティカルフローからアフィン行列が演算される。アフィン行列演算部１４４は、演算の結果得られるアフィン行列を誤差演算部１４５に供給する。

ステップＳ１５８において、誤差演算部１４５は、アフィン行列演算部１４４から供給されるアフィン行列を、特徴点抽出部１４２から供給される前フレーム特徴点情報が表す各特徴点の位置に乗算する。ステップＳ１５９において、誤算演算部１４５は、その乗算の結果得られる各特徴点の位置と、特徴点抽出部１４２から供給される対象フレーム特徴点情報が表す各特徴点の位置との誤差を演算し、各特徴点における誤差とアフィン行列をスコア演算部１４６に供給する。

ステップＳ１６０において、スコア演算部１４６は、誤差演算部１４５から供給される各特徴点における誤差のうち、予め設定された閾値Ｔより小さい誤差があるかを判定する。ステップＳ１６０で、閾値Ｔより小さい誤差があると判定された場合、ステップＳ１６１において、スコア演算部１４６は、誤差が閾値Ｔより小さい特徴点の数だけ、誤差と同時に供給されるアフィン行列のスコアをインクリメントする。なお、インクリメントされる値は、予め決められた所定の値であってもよいし、誤差に応じた値であってもよい。

一方、ステップＳ１６０で、閾値Ｔより小さい誤差がない、すなわち全ての特徴点の誤差が閾値Ｔ以上であると判定された場合、処理はステップＳ１６１をスキップする。すなわち、スコア演算部１４６は、スコアをインクリメントしない。

ステップＳ１６２において、スコア演算部１４６は、対象入力画像におけるアフィン行列の演算が所定回数繰り返されたかを判定する。ここでは所定の数のアフィン行列が供給されたかを判定してもよい。ステップＳ１６２で、まだ所定回数繰り返されていないと判定された場合、処理はステップＳ１５６に戻り、アフィン行列演算部１４４が新たに３個の特徴点を選択し、上述した処理が繰り返し実行される。

一方、ステップＳ１６２で、対象入力画像におけるアフィン行列の演算が所定回数繰り返されたと判定された場合、ステップＳ１６３において、スコア演算部１４６は、対象入力画像におけるアフィン行列のうち、スコアの最も大きいアフィン行列を、指定領域の代表アフィン行列として選択する。

図２０と図２１を参照して、このようにして選択された代表アフィン行列について説明する。図２０と図２１の例では、ユーザ（例えば、図１のＡさん）が手に所持した登録画像である写真１６１を、手首に位置する点１６２を中心に回転させたときに、写真１６１を持った手が被写体として撮像された入力画像１６０を対象入力画像としている。

なお、図２０において、丸印、三角印、およびバツ印は、入力画像１６０において抽出される特徴点を表しており、指定領域１６３としては、入力画像１６０中の写真１６１の画像の領域が指定されている。

また、図２０の丸印で表される特徴点は、入力画像１６０中の指定領域１６３内の写真１６１に位置する特徴点であり、三角印で表される特徴点は、指定領域１６３内の写真１６１と手の境界に位置する特徴点である。バツ印で表される特徴点は、入力画像１６０中の指定領域１６３外に位置する特徴点である。従って、入力画像１６０において抽出される特徴点のうち、バツ印で表される特徴点は、特徴点抽出部１４２によりステップＳ１５４の処理で削除される。

指定領域トラッキング部４１は、指定領域１６３内の丸印と三角印で表される各特長点のうち、３個の特徴点のオプティカルフローからアフィン行列を演算する。例えば、図２１に示すように、写真１６１が点１６２を中心に図中右上方向に移動されて、入力画像１６０が撮影された場合、入力画像１６０における３個の特徴点ｎ１乃至ｎ３のそれぞれのオプティカルフローは、前入力画像における３個の特徴点ｍ１乃至ｍ３の位置から、特徴点ｎ１乃至ｎ３へのベクトルｖ１乃至ｖ３であり、そのベクトルｖ１乃至ｖ３から、アフィン行列が演算される。

そのアフィン行列を用いて演算された特徴点の位置の誤差が閾値Ｔより小さい場合、その特徴点の数だけスコアがインクリメントされ、最もスコアの大きいアフィン行列が、代表アフィン行列として選択されるので、指定領域１６３内における誤差の最も少ないアフィン行列が、代表アフィン行列として選択される。従って、指定領域１６３内の局部にある手の境界に位置する三角印で表される特徴点に対応するアフィン行列ではなく、指定領域１６３内の全体に位置する写真１６１に位置する丸印で表される特徴点に対応するアフィン行列が、代表アフィン行列として選択される。すなわち、ノイズ的な動きの影響の少ないアフィン行列を、代表アフィン行列として選択することができる。

ステップＳ１６４において、スコア演算部１４６は、所定のフレーム数の入力画像を対象入力画像として処理をしたか、すなわち所定のフレーム数分の代表アフィン行列を選択したかを判定する。この所定のフレーム数は、図３０を参照して後述するように、一般物体認識処理において用いられた入力画像が撮像されてから、その一般物体認識処理により入力された物体パラメータに基づく指定領域の第１の指定領域トラッキング処理が終了するまでに撮像される入力画像のフレーム数である。

ステップＳ１６４で、まだ所定のフレーム数の入力画像を対象入力画像として処理していないと判定された場合、スコア演算部１４６は、代表アフィン行列のパラメータを物体パラメータとして、領域指定部１４１に供給し、ステップＳ１６５において、領域指定部１４１は、その物体パラメータに基づいて指定領域を遷移させる。なお、指定領域の遷移とは、指定領域の移動および姿勢の変更を指す。領域指定部１４１は、遷移後の指定領域を特徴点抽出部１４２に供給する。

ステップＳ１６６において、特徴点抽出部１４２は、直前に対象入力画像として読み出した入力画像のフレーム番号の次のフレーム番号の入力画像を、対象入力画像として読み出す。そして、処理はステップＳ１５３に戻り、上述した処理が繰り返し実行される。

一方、ステップＳ１６４において、所定のフレーム数の入力画像を対象入力画像として処理したと判定された場合、ステップＳ１６７において、スコア演算部１４６は、代表アフィン行列のパラメータを、指定領域のトラッキングの結果としての物体パラメータとして、認識部２３から供給される登録ＩＤとともに、指定領域トラッキング部４２に出力する。そして、処理は、図１６のステップＳ１３１に戻る。

以上のようにして、第１の指定領域トラッキング処理は高速に行うことができるので、リアルタイムのトラッキングが可能となる。

次に、図２２のフローチャートを参照して、図２の画像処理装置１１における第２のリアルタイムトラッキング処理について説明する。

ステップＳ１８１において、トラッキング部２４の指定領域トラッキング部４２は、図１８のステップＳ１６７で、指定領域トラッキング部４１から出力される物体パラメータに基づき指定される指定領域をトラッキングする第２の指定領域トラッキング処理を行う。この第２の指定領域トラッキング処理については、図２９を参照して後述するが、この処理は、実質的には、図１６のステップＳ１３１における第１の指定領域トラッキング処理と同様の高速の処理である。

ステップＳ１８２において、補正画像生成部２５は、指定領域トラッキング部４２から供給される登録ＩＤに基づく要求に応じて制御部２８から送信されてくる登録画像と、指定領域トラッキング部４２から供給される物体パラメータに基づいて、入力画像中の対象物体（認識部２３の一般物体認識処理により認識された物体）と同一のサイズで、かつ同一の姿勢の登録画像を、入力画像を補正する補正画像として生成する。補正画像生成部２５は、生成した補正画像と、指定領域トラッキング部４２から供給される物体パラメータを合成部２６に供給する。

ステップＳ１８３において、合成部２６は、入力画像を表示する画面の面積Ｓ１の、補正画像生成部２５から供給される補正画像の面積Ｓ２に対する比が、基準値以上かを判定する。ステップＳ１８３で、画面の面積Ｓ１の補正画像の面積Ｓ２に対する比が基準値以上であると判定された場合、ステップＳ１８４において、合成部２６は、補正画像生成部２５から供給される物体パラメータに基づいて、撮像部２１から供給される入力画像中の、指定領域トラッキング部４２により指定された指定領域に補正画像を合成する。そして、合成部２６は、その結果得られる合成画像を出力部２７と制御部２８に供給する。その結果、出力部２７と、ネットワーク１２を介して接続される他の画像処理装置１１の出力部の画面には、入力画像の指定領域に、補正画像がはめ込まれた画像が表示される。

例えば、登録画像が表示されたデジタルカメラ１７０を手に所持した人物が被写体として撮像され、入力画像１７１が取得された場合、図２３に示すように、入力画像１７１の指定領域１７２としての登録画像に対応する対象物体の領域内に、入力画像１７１中の対象物体と同一のサイズで、かつ同一の姿勢の登録画像である補正画像１７３がはめ込まれる。これにより、ユーザは、合成による違和感を感じずに、撮像部２１により撮像されたデジタルカメラ１７０に表示された登録画像を鮮明に見ることができる。

なお、入力画像１７１中の対象物体と同一のサイズで、かつ同一の姿勢の登録画像を補正画像１７３として生成するのではなく、図２４に示すように、入力画像１７１中の対象物体と同一のサイズで、撮像部２１の光軸に対して正面向きの姿勢の登録画像を補正画像１８１として生成し、その補正画像１８１を指定領域１７２にその中心が一致するように表示してもよい。この場合、例えば、ユーザが、撮像部２１の光軸に対して正面に、デジタルカメラ１７０に表示された登録画像を配置することができない場合であっても、正面向きの登録画像を表示させることができ、より登録画像の見やすい画像をユーザに提供することができる。

また、図２５に示すように、入力画像１７１の指定領域１７２内に補正画像１７３をはめ込むだけでなく、さらに、あるいは、はめ込みに代えて、予め設定された所定の領域１９１に登録画像１９２をそのまま表示させるようにしてもよい。

一方、ステップＳ１８３で、画面の面積Ｓ１の、補正画像の面積Ｓ２に対する比が基準値以上ではないと判定された場合、ステップＳ１８５において、合成部２６は、補正画像を画面全体の画像として、撮像部２１から供給される入力画像に合成し（実質的には、入力画像全体を補正画像で置き換えた画像を生成することになる）、その結果得られる合成画像を出力部２７と制御部２８に供給する。その結果、出力部２７と、ネットワーク１２を介して接続される他の画像処理装置１１の出力部２７の画面全体には、補正画像が表示される。

例えば、図２６に示すように、補正画像２０２の面積Ｓ２（指定領域２０３の面積Ｓ２１と補正画像２０２のうちの指定領域２０３に対応する領域以外の領域２０４の面積Ｓ２２の和）が大きい場合、面積Ｓ１の画面２０１における指定領域２０３の面積Ｓ２１に比べて、領域２０４の面積Ｓ２２が大きくなってしまう。即ち、この場合、指定領域２０３に補正画像２０２が合成されても、指定領域２０３に合成される補正画像２０２は、補正画像２０２のうちの局部となる。従って、ユーザは、被写体となった登録画像を認識することができない。

そこで、画面の面積Ｓ１の、補正画像の面積Ｓ２に対する比が基準値以上ではないと判定された場合、合成部２６は、例えば、図２７に示すように、補正画像２０５を画面２０６全体の画像として、撮像部２１から供給される入力画像に合成する。その結果、画面２０６には、全画面サイズの補正画像２０５が表示される。これにより、ユーザが登録画像を撮像部２１に近づけ過ぎてしまい、登録画像の局部しか撮像されない場合であっても、登録画像を認識することができる。

ステップＳ１８４またはステップＳ１８５の処理後、処理はステップＳ１８６に進み、指定領域トラッキング部４２は、ユーザによりテレビコミュニケーションの終了が指示されたかを判定する。ステップＳ１８６において、ユーザによりテレビコミュニケーションの終了が指示されていないと判定された場合、テレビコミュニケーションの終了が指示されたと判定されるまで、ステップＳ１８１乃至Ｓ１８５の処理が繰り返され、ステップＳ１８６において、テレビコミュニケーションの終了が指示されたと判定されると、処理は終了する。

図２の指定領域トラッキング部４２は、図２２のステップＳ１８１の第２の指定領域トラッキング処理を実行するために、図２８に示すような構成を有する。

図２８の指定領域トラッキング部４２は、領域指定部２１１、特徴点抽出部２１２、オプティカルフロー演算部２１３、アフィン行列演算部２１４、誤差演算部２１５、およびスコア演算部２１６により構成される。

領域指定部２１１には、指定領域トラッキング部４１のスコア演算部１４６またはスコア演算部２１６から物体パラメータが供給される。領域指定部２１１は、図１７の領域指定部１４１と同様に、その物体パラメータに基づいて指定領域を指定し、その指定領域を特徴点抽出部２１２に供給する。

特徴点抽出部２１２には、撮像部２１から入力画像が供給される。特徴点抽出部２１２は、供給された入力画像を対象入力画像として、その対象入力画像から、特徴点抽出部１２２（図３）や特徴点抽出部１４２（図１７）と同様に特徴点を抽出する。特徴点抽出部２１２は、特徴点抽出部１４２と同様に、領域指定部２１１から供給される指定領域に基づいて、抽出した特徴点のうち、指定領域外に位置する特徴点を削除し、特徴点情報を一時的に保持する。また、特徴点抽出部２１２は、対象フレーム特徴点情報、前フレーム特徴点情報、および対象入力画像を、オプティカルフロー演算部２１３に供給する。特徴点抽出部２１２は、対象フレーム特徴点情報と前フレーム特徴点情報を、誤差演算部２１５に供給する。

オプティカルフロー演算部２１３、アフィン行列演算部２１４、および誤差演算部２１５の機能は、図１７のオプティカルフロー演算部１４３、アフィン行列演算部１４４、および誤差演算部１４５と同様であるので、その説明は繰り返しになるので省略する。

スコア演算部２１６は、図１７のスコア演算部１４６と同様に、誤差演算部２１５から供給される誤差のうち、予め設定された閾値Ｔより小さい誤差があるかを判定する。スコア演算部２１６は、スコア演算部１４６と同様に、その判定の結果に応じて、その誤差に対応するアフィン行列のスコアを決定する。

スコア演算部２１６は、スコア演算部１４６と同様に、対象入力画像におけるアフィン行列のうち、スコアの最も大きいアフィン行列を、指定領域の代表アフィン行列として選択する。スコア演算部２１６は、スコア演算部１４６と同様に、代表アフィン行列のパラメータを物体パラメータとして領域指定部２１１に供給する。また、スコア演算部２１６には、スコア演算部１４６から登録ＩＤが供給される。スコア演算部２１６は、所定のタイミングで、その登録ＩＤとともに、代表アフィン行列のパラメータを物体パラメータとして、補正画像生成部２５に供給する。

このように、指定領域トラッキング部４２の構成は、指定領域トラッキング部４１の構成と基本的に同様である。

次に、図２９のフローチャートを参照して、図２２のステップＳ１８１の第２の指定領域トラッキング処理の詳細について説明する。

ステップＳ２０１において、領域指定部２１１は、物体パラメータが指定領域トラッキング部４１から入力されたかを判定する。ステップＳ２０１で、物体パラメータが指定領域トラッキング部４１から入力されたと判定された場合、ステップＳ２０２において、領域指定部２１１は、指定領域トラッキング部４１から供給される物体パラメータに基づいて指定領域を指定し、その指定領域を特徴点抽出部２１２に供給する。

一方、ステップＳ２０１で、物体パラメータが指定領域トラッキング部４１から入力されていないと判定された場合、ステップＳ２０３において、領域指定部２１１は、後述するステップＳ２１６でスコア演算部２１６から供給される物体パラメータに基づいて、指定領域を遷移させ、その指定領域を特徴点抽出部２１２に供給する。

ステップＳ２０２またはステップＳ２０３の処理後、処理はステップＳ２０４に進み、特徴点抽出部２１２は、撮像部２１から供給される入力画像を対象入力画像として取得する。ステップＳ２０５乃至Ｓ２１５の処理は、図１８のステップＳ１５３乃至Ｓ１６３の処理と同様であるので、その説明は繰り返しになるので省略する。

ステップＳ２１５で代表アフィン行列が選択された後、ステップＳ２１６において、スコア演算部２１６は、代表アフィン行列のパラメータを、指定領域のトラッキングの結果としての物体パラメータとして、指定領域トラッキング部４１のスコア演算部１４６から供給される登録ＩＤとともに、補正画像生成部２５に出力するとともに、領域指定部２１１に物体パラメータを出力する。そして、処理は、図２２のステップＳ１８１に戻る。

このように、指定領域トラッキング部４２の第２の指定領域トラッキング処理は、指定領域トラッキング部４１の第１の指定領域トラッキング処理と基本的に同様であり、高速の処理ができ、リアルタイムのトラッキングを可能にするのであるが、トラッキング対象の初期値が、後者では認識部２３からの情報により設定されるのに対して、前者では指定領域トラッキング部４１からの情報により設定される。また、処理対象画像が、後者では記憶部２２に記憶された入力画像であるのに対して、前者では撮像部２１からリアルタイムで供給される入力画像である。

次に、図３０を参照して、図２の画像処理装置１１における処理のタイミングについて説明する。

なお、図３０において、横方向は時刻を表している。また、図３０において、四角は、横方向の位置に対応する時刻に処理されるフレームを表しており、四角の中または上に記載されている数字は、そのフレームのフレーム番号を表している。

図３０Ａに示すように、図１５に示した撮像処理では、撮像部２１により被写体が撮像され、フレーム単位の撮像画像が入力画像として取得される。図３０の例では、初めて登録画像が撮像された入力画像のフレーム番号が「２」となっている。

また、図３０の例では、図３０Ｂに示すように、図３４乃至３６を参照して後述する一般物体認識処理が開始されてから終了するまでの間に、５フレーム分の入力画像が撮像され、記憶される。従って、図３０Ｂに示すように、一般物体認識処理では、開始時に撮像部２１から入力される５フレームおきの入力画像が、対象入力画像とされる。具体的には、図３０の例では、フレーム番号が「２」、「７」、「１２」、「１７」・・・の入力画像が順に対象入力画像とされる。

図３０Ｃに示すように、図１８の第１の指定領域トラッキング処理は、一般物体認識処理により認識部２３から物体パラメータが入力されたとき開始される。この第１の指定領域トラッキング処理では、処理の開始時に入力された物体パラメータを求めるときに用いられた入力画像、すなわち、認識部２３から供給されるフレーム番号の入力画像から順に、最後に記憶された入力画像を対象入力画像とするまでの間、入力画像が対象入力画像とされる。すなわち、認識部２３から供給されるフレーム番号の入力画像が撮像されてから、第１の指定領域トラッキング処理の終了時までに撮像された入力画像が、順に対象入力画像とされる。

なお、図３０の例では、認識部２３から供給されるフレーム番号の入力画像が撮像されてから、第１の指定領域トラッキング処理の終了時までに、７フレーム分の入力画像が撮像されて、記憶される。従って、第１の指定領域トラッキング処理において、７フレーム分の入力画像が対象入力画像とされる。

以上のように、第１の指定領域トラッキング処理では、一般物体認識処理において用いられた入力画像が撮像されてから、第１の指定領域トラッキング処理の終了時までの間に撮像された入力画像において、指定領域がトラッキングされる。従って、第１の指定領域トラッキング処理において出力される物体パラメータは、第２の指定領域トラッキング処理の開始時の直前に撮像された入力画像における指定領域のトラッキングの結果となる。

図３０Ｄに示すように、図２９の第２の指定領域トラッキング処理は、第１の指定領域トラッキング処理により指定領域トラッキング部４１から物体パラメータが入力されたとき、または、物体パラメータが入力された後に入力画像が入力されたとき開始される。この第２の指定領域トラッキング処理では、処理の開始時に撮像された入力画像を対象画像として処理が行われる。

上述したように、第１の指定領域トラッキング処理において出力される物体パラメータは、第２の指定領域トラッキング処理の開始時の直前に撮像された入力画像における指定領域のトラッキングの結果であるので、第２の指定領域トラッキング処理では、この物体パラメータに基づく指定領域をトラッキングすることにより、処理の開始時に撮像された入力画像においてリアルタイムでトラッキングを行うことができる。これにより、図２の画像処理装置１１では、高精度であるが、処理に長い時間を要する一般物体認識処理を行いつつ、その一般物体認識処理の結果に基づいてリアルタイムでトラッキングを行うことができるので、リアルタイムで高精度のトラッキングを行うことができる。

図３０に示すように、この実施の形態の場合、第２フレーム乃至第８フレームに基づく第１の指定領域トラッキング処理が行われ、画像処理装置１１における処理が第２の指定領域トラッキング処理に移行した後、そのまま第２の指定領域トラッキングが継続されるのではなく、５フレームごとに一般物体認識処理と第１の指定領域トラッキング処理が実行され、第２の指定領域トラッキング処理は、その都度リスタートされる。これにより、リスタートしない場合に比べて、より正確なトラッキングが可能となる。

次に、図３１乃至図３３を参照して、図２の画像処理装置１１における効果について説明する。

まず最初に、図３１を参照して、撮像部２１によりリアルタイムで撮像される画像について説明する。図３１の例では、図３１Ａに示す対象物体の表示領域（以下、対象物体領域という）が領域Ｐ１である入力画像２２１が撮像された後、図３１Ｂに示す対象物体領域が領域Ｐ２である入力画像２２２が撮像され、次に、図３１Ｃに示す対象物体領域が領域Ｐ３である入力画像２２３が撮像される。すなわち、ユーザが写真を画面の右下から左上方向に移動させている状態が撮像されている。

次に、図３２を参照して、一般物体認識処理の結果得られる物体パラメータに基づく指定領域をトラッキングするトラッキング処理が行われ、その結果得られる物体パラメータを用いて合成画像が生成される場合について説明する。すなわち、認識部２３と指定領域トラッキング部４１とを組み合わせた場合について説明する。なお、この場合、一般物体認識処理において対象入力画像となった入力画像が撮像されてから、トラッキング処理の開始時までに撮像された入力画像をトラッキングに用いるものとする。

図３２の例では、図３１の場合と同様に、入力画像２２１（図３２Ａ），２２２（図３２Ｂ），２２３（図３２Ｃ）が順に撮像される。上述したように、トラッキング処理は、一般物体認識処理において対象入力画像となった入力画像が撮像されてから、トラッキング処理の開始時までに撮像された入力画像を用いて行われるので、トラッキング処理の結果得られる物体パラメータを用いて、合成時に撮像される入力画像２２３を基に合成画像が生成されると、図３２Ｃに示すように、トラッキング処理の開始時に撮像された入力画像２２３より前の入力画像２２１における物体パラメータに基づいて、入力画像２２３の領域Ｐ１に補正画像がはめ込まれた合成画像が生成されてしまう。従って、補正画像の表示位置が、トラッキング処理の開始時から合成時までの時間分遅れてしまう。

これに対して、図２の画像処理装置１１により、一般物体認識処理の結果得られる物体パラメータに基づく指定領域をトラッキングする第１の指定領域トラッキング処理が行われ、その結果得られる物体パラメータに基づく指定領域をトラッキングする第２の指定領域トラッキング処理が行われ、その結果得られる物体パラメータを用いて合成画像が生成されるようにすると、すなわち認識部２３、指定領域トラッキング部４１、および、指定領域トラッキング部４２を用いてトラッキングを行うと、図３３に示すようになる。

図３３の例では、図３１や図３２の場合と同様に、入力画像２２１乃至２２３が順に撮像される。上述したように、第１の指定領域トラッキング処理では、一般物体認識処理において対象入力画像となった入力画像が撮像されてから、第１の指定領域トラッキング処理の終了時までに撮像された入力画像が対象入力画像とされるので、第２の指定領域トラッキング処理では、第１の指定領域トラッキング処理の結果得られる物体パラメータに基づく指定領域をトラッキングすることにより、第２の指定領域トラッキング処理の開始時に撮像される入力画像においてリアルタイムにトラッキングを行うことができる。

従って、図３３Ｃに示すように、入力画像２２３が撮像された場合、第２の指定領域トラッキングの処理により、その入力画像２２３においてリアルタイムにトラッキングを行った結果得られる物体パラメータに基づいて、入力画像２２３の対象物体の領域Ｐ３に補正画像がはめ込まれた合成画像が生成される。

次に、図３４乃至図３６のフローチャートを参照して、図２の認識部２３における一般物体認識処理について説明する。

多重解像度生成部１３１、特徴点抽出部１３２、および特徴量抽出部１３３は、ステップＳ３３１乃至Ｓ３４７において、このとき入力された入力画像を対象入力画像として、その対象入力画像に対して、図４と図５のステップＳ１１乃至Ｓ２７における学習部１１１の多重解像度生成部１２１、特徴点抽出部１２２、および特徴量抽出部１２３と同様の処理を行う。その説明は繰り返しになるので省略する。但し、パラメータＮとαで決まる多重解像度画像の構成が、認識時では学習時と異なっている。

多重解像度生成部１２１は、学習時の多重解像度画像を広い倍率レンジで細かい精度で生成するのに対し、多重解像度生成部１３１は、認識時において、粗い精度で多重解像度画像を生成する。具体的に、本実施の形態で適用しているパラメータは、ステップＳ１２の学習時がＮ＝１０，α＝0.1であるのに対し、ステップＳ３３２の認識時はＮ＝２，α＝0.5である。その理由は、次の通りである。

１）認識精度を上げるには、より多くの特徴点特徴量情報を用いて特徴量比較を行うのが望ましい。つまり、より多くの多重解像度画像から特徴点抽出するのが望ましい。
２）スケール変化のロバスト性を得るために、多重解像度画像の構成はなるべくスケールレンジを広くするのが望ましい。
３）登録画像学習時にはリアルタイム性をそれほど重視しなくても良いので、登録画像の多重解像度画像数を多くし、スケールレンジを広くして特徴点特徴量を抽出し、保持することが可能である。
４）本実施の形態では、対象入力画像から抽出された各特徴点特徴量を、全登録画像の全特徴点特徴量から構築されるkdツリーの k-Nearest Neighbor（k-NN）探索（後述する）を用いて特徴量の比較を行っているため、特徴量比較にかかる計算コストは、対象入力画像から抽出された特徴点数に対して比例して増加するが、登録画像特徴点数に対しては、全登録画像からkdツリーを構築した場合には全登録画像特徴点をｎとすると、計算コストをlognのオーダー（つまりＯ(logn)）に抑えることができる。
５）また一方で、認識時はリアルタイム性が重視されるため、多重解像度画像数をなるべく減らすことで計算コストを小さくする必要が有る。
６）かといって、対象入力画像から多重解像度画像を生成せず、対象入力原画像のみを用いてしまうと、原登録画像のサイズよりも対象入力画像中の登録画像のサイズが大きい場合には、その対象物体の認識が不可能となってしまう。

以上の理由から、図３７に示されるように、学習時の登録画像からは、より多くの（ｋ＝０乃至９の）多重解像度画像群をより広いレンジで生成し（Ｎ＝１０，α＝0.1）、より多くの特徴点を抽出する一方、認識時には、対象入力画像から、認識に最小限必要な（ｋ＝０，１の）多重解像度画像群を生成し（Ｎ＝２，α＝0.5）、それから特徴点を抽出し、特徴量比較をkdツリー上でk-NN探索を適用することで行い、計算コストを少なくかつ精度の良い認識を実現することを可能とする。図３７には、原登録画像は大き過ぎて対応する大きさのスケールの階層の対象物体は存在しないが、原登録画像（ｋ＝０）を0.5倍に縮小する（ｋ＝１）ことで、対応する大きさのスケールの階層の対象物体が見い出されるようになることが示されている。

ステップＳ３３１乃至ステップＳ３４５の処理が、全特徴点並びに全解像度画像について行われた場合、処理はステップＳ３４８に進む。

後述するように、対象入力画像から抽出された各特徴点特徴量（次元縮退された濃度勾配ベクトル群）は、登録されている登録画像の各特徴点特徴量と比較され、類似する登録画像特徴点特徴量と候補対応特徴点組として組み合わされる。最も単純な特徴量比較方法は全探索である。つまり、対象入力画像の各特徴点特徴量に対して、全登録画像の全特徴点特徴量との特徴量間類似度の計算を行い、その類似度により対応特徴点組を選択するのが最も単純な方法である。しかし、全探索による方法は、計算コスト的に実用的でない。そこで本発明の実施の形態では、大量のデータ群からデータを高速に探索するために、kdツリーというデータ構造を用いたツリー探索手法（J. H. Friedman, J. L. Bentley, R. A. Finkel, “An algorithm for finding best matches in logarithmic expected time,” ACM Transactions on Mathematical Software, Vol. 3, No. 3, pp. 209-226, September 1977.）が用いられる。Kdツリーは、ｋ次元の木構造の意味である。

kdツリー構築部１３４は、これまでの学習過程で登録画像辞書登録部１２４に登録された登録画像のうち一部の登録画像に関して認識させれば良い場合には、ステップＳ３４８において、認識対象となる登録画像についてのみ、その全特徴点特徴量からkdツリーを構築する。本実施の形態の場合は、タイプ１の特徴量の36ｄツリー（ｋ＝３６）とタイプ２の特徴量の18ｄツリー（ｋ＝１８）が、それぞれ構築される。ツリーの各リーフ（終端ノード）には、１つの特徴点特徴量が、その特徴量がどの登録ＩＤの登録画像の多重解像度画像群の、どの画像の、どのスケールから抽出された、どの特徴点の特徴量なのか、が参照できるようなラベルとともに保持される。

一方、登録画像辞書登録部１２４に登録された全登録画像を認識させる場合には、登録画像の追加学習の度にツリーを構築し直し、ツリー自体が登録画像辞書登録部１２４に登録される。この場合には、ステップＳ３４８におけるkdツリーの構築処理は省略される。

特徴量比較部１３５は、ステップＳ３４９で、対象入力画像の未処理特徴点を選択する。そして、ステップＳ３５０において、特徴量比較部１３５は、対象入力画像のタイプ１の特徴点特徴量と、類似するｋ個の登録画像の特徴点特徴量をペア組みする。同様に、ステップＳ３５１で、特徴量比較部１３５は、対象入力画像のタイプ２の特徴点特徴量と、類似するｋ個の登録画像の特徴点特徴量をペア組みする。

すなわち、特徴点抽出部１３２と特徴量抽出部１３３により抽出された対象入力画像の各特徴点特徴量は、特徴量比較部１３５により、k-NN探索により特徴量が類似するｋ個（図３８の例の場合、４個）の登録画像特徴点特徴量とペア組みされる（k-NN探索のｋの値と、kdツリーのｋの値は、同じｋの文字を使用してはいるが、任意の別の値とし得る（もちろん、同じ値としてもよい））。本実施の形態では、タイプ１の特徴量のk-NN探索に用いる非類似度として、式（１２）のユークリッド距離（その値が大きい程、類似していないことを表す）が、タイプ２の特徴量の類似度として、式（１３）に示すコサイン相関値（その値が大きい程、類似していることを表す）が、それぞれ用いられる。

但し、式（１２）において、ｕ_V，ｖ_Vは非類似度を計算する対象の特徴量ベクトル、ｕ_n，ｖ_nはそれぞれｕ_V，ｖ_Vのｎ次元における値、Ｎはｕ_V，ｖ_Vベクトルの次元数を、それぞれ表わす。

式（１３）において、ｕ_V，ｖ_Vは類似度を計算する対象の特徴量ベクトルであり、ｕ_V・ｖ_Vはベクトルの内積を表す。特徴量が類似するｋ個のペア（組）を抽出する際に、非類似度（タイプ１特徴量に対して）、類似度（タイプ２特徴量に対して）に対する閾値判定を入れてもよい。タイプ２の特徴量に対する類似度計算尺度にコサイン相関値を用いる理由は、明度変化による局所濃度勾配ベクトルの強度の変化に特徴量が影響されないようにするためである。また、コサイン相関値による類似度のかわりに、ｕ_V，ｖ_Vをベクトル長を１で正規化し、それらのユークリッド距離を非類似度としてタイプ２の特徴量としてもよい。この場合も明度変化による局所濃度勾配ベクトルの強度の変化に特徴量が影響されないようになる。

特徴量比較部１３５は、ステップＳ３４９乃至ステップＳ３５１の処理を、各対象入力画像の特徴点に対して実行する。そして、ステップＳ３５２において、特徴量比較部１３５は、全特徴点を処理したかを判定し、まだ処理していない特徴点が存在する場合には、処理をステップＳ３４９に戻し、それ以降の処理を繰り返し実行する。ステップＳ３５２において、全特徴点を処理したと判定された場合には、処理はステップＳ３５３に進む。

タイプ１とタイプ２の２つのタイプの特徴量を用いるので、特徴量比較部１３５は、入力された対象入力画像の特徴点に対する特徴点ペアを特徴量タイプごとに上述の方法で求めた後、ステップＳ３５３で、タイプ１とタイプ２の両方で共通して抽出された特徴点ペアのみを候補対応特徴点組として選択し、登録画像毎に分類する。そして、この候補対応特徴点組は、後段の推定部１３６に供給される。推定部１３６では、登録画像ごとの処理を行うため、抽出された候補対応特徴点組を登録画像ごとに分類して渡すことで、処理の効率化を図ることができる。

図３８は、以上の処理を模式的に表している。kdツリー構築部１３４により、タイプ１の特徴量の36ｄツリー構造と、タイプ２の特徴量の18ｄツリー構造が生成される。対象入力画像の特徴量群から、k-NN探索（いまの場合、ｋ＝４）によりタイプ１の特徴量の36ｄツリー構造からタイプ１の特徴量の４個の類似ペア群が探索される。この例においては、対象入力画像の四角形で表されている特徴点特徴量（図中の四角形、五角形、三角形、円、または十字の図形は特徴点特徴量を表す）が、タイプ１の特徴量の36ｄツリー構造の五角形、三角形、円、または十字と類似するとして探索される。また、タイプ２の特徴量の18ｄツリー構造からk-NN探索によりタイプ２の特徴量の４個の類似ペア群が探索される。この例では、対象入力画像の四角形が、タイプ２の特徴量の18dツリー構造の平行四辺形、十字、円、またはひし形と類似するとして探索されている。

タイプ１の特徴量の４個の類似ペア群と、タイプ２の特徴量の４個の類似ペア群の中から、共通する類似ペア群が選択される。この例の場合、タイプ１の特徴量の類似ペア群は、四角形と五角形、四角形と三角形、四角形と円、四角形と十字の４個である。これに対して、タイプ２の特徴量の類似ペア群は、四角形と平行四辺形、四角形と十字、四角形と円、四角形とひし形の４個である。したがって、四角形と円、並びに四角形と十字の類似ペア群が、２つのタイプに共通する特徴点ペアであるので、それが候補対応特徴点ペア（組）として、選択される。

なお、以上に説明したように、特徴量タイプ毎、認識対象の全登録画像の全特徴点特徴量から１つのkdツリーを構築し、対象入力画像の各特徴点特徴量のk-NNを探索するのではなく、特徴量タイプ毎、登録画像毎にkdツリーを構築し、登録画像毎に対象入力画像各特徴点特徴量のk-NNを探索するようにしてもよい。いずれの場合でも、出力は登録画像毎に分類された候補対応特徴点組群であり、後述する後段の処理は共通となる。

以上の処理により、特徴点近傍の局所的な濃度勾配情報が類似するペア群（登録画像特徴点と対象入力画像特徴点のペア群）を抽出することができるが、巨視的に見ると、このように得られたペア群は、対応特徴点間の空間的位置関係が登録画像に対応する対象物体の対象入力画像上での位置姿勢（対象物体位置姿勢）と矛盾しない「真の特徴点ペア（インライヤ）」だけでなく、矛盾するような「偽の特徴点ペア（アウトライヤ）」を含んでいる。

図３９は、インライヤとアウトライヤを模式的に表している。同図に示されるように、図中左側に示される三角形の登録画像と、図中右側に示される対象入力画像の三角形の検出対象物体が対応するとすると、登録画像の三角形の頂点近傍の特徴点Ｐ１乃至Ｐ４は、検出対象物体の特徴点Ｐ11乃至Ｐ14とそれぞれ対応する。すなわち、特徴点Ｐ１が特徴点Ｐ11と、特徴点Ｐ２が特徴点Ｐ12と、特徴点Ｐ３が特徴点Ｐ13と、特徴点Ｐ４が特徴点Ｐ14とそれぞれ対応する。したがって、これらの候補対応特徴点組はインライヤを構成する。なお、図３９において、インライヤは実線で示されている。

これに対して、登録画像の特徴点Ｐ５は三角形の内部のほぼ中央に位置し、特徴点Ｐ６は三角形の周辺の近傍の外部に位置する。これに対して、特徴点Ｐ５とペア組された対象入力画像の特徴点Ｐ15と、特徴点Ｐ６とペア組された対象入力画像の特徴点Ｐ16は、それぞれ、検出対象物体とは遠く離れた点である。すなわち、特徴点Ｐ５と特徴点Ｐ15の候補対応特徴点組、並びに特徴点Ｐ６と特徴点Ｐ16の候補対応特徴点組はアウトライヤである。なお、図３９において、アウトライヤは破線で示されている。

候補対応特徴点組群から対象物体の対象入力画像中の位置と姿勢を決める物体パラメータを導出する方法として、最小自乗推定により推定画像変換パラメータを求める手法が考えられる。結果の推定対象物体位置姿勢と空間的位置関係の矛盾する対応ペアを排除し、残ったペアで再び最小自乗推定による推定画像変換パラメータ導出を行うという処理を繰り返すことで、より精度の良い対象物体位置姿勢を求めることができる。

しかしながら、候補対応特徴点組群中のアウトライヤの数が多い場合や、真の画像変換パラメータから極端に逸脱したアウトライヤが存在する場合には、上記最小自乗推定による推定結果は一般的に満足のいくものではないことが知られている（Hartley R., Zisserman A.,“Multiple View Geometry in Computer Vision.”, Chapter 3, pp.69-116, Cambridge University Press, 2000）。そこで、本実施の形態における推定部１３６は、ある画像変換の拘束の下、候補対応特徴点組群の空間的位置関係から「真の特徴点ペア（インライヤ）」を抽出し、抽出されたインライヤを用いて対象物体の位置姿勢を決める画像変換パラメータを推定する。

この推定部１３６による推定処理は、認識対象とする登録画像ごとに行われ、登録画像ごとに対応する対象物体の有無、有る場合には位置姿勢の推定が行われる。以下の説明で出てくる候補対応特徴点組は、特徴量比較部１３５の出力である候補対応特徴点組のうち、当該登録画像に関するペアのみをまとめたペア群を意味する。

画像変換としてはユークリッド変換、相似変換、アフィン変換、射影変換などが挙げられるが、本実施の形態においては、アフィン変換の拘束の下、位置姿勢推定を行う場合について詳細説明を行う。上述したように、特徴点の組が３組以上なければ、アフィン変換パラメータを演算できないので、推定部１３６は、ステップＳ３５４で１つの未処理登録画像を選択した後、ステップＳ３５５で候補対応特徴点ペア（組）が３組以上あるかを判定する。

候補対応特徴点組が２組以下の場合、推定部１３６は、ステップＳ３５６で、対象入力画像中に対象物体が存在しない、又は対象物体位置姿勢検出に失敗したとして、「認識不可」を出力する。一方、候補対応特徴点組が３組以上ある場合、推定部１３６は、対象物体位置姿勢を検出可能であるので、アフィン変換パラメータの推定を行う。このため、推定部１３６は、ステップＳ３５７で座標変換を行う。すなわち、候補対応特徴点組の登録画像特徴点位置座標が、原登録画像上の位置座標に変換されるとともに、対象入力画像特徴点位置座標が、入力原画像の位置座標に変換される。そして、ステップＳ３５８で、推定部１３６は、推定処理を行う。

３組の候補対応特徴点組で構成されるペア群Ｐを、（[ｘ₁ ｙ₁]^T，[ｕ₁ ｖ₁]^T），（[ｘ₂ ｙ₂]^T，[ｕ₂ ｖ₂]^T），（[ｘ₃ ｙ₃]^T，[ｕ₃ ｖ₃]^T）とすると、ペア群Ｐとアフィン変換パラメータとの関係は、以下の式（１４）に示す線形システムで表現することができる。

この式（１４）を、Ａｘ_V＝ｂ_Vのように書き直すと（下付のＶは、添えられている文字（例えばｘ_Vのｘ）がベクトルであることを表わす。以下、同様である）、アフィン変換パラメータｘ_Vの最小自乗解は、以下の式（１５）で与えられる。

ｘ_V＝Ａ^-1ｂ_V ・・・（１５）

候補対応特徴点組群から、アウトライヤが１つ以上混入するように、ランダムにペア群Ｐを繰り返し選択した場合、そのアフィン変換パラメータは、パラメータ空間上に散らばって投射される。一方、インライヤのみから構成されるペア群Ｐをランダムに繰り返し選択した場合、そのアフィン変換パラメータは、何れも対象物体位置姿勢の真のアフィン変換パラメータに極めて類似した、すなわちパラメータ空間上で距離の近いものとなる。したがって、候補対応特徴点組群から、ランダムにペア群Ｐを選択し、そのアフィン変換パラメータをパラメータ空間上に投射していく処理を繰り返すと、インライヤはパラメータ空間上で密度の高い（メンバ数の多い）クラスタを形成し、アウトライヤは散らばって出現することになる。すなわち、パラメータ空間上でクラスタリングを行えば、最多メンバ数を持つクラスタの要素がインライヤとなる。

推定部１３６における推定処理の詳細を図４０のフローチャートを用いて説明する。なお、この推定部１３６におけるクラスタリング手法としては、NN（Nearest Neighbor）法が用いられる。この際、上述したパラメータｂ₁，ｂ₂は、登録画像により様々な値を取り得るため、ｘ空間でもクラスタリングにおいてクラスタリング閾値の選択が登録画像に依存してしまう。そこで、推定部１３６では、「真のパラメータとａ₁，…，ａ₄は類似するが、ｂ₁，ｂ₂が異なるようなアフィン変換パラメータを与えるペア群Ｐは、殆ど存在しない」という仮定の下、パラメータａ₁，…，ａ₄（以下、ａ_Vと表記する）で規定されるパラメータ空間上のみでクラスタリングを行う。なお、上記仮定が成り立たない状況が生じたとしても、ａ_V空間とは独立に、パラメータｂ₁，ｂ₂で規定されるパラメータ空間でクラスタリングを行い、その結果を考慮することで、容易に問題を回避することができる。

先ず、ステップＳ４０１において、推定部１３６は初期化を行う。具体的には、繰り返し数を表す変数としてのカウント値cntがcnt＝１とされ、候補対応特徴点組群からランダムに３組のペアをペア群Ｐ₁として選択し、アフィン変換パラメータａ_V1が求められる。また、推定部１３６は、クラスタ数を表す変数ＮをＮ＝１とし、アフィン変換パラメータ空間ａ_V上でａ_V1を中心とするクラスタＺ₁を作る。推定部１３６は、このクラスタＺ₁のセントロイドｃ_V1をｃ_V1＝ａ_V1とし、クラスタのメンバ数を表す変数ｎz₁をｎz₁＝１とし、カウンタ値cntをcnt＝２に更新する。

次に、ステップＳ４０２において、推定部１３６は、候補対応特徴点組群からランダムに３組のペアをペア群Ｐ_cntとして選択し、アフィン変換パラメータａ_Vcntを計算する。そして、推定部１３６は、計算されたアフィン変換パラメータａ_Vcntをパラメータ空間に投射する。

次に、ステップＳ４０３において、推定部１３６は、NN法によりアフィン変換パラメータ空間をクラスタリングする。具体的には、推定部１３６は、先ず以下の式（１６）に従って、アフィン変換パラメータａ_Vcntと各クラスタＺ_iのセントロイドｃ_Vi（ｉ＝１，…，Ｎ）との距離ｄ（ａ_Vcnt, ｃ_Vi）のうち、最小の距離ｄ_minを求める。

ｄ_min = ｍｉｎ _1≦i≦N ｛ｄ(ａ_Vcnt, ｃ_Vi) ｝・・・（１６）

そして、推定部１３６は、所定の閾値τ（例えばτ＝0.1）に対してｄ_min＜τであればｄ_minを与えるクラスタＺ_iにａ_Vcntを属させ、ａ_Vcntを含めた全メンバでクラスタＺ_iのセントロイドｃ_iを更新する。また、クラスタＺ_iのメンバ数ｎz_iはｎz_i＝ｎz_i＋１とされる。一方、ｄ_min≧τであれば、推定部１３６は、アフィン変換パラメータ空間ａ_V上でａ_Vcntをセントロイドｃ_VN+1とする新しいクラスタＺ_N+1を作り、そのクラスタのメンバ数ｎz_N+1をｎz_N+1＝１とし、クラスタ数ＮをＮ＝Ｎ＋１とする。

続いて、ステップＳ４０４で、推定部１３６は、繰り返し終了条件を満たすか否かを判別する。繰り返し終了条件は、例えば最多メンバ数が所定の閾値（例えば１５）を超え、且つ最多メンバ数と２番目に多いメンバ数との差が所定の閾値（例えば３）を超える場合、或いは繰り返し数カウンタのカウント値cntが、所定の閾値（例えば5000回）を超える場合のように設定することができる。ステップＳ４０４において、繰り返し終了条件が満たされないと判定された場合（Noと判定された場合）には、推定部１３６は、ステップＳ４０５で繰り返し数のカウント値cntをcnt＝cnt＋１とした後、処理をステップＳ４０２に戻し、それ以降の処理を繰り返す。

一方、ステップＳ４０４で、繰り返し終了条件を満たすと判定された場合（Yesと判定された場合）には、ステップＳ４０６において、推定部１３６は、以上の処理で得られたインライヤが３ペアに満たない場合には、アフィン変換パラメータが決定できないため、認識結果を「対象物体非検出」と出力し、インライヤが３ペア以上抽出された場合には、インライヤに基づいて、最小自乗法により対象物体位置姿勢を決定するアフィン変換パラメータを推定し、認識結果として出力する。

インライヤを（[ｘ_IN1 ｙ_IN1]^T，[ｕ_IN1 ｖ_IN1]^T），（[ｘ_IN2 ｙ_IN2]^T，[ｕ_IN2 ｖ_IN2]^T），…とすると、インライヤとアフィン変換パラメータとの関係は、以下の式（１７）に示す線形システムで表現することができる。

この式（１７）を、Ａ_INｘ_VIN＝ｂ_VINのように書き直すと、アフィン変換パラメータｘ_VINの最小自乗解は以下の式（１８）で与えられる。

ｘ_VIN ＝ (Ａ_IN ^T Ａ_IN) ¹ Ａ_IN ^Tｂ_VIN ・・・（１８）

ステップＳ４０６で、推定部１３６は、このアフィン変換パラメータｘ_VINを物体パラメータとして推定する。推定部１３６は、この物体パラメータと、直前のステップＳ３５４で選択された登録画像に対応する登録ＩＤを対応付けて保持する。

図３６に戻り、ステップＳ３５８またはステップＳ３５６の処理の後、ステップＳ３５９において、推定部１３６は、全登録画像を処理したかを判定する。まだ処理していない登録画像が存在する場合には、処理はステップＳ３５４に戻り、それ以降の処理が繰り返し実行される。ステップＳ３５９において、全ての登録画像について処理したと判定された場合、ステップＳ３６０において、推定部１３６は、対象入力画像のフレーム番号とともに、ステップＳ４０６で保持された登録ＩＤと物体パラメータを、指定領域トラッキング部４１に出力する。

ステップＳ３６１において、多重解像度生成部１３１は、ユーザによりテレビコミュニケーションの終了が指示されたかを判定する。まだテレビコミュニケーションの終了が指示されていない場合には、処理はステップＳ３３１に戻り、それ以降の処理が繰り返し実行される。テレビコミュニケーションの終了が指示されたと判定された場合、処理は終了する。

以上の図３６のステップＳ３５４乃至Ｓ３５９の処理は、認識対象とする登録画像ごとに行なわれる。この処理が、図４１に模式的に示されている。この例においては、候補対応特徴点組群ｐ１乃至ｐ６から最初にランダムに３個の候補対応特徴点組群ｐ１,ｐ３,ｐ４が選択され、それに基づき計算されたアフィン変換パラメータがパラメータ空間に投射される。次に、ランダムに３個の候補対応特徴点組群ｐ３,ｐ４,ｐ６が選択され、それらに基づき、計算されたアフィン変換パラメータがパラメータ空間に投射される。同様の処理がさらに繰り返され、この例においては、３個の候補対応特徴点組群ｐ５,ｐ４,ｐ１が選択され、それに基づきアフィン変換パラメータが計算され、パラメータ空間に投射される。そして、パラメータ空間上において、近接するアフィン変換パラメータが、クラスタリングされ、そのクラスタリングされたアフィン変換パラメータに最小自乗法を適用することで、物体パラメータが決定される。

上記の手法を用いることにより、アウトライヤが候補対応特徴点組群中に多数含まれてしまっている場合でも、アウトライヤを排除し、高精度に位置姿勢推定（物体パラメータ導出）が可能となる。

以上の実施の形態では、アフィン変換拘束の下での位置姿勢推定の詳細を述べた。アフィン変換拘束の下では、平面領域が支配的な、例えば箱や本などの３次元物体であれば、その支配平面についての視点変化に対してロバストな位置姿勢推定が可能となる。しかし、曲面や凹凸が支配的な３次元物体のロバストな位置姿勢推定を行うには、アフィン変換拘束を投影変換拘束に拡張する必要がある。ただし、この場合においても、推定すべき変換パラメータの次元が増えるだけで、上記手法を簡単に拡張することが可能である。

このようにして、決定された対象物体の位置姿勢は、例えば、図３７や図３９において破線で示されている。これらの図に示されるように、本実施の形態においては、単に登録画像に対応する対象物体の存在の有無が検出されるだけでなく、その対象物体が存在する場合には、その位置姿勢までも推定され、出力される。

なお、推定部１３６が推定するこの対象物体の位置姿勢は、対象入力画像の対象物体に対する相対的な位置姿勢を意味するから、対象物体の位置姿勢を基準の位置姿勢として考えた場合には、推定部１３６は、登録画像に対する対象物体の位置姿勢を推定することを意味する。

なお、以上の説明では、閾値τが定数値であるものとしたが、ステップＳ４０２乃至ステップＳ４０５の繰り返し処理を行う際に、始めは比較的大きな閾値τを用いて大雑把なインライヤ抽出を行い、繰り返し回数が増える毎に次第に小さい閾値τを用いる、いわゆる「焼きなまし法」のような手法を適用してもよい。これにより、精度よくインライヤを抽出することができる。

また、以上の説明では、候補対応特徴点組群からランダムにペア群Ｐを選択し、そのアフィン変換パラメータをパラメータ空間上に投射していく処理を繰り返し、パラメータ空間上で最多メンバ数を持つクラスタの要素をインライヤとして、最小自乗法により物体パラメータを推定したが、これに限定されるものではなく、例えば最多メンバ数を持つクラスタのセントロイドを、物体パラメータとしても構わない。さらに、組は３個以上の特徴点で構成してもよい。

以上、登録画像毎に特徴量比較部１３５により抽出された特徴点ペアは、登録画像毎に分類され、推定部１３６において登録画像毎に位置姿勢推定が行われるので、対象入力画像中に複数の登録画像が含まれているような画像でも対象物体登録画像の認識が可能となる。

なお、以上の実施の形態では、第１の指定領域トラッキング処理と第２の指定領域トラッキング処理において、３個の特徴点が選択されるようにしたが、選択される特徴点の数は、３個以上であれば、これに限定されない。

また、以上の実施の形態では、第１の指定領域トラッキング処理と第２の指定領域トラッキング処理において、オプティカルフローからアフィン行列を演算したが、射影変換行列を演算するようにしてもよい。この場合、４個以上の特徴点が選択され、その特徴点のオプティカルフローから射影変換行列が演算される。

図２の画像処理装置１１では、第１の指定領域トラッキング処理と第２の指定領域トラッキング処理を、別のスレッドとして、指定領域トラッキング部４１と指定領域トラッキング部４２に実行させるようにしたが、第１の指定領域トラッキング処理と第２の指定領域トラッキング処理の両方を、２つの指定領域トラッキング部に交互に実行させるようにしてもよい。

図４２は、このような場合の画像処理装置１１の構成例を示すブロック図である。

図４２の画像処理装置１１は、撮像部２１、記憶部２２、認識部２３、合成部２６、出力部２７、制御部２８、サーバ２９、トラッキング部３０１、および補正画像生成部３０２により構成される。なお、図２と同一のものには同一の符号を付してあり、繰り返しになるので、その説明は省略する。

トラッキング部３０１は、指定領域トラッキング部３１１と指定領域トラッキング部３１２により構成される。指定領域トラッキング部３１１と指定領域トラッキング部３１２は、それぞれ、図１７に示した指定領域トラッキング部４１と図２８に示した指定領域トラッキング部４２を合わせたものにより構成され、図１８の第１の指定領域トラッキング処理と図２９の第２の指定領域トラッキング処理の両方を行う。指定領域トラッキング部３１１と指定領域トラッキング部３１２は、認識部２３から供給される登録ＩＤと、第２の指定領域トラッキング処理の結果得られる物体パラメータを、補正画像生成部３０２に供給する。

補正画像生成部３０２は、指定領域トラッキング部３１１または３１２から供給される登録ＩＤを制御部２８に供給し、その登録ＩＤに対応する登録画像を制御部２８に要求する。補正画像生成部３０２は、その要求に応じて制御部２８から供給される登録画像と、指定領域トラッキング部３１１または３１２から供給される物体パラメータとに基づいて、対象物体と同一のサイズかつ同一の姿勢の登録画像を、補正画像として生成する。補正画像生成部３０２は、指定領域トラッキング部３１１または３１２から供給される物体パラメータと、補正画像を合成部２６に供給する。

以上のように、図４２の画像処理装置１１のトラッキング部３０１には、同一の構成の指定領域トラッキング部３１１と指定領域トラッキング部３１２が設けられるので、トラッキング部３０１の開発、修正やメンテナンスなどを容易に行うことができる。

記憶部２２における記憶処理は、図１５を参照して説明した通りである。

次に、図４３のフローチャートを参照して、図４２の画像処理装置１１における第１のリアルタイムトラッキング処理について説明する。

ステップＳ５３１において、認識部２３は、このとき図１５のステップＳ１０１で撮像部２１から入力された入力画像を対象入力画像として、図３４乃至図３６で示した一般物体認識処理を行う。

ステップＳ５３２において、認識部２３は、ユーザによりテレビコミュニケーションの終了が指示されたかを判定し、テレビコミュニケーションの終了が指示されたと判定するまで、ステップＳ５３１の処理を繰り返す。ステップＳ５３２において、テレビコミュニケーションの終了が指示されたと判定された場合、処理は終了する。

次に、図４４のフローチャートを参照して、図４２の画像処理装置１１における第２のリアルタイムトラッキング処理について説明する。この第２のリアルタイムトラッキング処理は、例えば、ステップＳ５３１の一般物体認識処理により、登録ＩＤ、フレーム番号、および物体パラメータが認識部２３から出力されたとき、指定領域トラッキング部３１１と指定領域トラッキング部３１２のそれぞれにより実行される。

ステップＳ５６１において、指定領域トラッキング部３１１と指定領域トラッキング部３１２は、それぞれ、自己の処理のタイミングであるかを判定する。例えば、指定領域トラッキング部３１１と指定領域トラッキング部３１２は、認識部２３の前回の出力を取り込んでいれば、今回は自己の処理のタイミングではないと判定する。これにより、指定領域トラッキング部３１１と指定領域トラッキング部３１２は、認識部２３から登録ＩＤ、フレーム番号、および物体パラメータが出力されるごとに、交互に自己の処理のタイミングであると判定する。

ステップＳ５６１において、自己の処理のタイミングではないと判定した指定領域トラッキング部３１１または指定領域トラッキング部３１２は、処理を終了する。一方、ステップＳ５６１において、自己の処理のタイミングである（前回、認識部２３の出力を取り込んでいない）と判定した場合、指定領域トラッキング部３１１または指定領域トラッキング部３１２は、ステップＳ５６２において、認識部２３の出力を取り込む。

ステップＳ５６３において、指定領域トラッキング部３１１または指定領域トラッキング部３１２は、図１８の第１の指定領域トラッキング処理を行う。ステップＳ５６４において、指定領域トラッキング部３１１または指定領域トラッキング部３１２は、図２９の第２の指定領域トラッキング処理を行う。ステップＳ５６５乃至Ｓ５６８の処理は、図２２のステップＳ１８２乃至Ｓ１８５の処理と同様であるので、説明は省略する。

次に、図４５を参照して、図４２の画像処理装置１１における処理のタイミングについて説明する。

なお、図４５において、図３０と同様に、横方向は時刻を表している。また、図４５において、図３０と同様に、四角は、横方向の位置に対応する時刻に処理されるフレームを表しており、四角の中または上に記載されている数字は、そのフレームのフレーム番号を表している。

図４５Ａに示す記憶処理と、図４５Ｂに示す一般物体認識処理は、それぞれ、図３０Ａに示した記憶処理と、図３０Ｂに示した一般物体認識処理と同様であるので、その説明は省略する。

図４５Ｃに示すように、指定領域トラッキング部３１１による処理は、認識部２３の一般物体認識処理による物体パラメータなどの出力の回数が奇数であるとき開始される。指定領域トラッキング部３１１による第１の指定領域トラッキング処理では、図３０Ｃに示した第１の指定領域トラッキング処理と同様に、処理の開始時に入力された物体パラメータを求めるときに対象入力画像とされた入力画像から順に、最後に記憶された入力画像を対象入力画像とするまでの間、入力画像が対象入力画像とされる。

次に、第１の指定領域トラッキング処理により物体パラメータが演算されると、第２の指定領域トラッキング処理が、図３０Ｄに示した第２の指定領域トラッキング処理と同様に、処理の開始時に撮像された入力画像を対象入力画像として行われる。そして、この第２の指定領域トラッキング処理は、指定領域トラッキング部３１２による第１の指定領域トラッキング処理が終了するまで、撮像部２１から入力画像が供給されるたびに、その入力画像を対象入力画像として行われる。

即ち、第２の指定領域トラッキング処理は、指定領域トラッキング部３１１による第１の指定領域トラッキング処理の終了時から、指定領域トラッキング部３１２による第１の指定領域トラッキング処理の終了時までに撮像された各撮像画像を対象入力画像として行われる。

指定領域トラッキング部３１１による第１の指定領域トラッキング処理の終了時から、指定領域トラッキング部３１２による第１の指定領域トラッキング処理の終了時までに撮像される入力画像のフレーム数は、指定領域トラッキング部３１１による第１の指定領域トラッキング処理の開始時から、指定領域トラッキング部３１２による第１の指定領域トラッキング処理の開始時まで、すなわち、一般物体認識処理に要する時間に撮像される入力画像のフレーム数である。図４５の例では、図３０の例と同様に、一般物体認識処理に要する時間が、５フレーム分の入力画像が記憶される時間であるので、第２の指定領域トラッキング処理において対象入力画像とされる入力画像のフレーム数は５フレームである。

図４５Ｄに示すように、指定領域トラッキング部３１２による処理は、認識部２３の一般物体認識処理による物体パラメータなどの出力の回数が偶数回目であるとき開始される。指定領域トラッキング部３１２による第１の指定領域トラッキング処理と第２の指定領域トラッキング処理は、図４５Ｃに示した指定領域トラッキング部３１１による処理とタイミングが異なるだけで同様に行われる。

以上のように、図４２の画像処理装置１１では、指定領域トラッキング部３１１による第２の指定領域トラッキング処理が、その処理の開始時から、指定領域トラッキング部３１２による第２の指定領域トラッキング処理の開始時までに撮像される入力画像においてトラッキングを行い、指定領域トラッキング部３１２による第２の指定領域トラッキング処理が、その処理の開始時から、指定領域トラッキング部３１１による第２の指定領域トラッキング処理の開始時までに撮像される入力画像においてトラッキングを行う。従って、図４２の画像処理装置１１は、撮像部２１により撮像される入力画像においてリアルタイムトラッキング行うことができる。

なお、上述した説明では、画像処理装置１１は、負荷が軽く、高速の処理が可能な第１および第２の指定領域トラッキング処理と、それより処理の負荷が大きく、高速処理が困難な一般物体認識処理を組み合わせた処理を行ったが、第１および第２の指定領域トラッキング処理と組み合わされる認識処理は、一般物体認識処理以外の認識処理であってもよい。例えば、画像処理装置１１は、第１および第２の指定領域トラッキング処理と、それより精度の低いサイバーコード認識処理や色認識処理などの認識処理を組み合わせた処理を行うようにしてもよい。この場合、サイバーコード認識処理や色認識処理において大まかに認識された対象物体の位置と姿勢に基づいて、第１および第２の指定領域トラッキング処理を行うことにより、より詳細に対象物体の位置と姿勢を認識することができる。

また、上述した説明では、本発明を、テレビコミュニケーションを行う画像処理装置に適用した場合について説明したが、本発明は、その他のトラッキングを行う画像処理装置にも適用することができる。

図４６と図４７は、本発明を適用した眼鏡型ウェアラブルコンピュータの概要を示している。

図４６に示すように、ユーザが、眼鏡型ウェアラブルコンピュータ４０１を装着し、手に所持した、サイバーコード４０２Ａが記載された紙面４０２を見ると、眼鏡型ウェアラブルコンピュータ４０１は、図示せぬ撮像部により紙面４０２などを撮像し、その結果得られる入力画像４１１を用いてサイバーコード認識処理並びに第１および第２の指定領域トラッキング処理を行う。これにより、入力画像４１１中のサイバーコード４０２Ａの物体パラメータが演算される。その後、眼鏡型ウェアラブルコンピュータ４０１は、その物体パラメータと、予め記憶されているサイバーコード４０２Ａに関連する関連画像４２１に基づいて、入力画像４１１中のサイバーコード４０２Ａの領域に、関連画像４２１をはめ込んだ合成画像４１２を、図示せぬ出力部に表示させる。

これにより、ユーザは、紙面４０２を移動させることで、合成画像４１２中の関連画像４２１の位置を移動させたり、関連画像４２１のサイズを拡大または縮小することができる。

また、図４７に示すように、ユーザが、眼鏡型ウェアラブルコンピュータ４０１を装着し、街頭などに貼られたポスター５０１を見ると、眼鏡型ウェアラブルコンピュータ４０１は、図示せぬ撮像部によりポスター５０１を撮像し、その結果得られる入力画像５１１を用いて一般物体認識処理並びに第１および第２の指定領域トラッキング処理を行う。これにより、入力画像５１１中のポスター５０１の物体パラメータが演算される。その後、眼鏡型ウェアラブルコンピュータ４０１は、その物体パラメータと、予め記憶されているポスター５０１に関連する関連画像としての宣伝用の動画像５２１に基づいて、入力画像５１１中のポスター５０１の領域に、動画像５２１をはめ込んだ合成画像５１２を、図示せぬ出力部に表示させる。

これにより、広告主は、街頭などにポスター５０１を貼るだけで、ポスター５０１に比べてより多くの情報を含めることが可能な動画像５２１をユーザに提供することができる。

なお、図４６の例では、入力画像４１１中のサイバーコード４０２Ａの領域に、関連画像４２１がはめ込まれたが、関連画像４２１のサイズや姿勢は、サイバーコード４０２Ａと同一でなくてもよい。例えば、図２４の場合と同様に、入力画像４１１中のサイバーコード４０２Ａと同一のサイズで、眼鏡型ウェアラブルコンピュータ４０１の撮像部の光軸に対して正面向きの姿勢の関連画像４２１が表示されてもよい。このことは、図４７の例においても同様である。

上述した一連の処理は、ハードウエアにより実行させることもできるし、ソフトウエアにより実行させることもできる。

なお、本明細書において、プログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。

また、本明細書において、システムとは、複数の装置により構成される装置全体を表すものである。

さらに、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。

本発明を適用した画像処理システムの一実施の形態の概要を示す図である。画像処理装置の一実施の形態の構成を示すブロック図である。図２の認識部の一実施の形態の構成を示すブロック図である。図３の学習部の学習処理を説明するフローチャートである。図３の学習部の学習処理を説明するフローチャートである。解像度画像を説明する図である。 DoGフィルタのスケールスペースを説明する図である。特徴点近傍の濃度勾配方向を説明する図である。ヒストグラムの度数の演算方法を説明する図である。方向ヒストグラムの例を示す図である。方向ヒストグラムの例を示す図である。方向ヒストグラムの例を示す図である。特徴量抽出の処理を説明する図である。リサンプリングの例を示す図である。記憶処理を説明するフローチャートである。第１のリアルタイムトラッキング処理を説明するフローチャートである。図２の指定領域トラッキング部の一実施の形態の構成を示すブロック図である。図１６の第１の指定領域トラッキング処理を説明するフローチャートである。オプティカルフローの演算について説明する図である。代表アフィン行列について説明する図である。代表アフィン行列について説明する図である。第２のリアルタイムトラッキング処理を説明するフローチャートである。合成画像の例を示す図である。合成画像の例を示す図である。合成画像の例を示す図である。補正画像と画面の面積について説明する図である。合成画像の例を示す図である。図２の指定領域トラッキング部の一実施の形態の構成を示すブロック図である。図２２の第２の指定領域トラッキング処理を説明するフローチャートである。図２の画像処理装置における処理のタイミングについて説明する図である。図２の画像処理装置における効果について説明する図である。図２の画像処理装置における効果について説明する図である。図２の画像処理装置における効果について説明する図である。図２の認識部の一般物体認識処理を説明するフローチャートである。図２の認識部の一般物体認識処理を説明するフローチャートである。図２の認識部の一般物体認識処理を説明するフローチャートである。学習時と認識時の多重解像度を説明する図である。特徴量の比較処理を説明する図である。インライヤとアウトライヤを説明する図である。推定処理の詳細を説明するフローチャートである。推定処理を説明する図である。本発明を適用した画像処理装置の他の実施の形態の構成を示すブロック図である。図４２の画像処理装置の第１のリアルタイムトラッキング処理を説明するフローチャートである。図４２の画像処理装置の第２のリアルタイムトラッキング処理を説明する。図４２の画像処理装置における処理のタイミングについて説明する図である。本発明を適用した眼鏡型ウェアラブルコンピュータの一実施の形態の概要を示す図である。本発明を適用した眼鏡型ウェアラブルコンピュータの他の実施の形態の概要を示す図である。

符号の説明

１１画像処理装置，２１撮像部，２３認識部，２５補正画像生成部，２６合成部，４１指定領域トラッキング部，４２指定領域トラッキング部，３１１指定領域トラッキング部，３１２指定領域トラッキング部，４０１眼鏡型ウェアラブルコンピュータ

Claims

撮像画像から予め登録されている登録画像に対応する物体を認識する画像処理装置において、
被写体を撮像し、前記被写体の前記撮像画像を取得する撮像手段と、
前記撮像画像から、前記登録画像に対応する物体を認識する認識手段と、
前記認識手段による認識に用いられる撮像画像である認識対象画像を順に第１の認識対象画像として、前記第１の認識対象画像が取得されてから、その第１の認識対象画像の次の認識対象画像である第２の認識対象画像の認識が終了するまでに取得される複数枚の撮像画像において、前記第１の認識対象画像に対する認識の結果に基づいて指定される第１の指定領域をトラッキングする第１の指定領域トラッキング処理を行う第１の指定領域トラッキング手段と、
前記第１の指定領域トラッキング手段による第１の指定領域トラッキング処理に用いられる複数枚の撮像画像である第１のトラッキング対象画像内の最後の撮像画像が取得されてから、次の第１の指定領域トラッキング処理に用いられる複数枚の撮像画像である第２のトラッキング対象画像内の最後の撮像画像が取得されるまでに取得される複数の撮像画像である第２のトラッキング対象画像において、前記第１のトラッキング対象画像に対する前記第１の指定領域トラッキング処理の結果に基づいて指定される第２の指定領域をトラッキングする第２の指定領域トラッキング処理を行う第２の指定領域トラッキング手段と
を備え、
前記第１のトラッキング対象画像は、前記第１の認識対象画像が取得されてから、前記第２の指定領域トラキング手段がリアルタイムでトラッキング可能になるまでに取得される複数枚の撮像画像である
画像処理装置。
前記第２の指定領域トラッキング処理の結果と、前記登録画像とに基づいて、前記物体と同一のサイズで、かつ同一の姿勢の登録画像を、前記撮像画像を補正する補正画像として生成する生成手段と、
前記第２の指定領域トラッキング処理の結果に基づいて、前記撮像画像中の前記第２の指定領域に前記補正画像を合成する合成手段と
をさらに備える
請求項１に記載の画像処理装置。
前記合成手段は、前記撮像画像を表示する画面の面積の、前記補正画像の面積に対する比が基準値以上である場合、前記撮像画像中の前記第２の指定領域に前記補正画像を合成し、前記基準値以上ではない場合、前記補正画像を前記画面全体の画像として、前記撮像画像に合成する
請求項２に記載の画像処理装置。
前記第２の指定領域トラッキング処理の結果と、前記登録画像とに基づいて、前記物体と同一のサイズで、かつ所定の姿勢の登録画像を、前記撮像画像を補正する補正画像として生成する生成手段と、
前記第２の指定領域トラッキング処理の結果に基づいて、前記撮像画像中の前記第２の指定領域の位置に前記補正画像を合成する合成手段と
をさらに備える
請求項１に記載の画像処理装置。
前記第２の指定領域トラッキング処理の結果と、前記登録画像に関連する関連画像とに基づいて、前記物体と同一のサイズで、かつ同一の姿勢の関連画像を、前記撮像画像を補正する補正画像として生成する生成手段と、
前記第２の指定領域トラッキング処理の結果に基づいて、前記撮像画像中の前記第２の指定領域に前記補正画像を合成する合成する合成手段と
をさらに備える
請求項１に記載の画像処理装置。
前記第１の指定領域トラッキング手段は、
前記第１の認識対象画像に対する認識の結果に基づいて、前記第１の指定領域を指定する第１の指定手段と、
前記第１のトラッキング対象画像の前記撮像画像である第１トラッキング処理画像を順に第１の処理画像として、前記第１の処理画像の前記第１の指定領域内の第１の特徴点を抽出する第１の抽出手段と、
前記第１の処理画像内の前記第１の特徴点と、その第１の処理画像の前の第１トラッキング処理画像である第２の処理画像内の前記第１の特徴点を用いて、前記第１の処理画像の前記第１の特徴点の動きを表す第１の動き情報を演算する第１の演算手段と、
前記第１の処理画像の前記第１の動き情報と、前記第２の処理画像の前記第１の動き情報を用いて、前記第１の処理画像の前記第１の指定領域の位置と姿勢を表す第１のパラメータを演算する第１のパラメータ演算手段と、
前記第１のパラメータと、前記第２の処理画像の前記第１の指定領域内の前記第１の特徴点の位置を表す値とを乗算した乗算値と、前記第１の処理画像の前記第１の指定領域内の前記第１の特徴点の位置を表す値との誤差である第１の誤差を演算する第１の誤差演算手段と、
前記第１の誤差に基づいて、前記第１のパラメータの第１のスコアを演算する第１のスコア演算手段と
を備え、
前記第１の指定手段は、前記第１のスコアの最も大きい第１のパラメータに基づいて、前記第１の指定領域を遷移させ、
前記第２の指定領域トラッキング手段は、
前記第１のトラッキング対象画像内の最後の前記１の処理画像の前記第１のパラメータであって、前記第１のスコアの最も大きい前記第１のパラメータに基づいて、前記第２の指定領域を指定する第２の指定手段と、
前記第２のトラッキング対象画像の撮像画像である第２トラッキング処理画像を順に第３の処理画像として、前記第３の処理画像の前記第２の指定領域内の第２の特徴点を抽出する第２の抽出手段と、
前記第３の処理画像内の前記第２の特徴点と、その第３の処理画像の前の第２トラッキング処理画像である第４の処理画像内の前記第２の特徴点を用いて、前記第３の処理画像の前記第２の特徴点の動きを表す第２の動き情報を演算する第２の演算手段と、
前記第３の処理画像の前記第２の動き情報と、前記第４の処理画像の前記第１の動き情報を用いて、前記第３の処理画像の前記第２の指定領域の位置と姿勢を表す第２のパラメータを演算する第２のパラメータ演算手段と、
前記第２のパラメータと、前記第４の処理画像の前記第２の指定領域内の前記第２の特徴点の位置を表す値とを乗算した乗算値と、前記第３の処理画像の前記第２の指定領域内の前記第２の特徴点の位置を表す値との誤差である第２の誤差を演算する第２の誤差演算手段と、
前記第２の誤差に基づいて、前記第２のパラメータの第２のスコアを演算する第２のスコア演算手段と
を備え、
前記第２の指定手段は、前記第２のスコアの最も大きい第２のパラメータに基づいて、前記第２の指定領域を遷移させる
請求項１に記載の画像処理装置。
前記第１と第２の動き情報は、オプティカルフローである
請求項６に記載の画像処理装置。
前記第１と第２のパラメータは、アフィン変換または射影変換のパラメータである
請求項６に記載の画像処理装置。
前記第１の抽出手段は、３個以上または４個以上の前記第１の特徴点を抽出し、
前記第１のパラメータ演算手段は、前記第１の処理画像の３個以上または４個以上の前記第１の特徴点の前記第１の動き情報と、前記第２の処理画像の３個以上または４個以上の前記第１の特徴点の前記第１の動き情報を用いて、前記第１のパラメータを演算し、
前記第２の抽出手段は、３個以上または４個以上の前記第２の特徴点を抽出し、
前記第２のパラメータ演算手段は、前記第３の処理画像の３個以上または４個以上の前記第２の特徴点の前記第２の動き情報と、前記第４の処理画像の３個以上または４個以上の前記第３の特徴点の前記第３の動き情報を用いて、前記第２のパラメータを演算する
請求項６に記載の画像処理装置。
撮像画像から予め登録されている登録画像に対応する物体を認識する画像処理装置の画像処理方法において、
被写体を撮像して、前記被写体の前記撮像画像を取得し、
前記撮像画像から、前記登録画像に対応する物体を認識し、
その認識に用いられる撮像画像である認識対象画像を順に第１の認識対象画像として、前記第１の認識対象画像が取得されてから、その第１の認識対象画像の次の認識対象画像である第２の認識対象画像の認識が終了するまでに取得される複数枚の撮像画像において、前記第１の認識対象画像に対する認識の結果に基づいて指定される第１の指定領域をトラッキングする第１の指定領域トラッキング処理を行い、
その第１の指定領域トラッキング処理に用いられる複数枚の撮像画像である第１のトラッキング対象画像内の最後の撮像画像が取得されてから、次の第１の指定領域トラッキング処理に用いられる複数枚の撮像画像である第２のトラッキング対象画像内の最後の撮像画像が取得されるまでに取得される複数の撮像画像である第２のトラッキング対象画像において、前記第１のトラッキング対象画像に対する前記第１の指定領域トラッキング処理の結果に基づいて指定される第２の指定領域をトラッキングする第２の指定領域トラッキング処理を行う
ステップを含み、
前記第１のトラッキング対象画像は、前記第１の認識対象画像が取得されてから、前記第２の指定領域をリアルタイムでトラッキング可能になるまでに取得される複数枚の撮像画像である
画像処理方法。
撮像画像から予め登録されている登録画像に対応する物体を認識する認識処理を、コンピュータに行わせるプログラムにおいて、
被写体を撮像して取得された前記撮像画像から、前記登録画像に対応する物体を認識し、
その認識に用いられる撮像画像である認識対象画像を順に第１の認識対象画像として、前記第１の認識対象画像が取得されてから、その第１の認識対象画像の次の認識対象画像である第２の認識対象画像の認識が終了するまでに取得される複数枚の撮像画像において、前記第１の認識対象画像に対する認識の結果に基づいて指定される第１の指定領域をトラッキングする第１の指定領域トラッキング処理を行い、
その第１の指定領域トラッキング処理に用いられる複数枚の撮像画像である第１のトラッキング対象画像内の最後の撮像画像が取得されてから、次の第１の指定領域トラッキング処理に用いられる複数枚の撮像画像である第２のトラッキング対象画像内の最後の撮像画像が取得されるまでに取得される複数の撮像画像である第２のトラッキング対象画像において、前記第１のトラッキング対象画像に対する前記第１の指定領域トラッキング処理の結果に基づいて指定される第２の指定領域をトラッキングする第２の指定領域トラッキング処理を行う
ステップを含み、
前記第１のトラッキング対象画像は、前記第１の認識対象画像が取得されてから、前記第２の指定領域をリアルタイムでトラッキング可能になるまでに取得される複数枚の撮像画像である
プログラム。
撮像画像から予め登録されている登録画像に対応する物体を認識する画像処理装置において、
被写体を撮像し、前記被写体の前記撮像画像を取得する撮像手段と、
前記撮像画像から、前記登録画像に対応する物体を認識する認識手段と、
前記認識手段による認識に用いられる撮像画像である認識対象画像を１つおきに順に第１の認識対象画像として、前記第１の認識対象画像が取得されてから、その第１の認識対象画像の次の認識対象画像である第２の認識対象画像の認識が終了するまでに取得される複数枚の撮像画像において、前記第１の認識対象画像に対する認識の結果に基づいて指定される指定領域をトラッキングする２つの指定領域トラッキング手段と
を備え、
２つの指定領域トラッキング手段は、前記認識対象画像を交互に前記第１の認識対象画像とし、
２つの前記指定領域トラッキング手段のうちの一方の前記複数枚の撮像画像は、前記第１の認識対象画像が取得されてから、他方の前記指定領域トラッキング手段がリアルタイムでトラッキング可能になるまでに取得される複数枚の撮像画像である
画像処理装置。
撮像画像から予め登録されている登録画像に対応する物体を認識する画像処理装置の画像処理方法において、
被写体を撮像して、前記被写体の前記撮像画像を取得し、
前記撮像画像から、前記登録画像に対応する物体を認識し、
その認識に用いられる撮像画像である認識対象画像を１つおきに順に第１の認識対象画像として、前記第１の認識対象画像が取得されてから、その第１の認識対象画像の次の認識対象画像である第２の認識対象画像の認識が終了するまでに取得される複数枚の撮像画像において、前記第１の認識対象画像に対する認識の結果に基づいて指定される指定領域をトラッキングする２つの処理を、前記認識対象画像を交互に前記処理の前記第１の認識対象画像として実行する
ステップを含み、
前記２つの処理のうちの一方の前記複数枚の撮像画像は、前記第１の認識対象画像が取得されてから、他方の前記処理においてリアルタイムでトラッキング可能になるまでに取得される複数枚の撮像画像である
画像処理方法。
撮像画像から予め登録されている登録画像に対応する物体を認識する認識処理を、コンピュータに行わせるプログラムにおいて、
被写体を撮像して取得された前記撮像画像から、前記登録画像に対応する物体を認識し、
その認識に用いられる撮像画像である認識対象画像を１つおきに順に第１の認識対象画像として、前記第１の認識対象画像が取得されてから、その第１の認識対象画像の次の認識対象画像である第２の認識対象画像の認識が終了するまでに取得される複数枚の撮像画像において、前記第１の認識対象画像に対する認識の結果に基づいて指定される指定領域をトラッキングする２つの処理を、前記認識対象画像を交互に前記処理の前記第１の認識対象画像として実行する
ステップを含み、
前記２つの処理のうちの一方の前記複数枚の撮像画像は、前記第１の認識対象画像が取得されてから、他方の前記処理においてリアルタイムでトラッキング可能になるまでに取得される複数枚の撮像画像である
プログラム。