しかしながら、前述した特許文献1〜3に記載された領域検出装置では、統計的な手法により領域内の特徴量に関するモデルを作成し、これを用いて領域検出を行うので、対象の姿勢に依存しない領域検出を実現することはできるものの、基本的に単一のモデルを用いるため、精度および安定性の点で不十分であり、さらに精度および安定性を向上させることが望まれる。
また、上記のように領域検出の精度および安定性を向上させることと併せて、入力画像内の対象領域の位置推定を高精度化する推定アルゴリズムを確立すれば、画像認識アプリケーションの機能を向上させることができる。
本発明の目的は、高精度で安定した領域検出を行うことができる領域検出方法およびそのシステムを提供するところにある。
本発明は、画像の中に含まれる切出対象の領域を検出する領域検出方法であって、画像の中から切出対象を適切に切り出した真の領域の画像およびこの真の領域に対して位置および/またはサイズをずらした領域を切り出した複数種類のずれ画像について、それぞれ多数の教示データを収集し、これらの多数の教示データに基づき真の領域の画像および複数種類のずれ画像の各領域内の特徴に関する領域検出用モデルをそれぞれ予め作成しておき、切出対象を含む領域検出処理対象の画像の中から切出対象の領域候補の画像を切り出した後、この切り出した領域候補の画像と各領域検出用モデルとの一致率をそれぞれ算出し、算出した一致率が最も高い領域検出用モデルに対応する位置および/またはサイズのずれ量を、領域候補と真の領域とのずれ量と推定することを特徴とするものである。
ここで、「切出対象を含む領域検出処理対象の画像」には、動画像も静止画像も含まれる。
また、「位置および/またはサイズをずらした領域」には、サイズは変えずに位置だけずらした領域、位置(中心位置)は変えずにサイズを拡大または縮小してずらした領域、並びに位置およびサイズの双方を同時にずらした領域が含まれる。
このような本発明の領域検出方法においては、真の領域の画像および複数種類のずれ画像について、これらの各領域内の特徴に関する領域検出用モデルを予め作成しておき、これらの各領域検出用モデルを用いて、切出対象を含む領域検出処理対象の画像の中から切り出した切出対象の領域候補についての真の領域からの位置および/またはサイズのずれ量を推定する。
このため、従来のような単一モデルによる領域検出の場合に比べ、領域検出の精度および安定性を向上させることが可能となる。また、多量の教示データから作成されたモデルを用いた領域検出を行うため、対象の姿勢に依存しない領域検出を実現することができるという従来方法の利点もそのまま保持される。
さらに、本発明では、各ずれに対し、それぞれ領域検出用モデルを作成し、これらの複数の領域検出用モデルと処理対象画像との一致度を評価しているが、処理対象画像から複数のずれ画像を作成し、それらの画像を単一のモデルで評価する方法を採っても、本発明の場合と同様な結果を得ることができると考えられる。しかし、処理対象画像から複数のずれ画像をその都度作成すると、認識時の演算処理量が多くなるので、高速化ハードウェア等を使用しない限り、処理に時間がかかるという問題が生じる。これに対し、本発明では、複数の領域検出用モデルは事前に作成しておくので、認識時の演算処理量は少なくなり、処理時間が短くなって高速化が図られることから、処理時間の面で有利であり、これらにより前記目的が達成される。
また、前述した領域検出方法において、領域候補と真の領域とのずれ量を推定した後、推定したずれ量に基づき切出対象の領域を推定してこの推定した領域の画像を新たな領域候補の画像として切り出し、この切り出した新たな領域候補の画像と各領域検出用モデルとの一致率をそれぞれ算出し、算出した一致率が最も高い領域検出用モデルに対応する位置および/またはサイズのずれ量を、新たな領域候補と真の領域とのずれ量と推定し、これらの領域候補の画像の切出しおよび一致率の算出を繰り返すことにより、領域候補を真の領域に近づけることが望ましい。
このように領域候補の画像の切出しおよび一致率の算出を繰り返す構成とした場合には、徐々に領域候補を真の領域に近づけ、領域候補と真の領域とのずれを収束させていくことが可能となり、領域検出の精度および安定性を、より一層向上させることが可能となる。なお、繰り返しを終了させるには、例えば、真の領域の画像に対応する領域検出用モデルとの一致率が最も高くなったこと、あるいは、ずれ量の修正(領域候補の更新)の回数が規定回数以上になったこと等を契機とすることができる。
さらに、前述した領域検出方法において、複数種類のずれ画像の各ずれ量を設定する際には、これらの各ずれ量のうちの少なくとも一つを、前記切出対象を含む原画像を構成する画素単位を細分化したサブピクセル単位で設定することが望ましい。
このように複数種類のずれ画像の各ずれ量のうちの少なくとも一つをサブピクセル単位で設定した場合には、原画像の解像度に依存しない高い精度の領域切出を行うことが可能となる。すなわち、従来の多くの手法では、境界の検出精度は、原画像の解像度に依存しており、従って、高い領域切出精度を得るためには、特徴量を高解像度化する必要があったのに対し、本発明では、学習時にずれ量をサブピクセル単位で設定して各領域検出用モデルを作成するので、サブピクセルの領域切出精度が得られ、領域切出精度は原画像の解像度に依存しない。
そして、前述した領域検出方法において、各領域検出用モデルは、真の領域の画像および複数種類のずれ画像をそれぞれ正規化した後に作成し、領域候補の画像と各領域検出用モデルとの一致率は、領域候補の画像を正規化した後に算出し、複数種類のずれ画像の各ずれ量を設定する際には、これらの各ずれ量のうちの少なくとも一つを、正規化後の画像の画素単位を細分化した正規化サブピクセル単位で設定し、この正規化サブピクセル単位で設定されたずれ量を、原画像の画素単位に換算するようにしてもよい。
このように複数種類のずれ画像の各ずれ量のうちの少なくとも一つを正規化サブピクセル単位で設定した場合には、ずれ量を正規化することができるので、各領域検出用モデルの作成に用いられる多数の教示データが、様々なサイズであってもその影響を受けずに各ずれの度合いに対応する領域検出用モデルを構築でき、あるいは領域検出処理対象の画像の中に含まれる切出対象の領域のサイズが、教示データのサイズと異なっていてもその影響を受けずに適切な推定ずれ量を算出することが可能となる。
また、前述した領域検出方法において、複数種類のずれ画像の各ずれ量を不均一な間隔で設定し、ずれ量の絶対値が大きい程、ずれ量同士の間隔を大きく設定することが望ましい。
このように複数種類のずれ画像の各ずれ量を不均一な間隔で設定した場合には、領域候補を真の領域に近づけていく際に、毎回のずれの修正量を徐々に小さくしていくことが可能となり、領域切出位置の合理的な修正処理が実現される。
さらに、前述した領域検出方法において、各領域検出用モデルは、真の領域の画像および複数種類のずれ画像のそれぞれについて多数の教示データを用いて主成分分析を行うことにより低次元の特徴量への圧縮を行い、この主成分分析で得られた基底ベクトルで張られる部分空間を形成することにより作成することが望ましい。
このように主成分分析で得られた基底ベクトルで張られる部分空間を形成することにより各領域検出用モデルを作成した場合(以下、部分空間法という。)には、切出対象となる物体の姿勢変化に左右されない領域検出を行うことが可能となる。すなわち、部分空間法は、クラス識別(ここでは、複数種類のずれ画像、あるいはこれらのずれ画像の各ずれ量が識別される各クラスとなる。)を行う識別器の一つであり、特に、画像識別等の応用分野において高い性能が得られることが知られている。また、それぞれの部分空間は、複数のテンプレートを持ったテンプレートマッチングと考えることができ、切出対象となる物体の姿勢変化を効率的にモデル化することが可能である。
そして、前述した領域検出方法において、切出対象を含む領域検出処理対象の画像が、動画像を構成する各フレーム画像である場合には、現在処理対象となっているフレーム画像の中から切出対象の最初の領域候補の画像を切り出す際には、前フレームでの領域検出処理で切出対象についての領域候補と真の領域とのずれ量を推定することにより、最終的に真の領域またはそれに近い領域であると判断されて前フレーム画像の中から切り出された切出対象の確定切出画像の領域位置と同じ位置の領域を切り出すことが望ましい。
ここで、「真の領域またはそれに近い領域」には、真の領域内の特徴に関する領域検出用モデルとの一致率が最も高くなったときの領域候補の領域位置の他、例えば、ずれ量の修正回数が規定回数以上になったときの領域候補の領域位置等も含まれる。
このように前フレームの確定切出画像の領域位置と同じ位置の領域を、現在処理対象となっているフレーム画像の中で最初に領域候補として切り出すようにした場合には、動画像を構成する各フレーム画像の連続処理を円滑に行うことができ、各フレームで効率的な領域検出を行うことが可能となる。
また、前述した領域検出方法において、切出対象についての領域候補と真の領域とのずれ量を推定することにより、最終的に真の領域またはそれに近い領域であると判断されて切り出された切出対象の確定切出画像の中から、この切り出された切出対象を構成する構成要素を切り出す際には、切出対象の領域の画像について多数の教示データを収集し、これらの多数の教示データに基づき切出対象の領域内の特徴に関する構成要素位置推定用モデルを予め作成しておくとともに、切出対象の領域の画像およびこの画像の中に含まれる構成要素の位置について対になる多数の教示データを収集し、このうち切出対象の領域の画像の多数の教示データについて構成要素位置推定用モデルを用いて切出対象の領域内の特徴に関するパラメータをそれぞれ算出し、これらの算出したパラメータとこれらのパラメータに対応する構成要素の位置に関するパラメータとを関連付ける非線形関数を予め学習して作成しておき、確定切出画像について構成要素位置推定用モデルを用いてこの確定切出画像の領域内の特徴に関するパラメータを算出した後、算出したパラメータに基づき非線形関数を用いて確定切出画像の中の構成要素の位置に関するパラメータを算出することにより、構成要素の位置を推定することが望ましい。
ここで、「構成要素」とは、例えば、切出対象の領域が頭部領域である場合には、頭部領域画像に含まれる目や鼻や口等の顔部品等である。
また、「位置」の推定と合わせ、サイズの推定を行うようにしてもよい。
さらに、「構成要素位置推定用モデル」を作成するための「多数の教示データ」として収集される「切出対象の領域の画像」の各々は、真の領域の画像でもよく、あるいは、事前処理として、前述した各領域検出用モデルを用いた一致率の算出を行い、切出対象についての領域候補と真の領域とのずれ量を推定することにより、最終的に真の領域またはそれに近い領域であると判断されて切り出された切出対象の確定切出画像(あくまでも事前に領域検出処理を行って得られた確定切出画像であり、現在処理(認識時の処理)として行われる領域検出処理の場合と同様な処理過程を経て事前に得られた確定切出画像という意味である。)でもよい。なお、前者のように真の領域の画像とするのではなく、後者のように各領域検出用モデルを用いて事前処理としての領域検出処理を行って切り出された確定切出画像とする場合には、より認識時(リアルタイム処理時)の環境に近い画像データを事前学習に使うことができる。
そして、「構成要素位置推定用モデル」を作成するために収集される「切出対象の領域の画像」についての「多数の教示データ」と、「非線形関数」を作成するために収集される「切出対象の領域の画像およびこの画像の中に含まれる構成要素の位置」についての「対になる多数の教示データ」のうちの「切出対象の領域の画像の多数の教示データ」とは、同じデータでもよく、異なるデータでもよい。
また、「構成要素」がさらに複数の要素から構成されている場合には、「構成要素」と、その「構成要素」を構成する構成要素との関係を、本発明における「切出対象」とその「構成要素」との関係に置き換えて考えることにより、「構成要素」を構成する構成要素の位置の推定にも本発明を適用することができ、従って、2段階のみならず、3段階以上の切出処理にも本発明を適用することができる。
このように構成要素位置推定用モデルおよび非線形関数を用いて構成要素の位置を推定するようにした場合には、多段階の切出処理を円滑に行うことが可能となる。また、多数の教示データを収集し、統計的な手法により切出対象の領域内の特徴量に関する構成要素位置推定用モデルを構築するので、環境に左右されず、かつ、パラメータ数の少ない(統計的に妥当性のある自由度の少ない)モデルを作成することが可能となる。
さらに、非線形関数の学習を行う前段として、統計的な手法によるパラメータ抽出を置くので、すなわち切出対象の領域の画像の多数の教示データについて構成要素位置推定用モデルを用いて切出対象の領域内の特徴に関するパラメータをそれぞれ算出するので、このようなパラメータ抽出を行わない場合に比べ、パラメータ数が少なくなる。このため、非線形関数の学習が容易になる。
また、非線形関数をパターン認識の一手法として用いるのではなく、パラメータ同士のマッピングとして学習させるので、非出現データに対して高い汎化能力がある。このため、教示データ量が少ない場合でも高い推定性能が期待できる。
そして、非線形関数の学習は、切出対象の領域の画像およびこの画像の中に含まれる構成要素の位置について対になる多数の教示データを収集し、このうち切出対象の領域の画像の多数の教示データについて構成要素位置推定用モデルを用いて切出対象の領域内の特徴に関するパラメータをそれぞれ算出し、これらの算出したパラメータとこれらのパラメータに対応する構成要素の位置に関するパラメータとを関連付けることにより行われるので、実データに即した非線形関数の学習を行うことが可能となる。
また、現在処理対象となっている画像に含まれる切出対象の確定切出画像について構成要素位置推定用モデルを用いてこの確定切出画像の領域内の特徴に関するパラメータを算出した後、算出したパラメータに基づき非線形関数を用いて確定切出画像の中の構成要素の位置に関するパラメータを算出するので、現在の処理対象画像に即した構成要素の領域位置の推定を行うことが可能となる。
そして、上述した構成要素位置推定用モデルおよび非線形関数を用いて構成要素の位置を推定するようにした場合において、構成要素についても、構成要素を適切に切り出した真の領域の画像およびこの真の領域に対して位置および/またはサイズをずらした領域を切り出した複数種類のずれ画像について、それぞれ多数の教示データを収集し、これらの多数の教示データに基づき真の領域の画像および複数種類のずれ画像の各領域内の特徴に関する領域検出用モデルをそれぞれ予め作成しておき、非線形関数を用いて確定切出画像の中の構成要素の位置を推定した後には、この推定した位置に基づき確定切出画像の中から構成要素の最初の領域候補の画像を切り出した後、この切り出した最初の領域候補の画像と構成要素用の各領域検出用モデルとの一致率をそれぞれ算出し、算出した一致率が最も高い領域検出用モデルに対応する位置および/またはサイズのずれ量を、構成要素についての最初の領域候補と真の領域とのずれ量と推定することが望ましい。
ここで、「確定切出画像の中から構成要素の最初の領域候補の画像を切り出」すことには、確定切出画像を含む全体画像の中から構成要素の最初の領域候補の画像を切り出すことが含まれる。
このように構成要素位置推定用モデルおよび非線形関数を用いて推定された構成要素の位置に基づき構成要素の最初の領域候補の画像を切り出すようにした場合には、最初の領域候補を適切に切り出すこと、すなわち構成要素の真の領域に近いと予想される領域を切り出すことが可能となるので、構成要素の領域候補を迅速に真の領域に近づけることができるようになり、多段階の切出処理の円滑化が図られる。
また、前述した構成要素位置推定用モデルおよび非線形関数を用いて構成要素の位置を推定するようにした場合において、切出対象を含む領域検出処理対象の画像が、動画像を構成する各フレーム画像である場合には、構成要素についても、構成要素を適切に切り出した真の領域の画像およびこの真の領域に対して位置および/またはサイズをずらした領域を切り出した複数種類のずれ画像について、それぞれ多数の教示データを収集し、これらの多数の教示データに基づき真の領域の画像および複数種類のずれ画像の各領域内の特徴に関する領域検出用モデルをそれぞれ予め作成しておき、現在処理対象となっているフレーム画像について、非線形関数を用いて確定切出画像の中の構成要素の位置を推定した後に、この推定した位置に基づき確定切出画像の中から構成要素の第一の最初の領域候補の画像を切り出した後、この切り出した第一の最初の領域候補の画像と構成要素用の各領域検出用モデルとの一致率をそれぞれ算出し、算出した一致率が最も高い領域検出用モデルに対応する位置および/またはサイズのずれ量を、構成要素についての第一の最初の領域候補と真の領域とのずれ量と推定する第一のずれ量推定処理を行うとともに、前フレームでの構成要素についての領域検出処理で最終的に真の領域またはそれに近い領域であると判断されて前フレーム画像の中から切り出された構成要素の確定切出画像の領域位置と同じ位置の領域を、現在処理対象となっているフレーム画像についての構成要素の第二の最初の領域候補の画像として切り出した後、この切り出した第二の最初の領域候補の画像と構成要素用の各領域検出用モデルとの一致率をそれぞれ算出し、算出した一致率が最も高い領域検出用モデルに対応する位置および/またはサイズのずれ量を、構成要素についての第二の最初の領域候補と真の領域とのずれ量と推定する第二のずれ量推定処理を行い、その後、これらの第一および第二のずれ量推定処理のそれぞれで最も高い一致率と判断された一致率同士を比較し、このうち一致率が高い方のずれ量推定処理に対応する第一または第二のいずれか一方の最初の領域候補およびその推定ずれ量に基づき、現在処理対象となっているフレーム画像についての構成要素の次の領域候補の画像を切り出すようにしてもよい。
このように構成要素位置推定用モデルおよび非線形関数を用いて推定された構成要素の位置に基づき構成要素の第一の最初の領域候補の画像を切り出すとともに、前フレームで切り出された構成要素の確定切出画像の領域位置に基づき構成要素の第二の最初の領域候補の画像を切り出し、これらの第一および第二の最初の領域候補の画像と各領域検出用モデルとの一致率を総合的に比較して次の領域候補の切出位置を決定するようにした場合には、次の領域候補を適切に切り出すこと、すなわち構成要素の真の領域に、より近いと予想される領域を次の領域候補として切り出すことが可能となるので、構成要素の領域候補を迅速に真の領域に近づけることができるようになり、多段階の切出処理の円滑化が図られる。
また、以上に述べた本発明の領域検出方法を実現するシステムとして、以下のような本発明の領域検出システムが挙げられる。
すなわち、本発明は、画像の中に含まれる切出対象の領域を検出する領域検出システムであって、画像の中から切出対象を適切に切り出した真の領域の画像およびこの真の領域に対して位置および/またはサイズをずらした領域を切り出した複数種類のずれ画像について、それぞれ多数収集された教示データに基づき予め作成された真の領域の画像および複数種類のずれ画像の各領域内の特徴に関する領域検出用モデルを記憶する領域検出用モデル記憶手段と、切出対象を含む領域検出処理対象の画像の中から切出対象の領域候補の画像を切り出す処理を行う領域候補画像切出処理手段と、この領域候補画像切出処理手段により切り出した領域候補の画像と各領域検出用モデルとの一致率をそれぞれ算出する一致率算出処理手段と、この一致率算出処理手段により算出した一致率が最も高い領域検出用モデルに対応する位置および/またはサイズのずれ量を、領域候補と真の領域とのずれ量と推定する処理を行うずれ量推定処理手段とを備えたことを特徴とするものである。
このような本発明の領域検出システムにおいては、前述した本発明の領域検出方法で得られる作用・効果がそのまま得られ、これにより前記目的が達成される。
また、前述した領域検出システムにおいて、領域候補画像切出処理手段は、ずれ量推定処理手段により推定したずれ量に基づき切出対象の領域を推定してこの推定した領域の画像を新たな領域候補の画像として切り出す処理も行う構成とされ、一致率算出処理手段は、領域候補画像切出処理手段により切り出した新たな領域候補の画像と各領域検出用モデルとの一致率をそれぞれ算出する処理も行う構成とされ、ずれ量推定処理手段は、一致率算出処理手段により算出した一致率が最も高い領域検出用モデルに対応する位置および/またはサイズのずれ量を、新たな領域候補と真の領域とのずれ量と推定する処理も行う構成とされていることが望ましい。
さらに、前述した領域検出システムにおいて、領域検出用モデル記憶手段に記憶された各領域検出用モデルに対応する位置および/またはサイズのずれ量のうちの少なくとも一つは、切出対象を含む原画像を構成する画素単位を細分化したサブピクセル単位で設定されていることが望ましい。
そして、前述した領域検出システムにおいて、領域検出用モデル記憶手段には、真の領域の画像および複数種類のずれ画像をそれぞれ正規化した後に作成された各領域検出用モデルが記憶され、一致率算出処理手段は、領域候補の画像を正規化した後に領域候補の画像と各領域検出用モデルとの一致率を算出する構成とされ、領域検出用モデル記憶手段に記憶された各領域検出用モデルに対応する位置および/またはサイズのずれ量のうちの少なくとも一つは、正規化後の画像の画素単位を細分化した正規化サブピクセル単位で設定されたずれ量を原画像の画素単位に換算したずれ量とされていてもよい。
また、前述した領域検出システムにおいて、領域検出用モデル記憶手段に記憶された各領域検出用モデルに対応する位置および/またはサイズのずれ量は、不均一な間隔で設定され、ずれ量の絶対値が大きい程、ずれ量同士の間隔が大きい設定とされていることが望ましい。
さらに、前述した領域検出システムにおいて、領域検出用モデル記憶手段には、真の領域の画像および複数種類のずれ画像のそれぞれについて多数の教示データを用いて主成分分析を行うことにより低次元の特徴量への圧縮を行い、この主成分分析で得られた基底ベクトルで張られる部分空間を形成することにより作成された各領域検出用モデルが記憶されていることが望ましい。
そして、前述した領域検出システムにおいて、切出対象を含む領域検出処理対象の画像が、動画像を構成する各フレーム画像である場合には、領域候補画像切出処理手段は、現在処理対象となっているフレーム画像の中から切出対象の最初の領域候補の画像を切り出す際には、前フレームでの領域検出処理で切出対象についての領域候補と真の領域とのずれ量を推定することにより、最終的に真の領域またはそれに近い領域であると判断されて前フレーム画像の中から切り出された切出対象の確定切出画像の領域位置と同じ位置の領域を切り出す構成とされていることが望ましい。
また、前述した領域検出システムにおいて、ずれ量推定処理手段により切出対象についての領域候補と真の領域とのずれ量を推定することにより、最終的に真の領域またはそれに近い領域であると判断されて切り出された切出対象の確定切出画像の中から、この切り出された切出対象を構成する構成要素を切り出す処理を行う際に用いるために、切出対象の領域の画像について収集された多数の教示データに基づき作成された切出対象の領域内の特徴に関する構成要素位置推定用モデルを記憶する構成要素位置推定用モデル記憶手段と、切出対象の領域の画像およびこの画像の中に含まれる構成要素の位置について収集された対になる多数の教示データのうち切出対象の領域の画像の多数の教示データについて構成要素位置推定用モデルを用いて切出対象の領域内の特徴に関するパラメータをそれぞれ算出し、これらの算出したパラメータとこれらのパラメータに対応する構成要素の位置に関するパラメータとを関連付ける学習を行って作成された非線形関数を記憶する非線形関数記憶手段と、確定切出画像について構成要素位置推定用モデルを用いてこの確定切出画像の領域内の特徴に関するパラメータを算出した後、算出したパラメータに基づき非線形関数を用いて確定切出画像の中の構成要素の位置に関するパラメータを算出することにより、構成要素の位置を推定する構成要素位置推定処理手段とを備えた構成とすることが望ましい。
さらに、上述した構成要素位置推定用モデルおよび非線形関数を用いて構成要素の位置を推定する構成とした場合において、領域検出用モデル記憶手段には、構成要素を適切に切り出した真の領域の画像およびこの真の領域に対して位置および/またはサイズをずらした領域を切り出した複数種類のずれ画像について、それぞれ多数収集された教示データに基づき予め作成された真の領域の画像および複数種類のずれ画像の各領域内の特徴に関する構成要素用の領域検出用モデルも記憶され、領域候補画像切出処理手段は、構成要素位置推定処理手段により推定された構成要素の位置に基づき確定切出画像の中から構成要素の最初の領域候補の画像を切り出す処理も行う構成とされ、一致率算出処理手段は、領域候補画像切出処理手段により切り出した構成要素の最初の領域候補の画像と構成要素用の各領域検出用モデルとの一致率をそれぞれ算出する処理も行う構成とされ、ずれ量推定処理手段は、一致率算出処理手段により算出した一致率が最も高い領域検出用モデルに対応する位置および/またはサイズのずれ量を、構成要素についての最初の領域候補と真の領域とのずれ量と推定する処理も行う構成とされていることが望ましい。
そして、前述した構成要素位置推定用モデルおよび非線形関数を用いて構成要素の位置を推定する構成とした場合において、切出対象を含む領域検出処理対象の画像が、動画像を構成する各フレーム画像である場合には、領域検出用モデル記憶手段には、構成要素を適切に切り出した真の領域の画像およびこの真の領域に対して位置および/またはサイズをずらした領域を切り出した複数種類のずれ画像について、それぞれ多数収集された教示データに基づき予め作成された真の領域の画像および複数種類のずれ画像の各領域内の特徴に関する構成要素用の領域検出用モデルも記憶され、領域候補画像切出処理手段は、現在処理対象となっているフレーム画像について、構成要素位置推定処理手段により推定された構成要素の位置に基づき確定切出画像の中から構成要素の第一の最初の領域候補の画像を切り出す処理も行う構成とされ、一致率算出処理手段は、領域候補画像切出処理手段により切り出した構成要素の第一の最初の領域候補の画像と構成要素用の各領域検出用モデルとの一致率をそれぞれ算出する処理も行う構成とされ、ずれ量推定処理手段は、第一の最初の領域候補の画像について一致率算出処理手段により算出した一致率が最も高い領域検出用モデルに対応する位置および/またはサイズのずれ量を、構成要素についての第一の最初の領域候補と真の領域とのずれ量と推定する第一のずれ量推定処理も行う構成とされ、これに加え、領域候補画像切出処理手段は、前フレームでの構成要素についての領域検出処理で最終的に真の領域またはそれに近い領域であると判断されて前フレーム画像の中から切り出された構成要素の確定切出画像の領域位置と同じ位置の領域を、現在処理対象となっているフレーム画像についての構成要素の第二の最初の領域候補の画像として切り出す処理も行う構成とされ、一致率算出処理手段は、領域候補画像切出処理手段により切り出した構成要素の第二の最初の領域候補の画像と構成要素用の各領域検出用モデルとの一致率をそれぞれ算出する処理も行う構成とされ、ずれ量推定処理手段は、第二の最初の領域候補の画像について一致率算出処理手段により算出した一致率が最も高い領域検出用モデルに対応する位置および/またはサイズのずれ量を、構成要素についての第二の最初の領域候補と真の領域とのずれ量と推定する第二のずれ量推定処理も行う構成とされ、さらに、ずれ量推定処理手段は、第一および第二のずれ量推定処理のそれぞれで最も高い一致率と判断された一致率同士を比較し、このうち一致率が高い方のずれ量推定処理を決定する処理も行う構成とされ、領域候補画像切出処理手段は、ずれ量推定処理手段により決定されたずれ量推定処理に対応する第一または第二のいずれか一方の最初の領域候補およびその推定ずれ量に基づき、現在処理対象となっているフレーム画像についての構成要素の次の領域候補の画像を切り出す処理も行う構成としてもよい。
以上に述べたように本発明によれば、真の領域の画像および複数種類のずれ画像について、これらの各領域内の特徴に関する領域検出用モデルを予め作成しておき、これらの各領域検出用モデルを用いて、切出対象を含む領域検出処理対象の画像の中から切り出した切出対象の領域候補についての真の領域からの位置および/またはサイズのずれ量を推定するので、従来のような単一モデルによる領域検出を行う場合に比べ、領域検出の精度および安定性を向上させることができるうえ、多量の教示データから作成されたモデルを用いた領域検出を行うため、対象の姿勢に依存しない領域検出を実現することができ、さらに、複数種類のずれ量に対応する各領域検出用モデルを事前に作成しておくので、処理対象画像から複数のずれ画像をその都度作成し、それらの画像を単一のモデルで評価する方法を採る場合に比べ、現在処理対象となっている画像についての演算処理量を減らすことができ、処理時間を短縮することができるという効果がある。
以下に本発明の一実施形態について図面を参照して説明する。図1には、本実施形態の領域検出システム10の全体構成が示されている。図2は、真の領域の画像および複数種類のずれ画像の作成方法の説明図であり、図3は、各領域検出用モデル40A,40Bの作成方法の説明図である。また、図4には、領域検出システム10による処理の流れがフローチャートで示されている。さらに、図5には、原画像を構成する画素、真の領域、ずれ領域、および正規化画像の画素単位の関係が示され、図6には、正規化画像の作成方法が示されている。
図1において、領域検出システム10は、切出対象(本実施形態では、一例として頭部とする。)およびその構成要素(本実施形態では、一例として顔部品である目とする。)を撮影するCCDカメラやCMOSカメラ等のカメラ20と、領域検出に関する各種処理を行う処理手段30と、この処理手段30に接続された領域検出用モデル記憶手段40、構成要素位置推定用モデル記憶手段50、非線形関数記憶手段60、および確定切出位置データ記憶手段70とを備えている。
処理手段30は、フレーム画像取込処理手段31と、領域候補画像切出処理手段32と、一致率算出処理手段33と、ずれ量推定処理手段34と、構成要素位置推定処理手段35とを含んで構成されている。
フレーム画像取込処理手段31は、カメラ20で撮影されて送られてくるフレーム画像を処理手段30に取り込む処理(後述する図4のステップS2)を行うものである。
領域候補画像切出処理手段32は、切出対象(頭部)を含む領域検出処理対象の画像(ここでは、動画像を構成する各フレーム画像)の中から、切出対象(頭部)の最初の領域候補の画像を切り出す処理(図4のステップS5)を行うとともに、ずれ量推定処理手段34により推定したずれ量に基づき、切出対象(頭部)の領域を推定してこの推定した領域の画像を新たな領域候補(2回目以降の領域候補)の画像として切り出す処理(図4のステップS11)を行うものである。
この際、領域候補画像切出処理手段32は、現在処理対象となっているフレーム画像の中から切出対象(頭部)の最初の領域候補の画像を切り出す処理(図4のステップS5)を行うときには、前フレーム画像の中から切り出された切出対象(頭部)の確定切出画像の領域位置と同じ位置の領域を切り出す。ここで、前フレーム画像の中から切り出された切出対象(頭部)の確定切出画像とは、前フレームにおける領域検出処理で最終的に真の領域またはそれに近い領域であると判断されて切り出された画像(前フレームの処理における図4のステップS10)であり、真の領域内の特徴に関する領域検出用モデル40A01との一致率が最も高くなったときの領域候補の画像である場合(前フレームの処理において図4のステップS9からステップS10へ移行した場合)と、ずれ量の修正回数が規定回数以上になったときの領域候補の画像である場合(前フレームの処理において図4のステップS12からステップS10へ移行した場合)とがある。
また、領域候補画像切出処理手段32は、現在処理対象となっているフレーム画像について構成要素位置推定処理手段35により推定された構成要素(目)の位置に基づき、切出対象(頭部)の確定切出画像の中から(全体画像の中からと考えてもよい。)構成要素(目)の第一の最初の領域候補の画像を切り出す処理も行う。これに加え、領域候補画像切出処理手段32は、前フレームにおける構成要素(目)についての領域検出処理(前フレームにおける図4のステップ15)で最終的に真の領域またはそれに近い領域であると判断されて前フレーム画像の中から切り出された構成要素(目)の確定切出画像(前フレームにおける図4のステップ16)の領域位置と同じ位置の領域を、現在処理対象となっているフレーム画像についての構成要素(目)の第二の最初の領域候補の画像として切り出す処理も行う。
さらに、領域候補画像切出処理手段32は、ずれ量推定処理手段34による比較選択処理で決定された第一または第二のいずれか一方のずれ量推定処理に対応する第一または第二のいずれか一方の最初の領域候補およびその推定ずれ量に基づき、現在処理対象となっているフレーム画像についての構成要素(目)の2回目の領域候補の画像を切り出す処理も行う。そして、領域候補画像切出処理手段32は、ずれ量推定処理手段34により推定した構成要素(目)のずれ量に基づき、構成要素(目)の領域を推定してこの推定した領域の画像を新たな領域候補(3回目以降の領域候補)の画像として切り出す処理も行う。
一致率算出処理手段33は、領域候補画像切出処理手段32により切り出した切出対象(頭部)の領域候補の画像と、領域検出用モデル記憶手段40に記憶されている頭部領域用の複数(本実施形態では、一例として97個とする。)の領域検出用モデル40A(40A01〜40A97)の各々との一致率をそれぞれ算出する処理(図4のステップS7)を行うものである。これらの97個の一致率の算出処理は、各フレーム毎に、最初の領域候補の画像および2回目以降の領域候補の画像について行う。
また、一致率算出処理手段33は、領域候補画像切出処理手段32により切り出した構成要素(目)の第一の最初の領域候補の画像と、領域検出用モデル記憶手段40に記憶されている構成要素用(目領域用)の複数(本実施形態では、一例として97個とする。)の領域検出用モデル40B(40B01〜40B97)の各々との一致率をそれぞれ算出する処理も行う。これに加え、一致率算出処理手段33は、領域候補画像切出処理手段32により切り出した構成要素(目)の第二の最初の領域候補の画像と、領域検出用モデル記憶手段40に記憶されている構成要素用(目領域用)の複数(97個)の領域検出用モデル40B(40B01〜40B97)の各々との一致率をそれぞれ算出する処理も行う。そして、一致率算出処理手段33は、領域候補画像切出処理手段32により切り出した構成要素(目)の2回目以降の領域候補の画像と、領域検出用モデル記憶手段40に記憶されている構成要素用(目領域用)の複数(97個)の領域検出用モデル40B(40B01〜40B97)の各々との一致率をそれぞれ算出する処理も行う。
ずれ量推定処理手段34は、一致率算出処理手段33により算出した複数(97個)の一致率(図4のステップS7)のうち最も高い一致率を求め、この最も高い一致率となった領域検出用モデル40A(40A01〜40A97のうちのいずれか一つ)に対応する位置またはサイズのずれ量を、切出対象(頭部)についての領域候補と真の領域とのずれ量と推定する処理(図4のステップS8)を行うものである。
また、ずれ量推定処理手段34は、構成要素(目)の第一の最初の領域候補の画像について一致率算出処理手段33により算出した複数(97個)の一致率のうち最も高い一致率を求め、この最も高い一致率となった領域検出用モデル40B(40B01〜40B97のうちのいずれか一つ)に対応する位置またはサイズのずれ量を、構成要素(目)についての第一の最初の領域候補と真の領域とのずれ量と推定する第一のずれ量推定処理も行う。これに加え、ずれ量推定処理手段34は、構成要素(目)の第二の最初の領域候補の画像について一致率算出処理手段33により算出した複数(97個)の一致率のうち最も高い一致率を求め、この最も高い一致率となった領域検出用モデル40B(40B01〜40B97のうちのいずれか一つ)に対応する位置またはサイズのずれ量を、構成要素(目)についての第二の最初の領域候補と真の領域とのずれ量と推定する第二のずれ量推定処理も行う。
さらに、ずれ量推定処理手段34は、上述した第一および第二のずれ量推定処理のそれぞれで最も高い一致率と判断された一致率同士を比較し、このうち一致率が高い方のずれ量推定処理を決定する処理も行い、これにより決定された第一または第二のいずれか一方のずれ量推定処理に対応する第一または第二のいずれか一方の最初の領域候補およびその推定ずれ量に基づき、領域候補画像切出処理手段32による構成要素(目)の2回目の領域候補の画像の切出処理が行われる。
そして、ずれ量推定処理手段34は、構成要素(目)についての2回目以降の領域候補の画像についても、一致率算出処理手段33により算出した複数(97個)の一致率のうち最も高い一致率を求め、この最も高い一致率となった領域検出用モデル40B(40B01〜40B97のうちのいずれか一つ)に対応する位置またはサイズのずれ量を、構成要素(目)についての領域候補と真の領域とのずれ量と推定する処理を行う。
構成要素位置推定処理手段35は、切出対象(頭部)の確定切出画像(図4のステップS10)について、構成要素位置推定用モデル記憶手段50に記憶されている目領域位置推定用モデル51を用いて、この確定切出画像の領域内の特徴に関するパラメータを算出した後、算出したパラメータに基づき、非線形関数記憶手段60に記憶されている非線形関数61を用いて、確定切出画像の中の構成要素(目)の位置に関するパラメータを算出することにより、構成要素(目)の位置を推定する処理(図4のステップS13)を行うものである。ここで、確定切出画像の領域内の特徴に関するパラメータとは、本実施形態では、後述する如く、切出対象(頭部)の確定切出画像から得られるデータを目領域位置推定用モデル51に入力して得られる射影(5つの各主成分の重み、すなわち主成分分析を行って求められている5つの各主成分の軸方向を向いた5つの基底ベクトルX1〜X5に対する各重み)α1〜α5であり、5つのスカラー量からなる5次元のベクトルデータである。また、構成要素(目)の位置に関するパラメータとは、本実施形態では、後述する如く、顔部品である目のXY位置および縦横の寸法の合計4つのスカラー量からなる4次元のベクトルデータである。
領域検出用モデル記憶手段40は、画像の中から切出対象(本実施形態では、一例として、頭部とする。)を適切に切り出した真の領域の画像およびこの真の領域に対して位置(X,Y方向の移動量)またはサイズ(W,H方向の拡大縮小量)をずらした領域を切り出した複数種類(本実施形態では、一例として96種類とする。)のずれ画像の各領域内の特徴に関する頭部領域用の領域検出用モデル40A(40A01〜40A97)を記憶するものである。これらの複数(97個)の領域検出用モデル40Aは、真の領域の画像および複数種類(96種類)のずれ画像について、それぞれ多数収集された教示データに基づき学習を行って予め作成されたモデルであり、本実施形態では、一例として、多数の教示データを用いて主成分分析(PCA:プリンシパル・コンポーネント・アナリシス)を行うことにより低次元(本実施形態では、一例として3次元とする。)の特徴量への圧縮を行い、この主成分分析で得られた複数(3つ)の基底ベクトルで張られる部分空間を形成することにより作成された部分空間法によるモデルとする。
また、領域検出用モデル記憶手段40は、画像の中から構成要素(本実施形態では、一例として、頭部を構成する顔部品である目とする。)を適切に切り出した真の領域の画像およびこの真の領域に対して位置(X,Y方向の移動量)またはサイズ(W,H方向の拡大縮小量)をずらした領域を切り出した複数種類(本実施形態では、一例として96種類とする。)のずれ画像の各領域内の特徴に関する目領域用の領域検出用モデル40B(40B01〜40B97)も記憶する。これらの複数(97個)の領域検出用モデル40Bは、頭部領域用の各領域検出用モデル40Aの場合と同様に、真の領域の画像および複数種類(96種類)のずれ画像について、それぞれ多数収集された教示データに基づき学習を行って予め作成されたモデルであり、本実施形態では、一例として、多数の教示データを用いて主成分分析(PCA)を行うことにより低次元(本実施形態では、一例として3次元とする。)の特徴量への圧縮を行い、この主成分分析で得られた複数(3つ)の基底ベクトルで張られる部分空間を形成することにより作成された部分空間法によるモデルとする。
そして、領域検出用モデル記憶手段40に記憶された頭部領域用の各領域検出用モデル40A(40A01〜40A97)に対応する位置またはサイズのずれ量のうちの少なくとも一つは、切出対象(頭部)を含む原画像を構成する画素単位を細分化したサブピクセル単位で設定されている。また、頭部領域用の各領域検出用モデル40A(40A01〜40A97)に対応する位置またはサイズのずれ量は、不均一な間隔で設定され、ずれ量の絶対値が大きい程、ずれ量同士の間隔が大きい設定とされている。
より具体的には、先ず、教示データとして収集されたフレーム画像100(図2参照)から、切出対象である頭部101を適切に切り出した真の領域の画像110(図2中の実線で示された正解画像110)を作成する。
また、真の領域に対し、原画像(解像度の拡大縮小を行っていない元の画像)の画素単位で、例えば、X,Y軸方向にそれぞれ3,1,0.5,−0.5,−1,−3ピクセル移動した移動画像(図2中の一点鎖線で示されたX,Y方向位置ずれ画像120)を作成する。プラスは、正の方向への移動を意味し、マイナスは、負の方向への移動を意味する。ここで、X軸方向の位置のずれ量nPは0も含めると、nP=3,1,0.5,0,−0.5,−1,−3の7通りであり、Y軸方向の位置のずれ量mPも同様に7通りであるから、合計7×7−1=48種類(正解の1種類を除いてある。)のX,Y方向位置ずれ画像120が作成される。この際、X,Y方向位置ずれ画像120は、真の領域の画像110を移動しただけであるから、X,Y方向位置ずれ画像120の縦横のサイズは、m×nピクセルであり、真の領域の画像110の縦横のサイズと同じである。そして、このようなX,Y方向位置ずれ画像120については、ずれパターンを(X,Y,W,H)=(nP,mP,0,0)と表すことができる。例えば、(0.5,−0.5,0,0)の場合には、X軸方向に0.5ピクセルずれ、かつ、Y軸方向に−0.5ピクセル(負の方向に0.5ピクセル)ずれている画像であることを意味する。
さらに、真の領域に対し、原画像の画素単位で、例えば、横方向(幅方向:W方向)および縦方向(高さ方向:H方向)にそれぞれ1,0.5,0.2,−0.2,−0.5,−1ピクセル拡大縮小した画像(図2中の点線で示されたW,H方向サイズずれ画像130)を作成する。プラスは、拡大を意味し、マイナスは、縮小を意味する。ここで、W方向のサイズの拡大縮小によるずれ量nSは0も含めると、nS=1,0.5,0.2,0,−0.2,−0.5,−1の7通りであり、H方向のサイズのずれ量mSも同様に7通りであるから、合計7×7−1=48種類(正解の1種類を除いてある。)のW,H方向サイズずれ画像130が作成される。この際、W,H方向サイズずれ画像130のサイズは、横方向(W方向)がnZ=n+nS=n+nS1+nS2ピクセルとなり、縦方向(H方向)がmZ=m+mS=m+mS1+mS2ピクセルとなり、いずれの方向についても、真の領域の画像110と異なるサイズとなっている。なお、本実施形態では、基本的にnS1=nS2として左右のずれ量を等しくするが、例えばnS=0.5ピクセルの場合には、0.1ピクセル以下の精度は取り扱わないため、処理の便宜上、中央の座標を四捨五入または切り捨てて、例えば左側をnS1=0.3ピクセル、右側をnS2=0.2ピクセル等とする。mS1,mS2についても同様である。そして、このようなW,H方向サイズずれ画像130については、ずれパターンを(X,Y,W,H)=(0,0,nS,mS)と表すことができる。例えば、(0,0,0.2,−0.5)の場合には、W方向に0.2ピクセル拡大されてずれ、かつ、H方向に0.5ピクセル縮小されてずれている画像であることを意味する。
従って、多数の教示データのうちの1つである1枚のフレーム画像100から、図2中の実線で示された真の領域の画像(正解画像)110が1つ作成され、図2中の一点鎖線で示されたX,Y方向位置ずれ画像120が48種類作成され、図2中の点線で示されたW,H方向サイズずれ画像130が48種類作成され、合計で97種類の画像が作成される。このような作業を多数の教示データの全てについて行う。
また、領域検出用モデル記憶手段40に記憶された目領域用の各領域検出用モデル40B(40B01〜40B97)の場合も、頭部領域用の各領域検出用モデル40A(40A01〜40A97)の場合と同様であり、1枚のフレーム画像100から、合計で97種類の画像が作成され、各ずれ量のうちの少なくとも一つがサブピクセル単位で設定され、かつ、各ずれ量は不均一な間隔で設定されている。
構成要素位置推定用モデル記憶手段50は、切出対象(頭部)の領域の画像について収集された多数の教示データに基づき作成された切出対象(頭部)の領域内の特徴に関する構成要素位置推定用モデルを記憶するものである。本実施形態では、一例として、構成要素位置推定用モデルは、頭部の構成要素である顔部品のうちの目の領域位置を推定するための目領域位置推定用モデル51とする。
また、本実施形態では、目領域位置推定用モデル51を作成するための多数の教示データとなる切出対象(頭部)の領域の画像は、後述する図4のステップ10の頭部領域の確定切出画像と同様な処理を経て得られた画像とする。すなわち、領域検出用モデル記憶手段40に記憶された頭部領域用の領域検出用モデル40A(40A01〜40A97)を用いて、ずれの修正処理(図4のステップS8,S11に相当する処理)を繰り返すことにより自動的に切り出された頭部領域の確定切出画像とする。なお、あくまでも以上の処理は、認識時のリアルタイム処理(本番処理)ではなく、事前に行う学習処理であり、事前に行う学習処理として、リアルタイム処理と同様な自動切出処理を行うという意味である。
さらに、目領域位置推定用モデル51は、上述したように多数の教示データに基づき学習を行って予め作成されたモデルであるが、本実施形態では、一例として、多数の教示データを用いて主成分分析(PCA)を行うことにより低次元(本実施形態では、一例として5次元とする。)の特徴量への圧縮を行い、この主成分分析で得られた複数(5つ)の基底ベクトルX1〜X5で張られる固有空間を形成することにより作成されたモデルとする。
非線形関数記憶手段60は、切出対象(頭部)の領域の画像およびこの画像の中に含まれる構成要素(顔部品である目)の位置について収集された対になる多数の教示データのうち、切出対象(頭部)の領域の画像の多数の教示データについて、構成要素位置推定用モデルである目領域位置推定用モデル51を用いて切出対象(頭部)の領域内の特徴に関するパラメータをそれぞれ算出し、これらの算出したパラメータとこれらのパラメータに対応する構成要素(目)の位置に関するパラメータとを関連付ける学習を行って作成された非線形関数61を記憶するものである。本実施形態では、対になる多数の教示データのうち、切出対象(頭部)の領域の画像の多数の教示データについては、上述した目領域位置推定用モデル51を作成した際に用いた教示データと同じとし、後述する図4のステップ10の頭部領域の確定切出画像と同様な処理(ずれの修正処理の繰り返しによる自動切出処理)を経て得られた画像とする。一方、対になる多数の教示データのうち、構成要素(目)の位置に関するデータは、人手により抽出された目のXY位置および縦横の寸法とする。なお、対になる多数の教示データのうち、切出対象(頭部)の領域の画像の多数の教示データについても、人手により切り出した切出対象(頭部)の真の領域の画像としてもよいが、より認識時の処理環境に近い状態で学習を行うという観点からは、ずれの修正処理の繰り返しによる自動切出処理を経て得られた画像とすることが好ましい。
そして、非線形関数記憶手段60に記憶される非線形関数61は、本実施形態では、切出対象(頭部)の領域内の特徴に関するパラメータ、すなわち切出対象(頭部)の確定切出画像(事前処理によるもの)から得られるデータを目領域位置推定用モデル51に入力して得られる射影α1〜α5からなる5次元のベクトルデータと、構成要素(目)の位置に関するパラメータ、すなわち、人手により抽出された目のXY位置および縦横の寸法からなる4次元のベクトルデータとを関連付ける非線形なマッピング関数である。
確定切出位置データ記憶手段70は、毎回のフレーム処理において、切出対象(頭部)について最終的に真の領域またはそれに近い領域であると判断されて切り出された確定切出画像の領域位置データ(図4のステップS10)、および構成要素(目)について最終的に真の領域またはそれに近い領域であると判断されて切り出された確定切出画像の領域位置データ(図4のステップS16)を記憶するものである。この確定切出位置データ記憶手段70には、少なくとも現在処理対象となっているフレームの直前のフレームのデータを記憶させておく。
そして、以上において、処理手段30に含まれる各処理手段31〜35は、領域検出システム10を構成する一台または複数台のコンピュータ(パーソナル・コンピュータのみならず、その上位機種のもの、あるいは汎用機ではなく、領域検出処理専用装置、パーソナル・コンピュータ以外の電気製品に組み込まれた計算ユニット等)の内部に設けられた中央演算処理装置(CPU)、およびこのCPUの動作手順を規定する一つまたは複数のプログラムにより実現される。
また、領域検出用モデル記憶手段40、構成要素位置推定用モデル記憶手段50、非線形関数記憶手段60、および確定切出位置データ記憶手段70としては、例えば、ハードディスク、ROM、EEPROM、フラッシュ・メモリ、RAM、MO、CD−ROM、CD−R、CD−RW、DVD−ROM、DVD−RAM、FD、磁気テープ、あるいはこれらの組合せ等を採用することができる。
このような本実施形態においては、以下のようにして領域検出システム10により領域検出処理が行われる。
先ず、領域検出システム10を稼働させる前に、97個の頭部領域用の領域検出用モデル40A(40A01〜40A97)および97個の目領域用の領域検出用モデル40B(40B01〜40B97)、1個の構成要素位置推定用モデルである目領域位置推定用モデル51、並びに非線形関数61を作成し、領域検出用モデル記憶手段40、構成要素位置推定用モデル記憶手段50、および非線形関数記憶手段60にそれぞれ記憶させておく。
図3には、97個の頭部領域用の領域検出用モデル40A(40A01〜40A97)を作成する際の処理の流れが示されている。97個の目領域用の領域検出用モデル40B(40B01〜40B97)を作成する処理も同様であるため説明を省略する。先ず、原画像(処理前の画像)の解像度を10倍に拡大する。例えば、フレーム画像100(図2参照)のサイズが、M×N=480×640ピクセルであるとすると、4800×6400ピクセルに拡大する。但し、実際には、画像全体を使用するわけではないので、処理の高速化のため、処理に必要となる頭部101の領域およびその周辺部分だけ解像度を10倍に拡大すればよい。この際には、例えば、フレーム画像100を構成する各画素(原画像の画素)の持つ色データを、各画素の中心位置の座標に帰属させるとともに、隣接する画素の色データを使って、それらの隣接する画素同士の間の座標の色データを1次の線形補間を行って作成する。なお、隣接する画素以外の画素のデータを使って2次以上の補間をするようにしてもよい。
次に、図2を参照して詳述した如く、解像度を10倍に拡大した1枚のフレーム画像100から、図3中の実線で示された真の領域の画像(正解画像)110を1つ作成し(クラスk=1)、図3中の一点鎖線で示されたX,Y方向位置ずれ画像120を48種類作成し(クラスk=2〜49)、図3中の点線で示されたW,H方向サイズずれ画像130を48種類作成し(クラスk=50〜97)、合計で97種類の画像を作成する。この際、真の領域の画像(正解画像)110の抽出は、人手による判断で行われる。また、これらの97種類の画像の切り出しは、解像度を10倍に拡大した画像で行うので、ずれ量のみかけ上の数値は、図2を用いて説明した数値の10倍になる。例えば、0.1ピクセルのずれ量は、解像度を10倍に拡大した画像では、1ピクセルのずれ量となる。つまり、原画像の0.1ピクセルを最小単位として取り扱えるようにするため、解像度を10倍にしている。そして、このような作業を、多数(例えば300フレーム)の教示データとして用意した全てのフレーム画像100について行う。
また、これと併せ、各フレーム画像100の中の頭部101を構成する目102について、そのX座標、Y座標、縦方向サイズ、横方向サイズを抽出しておく。
続いて、真の領域の画像(正解画像)110(クラスk=1)、48種類のX,Y方向位置ずれ画像120(クラスk=2〜49)、および48種類のW,H方向サイズずれ画像130(クラスk=50〜97)の合計97種類の画像について、例えば16×16への解像度の縮小をそれぞれ行うことにより、正規化画像111,121,131を作成する。図5には、原画像(10倍拡大前)の各画素と、16×16の区画ライン111A,121Aとの関係が示されている。図6に示すように、16×16の区画ライン111Aにより、解像度を10倍に拡大した画像における画素が分割される場合には、この画素のデータを、区画ライン111Aにより分割された部分の面積割合で、16×16の正規化画像の各画素に配分する処理を行うことができる。例えば、図6中で区画ライン111Aにより4分割された画素のデータは、面積A1,A2,A3,A4の割合で4分割して配分する。また、区画ライン111Aにより2分割された画素のデータは、面積A5,A6の割合で2分割して配分する。なお、このような面積割合による配分を行わずに、四捨五入や切り捨て等により、区画ライン111Aにより分割された画素のデータを、16×16の正規化画像の各画素のいずれか一つのみに帰属させるようにしてもよい。
その後、正規化画像は、97種類のずれパターン(クラスk=1〜97)のそれぞれについて多数作成されているので、各ずれパターン(クラスk=1〜97)のそれぞれについて、16×16の正規化画像(16×16=256次元のベクトルデータ)を用いて、主成分分析(PCA)を行うことにより、低次元(本実施形態では、一例として3次元とする。)への特徴量の圧縮を行う。すなわち、各クラスk=1〜97のそれぞれについて、16×16=256次元のベクトルデータを用いて主成分分析を行い、3つの基底ベクトル(主成分)X1 k,X2 k,X3 kを得る。これらの基底ベクトルX1 k,X2 k,X3 kは、それぞれ256次元のベクトルであり、これらの基底ベクトルX1 k,X2 k,X3 kにより張られるクラスk(k=1〜97)の各部分空間により、頭部領域用の各領域検出用モデル40A(40A01〜40A97)が構築される。
同様にして、主成分分析を行って得られた基底ベクトルX1 c,X2 c,X3 cにより張られるクラスc(c=1〜97)の各部分空間により、目領域用の各領域検出用モデル40B(40B01〜40B97)が構築される。
続いて、構成要素位置推定用モデルである目領域位置推定用モデル51の作成方法について説明する。各領域検出用モデル40A(40A01〜40A97)の作成に用いた多数の教示データ(図3のフレーム画像100)について、各領域検出用モデル40A(40A01〜40A97)を用いたずれ量修正の繰り返し処理(図4のステップS2〜S12に相当する処理)を行うことにより、頭部領域を自動的に切り出して確定切出画像(図4のステップS10に相当)を得る。これにより、各フレーム画像100毎に確定切出画像が得られるので、多数の教示データが得られる。それから、これらの多数の教示データとしての確定切出画像について、それぞれ16×16の解像度への縮小を行って正規化画像とした後、得られた多数の正規化画像のデータ(16×16=256次元のベクトルデータ)を用いて、主成分分析(PCA)を行うことにより、低次元(本実施形態では、一例として5次元とする。)への特徴量の圧縮を行う。すなわち、16×16=256次元のベクトルデータを用いて主成分分析を行い、5つの基底ベクトル(主成分)X1,X2,X3,X4,X5を得る。これらの基底ベクトルX1,X2,X3,X4,X5は、それぞれ256次元のベクトルであり、これらの基底ベクトルX1,X2,X3,X4,X5により張られる固有空間により、構成要素位置推定用モデルである目領域位置推定用モデル51が構築される。
次に、非線形関数61の作成方法について説明する。上述の目領域位置推定用モデル51の作成過程で得られた多数の教示データとしての各確定切出画像について、それぞれ16×16の解像度への縮小を行って正規化画像とした後、これらの正規化画像のデータ(16×16=256次元のベクトルデータ)を、それぞれ構成要素位置推定用モデルである目領域位置推定用モデル51に入力することにより、射影α1,α2,α3,α4,α5を得る。すなわち、5次元のベクトルα=(α1,α2,α3,α4,α5)が、頭部の領域内の特徴に関するパラメータとして得られる。このα=(α1,α2,α3,α4,α5)は、教示データとして用意された各フレーム画像100毎に(各確定切出画像のそれぞれについて)得られる。
なお、確定切出画像についての正規化画像のデータ(16×16=256次元のベクトルデータ)をfとし、5つの基底ベクトルをX1,X2,X3,X4,X5とし、εを誤差ベクトルとすると、射影α1,α2,α3,α4,α5は、f=α1X1+α2X2+α3X3+α4X4+α5X5+εを満たすα1,α2,α3,α4,α5(基底ベクトルX1,X2,X3,X4,X5に対する各重み)を意味する。実際の演算は、上記の5つの基底ベクトルX1,X2,X3,X4,X5を含んで構成される基底行列をEとし、上記5つの重みα1,α2,α3,α4,α5を含んで構成される256次元のベクトルをβとすると、f=E・βが成立し、さらに、Eの逆行列E-1はEの転置行列Etとして得られるので(E-1=Et)、β=Et・fが成立するため、fを入力してβ(そのうちの一部の要素がα1,α2,α3,α4,α5)を算出するという簡単な演算となる。
そして、前述したように、各フレーム画像100毎に、人手により目102(図3参照)のX,Y座標および縦横サイズが抽出されているので、これらの4つのデータを要素とする4次元のベクトルにより、目の位置に関するパラメータが定まる。従って、各フレーム画像100毎に、頭部の領域内の特徴に関するパラメータとしての5次元のベクトルα=(α1,α2,α3,α4,α5)と、目の位置に関するパラメータとしての4次元のベクトルとを対応させることにより、非線形関数61を作成することができる。
次に、図4において、領域検出システム10を稼働させ、領域検出処理を開始する(ステップS1)。続いて、フレーム画像取込処理手段31により、処理対象とするフレーム画像を取り込む(ステップS2)。そして、確定切出位置データ記憶手段70から、前フレームの頭部領域の位置データを読み込む(ステップS3)。但し、稼働直後のフレームでは、前フレームの頭部領域の位置データが、確定切出位置データ記憶手段70に保存されていないので、別途の方法で最初の領域候補を定めるためのデータを設定する。
それから、読み込んだ頭部領域の位置データに基づき頭部領域およびその周辺部分だけ解像度を10倍に拡大するか、またはフレーム画像全体について解像度を10倍に拡大する(ステップS4)。なお、処理時間短縮の観点からは、頭部領域およびその周辺部分だけを拡大することが好ましい。
続いて、領域候補画像切出処理手段32により、頭部領域についての最初の領域候補を切り出す(ステップS5)。この際には、ステップS3で読み込んだ前フレームの頭部領域の位置データに基づき、前フレームの頭部領域の確定切出画像の領域位置と同じ位置の領域を、最初の領域候補として切り出す。
その後、16×16の解像度への縮小処理を行って、画像を正規化する(ステップS6)。さらに、一致率算出処理手段33により、領域検出用モデル記憶手段40に記憶された頭部領域用の各クラスk(k=1〜97)の領域検出用モデル40A(40A01〜40A97)を用いて、ステップS6で正規化した入力画像(現在処理対象となっている画像)と、各領域検出用モデル40A(40A01〜40A97)との一致率を算出する。この一致率の算出処理では、先ず、各クラスk(k=1〜97)について、射影α1 k,α2 k,α3 kを求める。
この際、現在処理対象となっている正規化画像のデータ(16×16=256次元のベクトルデータ)をfとし、各クラスk(k=1〜97)の3つの基底ベクトルをX1 k,X2 k,X3 kとし、εkを誤差ベクトルとすると、射影α1 k,α2 k,α3 kは、f=α1 kX1 k+α2 kX2 k+α3 kX3 k+εkを満たすα1 k,α2 k,α3 k(基底ベクトルX1 k,X2 k,X3 kに対する各重み)を意味する。実際の演算は、上記の3つの基底ベクトルX1 k,X2 k,X3 kを含んで構成される基底行列をEkとし、上記3つの重みα1 k,α2 k,α3 kを含んで構成される256次元のベクトルをβkとすると、f=Ek・βkが成立し、さらに、Ekの逆行列Ek -1はEkの転置行列Ek tとして得られるので(Ek -1=Ek t)、βk=Ek t・fが成立するため、fを入力してβk(そのうちの一部の要素がα1 k,α2 k,α3 k)を算出するという簡単な演算となる。
次に、一致率算出処理手段33により、各クラスk(k=1〜97)について求めた射影α1 k,α2 k,α3 kを用いて、(α1 k)2+(α2 k)2+(α3 k)2を各クラスk(k=1〜97)について算出する。この(α1 k)2+(α2 k)2+(α3 k)2の値が最も大きくなるクラス、すなわち、誤差ベクトルεkが最も小さくなるクラスが、一致率の最も高いクラスである。
それから、ずれ量推定処理手段34により、(α1 k)2+(α2 k)2+(α3 k)2の値が最も大きくなるクラスを選択し、そのクラスのずれパターンにより、頭部領域の現在の領域候補と真の領域とのずれ量を推定する(ステップS8)。
続いて、現在処理対象となっている画像が正解画像か否かを判断し、つまりステップS8で(α1 k)2+(α2 k)2+(α3 k)2の値が最も大きくなるクラスとして選択されたクラスが、k=1の正解画像のクラスであるか否かを判断し(ステップS9)、k=1の正解画像のクラスであった場合には、ずれの修正は行わず、現在の領域候補を、頭部領域の確定切出画像とし、その確定切出画像の位置データを確定切出位置データ記憶手段70に保存する(ステップS10)。
一方、k=1の正解画像のクラスでなかった場合には、領域候補画像切出処理手段32により、頭部領域についての新たな領域候補を切り出す(ステップS11)。この際、領域候補画像切出処理手段32は、新たな領域候補の切出位置を定めるときには、ずれ量推定処理手段34により選択された最も高い一致率のクラスに対応するずれパターンと逆の処理を行うことにより、現在の領域候補を、真の領域に近づける。例えば、ずれ量推定処理手段34により選択された最も高い一致率のクラスに対応するずれパターンが、X軸方向についての0.5ピクセル(正の方向)のずれだった場合には、−0.5ピクセルずらす修正、すなわちX軸方向について逆方向(負の方向)に0.5ピクセルずらす修正を行い、W方向についての0.2ピクセルの拡大のずれだった場合には、W方向について−0.2ピクセルずらす修正、すなわちW方向について0.2ピクセル縮小するずれ修正を行う。
続いて、ずれ修正の繰返回数が、規定回数に達したか否かを判断し(ステップS12)、規定回数に達していない場合には、再び、ステップS6の処理に戻り、以降、ステップS12で規定回数に達したと判断されるか、またはステップS9で正解画像であると判断されるまで、ステップS6〜S9,S11,12の処理が繰り返される。
一方、ステップS12で、規定回数に達したと判断された場合には、ステップS11で切り出した新たな領域候補を、頭部領域の確定切出画像とし、その確定切出画像の位置データを確定切出位置データ記憶手段70に保存する(ステップS10)。
それから、構成要素位置推定処理手段35により、構成要素(目)の位置を推定する処理を行う(ステップS13)。この際、構成要素位置推定処理手段35は、現在処理対象となっているフレーム画像の中に含まれる切出対象(頭部)の確定切出画像について、構成要素位置推定用モデル記憶手段50に記憶されている目領域位置推定用モデル51を用いて、この確定切出画像の領域内の特徴に関するパラメータを算出した後、算出したパラメータに基づき、非線形関数記憶手段60に記憶されている非線形関数61を用いて、確定切出画像の中の構成要素(目)の位置に関するパラメータを算出する。すなわち、非線形関数61を用いて、切出対象(頭部)の確定切出画像から得られるデータ(16×16=256次元のベクトルデータ)を目領域位置推定用モデル51に入力して得られる射影(各主成分の重み)α1〜α5から、目のXY位置および縦横の寸法を算出する。
続いて、確定切出位置データ記憶手段70から、前フレームの顔部品(目)領域の位置データを読み込む(ステップS14)。但し、稼働直後のフレームでは、前フレームの顔部品(目)領域の位置データが、確定切出位置データ記憶手段70に保存されていないので、読み込みは行わない。
そして、頭部を構成する構成要素(顔部品である目)の領域の切出処理を行う(ステップS15)。この際には、先ず、領域候補画像切出処理手段32により、現在処理対象となっているフレーム画像について構成要素位置推定処理手段35により推定された構成要素(目)の位置に基づき、切出対象(頭部)の確定切出画像の中から(全体画像の中からと考えてもよい。)構成要素(目)の第一の最初の領域候補の画像を切り出す。また、これと併せて、確定切出位置データ記憶手段70からの前フレームの顔部品(目)領域の位置データの読み込みが行われている場合には、領域候補画像切出処理手段32により、前フレームにおける構成要素(目)についての領域検出処理(前フレームにおける図4のステップ15)で最終的に真の領域またはそれに近い領域であると判断されて前フレーム画像の中から切り出された構成要素(目)の確定切出画像(前フレームにおける図4のステップ16)の領域位置と同じ位置の領域を、現在処理対象となっているフレーム画像についての構成要素(目)の第二の最初の領域候補の画像として切り出す。
それから、切り出した構成要素(目)の第一および第二の最初の領域候補の画像について16×16への解像度の縮小処理を行い、これらの領域候補の画像を正規化する。
次に、一致率算出処理手段33により、領域候補画像切出処理手段32により切り出した構成要素(目)の第一の最初の領域候補の画像と、領域検出用モデル記憶手段40に記憶されている構成要素用(目領域用)の複数(97個)の領域検出用モデル40B(40B01〜40B97)の各々との一致率をそれぞれ算出する。また、これと併せて、確定切出位置データ記憶手段70からの前フレームの顔部品(目)領域の位置データの読み込みが行われている場合には、一致率算出処理手段33により、領域候補画像切出処理手段32により切り出した構成要素(目)の第二の最初の領域候補の画像と、領域検出用モデル記憶手段40に記憶されている構成要素用(目領域用)の複数(97個)の領域検出用モデル40B(40B01〜40B97)の各々との一致率をそれぞれ算出する。
続いて、ずれ量推定処理手段34により、構成要素(目)の第一の最初の領域候補の画像について一致率算出処理手段33により算出した複数(97個)の一致率のうち最も高い一致率を求め、この最も高い一致率となった領域検出用モデル40B(40B01〜40B97のうちのいずれか一つ)に対応する位置またはサイズのずれ量を、構成要素(目)についての第一の最初の領域候補と真の領域とのずれ量と推定する第一のずれ量推定処理を行う。また、これと併せて、確定切出位置データ記憶手段70からの前フレームの顔部品(目)領域の位置データの読み込みが行われている場合には、ずれ量推定処理手段34により、構成要素(目)の第二の最初の領域候補の画像について一致率算出処理手段33により算出した複数(97個)の一致率のうち最も高い一致率を求め、この最も高い一致率となった領域検出用モデル40B(40B01〜40B97のうちのいずれか一つ)に対応する位置またはサイズのずれ量を、構成要素(目)についての第二の最初の領域候補と真の領域とのずれ量と推定する第二のずれ量推定処理を行う。
さらに、ずれ量推定処理手段34により、上述した第一および第二のずれ量推定処理のそれぞれで最も高い一致率と判断された一致率同士を比較し、このうち一致率が高い方のずれ量推定処理を決定する。
そして、ずれ量推定処理手段34により決定された第一または第二のいずれか一方のずれ量推定処理に対応する第一または第二のいずれか一方の最初の領域候補およびその推定ずれ量に基づき、領域候補画像切出処理手段32により、構成要素(目)の2回目の領域候補の画像の切出処理を行う。
以降、構成要素(目)についても、頭部領域の切出処理の場合と同様に、ずれ修正の繰り返し処理(頭部領域の切出処理の場合のステップS6〜S9,S11,12に相当する処理)を行い、構成要素(目)について、最終的に真の領域またはそれに近い領域であると判断されて切り出された確定切出画像が得られたところで、この確定切出画像の位置データを確定切出位置データ記憶手段70に保存する(ステップS16)。
その後、処理を続行するか否かを判断し(ステップS17)、続行する場合には、ステップS2の処理へ戻り、次のフレーム画像の処理を行う。一方、続行しない場合には、領域検出処理を終了する(ステップS18)。
このような本実施形態によれば、次のような効果がある。すなわち、領域検出システム10は、真の領域の画像および複数種類(96種類)のずれ画像について、これらの各領域内の特徴に関する領域検出用モデル40A(40A01〜40A97)を予め作成して領域検出用モデル記憶手段40に記憶させておき、これらの各領域検出用モデル40A(40A01〜40A97)を用いて、処理対象画像の中から切り出した切出対象(頭部)の領域候補についての真の領域からの位置またはサイズのずれ量を推定する処理を行うので、従来のような単一モデルによる領域検出の場合に比べ、領域検出の精度および安定性を向上させることができる。また、多量の教示データから作成されたモデルを用いた領域検出を行うので、対象の姿勢に依存しない領域検出を実現することができる。
さらに、領域検出システム10は、各ずれに対し、それぞれ領域検出用モデル40A(40A01〜40A97)を作成し、これらの複数の領域検出用モデル40A(40A01〜40A97)と、処理対象画像との一致度を評価しているが、処理対象画像から複数のずれ画像を作成し、それらの画像を単一のモデルで評価する方法を採っても、領域検出システム10の場合と同様な結果を得ることができると考えられる。しかし、処理対象画像から複数のずれ画像をその都度作成すると、認識時の演算処理量が多くなるので、高速化ハードウェア等を使用しない限り、処理に時間がかかるという問題が生じる。これに対し、領域検出システム10では、複数の領域検出用モデル40A(40A01〜40A97)は事前に作成しておくので、認識時の演算処理量を少なくすることができるため、処理の高速化を図ることができ、処理時間を短縮することができる。
また、領域検出システム10は、領域候補の画像の切出しおよび一致率の算出を繰り返す構成(図4のステップS6〜S9,S11,12参照)とされているので、徐々に領域候補を真の領域に近づけ、領域候補と真の領域とのずれを収束させていくことができ、領域検出の精度および安定性を、より一層向上させることができる。
さらに、領域検出システム10は、各ずれ量のうちの少なくとも一つをサブピクセル単位で設定しているので、原画像の解像度に依存しない高い精度の領域切出を行うことができる。すなわち、従来の多くの手法では、境界の検出精度は、原画像の解像度に依存しており、従って、高い領域切出精度を得るためには、特徴量を高解像度化する必要があったのに対し、領域検出システム10では、学習時にずれ量をサブピクセル単位で設定して各領域検出用モデル40A(40A01〜40A97)を作成するので、サブピクセルの領域切出精度を得ることができ、原画像の解像度に依存しない高い領域切出精度を実現できる。
そして、領域検出システム10では、各ずれ量を不均一な間隔で設定しているので、領域候補を真の領域に近づけていく際に、毎回のずれの修正量を徐々に小さくしていくことができ、領域切出位置の合理的な修正処理を実現できる。
さらに、領域検出システム10では、各領域検出用モデル40A(40A01〜40A97)を作成する際に、主成分分析(PCA)で得られた基底ベクトルX1 k,X2 k,X3 kで張られる部分空間(クラスk=1〜97)を形成するという部分空間法を採用しているので、切出対象となる物体(頭部)の姿勢変化に左右されない領域検出を行うことができる。また、それぞれの部分空間は、複数のテンプレートを持ったテンプレートマッチングと考えることができ、切出対象となる物体(頭部)の姿勢変化を効率的にモデル化することができる。
また、各領域検出用モデル40Aは、主成分分析(PCA)により低次元に圧縮されて作成されているので、計算量を減少させることができ、処理速度を向上させることができる。
そして、領域検出システム10は、前フレームの確定切出画像の領域位置と同じ位置の領域を、現在処理対象となっているフレーム画像の中で最初に領域候補として切り出す処理を行うので、動画像を構成する各フレーム画像の連続処理を円滑に行うことができ、各フレームで効率的な領域検出を行うことができる。
また、領域検出システム10は、構成要素位置推定処理手段35、構成要素位置推定用モデル記憶手段50、および非線形関数記憶手段60を備えているので、構成要素(目)の位置を推定することができるため、多段階の切出処理を円滑に行うことができる。また、多数の教示データを収集し、統計的な手法により切出対象(頭部)の領域内の特徴量に関する構成要素位置推定用モデルである目領域位置推定用モデル51を構築するので、環境に左右されず、かつ、パラメータ数の少ない(統計的に妥当性のある自由度の少ない)モデルを作成することができる。
さらに、領域検出システム10では、非線形関数61の学習を行う前段として、統計的な手法によるパラメータ抽出を置くので、すなわち切出対象(頭部)の領域の画像の多数の教示データについて構成要素位置推定用モデルである目領域位置推定用モデル51を用いて切出対象(頭部)の領域内の特徴に関するパラメータをそれぞれ算出するので、このようなパラメータ抽出を行わない場合に比べ、パラメータ数を少なくすることができる。このため、非線形関数61の学習を容易に行うことができる。
また、非線形関数61をパターン認識の一手法として用いるのではなく、パラメータ同士のマッピングとして学習させるので、非出現データに対して高い汎化能力を持たせることができる。このため、教示データ量がそれ程多くない場合でも高い推定性能を期待することができる。
そして、非線形関数61の学習は、切出対象(頭部)の領域の画像およびこの画像の中に含まれる構成要素(目)の位置について対になる多数の教示データを収集し、このうち切出対象(頭部)の領域の画像の多数の教示データについて構成要素位置推定用モデルである目領域位置推定用モデル51を用いて切出対象(頭部)の領域内の特徴に関するパラメータをそれぞれ算出し、これらの算出したパラメータとこれらのパラメータに対応する構成要素の位置に関するパラメータとを関連付けることにより行われるので、実データに即した非線形関数61の学習を行うことができる。
また、領域検出システム10では、現在処理対象となっている画像に含まれる切出対象(頭部)の確定切出画像について、構成要素位置推定用モデルである目領域位置推定用モデル51を用いて、この確定切出画像の領域内の特徴に関するパラメータを算出した後、算出したパラメータに基づき非線形関数61を用いて確定切出画像の中の構成要素(目)の位置に関するパラメータを算出するので、現在の処理対象画像に即した構成要素(目)の領域位置の推定を行うことができる。
さらに、領域検出システム10では、構成要素位置推定処理手段35により推定された構成要素(目)の位置に基づき、構成要素(目)の第一の最初の領域候補の画像を切り出すとともに、前フレームで切り出された構成要素(目)の確定切出画像の領域位置に基づき、構成要素(目)の第二の最初の領域候補の画像を切り出し、これらの第一および第二の最初の領域候補の画像と、各領域検出用モデル40B(40B01〜40B97)との一致率を総合的に比較して、次の領域候補の切出位置を決定する処理を行うので、次の領域候補を適切に切り出すこと、すなわち構成要素(目)の真の領域に、より近いと予想される領域を次の領域候補として切り出すことができるため、構成要素(目)の領域候補を迅速に真の領域に近づけることができ、多段階の切出処理の円滑化を図ることができる。
なお、本発明は前記実施形態に限定されるものではなく、本発明の目的を達成できる範囲内での変形等は本発明に含まれるものである。
すなわち、前記実施形態では、各領域検出用モデル40A,40Bは、部分空間法により形成されたモデルとされていたが、本発明における領域検出用モデルは、これに限定されるものではなく、例えば、サポートベクターマシン(SVM)、ニューラルネットワーク、ベイズ認識等を適用してもよい。
また、前記実施形態では、X,Y方向の位置ずれ(クラスk=2〜49)と、W,H方向のサイズずれ(クラスk=50〜97)とを独立させてパターン設定し、各領域検出用モデル40A(40A02〜40A97)を作成していたが、X,Y方向の位置ずれとW,H方向のサイズずれとを混合させたずれパターンを設定し、各領域検出用モデルを作成してもよい。但し、前記実施形態のように独立させたパターン設定で十分に高精度で安定した領域検出を行うことができるので、処理時間の短縮等の観点からは、独立させたパターン設定とすることが好ましい。
さらに、前記実施形態の領域検出システム10では、原画像の画素単位でのサブピクセル処理が行われていたが、正規化後の画像の画素単位を細分化した正規化サブピクセル単位で、ずれ量を設定する正規化サブピクセル処理を行うようにしてもよい。例えば、真の領域の画像が、原画像の画素単位で60×60ピクセルであり、これを正規化して16×16の解像度に縮小したとすると、正規化サブピクセル単位で、0.1のずれ量を有するずれ画像を作成するときには、原画像の画素単位でのずれ量を、0.1×(60/16)ピクセルにすればよい。なお、端数が生じる場合には、適宜、四捨五入や切り捨て等を行えばよい。また、真の領域の画像が、原画像の画素単位で縦56×横64ピクセルであり、これを正規化して16×16の解像度に縮小したとすると、正規化サブピクセル単位で、縦0.1、横0.1のずれ量を有するずれ画像を作成するときには、原画像の画素単位でのずれ量を、縦0.1×(56/16)ピクセル、横0.1×(64/16)ピクセルにすればよい。さらに、現在処理対象となっている画像における領域候補の推定ずれ量を算出する場合も同様であり、例えば、領域候補の画像が、原画像の画素単位で縦62×横49ピクセルであり、これを正規化して16×16の解像度に縮小したとすると、正規化サブピクセル単位で、縦0.3、横0.5のずれ量と推定された場合には、原画像の画素単位での推定ずれ量は、縦0.3×(62/16)、横0.5×(49/16)とすればよい。
このように各ずれ量を正規化サブピクセル単位で設定した場合には、ずれ量を正規化することができるので、各領域検出用モデルの作成に用いられる多数の教示データが、様々なサイズであってもその影響を受けずに各ずれの度合いに対応する領域検出用モデルを構築することができ、あるいは領域検出処理対象の画像の中に含まれる切出対象の領域のサイズが、教示データのサイズと異なっていてもその影響を受けずに適切な推定ずれ量を算出することができる。