JP2005250863A

JP2005250863A - 領域検出方法およびそのシステム

Info

Publication number: JP2005250863A
Application number: JP2004060498A
Authority: JP
Inventors: Tetsunori Kobayashi; 哲則小林; Yousuke Matsuzaka; 要佐松坂
Original assignee: Waseda University
Current assignee: Waseda University
Priority date: 2004-03-04
Filing date: 2004-03-04
Publication date: 2005-09-15

Abstract

【課題】高精度で安定した領域検出を行うことができる領域検出方法およびそのシステムを提供すること。
【解決手段】切出対象を適切に切り出した真の領域の画像およびこの真の領域に対して位置やサイズをずらして切り出した複数種類のずれ画像について、それぞれ多数の教示データを収集し、これらに基づき真の領域の画像および複数種類のずれ画像の各領域内の特徴に関する領域検出用モデル４０Ａをそれぞれ予め作成しておき、処理対象画像の中から切出対象の領域候補の画像を切り出した後、切り出した領域候補の画像と各領域検出用モデル４０Ａとの一致率をそれぞれ算出し、算出した一致率が最も高い領域検出用モデル４０Ａに対応する位置やサイズのずれ量を、領域候補と真の領域とのずれ量と推定する。
【選択図】図１

Description

本発明は、画像の中に含まれる切出対象の領域を検出する領域検出方法およびそのシステムに係り、例えば、個人認証、動作認識、視線検出等を行う各種の画像認識システム等に利用できる。

一般に、個人認証、動作認識、視線検出等の画像認識アプリケーションにおいては、その前段として、入力した画像から顔や目、あるいは手等の対象領域を検出し、切り出す必要がある。性能の高い画像認識アプリケーションを作成するためには、認識の対象となる領域について高精度で安定した切り出しを行うことが不可欠である。

しかしながら、切り出しの対象となる物体の姿勢変化や画像入力装置の解像度の限界等により、対象の高精度な切り出しを行うことは一般に困難である。従来の画像認識アプリケーションでは、姿勢変化を防ぐために対象の姿勢を固定したり、高解像度な画像を取得できるように対象の位置をカメラ前に固定したりするなどの対策を採って性能を高めていた。セキュリティやヒューマンインターフェース関連のアプリケーションにおいては、ユーザに対する拘束は低い方が望ましく、上記のような対策がなくなる方がよいことは言うまでもない。

このような問題を解決するために、対象領域に関する大量の教示データを集め、統計的な手法により領域内の特徴量に関するモデルを作成し、対象の姿勢に依存しない領域検出を実現する装置が提案されている（特許文献１〜３参照）。

また、目、鼻、口等の顔部品の位置は、それらの付属する頭部の姿勢によって従属的に変動する。このため、頭部の姿勢を手がかりとすれば、現在の姿勢における顔部品の大まかな位置を推定することができる。しかしながら、入力画像の環境変化等により、頭部姿勢の高精度な推定を行うことは一般に困難である。従来の画像認識アプリケーションでは、個人性や照明環境による変化をパラメータとして持った多自由度の頭部形状モデルを作成する等して性能を高めていた。この多自由度の頭部形状モデルは、入力画像に対してマッチングを取る際に、そのパラメータを収束させることが困難であるため、実用的な画像処理アプリケーションを作るうえでの大きな障壁になっている。

なお、このような顔部品の位置推定に関する基本技術として、対象領域に関する大量の教示データを集め、統計的な手法により領域内の特徴量に関するモデルを作成する技術がある（非特許文献１参照）。

特許第３２５２９４１号掲載公報特開平９−３３０４０４号公報特開平１０−２４７２４６号公報村瀬洋、Ｓ．Ｋ．ネイヤ（Ｓ．Ｋ．Ｎａｙａｒ）、「２次元照合による３次元物体認識−パラメトリック固有空間法−」、信学論、１９９４年、Ｊ７７−Ｄ−II、１１、ｐ．２１７９−２１８７

しかしながら、前述した特許文献１〜３に記載された領域検出装置では、統計的な手法により領域内の特徴量に関するモデルを作成し、これを用いて領域検出を行うので、対象の姿勢に依存しない領域検出を実現することはできるものの、基本的に単一のモデルを用いるため、精度および安定性の点で不十分であり、さらに精度および安定性を向上させることが望まれる。

また、上記のように領域検出の精度および安定性を向上させることと併せて、入力画像内の対象領域の位置推定を高精度化する推定アルゴリズムを確立すれば、画像認識アプリケーションの機能を向上させることができる。

本発明の目的は、高精度で安定した領域検出を行うことができる領域検出方法およびそのシステムを提供するところにある。

本発明は、画像の中に含まれる切出対象の領域を検出する領域検出方法であって、画像の中から切出対象を適切に切り出した真の領域の画像およびこの真の領域に対して位置および／またはサイズをずらした領域を切り出した複数種類のずれ画像について、それぞれ多数の教示データを収集し、これらの多数の教示データに基づき真の領域の画像および複数種類のずれ画像の各領域内の特徴に関する領域検出用モデルをそれぞれ予め作成しておき、切出対象を含む領域検出処理対象の画像の中から切出対象の領域候補の画像を切り出した後、この切り出した領域候補の画像と各領域検出用モデルとの一致率をそれぞれ算出し、算出した一致率が最も高い領域検出用モデルに対応する位置および／またはサイズのずれ量を、領域候補と真の領域とのずれ量と推定することを特徴とするものである。

ここで、「切出対象を含む領域検出処理対象の画像」には、動画像も静止画像も含まれる。

また、「位置および／またはサイズをずらした領域」には、サイズは変えずに位置だけずらした領域、位置（中心位置）は変えずにサイズを拡大または縮小してずらした領域、並びに位置およびサイズの双方を同時にずらした領域が含まれる。

このような本発明の領域検出方法においては、真の領域の画像および複数種類のずれ画像について、これらの各領域内の特徴に関する領域検出用モデルを予め作成しておき、これらの各領域検出用モデルを用いて、切出対象を含む領域検出処理対象の画像の中から切り出した切出対象の領域候補についての真の領域からの位置および／またはサイズのずれ量を推定する。

このため、従来のような単一モデルによる領域検出の場合に比べ、領域検出の精度および安定性を向上させることが可能となる。また、多量の教示データから作成されたモデルを用いた領域検出を行うため、対象の姿勢に依存しない領域検出を実現することができるという従来方法の利点もそのまま保持される。

さらに、本発明では、各ずれに対し、それぞれ領域検出用モデルを作成し、これらの複数の領域検出用モデルと処理対象画像との一致度を評価しているが、処理対象画像から複数のずれ画像を作成し、それらの画像を単一のモデルで評価する方法を採っても、本発明の場合と同様な結果を得ることができると考えられる。しかし、処理対象画像から複数のずれ画像をその都度作成すると、認識時の演算処理量が多くなるので、高速化ハードウェア等を使用しない限り、処理に時間がかかるという問題が生じる。これに対し、本発明では、複数の領域検出用モデルは事前に作成しておくので、認識時の演算処理量は少なくなり、処理時間が短くなって高速化が図られることから、処理時間の面で有利であり、これらにより前記目的が達成される。

また、前述した領域検出方法において、領域候補と真の領域とのずれ量を推定した後、推定したずれ量に基づき切出対象の領域を推定してこの推定した領域の画像を新たな領域候補の画像として切り出し、この切り出した新たな領域候補の画像と各領域検出用モデルとの一致率をそれぞれ算出し、算出した一致率が最も高い領域検出用モデルに対応する位置および／またはサイズのずれ量を、新たな領域候補と真の領域とのずれ量と推定し、これらの領域候補の画像の切出しおよび一致率の算出を繰り返すことにより、領域候補を真の領域に近づけることが望ましい。

このように領域候補の画像の切出しおよび一致率の算出を繰り返す構成とした場合には、徐々に領域候補を真の領域に近づけ、領域候補と真の領域とのずれを収束させていくことが可能となり、領域検出の精度および安定性を、より一層向上させることが可能となる。なお、繰り返しを終了させるには、例えば、真の領域の画像に対応する領域検出用モデルとの一致率が最も高くなったこと、あるいは、ずれ量の修正（領域候補の更新）の回数が規定回数以上になったこと等を契機とすることができる。

さらに、前述した領域検出方法において、複数種類のずれ画像の各ずれ量を設定する際には、これらの各ずれ量のうちの少なくとも一つを、前記切出対象を含む原画像を構成する画素単位を細分化したサブピクセル単位で設定することが望ましい。

このように複数種類のずれ画像の各ずれ量のうちの少なくとも一つをサブピクセル単位で設定した場合には、原画像の解像度に依存しない高い精度の領域切出を行うことが可能となる。すなわち、従来の多くの手法では、境界の検出精度は、原画像の解像度に依存しており、従って、高い領域切出精度を得るためには、特徴量を高解像度化する必要があったのに対し、本発明では、学習時にずれ量をサブピクセル単位で設定して各領域検出用モデルを作成するので、サブピクセルの領域切出精度が得られ、領域切出精度は原画像の解像度に依存しない。

そして、前述した領域検出方法において、各領域検出用モデルは、真の領域の画像および複数種類のずれ画像をそれぞれ正規化した後に作成し、領域候補の画像と各領域検出用モデルとの一致率は、領域候補の画像を正規化した後に算出し、複数種類のずれ画像の各ずれ量を設定する際には、これらの各ずれ量のうちの少なくとも一つを、正規化後の画像の画素単位を細分化した正規化サブピクセル単位で設定し、この正規化サブピクセル単位で設定されたずれ量を、原画像の画素単位に換算するようにしてもよい。

このように複数種類のずれ画像の各ずれ量のうちの少なくとも一つを正規化サブピクセル単位で設定した場合には、ずれ量を正規化することができるので、各領域検出用モデルの作成に用いられる多数の教示データが、様々なサイズであってもその影響を受けずに各ずれの度合いに対応する領域検出用モデルを構築でき、あるいは領域検出処理対象の画像の中に含まれる切出対象の領域のサイズが、教示データのサイズと異なっていてもその影響を受けずに適切な推定ずれ量を算出することが可能となる。

また、前述した領域検出方法において、複数種類のずれ画像の各ずれ量を不均一な間隔で設定し、ずれ量の絶対値が大きい程、ずれ量同士の間隔を大きく設定することが望ましい。

このように複数種類のずれ画像の各ずれ量を不均一な間隔で設定した場合には、領域候補を真の領域に近づけていく際に、毎回のずれの修正量を徐々に小さくしていくことが可能となり、領域切出位置の合理的な修正処理が実現される。

さらに、前述した領域検出方法において、各領域検出用モデルは、真の領域の画像および複数種類のずれ画像のそれぞれについて多数の教示データを用いて主成分分析を行うことにより低次元の特徴量への圧縮を行い、この主成分分析で得られた基底ベクトルで張られる部分空間を形成することにより作成することが望ましい。

このように主成分分析で得られた基底ベクトルで張られる部分空間を形成することにより各領域検出用モデルを作成した場合（以下、部分空間法という。）には、切出対象となる物体の姿勢変化に左右されない領域検出を行うことが可能となる。すなわち、部分空間法は、クラス識別（ここでは、複数種類のずれ画像、あるいはこれらのずれ画像の各ずれ量が識別される各クラスとなる。）を行う識別器の一つであり、特に、画像識別等の応用分野において高い性能が得られることが知られている。また、それぞれの部分空間は、複数のテンプレートを持ったテンプレートマッチングと考えることができ、切出対象となる物体の姿勢変化を効率的にモデル化することが可能である。

そして、前述した領域検出方法において、切出対象を含む領域検出処理対象の画像が、動画像を構成する各フレーム画像である場合には、現在処理対象となっているフレーム画像の中から切出対象の最初の領域候補の画像を切り出す際には、前フレームでの領域検出処理で切出対象についての領域候補と真の領域とのずれ量を推定することにより、最終的に真の領域またはそれに近い領域であると判断されて前フレーム画像の中から切り出された切出対象の確定切出画像の領域位置と同じ位置の領域を切り出すことが望ましい。

ここで、「真の領域またはそれに近い領域」には、真の領域内の特徴に関する領域検出用モデルとの一致率が最も高くなったときの領域候補の領域位置の他、例えば、ずれ量の修正回数が規定回数以上になったときの領域候補の領域位置等も含まれる。

このように前フレームの確定切出画像の領域位置と同じ位置の領域を、現在処理対象となっているフレーム画像の中で最初に領域候補として切り出すようにした場合には、動画像を構成する各フレーム画像の連続処理を円滑に行うことができ、各フレームで効率的な領域検出を行うことが可能となる。

また、前述した領域検出方法において、切出対象についての領域候補と真の領域とのずれ量を推定することにより、最終的に真の領域またはそれに近い領域であると判断されて切り出された切出対象の確定切出画像の中から、この切り出された切出対象を構成する構成要素を切り出す際には、切出対象の領域の画像について多数の教示データを収集し、これらの多数の教示データに基づき切出対象の領域内の特徴に関する構成要素位置推定用モデルを予め作成しておくとともに、切出対象の領域の画像およびこの画像の中に含まれる構成要素の位置について対になる多数の教示データを収集し、このうち切出対象の領域の画像の多数の教示データについて構成要素位置推定用モデルを用いて切出対象の領域内の特徴に関するパラメータをそれぞれ算出し、これらの算出したパラメータとこれらのパラメータに対応する構成要素の位置に関するパラメータとを関連付ける非線形関数を予め学習して作成しておき、確定切出画像について構成要素位置推定用モデルを用いてこの確定切出画像の領域内の特徴に関するパラメータを算出した後、算出したパラメータに基づき非線形関数を用いて確定切出画像の中の構成要素の位置に関するパラメータを算出することにより、構成要素の位置を推定することが望ましい。

ここで、「構成要素」とは、例えば、切出対象の領域が頭部領域である場合には、頭部領域画像に含まれる目や鼻や口等の顔部品等である。

また、「位置」の推定と合わせ、サイズの推定を行うようにしてもよい。

さらに、「構成要素位置推定用モデル」を作成するための「多数の教示データ」として収集される「切出対象の領域の画像」の各々は、真の領域の画像でもよく、あるいは、事前処理として、前述した各領域検出用モデルを用いた一致率の算出を行い、切出対象についての領域候補と真の領域とのずれ量を推定することにより、最終的に真の領域またはそれに近い領域であると判断されて切り出された切出対象の確定切出画像（あくまでも事前に領域検出処理を行って得られた確定切出画像であり、現在処理（認識時の処理）として行われる領域検出処理の場合と同様な処理過程を経て事前に得られた確定切出画像という意味である。）でもよい。なお、前者のように真の領域の画像とするのではなく、後者のように各領域検出用モデルを用いて事前処理としての領域検出処理を行って切り出された確定切出画像とする場合には、より認識時（リアルタイム処理時）の環境に近い画像データを事前学習に使うことができる。

そして、「構成要素位置推定用モデル」を作成するために収集される「切出対象の領域の画像」についての「多数の教示データ」と、「非線形関数」を作成するために収集される「切出対象の領域の画像およびこの画像の中に含まれる構成要素の位置」についての「対になる多数の教示データ」のうちの「切出対象の領域の画像の多数の教示データ」とは、同じデータでもよく、異なるデータでもよい。

また、「構成要素」がさらに複数の要素から構成されている場合には、「構成要素」と、その「構成要素」を構成する構成要素との関係を、本発明における「切出対象」とその「構成要素」との関係に置き換えて考えることにより、「構成要素」を構成する構成要素の位置の推定にも本発明を適用することができ、従って、２段階のみならず、３段階以上の切出処理にも本発明を適用することができる。

このように構成要素位置推定用モデルおよび非線形関数を用いて構成要素の位置を推定するようにした場合には、多段階の切出処理を円滑に行うことが可能となる。また、多数の教示データを収集し、統計的な手法により切出対象の領域内の特徴量に関する構成要素位置推定用モデルを構築するので、環境に左右されず、かつ、パラメータ数の少ない（統計的に妥当性のある自由度の少ない）モデルを作成することが可能となる。

さらに、非線形関数の学習を行う前段として、統計的な手法によるパラメータ抽出を置くので、すなわち切出対象の領域の画像の多数の教示データについて構成要素位置推定用モデルを用いて切出対象の領域内の特徴に関するパラメータをそれぞれ算出するので、このようなパラメータ抽出を行わない場合に比べ、パラメータ数が少なくなる。このため、非線形関数の学習が容易になる。

また、非線形関数をパターン認識の一手法として用いるのではなく、パラメータ同士のマッピングとして学習させるので、非出現データに対して高い汎化能力がある。このため、教示データ量が少ない場合でも高い推定性能が期待できる。

そして、非線形関数の学習は、切出対象の領域の画像およびこの画像の中に含まれる構成要素の位置について対になる多数の教示データを収集し、このうち切出対象の領域の画像の多数の教示データについて構成要素位置推定用モデルを用いて切出対象の領域内の特徴に関するパラメータをそれぞれ算出し、これらの算出したパラメータとこれらのパラメータに対応する構成要素の位置に関するパラメータとを関連付けることにより行われるので、実データに即した非線形関数の学習を行うことが可能となる。

また、現在処理対象となっている画像に含まれる切出対象の確定切出画像について構成要素位置推定用モデルを用いてこの確定切出画像の領域内の特徴に関するパラメータを算出した後、算出したパラメータに基づき非線形関数を用いて確定切出画像の中の構成要素の位置に関するパラメータを算出するので、現在の処理対象画像に即した構成要素の領域位置の推定を行うことが可能となる。

そして、上述した構成要素位置推定用モデルおよび非線形関数を用いて構成要素の位置を推定するようにした場合において、構成要素についても、構成要素を適切に切り出した真の領域の画像およびこの真の領域に対して位置および／またはサイズをずらした領域を切り出した複数種類のずれ画像について、それぞれ多数の教示データを収集し、これらの多数の教示データに基づき真の領域の画像および複数種類のずれ画像の各領域内の特徴に関する領域検出用モデルをそれぞれ予め作成しておき、非線形関数を用いて確定切出画像の中の構成要素の位置を推定した後には、この推定した位置に基づき確定切出画像の中から構成要素の最初の領域候補の画像を切り出した後、この切り出した最初の領域候補の画像と構成要素用の各領域検出用モデルとの一致率をそれぞれ算出し、算出した一致率が最も高い領域検出用モデルに対応する位置および／またはサイズのずれ量を、構成要素についての最初の領域候補と真の領域とのずれ量と推定することが望ましい。

ここで、「確定切出画像の中から構成要素の最初の領域候補の画像を切り出」すことには、確定切出画像を含む全体画像の中から構成要素の最初の領域候補の画像を切り出すことが含まれる。

このように構成要素位置推定用モデルおよび非線形関数を用いて推定された構成要素の位置に基づき構成要素の最初の領域候補の画像を切り出すようにした場合には、最初の領域候補を適切に切り出すこと、すなわち構成要素の真の領域に近いと予想される領域を切り出すことが可能となるので、構成要素の領域候補を迅速に真の領域に近づけることができるようになり、多段階の切出処理の円滑化が図られる。

また、前述した構成要素位置推定用モデルおよび非線形関数を用いて構成要素の位置を推定するようにした場合において、切出対象を含む領域検出処理対象の画像が、動画像を構成する各フレーム画像である場合には、構成要素についても、構成要素を適切に切り出した真の領域の画像およびこの真の領域に対して位置および／またはサイズをずらした領域を切り出した複数種類のずれ画像について、それぞれ多数の教示データを収集し、これらの多数の教示データに基づき真の領域の画像および複数種類のずれ画像の各領域内の特徴に関する領域検出用モデルをそれぞれ予め作成しておき、現在処理対象となっているフレーム画像について、非線形関数を用いて確定切出画像の中の構成要素の位置を推定した後に、この推定した位置に基づき確定切出画像の中から構成要素の第一の最初の領域候補の画像を切り出した後、この切り出した第一の最初の領域候補の画像と構成要素用の各領域検出用モデルとの一致率をそれぞれ算出し、算出した一致率が最も高い領域検出用モデルに対応する位置および／またはサイズのずれ量を、構成要素についての第一の最初の領域候補と真の領域とのずれ量と推定する第一のずれ量推定処理を行うとともに、前フレームでの構成要素についての領域検出処理で最終的に真の領域またはそれに近い領域であると判断されて前フレーム画像の中から切り出された構成要素の確定切出画像の領域位置と同じ位置の領域を、現在処理対象となっているフレーム画像についての構成要素の第二の最初の領域候補の画像として切り出した後、この切り出した第二の最初の領域候補の画像と構成要素用の各領域検出用モデルとの一致率をそれぞれ算出し、算出した一致率が最も高い領域検出用モデルに対応する位置および／またはサイズのずれ量を、構成要素についての第二の最初の領域候補と真の領域とのずれ量と推定する第二のずれ量推定処理を行い、その後、これらの第一および第二のずれ量推定処理のそれぞれで最も高い一致率と判断された一致率同士を比較し、このうち一致率が高い方のずれ量推定処理に対応する第一または第二のいずれか一方の最初の領域候補およびその推定ずれ量に基づき、現在処理対象となっているフレーム画像についての構成要素の次の領域候補の画像を切り出すようにしてもよい。

このように構成要素位置推定用モデルおよび非線形関数を用いて推定された構成要素の位置に基づき構成要素の第一の最初の領域候補の画像を切り出すとともに、前フレームで切り出された構成要素の確定切出画像の領域位置に基づき構成要素の第二の最初の領域候補の画像を切り出し、これらの第一および第二の最初の領域候補の画像と各領域検出用モデルとの一致率を総合的に比較して次の領域候補の切出位置を決定するようにした場合には、次の領域候補を適切に切り出すこと、すなわち構成要素の真の領域に、より近いと予想される領域を次の領域候補として切り出すことが可能となるので、構成要素の領域候補を迅速に真の領域に近づけることができるようになり、多段階の切出処理の円滑化が図られる。

また、以上に述べた本発明の領域検出方法を実現するシステムとして、以下のような本発明の領域検出システムが挙げられる。

すなわち、本発明は、画像の中に含まれる切出対象の領域を検出する領域検出システムであって、画像の中から切出対象を適切に切り出した真の領域の画像およびこの真の領域に対して位置および／またはサイズをずらした領域を切り出した複数種類のずれ画像について、それぞれ多数収集された教示データに基づき予め作成された真の領域の画像および複数種類のずれ画像の各領域内の特徴に関する領域検出用モデルを記憶する領域検出用モデル記憶手段と、切出対象を含む領域検出処理対象の画像の中から切出対象の領域候補の画像を切り出す処理を行う領域候補画像切出処理手段と、この領域候補画像切出処理手段により切り出した領域候補の画像と各領域検出用モデルとの一致率をそれぞれ算出する一致率算出処理手段と、この一致率算出処理手段により算出した一致率が最も高い領域検出用モデルに対応する位置および／またはサイズのずれ量を、領域候補と真の領域とのずれ量と推定する処理を行うずれ量推定処理手段とを備えたことを特徴とするものである。

このような本発明の領域検出システムにおいては、前述した本発明の領域検出方法で得られる作用・効果がそのまま得られ、これにより前記目的が達成される。

また、前述した領域検出システムにおいて、領域候補画像切出処理手段は、ずれ量推定処理手段により推定したずれ量に基づき切出対象の領域を推定してこの推定した領域の画像を新たな領域候補の画像として切り出す処理も行う構成とされ、一致率算出処理手段は、領域候補画像切出処理手段により切り出した新たな領域候補の画像と各領域検出用モデルとの一致率をそれぞれ算出する処理も行う構成とされ、ずれ量推定処理手段は、一致率算出処理手段により算出した一致率が最も高い領域検出用モデルに対応する位置および／またはサイズのずれ量を、新たな領域候補と真の領域とのずれ量と推定する処理も行う構成とされていることが望ましい。

さらに、前述した領域検出システムにおいて、領域検出用モデル記憶手段に記憶された各領域検出用モデルに対応する位置および／またはサイズのずれ量のうちの少なくとも一つは、切出対象を含む原画像を構成する画素単位を細分化したサブピクセル単位で設定されていることが望ましい。

そして、前述した領域検出システムにおいて、領域検出用モデル記憶手段には、真の領域の画像および複数種類のずれ画像をそれぞれ正規化した後に作成された各領域検出用モデルが記憶され、一致率算出処理手段は、領域候補の画像を正規化した後に領域候補の画像と各領域検出用モデルとの一致率を算出する構成とされ、領域検出用モデル記憶手段に記憶された各領域検出用モデルに対応する位置および／またはサイズのずれ量のうちの少なくとも一つは、正規化後の画像の画素単位を細分化した正規化サブピクセル単位で設定されたずれ量を原画像の画素単位に換算したずれ量とされていてもよい。

また、前述した領域検出システムにおいて、領域検出用モデル記憶手段に記憶された各領域検出用モデルに対応する位置および／またはサイズのずれ量は、不均一な間隔で設定され、ずれ量の絶対値が大きい程、ずれ量同士の間隔が大きい設定とされていることが望ましい。

さらに、前述した領域検出システムにおいて、領域検出用モデル記憶手段には、真の領域の画像および複数種類のずれ画像のそれぞれについて多数の教示データを用いて主成分分析を行うことにより低次元の特徴量への圧縮を行い、この主成分分析で得られた基底ベクトルで張られる部分空間を形成することにより作成された各領域検出用モデルが記憶されていることが望ましい。

そして、前述した領域検出システムにおいて、切出対象を含む領域検出処理対象の画像が、動画像を構成する各フレーム画像である場合には、領域候補画像切出処理手段は、現在処理対象となっているフレーム画像の中から切出対象の最初の領域候補の画像を切り出す際には、前フレームでの領域検出処理で切出対象についての領域候補と真の領域とのずれ量を推定することにより、最終的に真の領域またはそれに近い領域であると判断されて前フレーム画像の中から切り出された切出対象の確定切出画像の領域位置と同じ位置の領域を切り出す構成とされていることが望ましい。

また、前述した領域検出システムにおいて、ずれ量推定処理手段により切出対象についての領域候補と真の領域とのずれ量を推定することにより、最終的に真の領域またはそれに近い領域であると判断されて切り出された切出対象の確定切出画像の中から、この切り出された切出対象を構成する構成要素を切り出す処理を行う際に用いるために、切出対象の領域の画像について収集された多数の教示データに基づき作成された切出対象の領域内の特徴に関する構成要素位置推定用モデルを記憶する構成要素位置推定用モデル記憶手段と、切出対象の領域の画像およびこの画像の中に含まれる構成要素の位置について収集された対になる多数の教示データのうち切出対象の領域の画像の多数の教示データについて構成要素位置推定用モデルを用いて切出対象の領域内の特徴に関するパラメータをそれぞれ算出し、これらの算出したパラメータとこれらのパラメータに対応する構成要素の位置に関するパラメータとを関連付ける学習を行って作成された非線形関数を記憶する非線形関数記憶手段と、確定切出画像について構成要素位置推定用モデルを用いてこの確定切出画像の領域内の特徴に関するパラメータを算出した後、算出したパラメータに基づき非線形関数を用いて確定切出画像の中の構成要素の位置に関するパラメータを算出することにより、構成要素の位置を推定する構成要素位置推定処理手段とを備えた構成とすることが望ましい。

さらに、上述した構成要素位置推定用モデルおよび非線形関数を用いて構成要素の位置を推定する構成とした場合において、領域検出用モデル記憶手段には、構成要素を適切に切り出した真の領域の画像およびこの真の領域に対して位置および／またはサイズをずらした領域を切り出した複数種類のずれ画像について、それぞれ多数収集された教示データに基づき予め作成された真の領域の画像および複数種類のずれ画像の各領域内の特徴に関する構成要素用の領域検出用モデルも記憶され、領域候補画像切出処理手段は、構成要素位置推定処理手段により推定された構成要素の位置に基づき確定切出画像の中から構成要素の最初の領域候補の画像を切り出す処理も行う構成とされ、一致率算出処理手段は、領域候補画像切出処理手段により切り出した構成要素の最初の領域候補の画像と構成要素用の各領域検出用モデルとの一致率をそれぞれ算出する処理も行う構成とされ、ずれ量推定処理手段は、一致率算出処理手段により算出した一致率が最も高い領域検出用モデルに対応する位置および／またはサイズのずれ量を、構成要素についての最初の領域候補と真の領域とのずれ量と推定する処理も行う構成とされていることが望ましい。

そして、前述した構成要素位置推定用モデルおよび非線形関数を用いて構成要素の位置を推定する構成とした場合において、切出対象を含む領域検出処理対象の画像が、動画像を構成する各フレーム画像である場合には、領域検出用モデル記憶手段には、構成要素を適切に切り出した真の領域の画像およびこの真の領域に対して位置および／またはサイズをずらした領域を切り出した複数種類のずれ画像について、それぞれ多数収集された教示データに基づき予め作成された真の領域の画像および複数種類のずれ画像の各領域内の特徴に関する構成要素用の領域検出用モデルも記憶され、領域候補画像切出処理手段は、現在処理対象となっているフレーム画像について、構成要素位置推定処理手段により推定された構成要素の位置に基づき確定切出画像の中から構成要素の第一の最初の領域候補の画像を切り出す処理も行う構成とされ、一致率算出処理手段は、領域候補画像切出処理手段により切り出した構成要素の第一の最初の領域候補の画像と構成要素用の各領域検出用モデルとの一致率をそれぞれ算出する処理も行う構成とされ、ずれ量推定処理手段は、第一の最初の領域候補の画像について一致率算出処理手段により算出した一致率が最も高い領域検出用モデルに対応する位置および／またはサイズのずれ量を、構成要素についての第一の最初の領域候補と真の領域とのずれ量と推定する第一のずれ量推定処理も行う構成とされ、これに加え、領域候補画像切出処理手段は、前フレームでの構成要素についての領域検出処理で最終的に真の領域またはそれに近い領域であると判断されて前フレーム画像の中から切り出された構成要素の確定切出画像の領域位置と同じ位置の領域を、現在処理対象となっているフレーム画像についての構成要素の第二の最初の領域候補の画像として切り出す処理も行う構成とされ、一致率算出処理手段は、領域候補画像切出処理手段により切り出した構成要素の第二の最初の領域候補の画像と構成要素用の各領域検出用モデルとの一致率をそれぞれ算出する処理も行う構成とされ、ずれ量推定処理手段は、第二の最初の領域候補の画像について一致率算出処理手段により算出した一致率が最も高い領域検出用モデルに対応する位置および／またはサイズのずれ量を、構成要素についての第二の最初の領域候補と真の領域とのずれ量と推定する第二のずれ量推定処理も行う構成とされ、さらに、ずれ量推定処理手段は、第一および第二のずれ量推定処理のそれぞれで最も高い一致率と判断された一致率同士を比較し、このうち一致率が高い方のずれ量推定処理を決定する処理も行う構成とされ、領域候補画像切出処理手段は、ずれ量推定処理手段により決定されたずれ量推定処理に対応する第一または第二のいずれか一方の最初の領域候補およびその推定ずれ量に基づき、現在処理対象となっているフレーム画像についての構成要素の次の領域候補の画像を切り出す処理も行う構成としてもよい。

以上に述べたように本発明によれば、真の領域の画像および複数種類のずれ画像について、これらの各領域内の特徴に関する領域検出用モデルを予め作成しておき、これらの各領域検出用モデルを用いて、切出対象を含む領域検出処理対象の画像の中から切り出した切出対象の領域候補についての真の領域からの位置および／またはサイズのずれ量を推定するので、従来のような単一モデルによる領域検出を行う場合に比べ、領域検出の精度および安定性を向上させることができるうえ、多量の教示データから作成されたモデルを用いた領域検出を行うため、対象の姿勢に依存しない領域検出を実現することができ、さらに、複数種類のずれ量に対応する各領域検出用モデルを事前に作成しておくので、処理対象画像から複数のずれ画像をその都度作成し、それらの画像を単一のモデルで評価する方法を採る場合に比べ、現在処理対象となっている画像についての演算処理量を減らすことができ、処理時間を短縮することができるという効果がある。

以下に本発明の一実施形態について図面を参照して説明する。図１には、本実施形態の領域検出システム１０の全体構成が示されている。図２は、真の領域の画像および複数種類のずれ画像の作成方法の説明図であり、図３は、各領域検出用モデル４０Ａ，４０Ｂの作成方法の説明図である。また、図４には、領域検出システム１０による処理の流れがフローチャートで示されている。さらに、図５には、原画像を構成する画素、真の領域、ずれ領域、および正規化画像の画素単位の関係が示され、図６には、正規化画像の作成方法が示されている。

図１において、領域検出システム１０は、切出対象（本実施形態では、一例として頭部とする。）およびその構成要素（本実施形態では、一例として顔部品である目とする。）を撮影するＣＣＤカメラやＣＭＯＳカメラ等のカメラ２０と、領域検出に関する各種処理を行う処理手段３０と、この処理手段３０に接続された領域検出用モデル記憶手段４０、構成要素位置推定用モデル記憶手段５０、非線形関数記憶手段６０、および確定切出位置データ記憶手段７０とを備えている。

処理手段３０は、フレーム画像取込処理手段３１と、領域候補画像切出処理手段３２と、一致率算出処理手段３３と、ずれ量推定処理手段３４と、構成要素位置推定処理手段３５とを含んで構成されている。

フレーム画像取込処理手段３１は、カメラ２０で撮影されて送られてくるフレーム画像を処理手段３０に取り込む処理（後述する図４のステップＳ２）を行うものである。

領域候補画像切出処理手段３２は、切出対象（頭部）を含む領域検出処理対象の画像（ここでは、動画像を構成する各フレーム画像）の中から、切出対象（頭部）の最初の領域候補の画像を切り出す処理（図４のステップＳ５）を行うとともに、ずれ量推定処理手段３４により推定したずれ量に基づき、切出対象（頭部）の領域を推定してこの推定した領域の画像を新たな領域候補（２回目以降の領域候補）の画像として切り出す処理（図４のステップＳ１１）を行うものである。

この際、領域候補画像切出処理手段３２は、現在処理対象となっているフレーム画像の中から切出対象（頭部）の最初の領域候補の画像を切り出す処理（図４のステップＳ５）を行うときには、前フレーム画像の中から切り出された切出対象（頭部）の確定切出画像の領域位置と同じ位置の領域を切り出す。ここで、前フレーム画像の中から切り出された切出対象（頭部）の確定切出画像とは、前フレームにおける領域検出処理で最終的に真の領域またはそれに近い領域であると判断されて切り出された画像（前フレームの処理における図４のステップＳ１０）であり、真の領域内の特徴に関する領域検出用モデル４０Ａ０１との一致率が最も高くなったときの領域候補の画像である場合（前フレームの処理において図４のステップＳ９からステップＳ１０へ移行した場合）と、ずれ量の修正回数が規定回数以上になったときの領域候補の画像である場合（前フレームの処理において図４のステップＳ１２からステップＳ１０へ移行した場合）とがある。

また、領域候補画像切出処理手段３２は、現在処理対象となっているフレーム画像について構成要素位置推定処理手段３５により推定された構成要素（目）の位置に基づき、切出対象（頭部）の確定切出画像の中から（全体画像の中からと考えてもよい。）構成要素（目）の第一の最初の領域候補の画像を切り出す処理も行う。これに加え、領域候補画像切出処理手段３２は、前フレームにおける構成要素（目）についての領域検出処理（前フレームにおける図４のステップ１５）で最終的に真の領域またはそれに近い領域であると判断されて前フレーム画像の中から切り出された構成要素（目）の確定切出画像（前フレームにおける図４のステップ１６）の領域位置と同じ位置の領域を、現在処理対象となっているフレーム画像についての構成要素（目）の第二の最初の領域候補の画像として切り出す処理も行う。

さらに、領域候補画像切出処理手段３２は、ずれ量推定処理手段３４による比較選択処理で決定された第一または第二のいずれか一方のずれ量推定処理に対応する第一または第二のいずれか一方の最初の領域候補およびその推定ずれ量に基づき、現在処理対象となっているフレーム画像についての構成要素（目）の２回目の領域候補の画像を切り出す処理も行う。そして、領域候補画像切出処理手段３２は、ずれ量推定処理手段３４により推定した構成要素（目）のずれ量に基づき、構成要素（目）の領域を推定してこの推定した領域の画像を新たな領域候補（３回目以降の領域候補）の画像として切り出す処理も行う。

一致率算出処理手段３３は、領域候補画像切出処理手段３２により切り出した切出対象（頭部）の領域候補の画像と、領域検出用モデル記憶手段４０に記憶されている頭部領域用の複数（本実施形態では、一例として９７個とする。）の領域検出用モデル４０Ａ（４０Ａ０１〜４０Ａ９７）の各々との一致率をそれぞれ算出する処理（図４のステップＳ７）を行うものである。これらの９７個の一致率の算出処理は、各フレーム毎に、最初の領域候補の画像および２回目以降の領域候補の画像について行う。

また、一致率算出処理手段３３は、領域候補画像切出処理手段３２により切り出した構成要素（目）の第一の最初の領域候補の画像と、領域検出用モデル記憶手段４０に記憶されている構成要素用（目領域用）の複数（本実施形態では、一例として９７個とする。）の領域検出用モデル４０Ｂ（４０Ｂ０１〜４０Ｂ９７）の各々との一致率をそれぞれ算出する処理も行う。これに加え、一致率算出処理手段３３は、領域候補画像切出処理手段３２により切り出した構成要素（目）の第二の最初の領域候補の画像と、領域検出用モデル記憶手段４０に記憶されている構成要素用（目領域用）の複数（９７個）の領域検出用モデル４０Ｂ（４０Ｂ０１〜４０Ｂ９７）の各々との一致率をそれぞれ算出する処理も行う。そして、一致率算出処理手段３３は、領域候補画像切出処理手段３２により切り出した構成要素（目）の２回目以降の領域候補の画像と、領域検出用モデル記憶手段４０に記憶されている構成要素用（目領域用）の複数（９７個）の領域検出用モデル４０Ｂ（４０Ｂ０１〜４０Ｂ９７）の各々との一致率をそれぞれ算出する処理も行う。

ずれ量推定処理手段３４は、一致率算出処理手段３３により算出した複数（９７個）の一致率（図４のステップＳ７）のうち最も高い一致率を求め、この最も高い一致率となった領域検出用モデル４０Ａ（４０Ａ０１〜４０Ａ９７のうちのいずれか一つ）に対応する位置またはサイズのずれ量を、切出対象（頭部）についての領域候補と真の領域とのずれ量と推定する処理（図４のステップＳ８）を行うものである。

また、ずれ量推定処理手段３４は、構成要素（目）の第一の最初の領域候補の画像について一致率算出処理手段３３により算出した複数（９７個）の一致率のうち最も高い一致率を求め、この最も高い一致率となった領域検出用モデル４０Ｂ（４０Ｂ０１〜４０Ｂ９７のうちのいずれか一つ）に対応する位置またはサイズのずれ量を、構成要素（目）についての第一の最初の領域候補と真の領域とのずれ量と推定する第一のずれ量推定処理も行う。これに加え、ずれ量推定処理手段３４は、構成要素（目）の第二の最初の領域候補の画像について一致率算出処理手段３３により算出した複数（９７個）の一致率のうち最も高い一致率を求め、この最も高い一致率となった領域検出用モデル４０Ｂ（４０Ｂ０１〜４０Ｂ９７のうちのいずれか一つ）に対応する位置またはサイズのずれ量を、構成要素（目）についての第二の最初の領域候補と真の領域とのずれ量と推定する第二のずれ量推定処理も行う。

さらに、ずれ量推定処理手段３４は、上述した第一および第二のずれ量推定処理のそれぞれで最も高い一致率と判断された一致率同士を比較し、このうち一致率が高い方のずれ量推定処理を決定する処理も行い、これにより決定された第一または第二のいずれか一方のずれ量推定処理に対応する第一または第二のいずれか一方の最初の領域候補およびその推定ずれ量に基づき、領域候補画像切出処理手段３２による構成要素（目）の２回目の領域候補の画像の切出処理が行われる。

そして、ずれ量推定処理手段３４は、構成要素（目）についての２回目以降の領域候補の画像についても、一致率算出処理手段３３により算出した複数（９７個）の一致率のうち最も高い一致率を求め、この最も高い一致率となった領域検出用モデル４０Ｂ（４０Ｂ０１〜４０Ｂ９７のうちのいずれか一つ）に対応する位置またはサイズのずれ量を、構成要素（目）についての領域候補と真の領域とのずれ量と推定する処理を行う。

構成要素位置推定処理手段３５は、切出対象（頭部）の確定切出画像（図４のステップＳ１０）について、構成要素位置推定用モデル記憶手段５０に記憶されている目領域位置推定用モデル５１を用いて、この確定切出画像の領域内の特徴に関するパラメータを算出した後、算出したパラメータに基づき、非線形関数記憶手段６０に記憶されている非線形関数６１を用いて、確定切出画像の中の構成要素（目）の位置に関するパラメータを算出することにより、構成要素（目）の位置を推定する処理（図４のステップＳ１３）を行うものである。ここで、確定切出画像の領域内の特徴に関するパラメータとは、本実施形態では、後述する如く、切出対象（頭部）の確定切出画像から得られるデータを目領域位置推定用モデル５１に入力して得られる射影（５つの各主成分の重み、すなわち主成分分析を行って求められている５つの各主成分の軸方向を向いた５つの基底ベクトルＸ₁〜Ｘ₅に対する各重み）α₁〜α₅であり、５つのスカラー量からなる５次元のベクトルデータである。また、構成要素（目）の位置に関するパラメータとは、本実施形態では、後述する如く、顔部品である目のＸＹ位置および縦横の寸法の合計４つのスカラー量からなる４次元のベクトルデータである。

領域検出用モデル記憶手段４０は、画像の中から切出対象（本実施形態では、一例として、頭部とする。）を適切に切り出した真の領域の画像およびこの真の領域に対して位置（Ｘ，Ｙ方向の移動量）またはサイズ（Ｗ，Ｈ方向の拡大縮小量）をずらした領域を切り出した複数種類（本実施形態では、一例として９６種類とする。）のずれ画像の各領域内の特徴に関する頭部領域用の領域検出用モデル４０Ａ（４０Ａ０１〜４０Ａ９７）を記憶するものである。これらの複数（９７個）の領域検出用モデル４０Ａは、真の領域の画像および複数種類（９６種類）のずれ画像について、それぞれ多数収集された教示データに基づき学習を行って予め作成されたモデルであり、本実施形態では、一例として、多数の教示データを用いて主成分分析（ＰＣＡ：プリンシパル・コンポーネント・アナリシス）を行うことにより低次元（本実施形態では、一例として３次元とする。）の特徴量への圧縮を行い、この主成分分析で得られた複数（３つ）の基底ベクトルで張られる部分空間を形成することにより作成された部分空間法によるモデルとする。

また、領域検出用モデル記憶手段４０は、画像の中から構成要素（本実施形態では、一例として、頭部を構成する顔部品である目とする。）を適切に切り出した真の領域の画像およびこの真の領域に対して位置（Ｘ，Ｙ方向の移動量）またはサイズ（Ｗ，Ｈ方向の拡大縮小量）をずらした領域を切り出した複数種類（本実施形態では、一例として９６種類とする。）のずれ画像の各領域内の特徴に関する目領域用の領域検出用モデル４０Ｂ（４０Ｂ０１〜４０Ｂ９７）も記憶する。これらの複数（９７個）の領域検出用モデル４０Ｂは、頭部領域用の各領域検出用モデル４０Ａの場合と同様に、真の領域の画像および複数種類（９６種類）のずれ画像について、それぞれ多数収集された教示データに基づき学習を行って予め作成されたモデルであり、本実施形態では、一例として、多数の教示データを用いて主成分分析（ＰＣＡ）を行うことにより低次元（本実施形態では、一例として３次元とする。）の特徴量への圧縮を行い、この主成分分析で得られた複数（３つ）の基底ベクトルで張られる部分空間を形成することにより作成された部分空間法によるモデルとする。

そして、領域検出用モデル記憶手段４０に記憶された頭部領域用の各領域検出用モデル４０Ａ（４０Ａ０１〜４０Ａ９７）に対応する位置またはサイズのずれ量のうちの少なくとも一つは、切出対象（頭部）を含む原画像を構成する画素単位を細分化したサブピクセル単位で設定されている。また、頭部領域用の各領域検出用モデル４０Ａ（４０Ａ０１〜４０Ａ９７）に対応する位置またはサイズのずれ量は、不均一な間隔で設定され、ずれ量の絶対値が大きい程、ずれ量同士の間隔が大きい設定とされている。

より具体的には、先ず、教示データとして収集されたフレーム画像１００（図２参照）から、切出対象である頭部１０１を適切に切り出した真の領域の画像１１０（図２中の実線で示された正解画像１１０）を作成する。

また、真の領域に対し、原画像（解像度の拡大縮小を行っていない元の画像）の画素単位で、例えば、Ｘ，Ｙ軸方向にそれぞれ３，１，０．５，−０．５，−１，−３ピクセル移動した移動画像（図２中の一点鎖線で示されたＸ，Ｙ方向位置ずれ画像１２０）を作成する。プラスは、正の方向への移動を意味し、マイナスは、負の方向への移動を意味する。ここで、Ｘ軸方向の位置のずれ量ｎ_Pは０も含めると、ｎ_P＝３，１，０．５，０，−０．５，−１，−３の７通りであり、Ｙ軸方向の位置のずれ量ｍ_Pも同様に７通りであるから、合計７×７−１＝４８種類（正解の１種類を除いてある。）のＸ，Ｙ方向位置ずれ画像１２０が作成される。この際、Ｘ，Ｙ方向位置ずれ画像１２０は、真の領域の画像１１０を移動しただけであるから、Ｘ，Ｙ方向位置ずれ画像１２０の縦横のサイズは、ｍ×ｎピクセルであり、真の領域の画像１１０の縦横のサイズと同じである。そして、このようなＸ，Ｙ方向位置ずれ画像１２０については、ずれパターンを（Ｘ，Ｙ，Ｗ，Ｈ）＝（ｎ_P，ｍ_P，０，０）と表すことができる。例えば、（０．５，−０．５，０，０）の場合には、Ｘ軸方向に０．５ピクセルずれ、かつ、Ｙ軸方向に−０．５ピクセル（負の方向に０．５ピクセル）ずれている画像であることを意味する。

さらに、真の領域に対し、原画像の画素単位で、例えば、横方向（幅方向：Ｗ方向）および縦方向（高さ方向：Ｈ方向）にそれぞれ１，０．５，０．２，−０．２，−０．５，−１ピクセル拡大縮小した画像（図２中の点線で示されたＷ，Ｈ方向サイズずれ画像１３０）を作成する。プラスは、拡大を意味し、マイナスは、縮小を意味する。ここで、Ｗ方向のサイズの拡大縮小によるずれ量ｎ_Sは０も含めると、ｎ_S＝１，０．５，０．２，０，−０．２，−０．５，−１の７通りであり、Ｈ方向のサイズのずれ量ｍ_Sも同様に７通りであるから、合計７×７−１＝４８種類（正解の１種類を除いてある。）のＷ，Ｈ方向サイズずれ画像１３０が作成される。この際、Ｗ，Ｈ方向サイズずれ画像１３０のサイズは、横方向（Ｗ方向）がｎ_Z＝ｎ＋ｎ_S＝ｎ＋ｎ_S1＋ｎ_S2ピクセルとなり、縦方向（Ｈ方向）がｍ_Z＝ｍ＋ｍ_S＝ｍ＋ｍ_S1＋ｍ_S2ピクセルとなり、いずれの方向についても、真の領域の画像１１０と異なるサイズとなっている。なお、本実施形態では、基本的にｎ_S1＝ｎ_S2として左右のずれ量を等しくするが、例えばｎ_S＝０．５ピクセルの場合には、０．１ピクセル以下の精度は取り扱わないため、処理の便宜上、中央の座標を四捨五入または切り捨てて、例えば左側をｎ_S1＝０．３ピクセル、右側をｎ_S2＝０．２ピクセル等とする。ｍ_S1，ｍ_S2についても同様である。そして、このようなＷ，Ｈ方向サイズずれ画像１３０については、ずれパターンを（Ｘ，Ｙ，Ｗ，Ｈ）＝（０，０，ｎ_S，ｍ_S）と表すことができる。例えば、（０，０，０．２，−０．５）の場合には、Ｗ方向に０．２ピクセル拡大されてずれ、かつ、Ｈ方向に０．５ピクセル縮小されてずれている画像であることを意味する。

従って、多数の教示データのうちの１つである１枚のフレーム画像１００から、図２中の実線で示された真の領域の画像（正解画像）１１０が１つ作成され、図２中の一点鎖線で示されたＸ，Ｙ方向位置ずれ画像１２０が４８種類作成され、図２中の点線で示されたＷ，Ｈ方向サイズずれ画像１３０が４８種類作成され、合計で９７種類の画像が作成される。このような作業を多数の教示データの全てについて行う。

また、領域検出用モデル記憶手段４０に記憶された目領域用の各領域検出用モデル４０Ｂ（４０Ｂ０１〜４０Ｂ９７）の場合も、頭部領域用の各領域検出用モデル４０Ａ（４０Ａ０１〜４０Ａ９７）の場合と同様であり、１枚のフレーム画像１００から、合計で９７種類の画像が作成され、各ずれ量のうちの少なくとも一つがサブピクセル単位で設定され、かつ、各ずれ量は不均一な間隔で設定されている。

構成要素位置推定用モデル記憶手段５０は、切出対象（頭部）の領域の画像について収集された多数の教示データに基づき作成された切出対象（頭部）の領域内の特徴に関する構成要素位置推定用モデルを記憶するものである。本実施形態では、一例として、構成要素位置推定用モデルは、頭部の構成要素である顔部品のうちの目の領域位置を推定するための目領域位置推定用モデル５１とする。

また、本実施形態では、目領域位置推定用モデル５１を作成するための多数の教示データとなる切出対象（頭部）の領域の画像は、後述する図４のステップ１０の頭部領域の確定切出画像と同様な処理を経て得られた画像とする。すなわち、領域検出用モデル記憶手段４０に記憶された頭部領域用の領域検出用モデル４０Ａ（４０Ａ０１〜４０Ａ９７）を用いて、ずれの修正処理（図４のステップＳ８，Ｓ１１に相当する処理）を繰り返すことにより自動的に切り出された頭部領域の確定切出画像とする。なお、あくまでも以上の処理は、認識時のリアルタイム処理（本番処理）ではなく、事前に行う学習処理であり、事前に行う学習処理として、リアルタイム処理と同様な自動切出処理を行うという意味である。

さらに、目領域位置推定用モデル５１は、上述したように多数の教示データに基づき学習を行って予め作成されたモデルであるが、本実施形態では、一例として、多数の教示データを用いて主成分分析（ＰＣＡ）を行うことにより低次元（本実施形態では、一例として５次元とする。）の特徴量への圧縮を行い、この主成分分析で得られた複数（５つ）の基底ベクトルＸ₁〜Ｘ₅で張られる固有空間を形成することにより作成されたモデルとする。

非線形関数記憶手段６０は、切出対象（頭部）の領域の画像およびこの画像の中に含まれる構成要素（顔部品である目）の位置について収集された対になる多数の教示データのうち、切出対象（頭部）の領域の画像の多数の教示データについて、構成要素位置推定用モデルである目領域位置推定用モデル５１を用いて切出対象（頭部）の領域内の特徴に関するパラメータをそれぞれ算出し、これらの算出したパラメータとこれらのパラメータに対応する構成要素（目）の位置に関するパラメータとを関連付ける学習を行って作成された非線形関数６１を記憶するものである。本実施形態では、対になる多数の教示データのうち、切出対象（頭部）の領域の画像の多数の教示データについては、上述した目領域位置推定用モデル５１を作成した際に用いた教示データと同じとし、後述する図４のステップ１０の頭部領域の確定切出画像と同様な処理（ずれの修正処理の繰り返しによる自動切出処理）を経て得られた画像とする。一方、対になる多数の教示データのうち、構成要素（目）の位置に関するデータは、人手により抽出された目のＸＹ位置および縦横の寸法とする。なお、対になる多数の教示データのうち、切出対象（頭部）の領域の画像の多数の教示データについても、人手により切り出した切出対象（頭部）の真の領域の画像としてもよいが、より認識時の処理環境に近い状態で学習を行うという観点からは、ずれの修正処理の繰り返しによる自動切出処理を経て得られた画像とすることが好ましい。

そして、非線形関数記憶手段６０に記憶される非線形関数６１は、本実施形態では、切出対象（頭部）の領域内の特徴に関するパラメータ、すなわち切出対象（頭部）の確定切出画像（事前処理によるもの）から得られるデータを目領域位置推定用モデル５１に入力して得られる射影α₁〜α₅からなる５次元のベクトルデータと、構成要素（目）の位置に関するパラメータ、すなわち、人手により抽出された目のＸＹ位置および縦横の寸法からなる４次元のベクトルデータとを関連付ける非線形なマッピング関数である。

確定切出位置データ記憶手段７０は、毎回のフレーム処理において、切出対象（頭部）について最終的に真の領域またはそれに近い領域であると判断されて切り出された確定切出画像の領域位置データ（図４のステップＳ１０）、および構成要素（目）について最終的に真の領域またはそれに近い領域であると判断されて切り出された確定切出画像の領域位置データ（図４のステップＳ１６）を記憶するものである。この確定切出位置データ記憶手段７０には、少なくとも現在処理対象となっているフレームの直前のフレームのデータを記憶させておく。

そして、以上において、処理手段３０に含まれる各処理手段３１〜３５は、領域検出システム１０を構成する一台または複数台のコンピュータ（パーソナル・コンピュータのみならず、その上位機種のもの、あるいは汎用機ではなく、領域検出処理専用装置、パーソナル・コンピュータ以外の電気製品に組み込まれた計算ユニット等）の内部に設けられた中央演算処理装置（ＣＰＵ）、およびこのＣＰＵの動作手順を規定する一つまたは複数のプログラムにより実現される。

また、領域検出用モデル記憶手段４０、構成要素位置推定用モデル記憶手段５０、非線形関数記憶手段６０、および確定切出位置データ記憶手段７０としては、例えば、ハードディスク、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュ・メモリ、ＲＡＭ、ＭＯ、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ−ＲＯＭ、ＤＶＤ−ＲＡＭ、ＦＤ、磁気テープ、あるいはこれらの組合せ等を採用することができる。

このような本実施形態においては、以下のようにして領域検出システム１０により領域検出処理が行われる。

先ず、領域検出システム１０を稼働させる前に、９７個の頭部領域用の領域検出用モデル４０Ａ（４０Ａ０１〜４０Ａ９７）および９７個の目領域用の領域検出用モデル４０Ｂ（４０Ｂ０１〜４０Ｂ９７）、１個の構成要素位置推定用モデルである目領域位置推定用モデル５１、並びに非線形関数６１を作成し、領域検出用モデル記憶手段４０、構成要素位置推定用モデル記憶手段５０、および非線形関数記憶手段６０にそれぞれ記憶させておく。

図３には、９７個の頭部領域用の領域検出用モデル４０Ａ（４０Ａ０１〜４０Ａ９７）を作成する際の処理の流れが示されている。９７個の目領域用の領域検出用モデル４０Ｂ（４０Ｂ０１〜４０Ｂ９７）を作成する処理も同様であるため説明を省略する。先ず、原画像（処理前の画像）の解像度を１０倍に拡大する。例えば、フレーム画像１００（図２参照）のサイズが、Ｍ×Ｎ＝４８０×６４０ピクセルであるとすると、４８００×６４００ピクセルに拡大する。但し、実際には、画像全体を使用するわけではないので、処理の高速化のため、処理に必要となる頭部１０１の領域およびその周辺部分だけ解像度を１０倍に拡大すればよい。この際には、例えば、フレーム画像１００を構成する各画素（原画像の画素）の持つ色データを、各画素の中心位置の座標に帰属させるとともに、隣接する画素の色データを使って、それらの隣接する画素同士の間の座標の色データを１次の線形補間を行って作成する。なお、隣接する画素以外の画素のデータを使って２次以上の補間をするようにしてもよい。

次に、図２を参照して詳述した如く、解像度を１０倍に拡大した１枚のフレーム画像１００から、図３中の実線で示された真の領域の画像（正解画像）１１０を１つ作成し（クラスｋ＝１）、図３中の一点鎖線で示されたＸ，Ｙ方向位置ずれ画像１２０を４８種類作成し（クラスｋ＝２〜４９）、図３中の点線で示されたＷ，Ｈ方向サイズずれ画像１３０を４８種類作成し（クラスｋ＝５０〜９７）、合計で９７種類の画像を作成する。この際、真の領域の画像（正解画像）１１０の抽出は、人手による判断で行われる。また、これらの９７種類の画像の切り出しは、解像度を１０倍に拡大した画像で行うので、ずれ量のみかけ上の数値は、図２を用いて説明した数値の１０倍になる。例えば、０．１ピクセルのずれ量は、解像度を１０倍に拡大した画像では、１ピクセルのずれ量となる。つまり、原画像の０．１ピクセルを最小単位として取り扱えるようにするため、解像度を１０倍にしている。そして、このような作業を、多数（例えば３００フレーム）の教示データとして用意した全てのフレーム画像１００について行う。

また、これと併せ、各フレーム画像１００の中の頭部１０１を構成する目１０２について、そのＸ座標、Ｙ座標、縦方向サイズ、横方向サイズを抽出しておく。

続いて、真の領域の画像（正解画像）１１０（クラスｋ＝１）、４８種類のＸ，Ｙ方向位置ずれ画像１２０（クラスｋ＝２〜４９）、および４８種類のＷ，Ｈ方向サイズずれ画像１３０（クラスｋ＝５０〜９７）の合計９７種類の画像について、例えば１６×１６への解像度の縮小をそれぞれ行うことにより、正規化画像１１１，１２１，１３１を作成する。図５には、原画像（１０倍拡大前）の各画素と、１６×１６の区画ライン１１１Ａ，１２１Ａとの関係が示されている。図６に示すように、１６×１６の区画ライン１１１Ａにより、解像度を１０倍に拡大した画像における画素が分割される場合には、この画素のデータを、区画ライン１１１Ａにより分割された部分の面積割合で、１６×１６の正規化画像の各画素に配分する処理を行うことができる。例えば、図６中で区画ライン１１１Ａにより４分割された画素のデータは、面積Ａ１，Ａ２，Ａ３，Ａ４の割合で４分割して配分する。また、区画ライン１１１Ａにより２分割された画素のデータは、面積Ａ５，Ａ６の割合で２分割して配分する。なお、このような面積割合による配分を行わずに、四捨五入や切り捨て等により、区画ライン１１１Ａにより分割された画素のデータを、１６×１６の正規化画像の各画素のいずれか一つのみに帰属させるようにしてもよい。

その後、正規化画像は、９７種類のずれパターン（クラスｋ＝１〜９７）のそれぞれについて多数作成されているので、各ずれパターン（クラスｋ＝１〜９７）のそれぞれについて、１６×１６の正規化画像（１６×１６＝２５６次元のベクトルデータ）を用いて、主成分分析（ＰＣＡ）を行うことにより、低次元（本実施形態では、一例として３次元とする。）への特徴量の圧縮を行う。すなわち、各クラスｋ＝１〜９７のそれぞれについて、１６×１６＝２５６次元のベクトルデータを用いて主成分分析を行い、３つの基底ベクトル（主成分）Ｘ₁ ^k，Ｘ₂ ^k，Ｘ₃ ^kを得る。これらの基底ベクトルＸ₁ ^k，Ｘ₂ ^k，Ｘ₃ ^kは、それぞれ２５６次元のベクトルであり、これらの基底ベクトルＸ₁ ^k，Ｘ₂ ^k，Ｘ₃ ^kにより張られるクラスｋ（ｋ＝１〜９７）の各部分空間により、頭部領域用の各領域検出用モデル４０Ａ（４０Ａ０１〜４０Ａ９７）が構築される。

同様にして、主成分分析を行って得られた基底ベクトルＸ₁ ^c，Ｘ₂ ^c，Ｘ₃ ^cにより張られるクラスｃ（ｃ＝１〜９７）の各部分空間により、目領域用の各領域検出用モデル４０Ｂ（４０Ｂ０１〜４０Ｂ９７）が構築される。

続いて、構成要素位置推定用モデルである目領域位置推定用モデル５１の作成方法について説明する。各領域検出用モデル４０Ａ（４０Ａ０１〜４０Ａ９７）の作成に用いた多数の教示データ（図３のフレーム画像１００）について、各領域検出用モデル４０Ａ（４０Ａ０１〜４０Ａ９７）を用いたずれ量修正の繰り返し処理（図４のステップＳ２〜Ｓ１２に相当する処理）を行うことにより、頭部領域を自動的に切り出して確定切出画像（図４のステップＳ１０に相当）を得る。これにより、各フレーム画像１００毎に確定切出画像が得られるので、多数の教示データが得られる。それから、これらの多数の教示データとしての確定切出画像について、それぞれ１６×１６の解像度への縮小を行って正規化画像とした後、得られた多数の正規化画像のデータ（１６×１６＝２５６次元のベクトルデータ）を用いて、主成分分析（ＰＣＡ）を行うことにより、低次元（本実施形態では、一例として５次元とする。）への特徴量の圧縮を行う。すなわち、１６×１６＝２５６次元のベクトルデータを用いて主成分分析を行い、５つの基底ベクトル（主成分）Ｘ₁，Ｘ₂，Ｘ₃，Ｘ₄，Ｘ₅を得る。これらの基底ベクトルＸ₁，Ｘ₂，Ｘ₃，Ｘ₄，Ｘ₅は、それぞれ２５６次元のベクトルであり、これらの基底ベクトルＸ₁，Ｘ₂，Ｘ₃，Ｘ₄，Ｘ₅により張られる固有空間により、構成要素位置推定用モデルである目領域位置推定用モデル５１が構築される。

次に、非線形関数６１の作成方法について説明する。上述の目領域位置推定用モデル５１の作成過程で得られた多数の教示データとしての各確定切出画像について、それぞれ１６×１６の解像度への縮小を行って正規化画像とした後、これらの正規化画像のデータ（１６×１６＝２５６次元のベクトルデータ）を、それぞれ構成要素位置推定用モデルである目領域位置推定用モデル５１に入力することにより、射影α₁，α₂，α₃，α₄，α₅を得る。すなわち、５次元のベクトルα＝（α₁，α₂，α₃，α₄，α₅）が、頭部の領域内の特徴に関するパラメータとして得られる。このα＝（α₁，α₂，α₃，α₄，α₅）は、教示データとして用意された各フレーム画像１００毎に（各確定切出画像のそれぞれについて）得られる。

なお、確定切出画像についての正規化画像のデータ（１６×１６＝２５６次元のベクトルデータ）をｆとし、５つの基底ベクトルをＸ₁，Ｘ₂，Ｘ₃，Ｘ₄，Ｘ₅とし、εを誤差ベクトルとすると、射影α₁，α₂，α₃，α₄，α₅は、ｆ＝α₁Ｘ₁＋α₂Ｘ₂＋α₃Ｘ₃＋α₄Ｘ₄＋α₅Ｘ₅＋εを満たすα₁，α₂，α₃，α₄，α₅（基底ベクトルＸ₁，Ｘ₂，Ｘ₃，Ｘ₄，Ｘ₅に対する各重み）を意味する。実際の演算は、上記の５つの基底ベクトルＸ₁，Ｘ₂，Ｘ₃，Ｘ₄，Ｘ₅を含んで構成される基底行列をＥとし、上記５つの重みα₁，α₂，α₃，α₄，α₅を含んで構成される２５６次元のベクトルをβとすると、ｆ＝Ｅ・βが成立し、さらに、Ｅの逆行列Ｅ^-1はＥの転置行列Ｅ^tとして得られるので（Ｅ^-1＝Ｅ^t）、β＝Ｅ^t・ｆが成立するため、ｆを入力してβ（そのうちの一部の要素がα₁，α₂，α₃，α₄，α₅）を算出するという簡単な演算となる。

そして、前述したように、各フレーム画像１００毎に、人手により目１０２（図３参照）のＸ，Ｙ座標および縦横サイズが抽出されているので、これらの４つのデータを要素とする４次元のベクトルにより、目の位置に関するパラメータが定まる。従って、各フレーム画像１００毎に、頭部の領域内の特徴に関するパラメータとしての５次元のベクトルα＝（α₁，α₂，α₃，α₄，α₅）と、目の位置に関するパラメータとしての４次元のベクトルとを対応させることにより、非線形関数６１を作成することができる。

次に、図４において、領域検出システム１０を稼働させ、領域検出処理を開始する（ステップＳ１）。続いて、フレーム画像取込処理手段３１により、処理対象とするフレーム画像を取り込む（ステップＳ２）。そして、確定切出位置データ記憶手段７０から、前フレームの頭部領域の位置データを読み込む（ステップＳ３）。但し、稼働直後のフレームでは、前フレームの頭部領域の位置データが、確定切出位置データ記憶手段７０に保存されていないので、別途の方法で最初の領域候補を定めるためのデータを設定する。

それから、読み込んだ頭部領域の位置データに基づき頭部領域およびその周辺部分だけ解像度を１０倍に拡大するか、またはフレーム画像全体について解像度を１０倍に拡大する（ステップＳ４）。なお、処理時間短縮の観点からは、頭部領域およびその周辺部分だけを拡大することが好ましい。

続いて、領域候補画像切出処理手段３２により、頭部領域についての最初の領域候補を切り出す（ステップＳ５）。この際には、ステップＳ３で読み込んだ前フレームの頭部領域の位置データに基づき、前フレームの頭部領域の確定切出画像の領域位置と同じ位置の領域を、最初の領域候補として切り出す。

その後、１６×１６の解像度への縮小処理を行って、画像を正規化する（ステップＳ６）。さらに、一致率算出処理手段３３により、領域検出用モデル記憶手段４０に記憶された頭部領域用の各クラスｋ（ｋ＝１〜９７）の領域検出用モデル４０Ａ（４０Ａ０１〜４０Ａ９７）を用いて、ステップＳ６で正規化した入力画像（現在処理対象となっている画像）と、各領域検出用モデル４０Ａ（４０Ａ０１〜４０Ａ９７）との一致率を算出する。この一致率の算出処理では、先ず、各クラスｋ（ｋ＝１〜９７）について、射影α₁ ^k，α₂ ^k，α₃ ^kを求める。

この際、現在処理対象となっている正規化画像のデータ（１６×１６＝２５６次元のベクトルデータ）をｆとし、各クラスｋ（ｋ＝１〜９７）の３つの基底ベクトルをＸ₁ ^k，Ｘ₂ ^k，Ｘ₃ ^kとし、ε_kを誤差ベクトルとすると、射影α₁ ^k，α₂ ^k，α₃ ^kは、ｆ＝α₁ ^kＸ₁ ^k＋α₂ ^kＸ₂ ^k＋α₃ ^kＸ₃ ^k＋ε_kを満たすα₁ ^k，α₂ ^k，α₃ ^k（基底ベクトルＸ₁ ^k，Ｘ₂ ^k，Ｘ₃ ^kに対する各重み）を意味する。実際の演算は、上記の３つの基底ベクトルＸ₁ ^k，Ｘ₂ ^k，Ｘ₃ ^kを含んで構成される基底行列をＥ_kとし、上記３つの重みα₁ ^k，α₂ ^k，α₃ ^kを含んで構成される２５６次元のベクトルをβ_kとすると、ｆ＝Ｅ_k・β_kが成立し、さらに、Ｅ_kの逆行列Ｅ_k ^-1はＥ_kの転置行列Ｅ_k ^tとして得られるので（Ｅ_k ^-1＝Ｅ_k ^t）、β_k＝Ｅ_k ^t・ｆが成立するため、ｆを入力してβ_k（そのうちの一部の要素がα₁ ^k，α₂ ^k，α₃ ^k）を算出するという簡単な演算となる。

次に、一致率算出処理手段３３により、各クラスｋ（ｋ＝１〜９７）について求めた射影α₁ ^k，α₂ ^k，α₃ ^kを用いて、（α₁ ^k）²＋（α₂ ^k）²＋（α₃ ^k）²を各クラスｋ（ｋ＝１〜９７）について算出する。この（α₁ ^k）²＋（α₂ ^k）²＋（α₃ ^k）²の値が最も大きくなるクラス、すなわち、誤差ベクトルε_kが最も小さくなるクラスが、一致率の最も高いクラスである。

それから、ずれ量推定処理手段３４により、（α₁ ^k）²＋（α₂ ^k）²＋（α₃ ^k）²の値が最も大きくなるクラスを選択し、そのクラスのずれパターンにより、頭部領域の現在の領域候補と真の領域とのずれ量を推定する（ステップＳ８）。

続いて、現在処理対象となっている画像が正解画像か否かを判断し、つまりステップＳ８で（α₁ ^k）²＋（α₂ ^k）²＋（α₃ ^k）²の値が最も大きくなるクラスとして選択されたクラスが、ｋ＝１の正解画像のクラスであるか否かを判断し（ステップＳ９）、ｋ＝１の正解画像のクラスであった場合には、ずれの修正は行わず、現在の領域候補を、頭部領域の確定切出画像とし、その確定切出画像の位置データを確定切出位置データ記憶手段７０に保存する（ステップＳ１０）。

一方、ｋ＝１の正解画像のクラスでなかった場合には、領域候補画像切出処理手段３２により、頭部領域についての新たな領域候補を切り出す（ステップＳ１１）。この際、領域候補画像切出処理手段３２は、新たな領域候補の切出位置を定めるときには、ずれ量推定処理手段３４により選択された最も高い一致率のクラスに対応するずれパターンと逆の処理を行うことにより、現在の領域候補を、真の領域に近づける。例えば、ずれ量推定処理手段３４により選択された最も高い一致率のクラスに対応するずれパターンが、Ｘ軸方向についての０．５ピクセル（正の方向）のずれだった場合には、−０．５ピクセルずらす修正、すなわちＸ軸方向について逆方向（負の方向）に０．５ピクセルずらす修正を行い、Ｗ方向についての０．２ピクセルの拡大のずれだった場合には、Ｗ方向について−０．２ピクセルずらす修正、すなわちＷ方向について０．２ピクセル縮小するずれ修正を行う。

続いて、ずれ修正の繰返回数が、規定回数に達したか否かを判断し（ステップＳ１２）、規定回数に達していない場合には、再び、ステップＳ６の処理に戻り、以降、ステップＳ１２で規定回数に達したと判断されるか、またはステップＳ９で正解画像であると判断されるまで、ステップＳ６〜Ｓ９，Ｓ１１，１２の処理が繰り返される。

一方、ステップＳ１２で、規定回数に達したと判断された場合には、ステップＳ１１で切り出した新たな領域候補を、頭部領域の確定切出画像とし、その確定切出画像の位置データを確定切出位置データ記憶手段７０に保存する（ステップＳ１０）。

それから、構成要素位置推定処理手段３５により、構成要素（目）の位置を推定する処理を行う（ステップＳ１３）。この際、構成要素位置推定処理手段３５は、現在処理対象となっているフレーム画像の中に含まれる切出対象（頭部）の確定切出画像について、構成要素位置推定用モデル記憶手段５０に記憶されている目領域位置推定用モデル５１を用いて、この確定切出画像の領域内の特徴に関するパラメータを算出した後、算出したパラメータに基づき、非線形関数記憶手段６０に記憶されている非線形関数６１を用いて、確定切出画像の中の構成要素（目）の位置に関するパラメータを算出する。すなわち、非線形関数６１を用いて、切出対象（頭部）の確定切出画像から得られるデータ（１６×１６＝２５６次元のベクトルデータ）を目領域位置推定用モデル５１に入力して得られる射影（各主成分の重み）α₁〜α₅から、目のＸＹ位置および縦横の寸法を算出する。

続いて、確定切出位置データ記憶手段７０から、前フレームの顔部品（目）領域の位置データを読み込む（ステップＳ１４）。但し、稼働直後のフレームでは、前フレームの顔部品（目）領域の位置データが、確定切出位置データ記憶手段７０に保存されていないので、読み込みは行わない。

そして、頭部を構成する構成要素（顔部品である目）の領域の切出処理を行う（ステップＳ１５）。この際には、先ず、領域候補画像切出処理手段３２により、現在処理対象となっているフレーム画像について構成要素位置推定処理手段３５により推定された構成要素（目）の位置に基づき、切出対象（頭部）の確定切出画像の中から（全体画像の中からと考えてもよい。）構成要素（目）の第一の最初の領域候補の画像を切り出す。また、これと併せて、確定切出位置データ記憶手段７０からの前フレームの顔部品（目）領域の位置データの読み込みが行われている場合には、領域候補画像切出処理手段３２により、前フレームにおける構成要素（目）についての領域検出処理（前フレームにおける図４のステップ１５）で最終的に真の領域またはそれに近い領域であると判断されて前フレーム画像の中から切り出された構成要素（目）の確定切出画像（前フレームにおける図４のステップ１６）の領域位置と同じ位置の領域を、現在処理対象となっているフレーム画像についての構成要素（目）の第二の最初の領域候補の画像として切り出す。

それから、切り出した構成要素（目）の第一および第二の最初の領域候補の画像について１６×１６への解像度の縮小処理を行い、これらの領域候補の画像を正規化する。

次に、一致率算出処理手段３３により、領域候補画像切出処理手段３２により切り出した構成要素（目）の第一の最初の領域候補の画像と、領域検出用モデル記憶手段４０に記憶されている構成要素用（目領域用）の複数（９７個）の領域検出用モデル４０Ｂ（４０Ｂ０１〜４０Ｂ９７）の各々との一致率をそれぞれ算出する。また、これと併せて、確定切出位置データ記憶手段７０からの前フレームの顔部品（目）領域の位置データの読み込みが行われている場合には、一致率算出処理手段３３により、領域候補画像切出処理手段３２により切り出した構成要素（目）の第二の最初の領域候補の画像と、領域検出用モデル記憶手段４０に記憶されている構成要素用（目領域用）の複数（９７個）の領域検出用モデル４０Ｂ（４０Ｂ０１〜４０Ｂ９７）の各々との一致率をそれぞれ算出する。

続いて、ずれ量推定処理手段３４により、構成要素（目）の第一の最初の領域候補の画像について一致率算出処理手段３３により算出した複数（９７個）の一致率のうち最も高い一致率を求め、この最も高い一致率となった領域検出用モデル４０Ｂ（４０Ｂ０１〜４０Ｂ９７のうちのいずれか一つ）に対応する位置またはサイズのずれ量を、構成要素（目）についての第一の最初の領域候補と真の領域とのずれ量と推定する第一のずれ量推定処理を行う。また、これと併せて、確定切出位置データ記憶手段７０からの前フレームの顔部品（目）領域の位置データの読み込みが行われている場合には、ずれ量推定処理手段３４により、構成要素（目）の第二の最初の領域候補の画像について一致率算出処理手段３３により算出した複数（９７個）の一致率のうち最も高い一致率を求め、この最も高い一致率となった領域検出用モデル４０Ｂ（４０Ｂ０１〜４０Ｂ９７のうちのいずれか一つ）に対応する位置またはサイズのずれ量を、構成要素（目）についての第二の最初の領域候補と真の領域とのずれ量と推定する第二のずれ量推定処理を行う。

さらに、ずれ量推定処理手段３４により、上述した第一および第二のずれ量推定処理のそれぞれで最も高い一致率と判断された一致率同士を比較し、このうち一致率が高い方のずれ量推定処理を決定する。

そして、ずれ量推定処理手段３４により決定された第一または第二のいずれか一方のずれ量推定処理に対応する第一または第二のいずれか一方の最初の領域候補およびその推定ずれ量に基づき、領域候補画像切出処理手段３２により、構成要素（目）の２回目の領域候補の画像の切出処理を行う。

以降、構成要素（目）についても、頭部領域の切出処理の場合と同様に、ずれ修正の繰り返し処理（頭部領域の切出処理の場合のステップＳ６〜Ｓ９，Ｓ１１，１２に相当する処理）を行い、構成要素（目）について、最終的に真の領域またはそれに近い領域であると判断されて切り出された確定切出画像が得られたところで、この確定切出画像の位置データを確定切出位置データ記憶手段７０に保存する（ステップＳ１６）。

その後、処理を続行するか否かを判断し（ステップＳ１７）、続行する場合には、ステップＳ２の処理へ戻り、次のフレーム画像の処理を行う。一方、続行しない場合には、領域検出処理を終了する（ステップＳ１８）。

このような本実施形態によれば、次のような効果がある。すなわち、領域検出システム１０は、真の領域の画像および複数種類（９６種類）のずれ画像について、これらの各領域内の特徴に関する領域検出用モデル４０Ａ（４０Ａ０１〜４０Ａ９７）を予め作成して領域検出用モデル記憶手段４０に記憶させておき、これらの各領域検出用モデル４０Ａ（４０Ａ０１〜４０Ａ９７）を用いて、処理対象画像の中から切り出した切出対象（頭部）の領域候補についての真の領域からの位置またはサイズのずれ量を推定する処理を行うので、従来のような単一モデルによる領域検出の場合に比べ、領域検出の精度および安定性を向上させることができる。また、多量の教示データから作成されたモデルを用いた領域検出を行うので、対象の姿勢に依存しない領域検出を実現することができる。

さらに、領域検出システム１０は、各ずれに対し、それぞれ領域検出用モデル４０Ａ（４０Ａ０１〜４０Ａ９７）を作成し、これらの複数の領域検出用モデル４０Ａ（４０Ａ０１〜４０Ａ９７）と、処理対象画像との一致度を評価しているが、処理対象画像から複数のずれ画像を作成し、それらの画像を単一のモデルで評価する方法を採っても、領域検出システム１０の場合と同様な結果を得ることができると考えられる。しかし、処理対象画像から複数のずれ画像をその都度作成すると、認識時の演算処理量が多くなるので、高速化ハードウェア等を使用しない限り、処理に時間がかかるという問題が生じる。これに対し、領域検出システム１０では、複数の領域検出用モデル４０Ａ（４０Ａ０１〜４０Ａ９７）は事前に作成しておくので、認識時の演算処理量を少なくすることができるため、処理の高速化を図ることができ、処理時間を短縮することができる。

また、領域検出システム１０は、領域候補の画像の切出しおよび一致率の算出を繰り返す構成（図４のステップＳ６〜Ｓ９，Ｓ１１，１２参照）とされているので、徐々に領域候補を真の領域に近づけ、領域候補と真の領域とのずれを収束させていくことができ、領域検出の精度および安定性を、より一層向上させることができる。

さらに、領域検出システム１０は、各ずれ量のうちの少なくとも一つをサブピクセル単位で設定しているので、原画像の解像度に依存しない高い精度の領域切出を行うことができる。すなわち、従来の多くの手法では、境界の検出精度は、原画像の解像度に依存しており、従って、高い領域切出精度を得るためには、特徴量を高解像度化する必要があったのに対し、領域検出システム１０では、学習時にずれ量をサブピクセル単位で設定して各領域検出用モデル４０Ａ（４０Ａ０１〜４０Ａ９７）を作成するので、サブピクセルの領域切出精度を得ることができ、原画像の解像度に依存しない高い領域切出精度を実現できる。

そして、領域検出システム１０では、各ずれ量を不均一な間隔で設定しているので、領域候補を真の領域に近づけていく際に、毎回のずれの修正量を徐々に小さくしていくことができ、領域切出位置の合理的な修正処理を実現できる。

さらに、領域検出システム１０では、各領域検出用モデル４０Ａ（４０Ａ０１〜４０Ａ９７）を作成する際に、主成分分析（ＰＣＡ）で得られた基底ベクトルＸ₁ ^k，Ｘ₂ ^k，Ｘ₃ ^kで張られる部分空間（クラスｋ＝１〜９７）を形成するという部分空間法を採用しているので、切出対象となる物体（頭部）の姿勢変化に左右されない領域検出を行うことができる。また、それぞれの部分空間は、複数のテンプレートを持ったテンプレートマッチングと考えることができ、切出対象となる物体（頭部）の姿勢変化を効率的にモデル化することができる。

また、各領域検出用モデル４０Ａは、主成分分析（ＰＣＡ）により低次元に圧縮されて作成されているので、計算量を減少させることができ、処理速度を向上させることができる。

そして、領域検出システム１０は、前フレームの確定切出画像の領域位置と同じ位置の領域を、現在処理対象となっているフレーム画像の中で最初に領域候補として切り出す処理を行うので、動画像を構成する各フレーム画像の連続処理を円滑に行うことができ、各フレームで効率的な領域検出を行うことができる。

また、領域検出システム１０は、構成要素位置推定処理手段３５、構成要素位置推定用モデル記憶手段５０、および非線形関数記憶手段６０を備えているので、構成要素（目）の位置を推定することができるため、多段階の切出処理を円滑に行うことができる。また、多数の教示データを収集し、統計的な手法により切出対象（頭部）の領域内の特徴量に関する構成要素位置推定用モデルである目領域位置推定用モデル５１を構築するので、環境に左右されず、かつ、パラメータ数の少ない（統計的に妥当性のある自由度の少ない）モデルを作成することができる。

さらに、領域検出システム１０では、非線形関数６１の学習を行う前段として、統計的な手法によるパラメータ抽出を置くので、すなわち切出対象（頭部）の領域の画像の多数の教示データについて構成要素位置推定用モデルである目領域位置推定用モデル５１を用いて切出対象（頭部）の領域内の特徴に関するパラメータをそれぞれ算出するので、このようなパラメータ抽出を行わない場合に比べ、パラメータ数を少なくすることができる。このため、非線形関数６１の学習を容易に行うことができる。

また、非線形関数６１をパターン認識の一手法として用いるのではなく、パラメータ同士のマッピングとして学習させるので、非出現データに対して高い汎化能力を持たせることができる。このため、教示データ量がそれ程多くない場合でも高い推定性能を期待することができる。

そして、非線形関数６１の学習は、切出対象（頭部）の領域の画像およびこの画像の中に含まれる構成要素（目）の位置について対になる多数の教示データを収集し、このうち切出対象（頭部）の領域の画像の多数の教示データについて構成要素位置推定用モデルである目領域位置推定用モデル５１を用いて切出対象（頭部）の領域内の特徴に関するパラメータをそれぞれ算出し、これらの算出したパラメータとこれらのパラメータに対応する構成要素の位置に関するパラメータとを関連付けることにより行われるので、実データに即した非線形関数６１の学習を行うことができる。

また、領域検出システム１０では、現在処理対象となっている画像に含まれる切出対象（頭部）の確定切出画像について、構成要素位置推定用モデルである目領域位置推定用モデル５１を用いて、この確定切出画像の領域内の特徴に関するパラメータを算出した後、算出したパラメータに基づき非線形関数６１を用いて確定切出画像の中の構成要素（目）の位置に関するパラメータを算出するので、現在の処理対象画像に即した構成要素（目）の領域位置の推定を行うことができる。

さらに、領域検出システム１０では、構成要素位置推定処理手段３５により推定された構成要素（目）の位置に基づき、構成要素（目）の第一の最初の領域候補の画像を切り出すとともに、前フレームで切り出された構成要素（目）の確定切出画像の領域位置に基づき、構成要素（目）の第二の最初の領域候補の画像を切り出し、これらの第一および第二の最初の領域候補の画像と、各領域検出用モデル４０Ｂ（４０Ｂ０１〜４０Ｂ９７）との一致率を総合的に比較して、次の領域候補の切出位置を決定する処理を行うので、次の領域候補を適切に切り出すこと、すなわち構成要素（目）の真の領域に、より近いと予想される領域を次の領域候補として切り出すことができるため、構成要素（目）の領域候補を迅速に真の領域に近づけることができ、多段階の切出処理の円滑化を図ることができる。

なお、本発明は前記実施形態に限定されるものではなく、本発明の目的を達成できる範囲内での変形等は本発明に含まれるものである。

すなわち、前記実施形態では、各領域検出用モデル４０Ａ，４０Ｂは、部分空間法により形成されたモデルとされていたが、本発明における領域検出用モデルは、これに限定されるものではなく、例えば、サポートベクターマシン（ＳＶＭ）、ニューラルネットワーク、ベイズ認識等を適用してもよい。

また、前記実施形態では、Ｘ，Ｙ方向の位置ずれ（クラスｋ＝２〜４９）と、Ｗ，Ｈ方向のサイズずれ（クラスｋ＝５０〜９７）とを独立させてパターン設定し、各領域検出用モデル４０Ａ（４０Ａ０２〜４０Ａ９７）を作成していたが、Ｘ，Ｙ方向の位置ずれとＷ，Ｈ方向のサイズずれとを混合させたずれパターンを設定し、各領域検出用モデルを作成してもよい。但し、前記実施形態のように独立させたパターン設定で十分に高精度で安定した領域検出を行うことができるので、処理時間の短縮等の観点からは、独立させたパターン設定とすることが好ましい。

さらに、前記実施形態の領域検出システム１０では、原画像の画素単位でのサブピクセル処理が行われていたが、正規化後の画像の画素単位を細分化した正規化サブピクセル単位で、ずれ量を設定する正規化サブピクセル処理を行うようにしてもよい。例えば、真の領域の画像が、原画像の画素単位で６０×６０ピクセルであり、これを正規化して１６×１６の解像度に縮小したとすると、正規化サブピクセル単位で、０．１のずれ量を有するずれ画像を作成するときには、原画像の画素単位でのずれ量を、０．１×（６０／１６）ピクセルにすればよい。なお、端数が生じる場合には、適宜、四捨五入や切り捨て等を行えばよい。また、真の領域の画像が、原画像の画素単位で縦５６×横６４ピクセルであり、これを正規化して１６×１６の解像度に縮小したとすると、正規化サブピクセル単位で、縦０．１、横０．１のずれ量を有するずれ画像を作成するときには、原画像の画素単位でのずれ量を、縦０．１×（５６／１６）ピクセル、横０．１×（６４／１６）ピクセルにすればよい。さらに、現在処理対象となっている画像における領域候補の推定ずれ量を算出する場合も同様であり、例えば、領域候補の画像が、原画像の画素単位で縦６２×横４９ピクセルであり、これを正規化して１６×１６の解像度に縮小したとすると、正規化サブピクセル単位で、縦０．３、横０．５のずれ量と推定された場合には、原画像の画素単位での推定ずれ量は、縦０．３×（６２／１６）、横０．５×（４９／１６）とすればよい。

このように各ずれ量を正規化サブピクセル単位で設定した場合には、ずれ量を正規化することができるので、各領域検出用モデルの作成に用いられる多数の教示データが、様々なサイズであってもその影響を受けずに各ずれの度合いに対応する領域検出用モデルを構築することができ、あるいは領域検出処理対象の画像の中に含まれる切出対象の領域のサイズが、教示データのサイズと異なっていてもその影響を受けずに適切な推定ずれ量を算出することができる。

以上のように、本発明の領域検出方法およびそのシステムは、例えば、個人認証、動作認識、視線検出等を行う各種の画像認識システム等に用いるのに適している。

本発明の一実施形態の領域検出システムの全体構成図。前記実施形態における真の領域の画像および複数種類のずれ画像の作成方法の説明図。前記実施形態の各領域検出用モデルの作成方法の説明図。前記実施形態の領域検出システムによる処理の流れを示すフローチャートの図。前記実施形態における原画像を構成する画素、真の領域、ずれ領域、および正規化画像の画素単位の関係を示す説明図。前記実施形態における正規化画像の作成方法の説明図。

符号の説明

１０領域検出システム
３２領域候補画像切出処理手段
３３一致率算出処理手段
３４ずれ量推定処理手段
３５構成要素位置推定処理手段
４０領域検出用モデル記憶手段
４０Ａ（４０Ａ０１〜４０Ａ９７），４０Ｂ（４０Ｂ０１〜４０Ｂ９７）領域検出用モデル
５０構成要素位置推定用モデル記憶手段
５１構成要素位置推定用モデルである目領域位置推定用モデル
６０非線形関数記憶手段
６１非線形関数
１１０真の領域の画像
１２０Ｘ，Ｙ方向位置ずれ画像
１３０Ｗ，Ｈ方向サイズずれ画像

Claims

画像の中に含まれる切出対象の領域を検出する領域検出方法であって、
前記画像の中から前記切出対象を適切に切り出した真の領域の画像およびこの真の領域に対して位置および／またはサイズをずらした領域を切り出した複数種類のずれ画像について、それぞれ多数の教示データを収集し、これらの多数の教示データに基づき前記真の領域の画像および前記複数種類のずれ画像の各領域内の特徴に関する領域検出用モデルをそれぞれ予め作成しておき、
前記切出対象を含む領域検出処理対象の画像の中から前記切出対象の領域候補の画像を切り出した後、この切り出した領域候補の画像と前記各領域検出用モデルとの一致率をそれぞれ算出し、算出した一致率が最も高い領域検出用モデルに対応する前記位置および／または前記サイズのずれ量を、前記領域候補と前記真の領域とのずれ量と推定する
ことを特徴とする領域検出方法。
請求項１に記載の領域検出方法において、
前記領域候補と前記真の領域とのずれ量を推定した後、推定したずれ量に基づき前記切出対象の領域を推定してこの推定した領域の画像を新たな領域候補の画像として切り出し、この切り出した新たな領域候補の画像と前記各領域検出用モデルとの一致率をそれぞれ算出し、算出した一致率が最も高い領域検出用モデルに対応する前記位置および／または前記サイズのずれ量を、前記新たな領域候補と前記真の領域とのずれ量と推定し、これらの領域候補の画像の切出しおよび前記一致率の算出を繰り返すことにより、前記領域候補を前記真の領域に近づけることを特徴とする領域検出方法。
請求項１または２に記載の領域検出方法において、
前記複数種類のずれ画像の各ずれ量を設定する際には、これらの各ずれ量のうちの少なくとも一つを、前記切出対象を含む原画像を構成する画素単位を細分化したサブピクセル単位で設定することを特徴とする領域検出方法。
請求項１または２に記載の領域検出方法において、
前記各領域検出用モデルは、前記真の領域の画像および前記複数種類のずれ画像をそれぞれ正規化した後に作成し、
前記領域候補の画像と前記各領域検出用モデルとの一致率は、前記領域候補の画像を正規化した後に算出し、
前記複数種類のずれ画像の各ずれ量を設定する際には、これらの各ずれ量のうちの少なくとも一つを、正規化後の画像の画素単位を細分化した正規化サブピクセル単位で設定し、この正規化サブピクセル単位で設定されたずれ量を、原画像の画素単位に換算することを特徴とする領域検出方法。
請求項１〜４のいずれかに記載の領域検出方法において、
前記複数種類のずれ画像の各ずれ量を不均一な間隔で設定し、前記ずれ量の絶対値が大きい程、前記ずれ量同士の間隔を大きく設定することを特徴とする領域検出方法。
請求項１〜５のいずれかに記載の領域検出方法において、
前記各領域検出用モデルは、前記真の領域の画像および前記複数種類のずれ画像のそれぞれについて前記多数の教示データを用いて主成分分析を行うことにより低次元の特徴量への圧縮を行い、この主成分分析で得られた基底ベクトルで張られる部分空間を形成することにより作成することを特徴とする領域検出方法。
請求項１〜６のいずれかに記載の領域検出方法において、
前記切出対象を含む領域検出処理対象の画像は、動画像を構成する各フレーム画像であり、
現在処理対象となっているフレーム画像の中から前記切出対象の最初の領域候補の画像を切り出す際には、前フレームでの領域検出処理で前記切出対象についての前記領域候補と前記真の領域とのずれ量を推定することにより、最終的に前記真の領域またはそれに近い領域であると判断されて前フレーム画像の中から切り出された前記切出対象の確定切出画像の領域位置と同じ位置の領域を切り出すことを特徴とする領域検出方法。
請求項１〜７のいずれかに記載の領域検出方法において、
前記切出対象についての前記領域候補と前記真の領域とのずれ量を推定することにより、最終的に前記真の領域またはそれに近い領域であると判断されて切り出された前記切出対象の確定切出画像の中から、この切り出された前記切出対象を構成する構成要素を切り出す際には、
前記切出対象の領域の画像について多数の教示データを収集し、これらの多数の教示データに基づき前記切出対象の領域内の特徴に関する構成要素位置推定用モデルを予め作成しておくとともに、
前記切出対象の領域の画像およびこの画像の中に含まれる前記構成要素の位置について対になる多数の教示データを収集し、このうち前記切出対象の領域の画像の多数の教示データについて前記構成要素位置推定用モデルを用いて前記切出対象の領域内の特徴に関するパラメータをそれぞれ算出し、これらの算出したパラメータとこれらのパラメータに対応する前記構成要素の位置に関するパラメータとを関連付ける非線形関数を予め学習して作成しておき、
前記確定切出画像について前記構成要素位置推定用モデルを用いてこの確定切出画像の領域内の特徴に関するパラメータを算出した後、算出したパラメータに基づき前記非線形関数を用いて前記確定切出画像の中の前記構成要素の位置に関するパラメータを算出することにより、前記構成要素の位置を推定することを特徴とする領域検出方法。
請求項８に記載の領域検出方法において、
前記構成要素についても、前記構成要素を適切に切り出した真の領域の画像およびこの真の領域に対して位置および／またはサイズをずらした領域を切り出した複数種類のずれ画像について、それぞれ多数の教示データを収集し、これらの多数の教示データに基づき前記真の領域の画像および前記複数種類のずれ画像の各領域内の特徴に関する領域検出用モデルをそれぞれ予め作成しておき、
前記非線形関数を用いて前記確定切出画像の中の前記構成要素の位置を推定した後には、この推定した位置に基づき前記確定切出画像の中から前記構成要素の最初の領域候補の画像を切り出した後、この切り出した最初の領域候補の画像と前記構成要素用の前記各領域検出用モデルとの一致率をそれぞれ算出し、算出した一致率が最も高い領域検出用モデルに対応する前記位置および／または前記サイズのずれ量を、前記構成要素についての前記最初の領域候補と前記真の領域とのずれ量と推定する
ことを特徴とする領域検出方法。
請求項８に記載の領域検出方法において、
前記切出対象を含む領域検出処理対象の画像は、動画像を構成する各フレーム画像であり、
前記構成要素についても、前記構成要素を適切に切り出した真の領域の画像およびこの真の領域に対して位置および／またはサイズをずらした領域を切り出した複数種類のずれ画像について、それぞれ多数の教示データを収集し、これらの多数の教示データに基づき前記真の領域の画像および前記複数種類のずれ画像の各領域内の特徴に関する領域検出用モデルをそれぞれ予め作成しておき、
現在処理対象となっているフレーム画像について、前記非線形関数を用いて前記確定切出画像の中の前記構成要素の位置を推定した後に、この推定した位置に基づき前記確定切出画像の中から前記構成要素の第一の最初の領域候補の画像を切り出した後、この切り出した第一の最初の領域候補の画像と前記構成要素用の前記各領域検出用モデルとの一致率をそれぞれ算出し、算出した一致率が最も高い領域検出用モデルに対応する前記位置および／または前記サイズのずれ量を、前記構成要素についての前記第一の最初の領域候補と前記真の領域とのずれ量と推定する第一のずれ量推定処理を行うとともに、
前フレームでの前記構成要素についての領域検出処理で最終的に前記真の領域またはそれに近い領域であると判断されて前フレーム画像の中から切り出された前記構成要素の確定切出画像の領域位置と同じ位置の領域を、現在処理対象となっているフレーム画像についての前記構成要素の第二の最初の領域候補の画像として切り出した後、この切り出した第二の最初の領域候補の画像と前記構成要素用の前記各領域検出用モデルとの一致率をそれぞれ算出し、算出した一致率が最も高い領域検出用モデルに対応する前記位置および／または前記サイズのずれ量を、前記構成要素についての前記第二の最初の領域候補と前記真の領域とのずれ量と推定する第二のずれ量推定処理を行い、
その後、これらの第一および第二のずれ量推定処理のそれぞれで最も高い一致率と判断された一致率同士を比較し、このうち一致率が高い方のずれ量推定処理に対応する前記第一または前記第二のいずれか一方の最初の領域候補およびその推定ずれ量に基づき、現在処理対象となっているフレーム画像についての前記構成要素の次の領域候補の画像を切り出す
ことを特徴とする領域検出方法。
画像の中に含まれる切出対象の領域を検出する領域検出システムであって、
前記画像の中から前記切出対象を適切に切り出した真の領域の画像およびこの真の領域に対して位置および／またはサイズをずらした領域を切り出した複数種類のずれ画像について、それぞれ多数収集された教示データに基づき予め作成された前記真の領域の画像および前記複数種類のずれ画像の各領域内の特徴に関する領域検出用モデルを記憶する領域検出用モデル記憶手段と、
前記切出対象を含む領域検出処理対象の画像の中から前記切出対象の領域候補の画像を切り出す処理を行う領域候補画像切出処理手段と、
この領域候補画像切出処理手段により切り出した前記領域候補の画像と前記各領域検出用モデルとの一致率をそれぞれ算出する一致率算出処理手段と、
この一致率算出処理手段により算出した前記一致率が最も高い領域検出用モデルに対応する前記位置および／または前記サイズのずれ量を、前記領域候補と前記真の領域とのずれ量と推定する処理を行うずれ量推定処理手段と
を備えたことを特徴とする領域検出システム。
請求項１１に記載の領域検出システムにおいて、
前記領域候補画像切出処理手段は、前記ずれ量推定処理手段により推定したずれ量に基づき前記切出対象の領域を推定してこの推定した領域の画像を新たな領域候補の画像として切り出す処理も行う構成とされ、
前記一致率算出処理手段は、前記領域候補画像切出処理手段により切り出した前記新たな領域候補の画像と前記各領域検出用モデルとの一致率をそれぞれ算出する処理も行う構成とされ、
前記ずれ量推定処理手段は、前記一致率算出処理手段により算出した前記一致率が最も高い領域検出用モデルに対応する前記位置および／または前記サイズのずれ量を、前記新たな領域候補と前記真の領域とのずれ量と推定する処理も行う構成とされている
ことを特徴とする領域検出システム。
請求項１１または１２に記載の領域検出システムにおいて、
前記領域検出用モデル記憶手段に記憶された前記各領域検出用モデルに対応する前記位置および／または前記サイズのずれ量のうちの少なくとも一つは、前記切出対象を含む原画像を構成する画素単位を細分化したサブピクセル単位で設定されていることを特徴とする領域検出システム。
請求項１１または１２に記載の領域検出システムにおいて、
前記領域検出用モデル記憶手段には、前記真の領域の画像および前記複数種類のずれ画像をそれぞれ正規化した後に作成された前記各領域検出用モデルが記憶され、
前記一致率算出処理手段は、前記領域候補の画像を正規化した後に前記領域候補の画像と前記各領域検出用モデルとの一致率を算出する構成とされ、
前記領域検出用モデル記憶手段に記憶された前記各領域検出用モデルに対応する前記位置および／または前記サイズのずれ量のうちの少なくとも一つは、正規化後の画像の画素単位を細分化した正規化サブピクセル単位で設定されたずれ量を原画像の画素単位に換算したずれ量とされている
ことを特徴とする領域検出システム。
請求項１１〜１４いずれかに記載の領域検出システムにおいて、
前記領域検出用モデル記憶手段に記憶された前記各領域検出用モデルに対応する前記位置および／または前記サイズのずれ量は、不均一な間隔で設定され、前記ずれ量の絶対値が大きい程、前記ずれ量同士の間隔が大きい設定とされていることを特徴とする領域検出システム。
請求項１１〜１５のいずれかに記載の領域検出システムにおいて、
前記領域検出用モデル記憶手段には、前記真の領域の画像および前記複数種類のずれ画像のそれぞれについて前記多数の教示データを用いて主成分分析を行うことにより低次元の特徴量への圧縮を行い、この主成分分析で得られた基底ベクトルで張られる部分空間を形成することにより作成された前記各領域検出用モデルが記憶されていることを特徴とする領域検出システム。
請求項１１〜１６のいずれかに記載の領域検出システムにおいて、
前記切出対象を含む領域検出処理対象の画像は、動画像を構成する各フレーム画像であり、
前記領域候補画像切出処理手段は、現在処理対象となっているフレーム画像の中から前記切出対象の最初の領域候補の画像を切り出す際には、前フレームでの領域検出処理で前記切出対象についての前記領域候補と前記真の領域とのずれ量を推定することにより、最終的に前記真の領域またはそれに近い領域であると判断されて前フレーム画像の中から切り出された前記切出対象の確定切出画像の領域位置と同じ位置の領域を切り出す構成とされている
ことを特徴とする領域検出システム。
請求項１１〜１７のいずれかに記載の領域検出システムにおいて、
前記ずれ量推定処理手段により前記切出対象についての前記領域候補と前記真の領域とのずれ量を推定することにより、最終的に前記真の領域またはそれに近い領域であると判断されて切り出された前記切出対象の確定切出画像の中から、この切り出された前記切出対象を構成する構成要素を切り出す処理を行う際に用いるために、前記切出対象の領域の画像について収集された多数の教示データに基づき作成された前記切出対象の領域内の特徴に関する構成要素位置推定用モデルを記憶する構成要素位置推定用モデル記憶手段と、
前記切出対象の領域の画像およびこの画像の中に含まれる前記構成要素の位置について収集された対になる多数の教示データのうち前記切出対象の領域の画像の多数の教示データについて前記構成要素位置推定用モデルを用いて前記切出対象の領域内の特徴に関するパラメータをそれぞれ算出し、これらの算出したパラメータとこれらのパラメータに対応する前記構成要素の位置に関するパラメータとを関連付ける学習を行って作成された非線形関数を記憶する非線形関数記憶手段と、
前記確定切出画像について前記構成要素位置推定用モデルを用いてこの確定切出画像の領域内の特徴に関するパラメータを算出した後、算出したパラメータに基づき前記非線形関数を用いて前記確定切出画像の中の前記構成要素の位置に関するパラメータを算出することにより、前記構成要素の位置を推定する構成要素位置推定処理手段と
を備えたことを特徴とする領域検出システム。
請求項１８に記載の領域検出システムにおいて、
前記領域検出用モデル記憶手段には、前記構成要素を適切に切り出した真の領域の画像およびこの真の領域に対して位置および／またはサイズをずらした領域を切り出した複数種類のずれ画像について、それぞれ多数収集された教示データに基づき予め作成された前記真の領域の画像および前記複数種類のずれ画像の各領域内の特徴に関する前記構成要素用の領域検出用モデルも記憶され、
前記領域候補画像切出処理手段は、前記構成要素位置推定処理手段により推定された前記構成要素の位置に基づき前記確定切出画像の中から前記構成要素の最初の領域候補の画像を切り出す処理も行う構成とされ、
前記一致率算出処理手段は、前記領域候補画像切出処理手段により切り出した前記構成要素の前記最初の領域候補の画像と前記構成要素用の前記各領域検出用モデルとの一致率をそれぞれ算出する処理も行う構成とされ、
前記ずれ量推定処理手段は、前記一致率算出処理手段により算出した前記一致率が最も高い領域検出用モデルに対応する前記位置および／または前記サイズのずれ量を、前記構成要素についての前記最初の領域候補と前記真の領域とのずれ量と推定する処理も行う構成とされている
ことを特徴とする領域検出システム。
請求項１８に記載の領域検出システムにおいて、
前記切出対象を含む領域検出処理対象の画像は、動画像を構成する各フレーム画像であり、
前記領域検出用モデル記憶手段には、前記構成要素を適切に切り出した真の領域の画像およびこの真の領域に対して位置および／またはサイズをずらした領域を切り出した複数種類のずれ画像について、それぞれ多数収集された教示データに基づき予め作成された前記真の領域の画像および前記複数種類のずれ画像の各領域内の特徴に関する前記構成要素用の領域検出用モデルも記憶され、
前記領域候補画像切出処理手段は、現在処理対象となっているフレーム画像について、前記構成要素位置推定処理手段により推定された前記構成要素の位置に基づき前記確定切出画像の中から前記構成要素の第一の最初の領域候補の画像を切り出す処理も行う構成とされ、
前記一致率算出処理手段は、前記領域候補画像切出処理手段により切り出した前記構成要素の前記第一の最初の領域候補の画像と前記構成要素用の前記各領域検出用モデルとの一致率をそれぞれ算出する処理も行う構成とされ、
前記ずれ量推定処理手段は、前記第一の最初の領域候補の画像について前記一致率算出処理手段により算出した前記一致率が最も高い領域検出用モデルに対応する前記位置および／または前記サイズのずれ量を、前記構成要素についての前記第一の最初の領域候補と前記真の領域とのずれ量と推定する第一のずれ量推定処理も行う構成とされ、
これに加え、
前記領域候補画像切出処理手段は、前フレームでの前記構成要素についての領域検出処理で最終的に前記真の領域またはそれに近い領域であると判断されて前フレーム画像の中から切り出された前記構成要素の確定切出画像の領域位置と同じ位置の領域を、現在処理対象となっているフレーム画像についての前記構成要素の第二の最初の領域候補の画像として切り出す処理も行う構成とされ、
前記一致率算出処理手段は、前記領域候補画像切出処理手段により切り出した前記構成要素の前記第二の最初の領域候補の画像と前記構成要素用の前記各領域検出用モデルとの一致率をそれぞれ算出する処理も行う構成とされ、
前記ずれ量推定処理手段は、前記第二の最初の領域候補の画像について前記一致率算出処理手段により算出した前記一致率が最も高い領域検出用モデルに対応する前記位置および／または前記サイズのずれ量を、前記構成要素についての前記第二の最初の領域候補と前記真の領域とのずれ量と推定する第二のずれ量推定処理も行う構成とされ、
さらに、
前記ずれ量推定処理手段は、前記第一および前記第二のずれ量推定処理のそれぞれで最も高い一致率と判断された一致率同士を比較し、このうち一致率が高い方のずれ量推定処理を決定する処理も行う構成とされ、
前記領域候補画像切出処理手段は、前記ずれ量推定処理手段により決定されたずれ量推定処理に対応する前記第一または前記第二のいずれか一方の最初の領域候補およびその推定ずれ量に基づき、現在処理対象となっているフレーム画像についての前記構成要素の次の領域候補の画像を切り出す処理も行う構成とされている
ことを特徴とする領域検出システム。