JP2009087250A

JP2009087250A - 画像処理装置及び画像処理方法

Info

Publication number: JP2009087250A
Application number: JP2007259055A
Authority: JP
Inventors: Kazuyuki Ota; 和之太田
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2007-10-02
Filing date: 2007-10-02
Publication date: 2009-04-23
Anticipated expiration: 2027-10-02
Also published as: JP4986797B2

Abstract

【課題】目領域を効率よく、かつ高精度に検出できるようにする。
【解決手段】顔領域検出部１０１で顔領域の検出を行っているときに中間結果メモリ１０２に蓄積される目頭特徴位置（Ｅｉｘ，Ｅｉｙ）及び目尻特徴位置（Ｅｏｘ，Ｅｏｙ）を用いて、目領域抽出部１０３は目領域の一次抽出を行う。そして、目領域抽出部１０３は、一次抽出された目領域（抽出範囲）からさらに輝度情報を用いて目領域の二次抽出を行うようにして、顔領域の検出を行っているときに目領域の抽出を行って、目領域を効率よく、かつ高精度に検出することができるようにする。
【選択図】図１

Description

本発明は画像処理装置、画像処理方法、プログラム及び記録媒体に関し、特に、静止画像や動画像から顔や目を抽出するために用いて好適な技術に関する。

従来、画像認識の分野において、認識対象及び背景を含む画像から、認識対象を検出する技術が提案されている。特に、顔や目を特定の認識対象として検出する技術は、検出後の処理も含めて、デジタルカメラなどの民生品からセキュリティなどの公共システムに至る様々な分野で非常に有用な技術である。

前述した顔や目を検出する技術としては、例えば、特許文献１に記載の顔画像処理装置によれば、入力画像に対して、予め用意された顔テンプレートを用いて顔領域を探索し、その後、標準的な目の形状を表す部分テンプレートを用いて検出している。

特開平９−４４６８５号公報 M. Matsugu, K. Mori, et. al, "Convolutional Spiking Neural Network Model for Robust Face Detection",2002,Internatinal Conference On Neural Information Processing (ICONIP02) Le Cun, Y. and Bengio, Y., 1995, "Convolutional Networks for Images Speech, and Time Series" in Handbook of Brain Theory and Neural Networks (M. Arbib, Ed.), MIT Press, pp.255-258

前記特許文献１に記載されているような顔や目を検出する従来の技術においては、初めに顔テンプレートを使用して顔全体でマッチングして顔領域を検出するため、ある程度のサイズの大きな顔テンプレートを保存しておく。このため、そのサイズの大きな顔テンプレートを使用して顔領域を検出すると、処理時間が長くかかってしまう。さらに、顔領域を検出した後に目領域を検出するため、目領域を検出する段階においてもやはり長い処理時間がかかってしまう。また、処理時間を短縮すると目領域を検出する精度が低下してしまうという問題点があった。

本発明は前述の問題点に鑑み、目領域を効率よく、かつ高精度に検出できるようにすることを目的としている。

本発明の画像処理装置は、入力された画像から顔領域を検出する顔領域検出手段と、前記顔領域検出手段によって前記顔領域を検出する過程で検出される特徴を用いて前記画像の中の目領域を抽出する目領域抽出手段とを有することを特徴とする。

本発明の画像処理方法は、入力された画像から顔領域を検出する顔領域検出ステップと、前記顔領域検出ステップにおいて前記顔領域を検出する過程で検出される特徴を用いて前記画像の中の目領域を抽出する目領域抽出ステップとを有することを特徴とする。

本発明のプログラムは、入力された画像から顔領域を検出する顔領域検出ステップと、前記顔領域検出ステップにおいて前記顔領域を検出する過程で検出される特徴を用いて前記画像の中の目領域を抽出する目領域抽出ステップとをコンピュータに実行させることを特徴とする。

本発明の記録媒体は、前記に記載のプログラムを記録したことを特徴とする。

本発明によれば、顔領域を検出する過程で検出される特徴を用いて画像の中の目領域を抽出するようにしたので、目領域を効率よく、かつ高精度に検出することができる。

（第１の実施形態）
以下、図面を参照しながら本発明の実施形態を説明する。
図１は、本実施形態の画像処理装置１０の機能構成例を示すブロック図である。
図１において、１００は、レンズ、ＣＣＤやＣＭＯＳ等の撮像素子を含む撮像部や、スキャナ等から出力された画像を入力する画像入力部である。１０１は、画像入力部１００から入力された画像から顔領域を検出する顔領域検出部である。

１０２は、顔領域検出部１０１で顔領域を検出する過程の中間で得られる結果を保持する中間結果メモリである。１０３は、入力された画像から目領域を抽出する目領域抽出部である。１０４は、画像入力部１００から入力された画像や、顔領域検出部１０１で検出された顔領域の検出結果や、目領域抽出部１０３で抽出された目領域の抽出結果を保持するメモリである。１０５は、全体を制御するシステム制御部であり、顔領域検出動作の指示や目領域抽出動作の指示などを司る。

１０６は、メモリ１０４に保持されている画像入力部１００から入力された画像や、顔領域検出部１０１で検出された顔領域の検出結果や、目領域抽出部１０３で抽出された目領域の抽出結果を表示する表示部である。１０７は、画像入力部１００から入力された画像や、顔領域検出部１０１で検出された顔領域の検出結果や、目領域抽出部１０３で抽出された目領域の抽出結果を記録する記録部である。

次に、図２〜図１０を参照しながら、本実施形態の画像処理装置の動作について説明する。図２は、本実施形態の画像処理装置の主ルーチンの処理手順の一例を示すフローチャートである。
まず、ステップＳ２０１において、画像入力部１００は、被写体を撮影したり、画像を読み取ったりして、画像を入力する。次に、ステップＳ２０２において、顔領域検出部１０１は顔領域の検出を開始する。

次に、ステップＳ２０３において、顔領域検出プロセスの途中で目領域の検出結果が中間結果メモリ１０２に存在しているかどうかを判断する。この判断の結果、目領域の検出結果が存在しない場合は、検出結果が中間結果メモリ１０２に書き込まれるまで待機する。一方、ステップＳ２０３の判断の結果、目領域の検出結果が存在している場合は、ステップＳ２０４に進む。そして、ステップＳ２０４において、目領域抽出部１０３は、その検出結果を入力し、目領域の抽出を行う。なお、その一方で、顔領域検出部１０１では、引き続き顔領域の検出を継続する。

次に、ステップＳ２０５において、システム制御部１０５により、顔領域の検出結果及び目領域の抽出結果を表示部１０６に表示したり、記録部１０７に記録したりする。そして、処理を終了する。

次に、図３を参照しながら、顔領域検出部１０１で行う顔領域検出処理の概略について説明する。
図３は、本実施形態において、階層的処理により顔領域検出を行う過程を示す図である。
図３に示すように、まず、局所特徴をある階層で検出し、その検出結果を統合して次の階層レベルにおいてより複雑な局所特徴を検出する。そして、この処理を繰り返して、最終的に顔領域を検出する。すなわち、最初にプリミティブな特徴である１次特徴量を検出し、その１次特徴量の検出結果（検出レベル及び位置関係）を用いて２次特徴量を検出する。そして、２次特徴量の検出結果を用いて３次特徴量を検出し、最後にその３次特徴量の検出結果を用いて４次特徴量である顔領域を検出する。

次に、顔領域の具体的な検出手順について、図３を参照しながら説明する。最初に、縦特徴３１１、横特徴３１２、右上がり斜め特徴３１３、及び右下がり斜め特徴３１４といった１次特徴量を検出する。ここで、縦特徴３１１とは、縦方向のエッジセグメントを表す。なお、横特徴３１２、右上がり斜め特徴３１３、及び右下がり斜め特徴３１４についても同様である。

この検出結果は、入力画像と同等の大きさの検出結果画像という形で特徴毎にメモリ１０４に出力される。つまり、図３に示す例では、４種類の検出結果画像が得られ、各特徴の検出結果画像の各位置の値を参照し、入力画像のその位置に各特徴が存在するか否かが判断できる。

２次特徴量については、右空きＶ字特徴３２１、左空きＶ字特徴３２２、水平平行線特徴３２３、及び垂直平行線特徴３２４がある。右空きＶ字特徴３２１及び左空きＶ字特徴３２２は、右上がり斜め特徴３１３と右下がり斜め特徴３１４とから検出を行う。また、水平平行線特徴３２３は横特徴３１２から検出を行い、垂直平行線特徴３２４は縦特徴３１１から検出を行う。

３次特徴量については、眼特徴３３１及び口特徴３３２がある。眼特徴３３１は、右空きＶ字特徴３２１、左空きＶ字特徴３２２、水平平行線特徴３２３、及び垂直平行線特徴３２４から検出を行い、口特徴３３２は、右空きＶ字特徴３２１、左空きＶ字特徴３２２、及び水平平行線特徴３２３から検出を行う。そして、４次特徴量である顔特徴３４１ついては、眼特徴３３１及び口特徴３３２から検出を行う。

以上のように、顔領域検出部１０１では、まずプリミティブな局所特徴を検出し、さらにその検出結果を用いて、階層的に局所特徴を検出し、最終的に顔領域を検出する。なお、前述の検出手法を並列階層処理により画像認識を行う神経回路網を用いて実現することも可能であり、例えば、非特許文献１に記述されている。

次に、図４を参照しながら神経回路網の処理内容について説明する。この神経回路網は、入力データ中の局所領域において、対象または幾何学的特徴等の認識（検出）に関与する情報を階層的に扱うものであり、その基本構造はいわゆるConvolutional (重畳)ネットワーク構造である（例えば、非特許文献２参照）。この構造によれば、最終層（最上位層）では、検出したい被写体の有無の情報、及び被写体が存在する場合にはその入力データ上の位置情報が得られる。

データ入力層４０１は、画像データを入力する層である。最初の第１の特徴検出層４０２−１は、データ入力層４０１より入力された画像パターンの局所的な低次の特徴を複数のスケールレベルまたは解像度で複数の特徴カテゴリの数だけ検出する。この時、全画面の各位置を中心とした局所領域（或いは、全画面にわたる所定のサンプリング点の各点を中心とする局所領域）において同一箇所で検出を行う。なお、低次の特徴には、特定方向成分、特定空間周波数成分等の幾何学的特徴のほか色成分特徴を含んでもよい。

第１の特徴統合層４０３−１は、所定の受容野構造を有し、第１の特徴検出層４０２−１から出力された同一の受容野４０５内にある複数のニューロン素子の出力結果の統合（例えば、局所平均化、最大出力検出等によるサブサンプリングなどの演算）を行う。なお、受容野とは直前の層の出力素子との結合範囲を示し、受容野構造とはその結合荷重の分布を示す。この統合処理においては、第１の特徴検出層４０２−１から出力される出力結果を空間的にぼかすことにより、位置ずれや変形などを許容している。また、第１の特徴統合層４０３−１内のニューロンの各受容野構造は同一層内のニューロン間で共通の構造を有している。

後続の層である第２の特徴検出層４０２−２〜第Ｎの特徴検出層４０２−Ｎ、及び第２の特徴統合層４０３−２〜第Ｎの特徴統合層４０３−Ｎは、前述した各層と同様に検出及び統合を行う。第２の特徴検出層４０２−２〜第Ｎの特徴検出層４０２−Ｎは、各特徴検出モジュール４０４において複数の異なる特徴の検出を行う。第２の特徴統合層４０３−２〜第Ｎの特徴統合層４０３−Ｎは、前段の特徴検出層から出力された複数の異なる特徴に関する検出結果の統合を各特徴統合モジュール４０６において行う。

また、第２の特徴検出層４０２−２〜第Ｎの特徴検出層４０２−Ｎは、同一チャネルに属する前段の特徴統合層の細胞素子の出力結果を受けるように前段の特徴統合層と結合されている。一方、第１の特徴統合層４０３−１〜第Ｎの特徴統合層４０３−Ｎでは、特徴検出された同一特徴カテゴリの細胞集団の局所的な領域（当該特徴統合層ニューロンの局所受容野）の出力結果について平均化などのサブサンプリングを行っている。

図３に示した各特徴量を入力画像中の各位置で検出するためには、図４に示す第１の特徴検出層４０２−１〜第Ｎの特徴検出層４０２−Ｎの各ニューロンの受容野構造をその特徴を検出するために共通に用いることによって可能となる。また、最終の顔領域検出層である第Ｎの特徴検出層４０２−Ｎにおける顔領域の検出に用いる受容野構造について、各サイズや各回転量に適したものを用意する。そして、顔特徴の検出において、顔が存在するという結果を得たときに、どの受容野構造を用いて検出したかに基づいて、その顔の大きさや向きなどの顔データを得ることができる。

さらに、入力する顔画像をあるスケールに固定して、顔特有の特徴量を検出する受容野構造を構築するように学習させることもできる。これによって、受容野構造において検出する特徴を、例えば、Ｖ字特徴を目頭特徴や目尻特徴といった、より目に特化した特徴にすることができる。このように、最終的に顔領域を検出する過程において、眼特徴やＶ字特徴といった目領域を抽出するための情報量を持った特徴が得られる。

図５、図６及び図９は、本実施形態の目領域抽出処理手順の一例を示すフローチャートである。また、図７、図８及び図１０は、本実施形態の目領域抽出処理の詳細を示す模式図である。まずは図５を参照しながら、目領域抽出処理について詳しく説明する。

ステップＳ５０１において、システム制御部１０５により、顔領域検出プロセスの途中で中間的に検出される結果を、中間結果メモリ１０２から目領域抽出部１０３に出力する。次に、ステップＳ５０２において、目領域抽出部１０３は、入力された中間結果を用いて、まず目領域の一次抽出を行う。この一次抽出の詳細は図６につき後述する。

次に、ステップＳ５０３において、ステップＳ５０２で一次抽出された目領域（抽出範囲）内で輝度分布を測定し、黒と白のみを使った画像に２値化するための輝度閾値を設定する。輝度閾値としては、輝度分布の平均値や「大津の方法」によるクラス間分散クラス内分散比を最大にする値など挙げられるが、他の方法で輝度閾値を設定してもよい。

最後に、ステップＳ５０４において、ステップＳ５０３で設定された輝度閾値を基に目領域の二次抽出を行う。この二次抽出の詳細は図９につき後述する。一次抽出された目領域がおおよそ目全体を含んでいるのであれば、輝度閾値により黒目部分一帯を黒と判断し、一次抽出された目領域の上下部分の肌色部分を除いた目領域を抽出することができる。そして、ステップＳ５０５において、目領域抽出処理を終了する。

次に、図６のフローチャートを参照しながら、ステップＳ５０２における目領域の一次抽出処理について詳しく説明する。顔領域検出プロセスの途中で中間的に検出される検出結果として、例えば、目頭特徴位置（Ｅｉｘ，Ｅｉｙ）と、目尻特徴位置（Ｅｏｘ，Ｅｏｙ）といったエッジ成分の情報がある。この場合、図５のステップＳ５０１において、中間結果メモリ１０２に蓄積された目頭特徴位置（Ｅｉｘ，Ｅｉｙ）と、目尻特徴位置（Ｅｏｘ，Ｅｏｙ）とが目領域抽出部１０３に入力されることにより処理を開始する。

まず、ステップＳ６０１において、目領域抽出部１０３は、目領域左右端と目横幅Ｅｗ＝｜Ｅｉｘ−Ｅｏｘ｜とを設定する。例えば、右目の場合は、右目頭特徴位置（ＲＥｉｘ，ＲＥｉｙ）、及び右目尻特徴位置（ＲＥｏｘ，ＲＥｏｙ）と定義すると、ＲＥｉｘを右目領域右端位置と設定し、ＲＥｏｘを右目領域左端位置と設定し、さらに、｜ＲＥｉｘ−ＲＥｏｘ｜を右目横幅と設定する。

一方、左目の場合は、左目頭特徴位置（ＬＥｉｘ，ＬＥｉｙ）、及び左目尻特徴位置（ＬＥｏｘ，ＬＥｏｙ）と定義すると、ＬＥｏｘを左目領域右端位置と設定し、ＬＥｉｘを左目領域左端位置と設定し、さらに、｜ＬＥｉｘ−ＬＥｏｘ｜を左目横幅と設定する。

この時、目頭特徴位置及び目尻特徴位置は、図４における特徴検出細胞集団の局所的な領域の出力結果を平均化などして求められるものであるが、位置を一意に決定することができる方法であれば必ずしもこの方法に限らず他の方法でもよい。また、図４に示す方法では、特徴統合層のニューロン細胞集団について演算を行っているが、特徴検出層のニューロン細胞集団を使用してもよい。

次に、ステップＳ６０２において、目頭特徴の位置及び目尻特徴の位置についてそれぞれの上下方向の大小を比較する。この比較の結果、目頭特徴の上下方向の位置が目尻特徴の上下方向の位置より小さい場合（Ｅｉｙ＜Ｅｏｙ）は、ステップＳ６０３に進む。そして、ステップＳ６０３において、目尻特徴の上下方向の位置（Ｅｏｙ）から目横幅の１／３の長さ分、目領域の範囲を上に広げる。そして、目頭特徴の上下方向位置（Ｅｉｙ）から目横幅の１／３の長さ分、目領域の範囲を下に広げる。これにより、（Ｅｉｙ−Ｅｗ／３）から（Ｅｏｙ＋Ｅｗ／３）までの範囲を目領域上下範囲とする。

一方、ステップＳ６０２の比較の結果、目頭特徴の上下方向の位置が目尻特徴の上下方向の位置より大きい場合（Ｅｉｙ＞Ｅｏｙ）は、ステップＳ６０４に進む。そして、ステップＳ６０４において、目頭特徴の上下方向の位置（Ｅｉｙ）から目横幅の１／３の長さ分、目領域の範囲を上に広げる。そして、目尻特徴の上下方向の位置（Ｅｏｙ）から目横幅の１／３の長さ分、目領域の範囲を下に広げる。これにより、（Ｅｏｙ−Ｅｗ／３）から（Ｅｉｙ＋Ｅｗ／３）までの範囲を目領域上下範囲とする。

次に、ステップＳ６０５において、これら目領域左右範囲（目横幅）と目領域上下範囲とで囲まれた領域を目領域一次抽出結果とし、目領域の一時抽出処理を終了する。なお、ステップＳ６０２の比較の結果、Ｅｉｙ＝Ｅｏｙの場合は、ステップＳ６０３、Ｓ６０４のどちらへ進んでもよい。

図７は、目頭特徴の上下方向の位置が目尻特徴の上下方向の位置より小さい時の目領域一次抽出結果を示す模式図である。
図７に示すように、右目の場合はＲＥｉｙ＜ＲＥｏｙとなり、左目の場合はＬＥｉｙ＜ＬＥｏｙとなる。一次抽出される目領域は、目頭特徴の上下方向の位置より上に存在する目尻特徴の位置からＥｗ／３だけ上に広がり、目尻特徴の上下方向の位置より下に存在する目頭特徴の位置からＥｗ／３だけ下に広がっている。これにより、目の存在する部分が、一次抽出された目領域からはみ出ることが少なくなる。

図８は、目頭特徴の上下方向の位置が目尻特徴の上下方向の位置より大きい時の目領域一次抽出結果を示す模式図である。
図８に示すように、右目の場合は、ＲＥｉｙ＞ＲＥｏｙとなり、左目の場合は、ＬＥｉｙ＞ＬＥｏｙとなる。一次抽出される目領域は、目尻特徴の上下方向の位置より上に存在する目頭特徴の位置からＥｗ／３だけ上に広がって、目頭特徴の上下方向の位置より下に存在する目尻特徴の位置からＥｗ／３だけ下に広がっている。これにより、目の存在する部分が、一次抽出された目領域内からはみ出ることが少なくなる。

このように、目領域左右範囲で設定された目横幅Ｅｗに対して、１／３ずつ上下に目領域の範囲を広げると、目の存在する部分が目領域からはみ出ることが少ない一次抽出結果を得ることができる。

次に、図９を参照しながら、図５のステップＳ５０４における目領域の二次抽出処理について詳しく説明する。
まず、ステップＳ９０１において、システム制御部１０５は、図５のステップＳ５０３において目領域抽出部１０３で一次抽出された目領域内で演算により求められた輝度閾値を用いて、一次抽出された目領域を黒と白とに２値化する。

次に、ステップＳ９０２において、２値化した結果で黒と選ばれた画素で連結している領域（黒画素連結領域）をすべて抽出する。次に、ステップＳ９０３において、横ラインで目領域の下側から画素をスキャンした時に、初めて検出された黒画素連結領域をすべて選択する。

次に、ステップＳ９０４において、ステップＳ９０３で選択された単一または複数の黒画素連結領域の面積及び重心を算出する。次に、ステップＳ９０５において、面積が最大であり、かつ一次抽出された目領域の中心に一番近い黒画素連結領域が存在するか否か判断する。この時、一次抽出された目領域の中心に一番近いかどうかを決定する方法としては、一次抽出された目領域の中心位置と黒画素連結領域の重心位置との距離の二乗誤差が一番小さい黒画素連結領域を選択する方法などがある。ところが、距離が最小になるものを選択する方法であれば他の方法でもよい。

ステップＳ９０５の判断の結果、面積が最大であり、かつ一次抽出された目領域の中心から所定距離範囲内で一番近い黒画素連結領域が存在しない場合は、ステップＳ９０６に進み、輝度閾値を再設定する。そして、ステップＳ９０１に戻る。これは、目領域の中心に存在すると考えられる黒目領域が、輝度閾値を使用した２値化により、適切な黒画素連結領域として設定されてないと考えられるためである。なお、輝度閾値を再設定する方法としては、閾値を決定するための演算を行う領域を目領域より少し小さくしたり、閾値を所定値だけシフトさせたりするなど様々な方法がある。

一方、ステップＳ９０５の判断の結果、面積が最大であり、かつ一次抽出された目領域の中心から所定距離範囲内で一番近い黒画素連結領域が存在する場合は、ステップＳ９０７に進む。そして、ステップＳ９０７において、黒画素連結領域の上下方向位置で一番上の画素と一番下の画素とを選択する。次に、ステップＳ９０８において、選択された黒画素の上下方向位置で一次抽出された目領域の上下方向を限定する。そして、ステップＳ９０９において、その領域を目領域二次抽出結果とし、目領域の二次抽出処理を終了する。

図１０は、目領域の二次抽出処理過程を示す図である。
図１０に示すように、一次抽出された目領域を輝度閾値により黒画素と白画素とに２値化すると、黒目や目の輪郭や眉毛が一次抽出された目領域に入っていれば眉毛にも黒画素が多く存在し、肌色部分は白画素となる。そして、黒画素で連結された領域を抽出するために、さらに、一次抽出された目領域の下側から画素をスキャンして初めて現れる黒画素連結領域を横ラインで選出する。

選出された黒画素連結領域のうち、面積が大きな黒画素連結領域は、黒目や眉毛などに相当するものであり、面積が小さな黒画素連結領域はその他の部分に相当するものである。そして、一次抽出された目領域の中心位置に近く、さらに、選出された黒画素連結領域のうち、面積が大きな黒画素連結領域は、黒目に相当する。

その後、選出された黒画素連結領域の中で、上下方向で黒画素の一番上の画素と一番下の画素とを選択し、その画素の位置で一次抽出された目領域の上下を限定する。これにより、図１０に示すように、瞼や目の下の部分を取り除いた目領域を抽出できる。

輝度閾値により黒画素と白画素とに２値化する際に、輝度ダイナミックレンジを広げるために、ヒストグラム補正を行ったり、黒目と肌色との境界を際立たせるために、エッジ強調を行ったりして、より適切に２値化を行うようにしてもよい。また、画像処理の方法については、本実施形態で説明した方法だけでなく、同様の目的を果たすものであれば、他の方法でも構わない。

以上のように本実施形態においては、顔領域の検出を行っているときに中間結果メモリ１０２に蓄積される目頭特徴位置（Ｅｉｘ，Ｅｉｙ）及び目尻特徴位置（Ｅｏｘ，Ｅｏｙ）を用いて目領域の一次抽出を行う。そして、一次抽出された目領域（抽出範囲）からさらに輝度情報を用いて目領域の二次抽出を行うようにした。これにより、顔領域の検出を行っているときに目領域の抽出を行うことができ、目領域を効率よく、かつ高精度に検出することができる。

（第２の実施形態）
第１の実施形態で示した顔領域検出プロセスの途中で中間的に検出される結果は、目頭特徴位置及び目尻特徴位置のようなピンポイントで高精度な情報であった。本実施形態ではこのようなピンポイントで高精度な情報ではなく、目中心付近位置のような情報が得られた場合の一次抽出処理の例について説明する。なお、本実施形態の画像処理装置の機能構成など、目領域の一次抽出処理以外については第１の実施形態と同様であるため、説明を省略する。

図１１は、本実施形態における目領域の一次抽出処理手順の一例を示すフローチャートである。
図５のステップＳ５０１において、顔領域検出プロセスの途中で中間的に検出される結果として、右眼特徴位置（ＲＥｘ，ＲＥｙ）と、左眼特徴位置（ＬＥｘ，ＬＥｙ）とが目領域抽出部１０３に入力されることにより処理を開始する。

まず、ステップＳ１１０１において、目領域抽出部１０３は、両目間距離Ｅｂｗｎを測定する。この時、眼特徴位置（Ｅｘ，Ｅｙ）は、図４における特徴検出細胞集団の局所的な領域の出力結果を平均化などして求められる。ところが、位置を一意に決定することができる方法であれば必ずしもこの方法に限らず他の方法でもよい。また図４では、特徴統合層のニューロン細胞集団について演算を行っているが、特徴検出層のニューロン細胞集団を使用してもよい。

次に、ステップＳ１１０２において、眼特徴の左右方向の位置から両目間距離の１／２の長さ分、目領域の範囲を左右方向に広げ、目領域左右範囲を決定する。次に、ステップＳ１１０３において、眼特徴の上下方向位置から両目間距離の１／２の長さ分、目領域の範囲を上下方向に広げ、目領域上下範囲を決定する。そして、ステップＳ１１０４において、これら目領域左右範囲と目領域上下範囲とで囲まれた領域を目領域の一次抽出結果とし、目領域の一次抽出処理を終了する。

図１２は、右眼特徴位置（ＲＥｘ，ＲＥｙ）と左眼特徴位置（ＬＥｘ，ＬＥｙ）とから目領域を一次抽出した結果を示す模式図である。
図１２に示すように、両目間距離Ｅｂｗｎを測定し、右眼特徴位置と、左眼特徴位置とからそれぞれ上下左右に両目間距離の半分のＥｂｗｎ／２ずつ広げた領域を目領域の一次抽出結果としている。両目間距離は、目横幅に比べて充分に大きいことが多い。このため、一次抽出される目領域として、眼特徴位置から両目間距離の半分のＥｂｗｎ／２だけ上下左右に広げると、目の存在する部分が、一次抽出された目領域からはみ出ることが少なくなる。なお、この後の目領域の二次抽出処理については、第１の実施形態と同様であるため、説明を省略する。

以上のように本実施形態においては、顔領域の検出を行っているときに中間結果メモリ１０２に蓄積される右眼特徴位置（ＲＥｘ，ＲＥｙ）及び左眼特徴位置（ＬＥｘ，ＬＥｙ）を用いて目領域の一次抽出を行う。そして、一次抽出された目領域（抽出範囲）からさらに輝度情報を用いて目領域の二次抽出を行うようにした。これにより、顔領域の検出を行っているときに目領域の抽出を行うことができ、目領域を効率よく、かつ高精度に検出することができる。

（本発明に係る他の実施形態）
前述した本発明の実施形態における画像処理装置を構成する各手段、並びに画像処理方法の各ステップは、コンピュータのＲＡＭやＲＯＭなどに記憶されたプログラムが動作することによって実現できる。このプログラム及び前記プログラムを記録したコンピュータ読み取り可能な記録媒体は本発明に含まれる。

また、本発明は、例えば、システム、装置、方法、プログラムもしくは記録媒体等としての実施形態も可能であり、具体的には、複数の機器から構成されるシステムに適用してもよいし、また、一つの機器からなる装置に適用してもよい。

なお、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラム（実施形態では図２、５、６、９、１１に示すフローチャートに対応したプログラム）を、システムまたは装置に直接、または遠隔から供給する場合も含む。そして、そのシステムまたは装置のコンピュータが前記供給されたプログラムコードを読み出して実行することによっても達成される場合を含む。

したがって、本発明の機能処理をコンピュータで実現するために、前記コンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明は、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。

その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、ＯＳに供給するスクリプトデータ等の形態であってもよい。

プログラムを供給するための記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスクなどがある。さらに、ＭＯ、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、磁気テープ、不揮発性のメモリカード、ＲＯＭ、ＤＶＤ（ＤＶＤ−ＲＯＭ、ＤＶＤ−Ｒ）などもある。

その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続する方法がある。そして、前記ホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記録媒体にダウンロードすることによっても供給できる。

また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるＷＷＷサーバも、本発明に含まれるものである。

また、その他の方法として、本発明のプログラムを暗号化してＣＤ−ＲＯＭ等の記録媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせる。そして、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。

また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される。さらに、そのプログラムの指示に基づき、コンピュータ上で稼動しているＯＳなどが、実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現され得る。

さらに、その他の方法として、まず記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれる。そして、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現される。

本発明の第１の実施形態の画像処理装置の機能構成例を示すブロック図である。本発明の第１の実施形態の画像処理装置の主ルーチンの処理手順の一例を示すフローチャートである。本発明の第１の実施形態において、階層的に被写体を検出する過程を示す模式図である。階層的神経回路網を示す図である。本発明の第１の実施形態における目領域の抽出処理手順の一例を示すフローチャートである。本発明の第１の実施形態における目領域の一次抽出処理手順の一例を示すフローチャートである。本発明の第１の実施形態における目領域の一次抽出結果の一例を示す図である。本発明の第１の実施形態における目領域の一次抽出結果の一例を示す図である。本発明の第１の実施形態における目領域の二次抽出処理手順の一例を示すフローチャートである。本発明の第１の実施形態における目領域の二次抽出処理過程の一例を示す図である。本発明の第２の実施形態における目領域の一次抽出処理手順の一例を示すフローチャートである。本発明の第２の実施形態における目領域の一次抽出結果の一例を示す図である。

符号の説明

１０画像処理装置
１００画像入力部
１０１顔領域検出部
１０２中間結果メモリ
１０３目領域抽出部
１０４メモリ
１０５システム制御部
１０６表示部
１０７記録部

Claims

入力された画像から顔領域を検出する顔領域検出手段と、
前記顔領域検出手段によって前記顔領域を検出する過程で検出される特徴を用いて前記画像の中の目領域を抽出する目領域抽出手段とを有することを特徴とする画像処理装置。
前記目領域抽出手段は、前記顔領域を検出する過程で検出される特徴を基に、前記目領域の抽出範囲を限定して前記目領域を抽出することを特徴とする請求項１に記載の画像処理装置。
前記目領域抽出手段は、前記顔領域を検出する過程で検出される特徴を基に、前記目領域の抽出範囲を限定し、前記限定した目領域の抽出範囲の輝度情報を基に、前記目領域の抽出範囲をさらに限定して前記目領域を抽出することを特徴とする請求項１に記載の画像処理装置。
前記目領域抽出手段は、前記顔領域を検出する過程で検出される特徴を基に、前記目領域の抽出範囲を限定し、前記限定した目領域の抽出範囲の輝度情報から算出した単一もしくは複数の領域の面積及び重心位置を基に、前記目領域の抽出範囲をさらに限定して前記目領域を抽出することを特徴とする請求項１に記載の画像処理装置。
前記目領域抽出手段は、前記限定した目領域の抽出範囲の輝度情報から算出した単一もしくは複数の領域のうち、面積が最大であり、かつ、前記限定した目領域の抽出範囲の輝度情報から算出した単一もしくは複数の領域の重心位置と前記抽出範囲の中心位置との距離が最小である領域を基に、前記目領域を抽出することを特徴とする請求項４に記載の画像処理装置。
前記顔領域を検出する過程で検出される特徴は、前記画像の中のエッジ成分を表す情報であることを特徴とする請求項１〜５の何れか１項に記載の画像処理装置。
前記顔領域を検出する過程で検出される特徴は、前記画像の中の目頭、目尻、または目中心付近の位置情報であることを特徴とする請求項１〜５の何れか１項に記載の画像処理装置。
入力された画像から顔領域を検出する顔領域検出ステップと、
前記顔領域検出ステップにおいて前記顔領域を検出する過程で検出される特徴を用いて前記画像の中の目領域を抽出する目領域抽出ステップとを有することを特徴とする画像処理方法。
前記目領域抽出ステップにおいては、前記顔領域を検出する過程で検出される特徴を基に、前記目領域の抽出範囲を限定して前記目領域を抽出することを特徴とする請求項８に記載の画像処理方法。
前記目領域抽出ステップにおいては、前記顔領域を検出する過程で検出される特徴を基に、前記目領域の抽出範囲を限定し、前記限定した目領域の抽出範囲の輝度情報を基に、前記目領域の抽出範囲をさらに限定して前記目領域を抽出することを特徴とする請求項８に記載の画像処理方法。
前記目領域抽出ステップにおいては、前記顔領域を検出する過程で検出される特徴を基に、前記目領域の抽出範囲を限定し、前記限定した目領域の抽出範囲の輝度情報から算出した単一もしくは複数の領域の面積及び重心位置を基に、前記目領域の抽出範囲をさらに限定して前記目領域を抽出することを特徴とする請求項８に記載の画像処理方法。
前記目領域抽出ステップにおいては、前記限定した目領域の抽出範囲の輝度情報から算出した単一もしくは複数の領域のうち、面積が最大であり、かつ、前記限定した目領域の抽出範囲の輝度情報から算出した単一もしくは複数の領域の重心位置と前記抽出範囲の中心位置との距離が最小である領域を基に、前記目領域を抽出することを特徴とする請求項１１に記載の画像処理方法。
前記顔領域を検出する過程で検出される特徴は、前記画像の中のエッジ成分を表す情報であることを特徴とする請求項８〜１２の何れか１項に記載の画像処理方法。
前記顔領域を検出する過程で検出される特徴は、前記画像の中の目頭、目尻、または目中心付近の位置情報であることを特徴とする請求項８〜１２の何れか１項に記載の画像処理方法。
入力された画像から顔領域を検出する顔領域検出ステップと、
前記顔領域検出ステップにおいて前記顔領域を検出する過程で検出される特徴を用いて前記画像の中の目領域を抽出する目領域抽出ステップとをコンピュータに実行させることを特徴とするプログラム。
請求項１５に記載のプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。