JP2013178816A

JP2013178816A - 画像処理装置、撮像装置、画像処理方法

Info

Publication number: JP2013178816A
Application number: JP2013103531A
Authority: JP
Inventors: Katsuhiko Mori; 克彦森; Masakazu Matsugi; 優和真継; Takashi Suzuki; 崇士鈴木; Hirosuke Mitarai; 裕輔御手洗; Yuji Kaneda; 雄司金田
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2003-07-18
Filing date: 2013-05-15
Publication date: 2013-09-09
Anticipated expiration: 2024-06-04
Also published as: CN1839410B; JP5517858B2; JP2011018362A; JP5629803B2; CN1839410A

Abstract

【課題】画像中の顔の表情を判別することで、適切な画像を記録する。
【解決手段】画像を入力し（Ｓ２０１）、入力された画像を一時的に保持し、保持された画像から顔を検出し（Ｓ２０２）、顔が検出された場合に顔の表情を判別し（Ｓ２０４）、判別された顔の表情が特定の表情である場合に、一時的に保持された当該顔が検出された画像を記録する（Ｓ２０５）。
【選択図】図２

Description

本発明は、入力した画像中の顔などの被写体のカテゴリに係る判別を行う技術に関するものである。

従来より、画像認識や音声認識の分野においては、特定の認識対象に特化した認識処理アルゴリズムを、コンピュータソフト、或いは専用並列画像処理プロセッサを用いたハードウェアにより実現することで、認識対象を検出するものが知られている。

特に、顔を含む画像から、この顔を特定の認識対象として検出するものとしては、従来からいくつかの文献が開示されている（例えば特許文献１乃至５を参照）。

そのうちの１つの技術によると、入力画像に対して、標準顔と呼ばれるテンプレートを使って、顔領域を探索し、その後、眼、鼻孔、口といった特徴点候補に対して、部分テンプレートを使用して、人物を認証する。しかしこの技術では、始めにテンプレートを使用して顔全体でマッチングして、顔領域を検出するため、複数の顔のサイズや、顔の向きの変化に弱く、それに対応するためには、サイズや顔の向きに対応した複数の標準顔を用意し、それぞれを用いて検出する必要があるが、顔全体のテンプレートはサイズも大きく、処理コストもかかる。

またその他の技術によると、顔画像から眼と口候補群を求め、それらを組み合わせた顔候補群と予め記憶してある顔構造とを照合し、眼と口に対応する領域を発見する。この技術にでは、入力画像中の顔の数は１つもしくは少数であり、また顔の大きさもある程度大きなサイズであり、入力画像中のほとんどの領域は顔であり、背景は少ない画像が入力画像として想定されている。

またその他の技術によると、眼、鼻、口候補をそれぞれ複数求め、予め用意されている特徴点間の位置関係から、顔を検出する。

またその他の技術によると、顔の各部品の形状データと入力画像との一致度を調べる際に、形状データを変更させるものであり、また各顔部品の探索領域は、以前に求めた部品の位置関係を基に決定するものである。この技術では、虹彩、口、鼻等の形状データを保持しておき、まず２つの虹彩を求め、続いて口、鼻等を求める際に、その虹彩の位置に基づいて、口、鼻等の顔部品の探索領域を限定している。つまり、このアルゴリズムは、虹彩（眼）、口、鼻といった顔を構成する顔部品を並列的に検出するのではなく、虹彩（眼）を最初に見つけ、その結果を使用して、順に口、鼻という顔部品を検出している。この方法では、画像中に顔が一つしかなく、さらに虹彩が正確に求まった場合を想定しており、検出された虹彩が誤検出であった場合には、口や鼻等の他の特徴の探索領域を正しく設定出来ない。

またその他の技術によると、複数の判定要素取得領域を設定した領域モデルを入力画像中で移動させ、各点で、それら判定要素取得領域内で、判定要素の有無を判定し、顔を認識するものである。この技術において、サイズの異なった顔や回転した顔に対応させるためには、サイズの異なった領域モデルや回転した領域モデルを用意する必要があるが、実際にそのサイズの顔やその回転角度の顔が存在しない場合、無駄な計算を多数行なう事となる。

また、画像中の顔の表情を認識する手法もまた従来からいくつか開示されている（例えば非特許文献１、２を参照）。

そのうちの１つの技術では、目視によってフレーム画像から顔の部分領域が正確に切り出されることが前提となっている。またその他の技術でも、顔パターンの大まかな位置決めの自動化はされているが、特徴点の位置決めに当たっては人間の目視による微調整が必要となっている。また他の技術（例えば、特許文献６を参照）では、表情の要素を筋肉の動きや神経系接続関係等を用いてコード化し、情緒を決定する。ただしこの技術では、表情の認識に必要な部位の領域は固定されており、顔の向きの変化や動きによって、認識に必要な領域が含まれない可能性、逆に不要な領域が含まれてしまう可能性があり、表情の認識の精度に影響を及ぼすと考えられる。

その他に、顔の表情動作を客観的に記述する方法として知られているFACS（Facial Action Coding System）のAction Unitに対応する変化を検出し、表情を認識するシステムも検討されている。

また、その他の技術（例えば特許文献７を参照）では、リアルタイムで顔の表情を推定し、3次元顔モデルを変形させ、表情を再現する。この技術では、顔領域を含む入力画像と顔領域を含まない背景画像との差分画像と、肌色を示す色度から、顔を検出し、検出された顔領域を2値化した後に、顔の輪郭線を検出する。そして、その輪郭線内の領域で、目と口の位置を求め、目と口の位置から顔の回転角を求めて、回転補正した後に、2次元離散コサイン変換を行い、表情を推定し、その空間周波数成分の変化量に基づいて、3次元顔モデルを変換して表情の再現を行なっている。しかしながら、肌色の検出は照明変動や背景の影響を受けやすい。そのため、この技術では、最初の肌色抽出処理において、被写体の未検出や誤検出が起きる可能性が高い。

また、顔画像から個人の識別を行なう手法として、TurkらによるEigenface（固有顔）法が良く知られている（例えば非特許文献３，４を参照）。この手法では、多数の顔画像の濃淡値ベクトルの集合に対して、主成分分析を行い、固有顔と呼ばれる正規直交基底をあらかじめ求めておき、これらの基底を用いて、入力された顔画像の濃淡値ベクトルにKarhunen-Loeve展開を施すことにより、次元圧縮された顔パターンを求める。そして、その次元圧縮されたパターンを、識別のための特徴ベクトルとするものである。

識別のための特徴ベクトルを使用して、実際に個人を識別する手法のひとつとして、上記文献中では、入力画像の次元圧縮された顔パターンと、保持してある各個人の次元圧縮された顔パターンとの距離を求め、最も近い距離を示したパターンが属するクラスを、入力された顔画像が属するクラス、つまり個人と識別する手法が示されている。ただし、この手法は基本的には、なんらかの手法を用いて画像中の顔の位置が検出され、その後、その顔の領域に対して、サイズ正規化や回転の補正を行なった顔画像を求め、その補正された顔画像を入力画像としている。

また、リアルタイムで顔を認識できる画像処理方法が従来技術として開示されている（例えば特許文献８を参照）。この手法では、まず、入力画像中から任意の領域を切り出し、その領域が顔領域か否かを判別する。次に、その領域が顔領域の場合、アフィン変換とコントラスト補正を行なった顔画像と、学習データベースの登録済み顔とのマッチングを行い、同一人物である確率を推定する。そして、その確率に基づいて、登録された人物の中から入力顔と同一である可能性が最も高い人物を出力する。

特開平９−２５１５３４号公報特許２７６７８１４号特開平９−４４６７６号公報特許２９７３６７６号特開平１１−２８３０３６号公報特許２５７３１２６号特許３０６２１８１号公報特開２００３−２７１９５８号公報

赤松茂,"人間とコンピュータによる顔表情の認識III"、電子情報通信学会誌Vol.85 No.12 pp.936-941,Dec. 2002、で紹介されているように、G.Donate,T.J.Sejnowski,et.al, "Classifying Facial Actions" IEEE Trans.PAMI, vol.21, no.10,Oct,1999 Y.Tian,T.Kaneda,and J.F.Cohn "Recognizing Action Units for Facial Expression Analysis" IEEE Tran.PAMI vol.23,no.2,Feb.2001 赤松茂,"コンピュータによる顔の認識 −サーベイ−"、電子情報通信学会誌Vol.80 No.8 pp.2031-2046,Aug. 1997 M.Turk, A.Pentland, "Eigenfaces for recognition" J. Cognitive Neurosci., vol.3, no.1, pp. 71-86, Mar,1991

上記従来技術においては、顔の表情を判別したり、顔から個人を判別する技術が提案されている。一方、撮影者が人物の顔を撮影する場合、特定の表情（例えば笑顔）である場合や、特定の個人（例えば撮影者の子供）である場合に、その画像は撮影者の意図する望ましい画像と考えられる。

本発明は以上に鑑みて成されたものであり、画像中の顔の表情を判別することで、適切な画像を記録する技術を提供することを目的とする。

本発明の目的を達成するために、例えば本発明の画像処理装置は以下の構成を備える。

即ち、画像を順次入力する入力手段と、
順次入力された前記画像を一時的に保持する保持手段と、
前記保持手段に保持された画像から顔を検出する検出手段と、
前記検出手段により顔が検出された場合に当該顔の表情を判別する表情判別手段と、
判別された前記顔の表情が特定の表情である場合に、前記保持手段に保持された、当該特定の表情であると判別された顔が検出された画像を撮影画像として記録媒体に記録する撮影制御手段と
を備えることを特徴とする。

本発明の構成により、画像中の顔の表情を判別することで、適切な画像を記録することができる。

本発明の第１の実施形態に係る画像処理装置の機能構成を示す図である。撮影画像中の顔の表情を判別する為のメインの処理のフローチャートである。本発明の第２の実施形態に係る画像処理装置の機能構成を示す図である。図３に示す構成の動作を示すタイミングチャートである。本発明の第３の実施形態に係る画像処理装置の機能構成を示す図である。図５に示す構成の動作を示すタイミングチャートである。撮影画像における局所特徴を検出し、顔領域を特定するための一連の処理を示す図である。画像認識を行うための神経回路網の構成を示す図である。各特徴点を示す図である。図９に示した顔領域において一次特徴と三次特徴とを用いた特徴点を求める処理を説明するための図である。本発明の第１の実施形態に係る画像処理装置の基本構成を示す図である。本発明の第１の実施形態に係る画像処理装置を撮像装置に用いた例の構成を示す図である。本発明の第４の実施形態に係る画像処理装置の機能構成を示す図である。撮影画像中の顔が誰のものであるかを判別する為のメインの処理のフローチャートである。個人判別処理で用いる特徴ベクトルについて説明した図である。３つの識別器それぞれにおいて学習時に用いられるデータを表として示した図である。本発明の第５の実施形態に係る画像処理装置の機能構成を示す図である。撮影画像中の顔が誰のもので、且つどのような表情であるのかを判別する為のメインの処理のフローチャートである。統合部１７０８が管理しているデータの構成例を示す図である。本発明の第６の実施形態に係る画像処理装置の機能構成を示す図である。本発明の第６の実施形態に係る画像処理装置が行うメインの処理のフローチャートである。表情判別データの構成例を示す図である。

以下添付図面を参照して、本発明を好適な実施形態に従って詳細に説明する。

［第１の実施形態］
図１は本実施形態に係る画像処理装置の機能構成を示す図である。本実施形態に係る画像処理装置は、画像中から顔を検出し、その表情を判別するものであり、撮像部１００、制御部１０１、顔検出部１０２、中間検出結果保持部１０３、表情判別部１０４、画像保持部１０５、表示部１０６、記録部１０７から成る。以下、各部について説明する。

撮像部１００は、制御部１０１からの制御信号に基づいて画像を撮影し、その撮影した画像（撮影画像）を、顔検出部１０２、画像保持部１０５、表示部１０６若しくは記録部１０７に出力する。

制御部１０１は、本実施形態に係る画像処理装置全体を制御するための処理を行うものであり、撮像部１００、顔検出部１０２、中間検出結果保持部１０３、表情判別部１０４、画像保持部１０５、表示部１０６、記録部１０７と接続されており、各部が適切なタイミングで動作するよう、各部を制御するものである。

顔検出部１０２は、撮像部１０１からの撮影画像において顔の領域（撮影画像中に含まれる顔の画像の領域）を検出する処理を行う。この処理は即ち、撮影画像中の顔領域の数、撮影画像における顔領域の座標位置、顔領域のサイズ、顔領域の撮影画像における回転量（例えば顔領域を矩形とする場合、この矩形が撮影画像においてどの方向にどれだけ傾いているかを示す回転量）を求める処理に換言される。なお、これらの情報（撮影画像中の顔領域の数、撮影画像における顔領域の座標位置、顔領域のサイズ、顔領域の撮影画像における回転量）を総称して以下、「顔領域情報」と呼称する。従って、顔領域情報を求めることにより、撮影画像における顔の領域を特定することができる。

これらの検出結果は表情判別部１０４に出力する。また、検出処理の途中で得られる後述の中間検出結果は中間検出結果保持部１０３へ出力する。

中間検出結果保持部１０３は、顔検出部１０２から出力された上記中間特徴検出結果を保持する。

表情判別部１０４は、顔検出部１０２から出力される顔領域情報のデータと、中間検出結果保持部１０３から出力される上記中間特徴検出結果のデータとを受け付ける。そして、それらのデータに基づいて、画像保持部１０５から撮影画像の全部若しくは一部（一部の場合、顔領域の画像のみ）を読み込み、後述の処理によって、読み込んだ画像における顔の表情を判別する処理を行う。

画像保持部１０５は、撮像部１００から出力された撮影画像を一時的に保持し、制御部１０１の制御信号に基づいて、保持している撮影画像の全部若しくは一部を、表情判別部１０４や、表示部１０６、記録部１０７へ出力する。

表示部１０６は、例えばＣＲＴや液晶画面などにより構成されており、画像保持部１０５から出力された撮影画像の全部若しくは一部、又は撮像部１００で撮像された撮影画像を表示する。

記録部１０７は、ハードディスクドライブやＤＶＤ−ＲＡＭ、コンパクトフラッシュ（登録商標）などの記憶媒体に情報を記録する装置により構成されており、画像保持部１０５に保持された画像、または撮像部１００で撮像された撮影画像を記録する。

次に、上記各部の動作によって実行される、撮影画像中の顔の表情を判別する為のメインの処理について、同処理のフローチャートを示す図２を用いて説明する。

先ず、制御部１０１からの制御信号に基づいて撮像部１００が画像を撮影する（ステップＳ２０１）。撮影された画像のデータは、表示部１０６に表示されると共に、画像保持部１０５に出力され、更には顔検出部１０２に入力される。

次に、顔検出部１０２は入力された撮影画像を用いて、この撮影画像中の顔の領域を検出する処理を行う（ステップＳ２０２）。この顔領域の検出処理について、より詳細に説明する。

図７は、撮影画像における局所特徴を検出し、顔領域を特定するための一連の処理を示す図である。同図に示した処理では、まず最もプリミティブな局所特徴である一次特徴を検出する。一次特徴としては同図に示すように、縦特徴７０１，横特徴７０２，右上がり斜め特徴７０３，右下がり斜め特徴７０４といった特徴がある。ここで「特徴」とは、縦特徴７０１を例に取ると、縦方向のエッジセグメントを表すものである。

撮影画像において各方向のセグメントを検出する技術については周知であるので、この技術を用いて撮影画像から各方向のセグメントを検出し、撮影画像から縦特徴のみを検出した画像、撮影画像から横特徴のみを検出した画像、撮影画像から右上がり斜め特徴のみを検出した画像、撮影画像から右下がり斜め特徴のみを検出した画像を生成する。このことから４つの画像（一次特徴画像）のサイズ（縦横の画素数）は撮影画像と同じであるので、特徴画像と撮影画像とでは夫々画素が１対１に対応する。また、特徴画像において、検出した特徴部分の画素の値とそれ以外の部分の画素の値とは異なる値とし、例えば特徴部分の画素の値は１、それ以外の部分の画素の値は０とする。従って、特徴画像において画素値が１である画素があれば、撮影画像においてこれに対応する画素は一次特徴を構成する画素であるとすることができる。

以上のようにして一次特徴画像群を生成することで、撮影画像における一次特徴を検出することができる。

次に、検出した一次特徴群の何れかを組み合わせた二次特徴群を撮影画像から検出する。二次特徴群としては同図に示すように、右空きＶ字特徴７１０，左空きＶ字特徴７１１，水平平行線特徴７１２，垂直平行線特徴７１３といった特徴がある。右空きＶ字特徴７１０は一次特徴である右上がり斜め特徴７０３と右下がり斜め特徴７０４とを組み合わせた特徴、左空きＶ字特徴７１１は一次特徴である右下がり斜め特徴７０４と右上がり斜め特徴７０３とを組み合わせた特徴であり、水平平行線特徴７１２は一次特徴である横特徴７０２を組み合わせた特徴であり、垂直平行線特徴７１３は一次特徴である縦特徴７０１を組み合わせた特徴である。

一次特徴画像の生成と同様に、撮影画像から右空きＶ字特徴７１０のみを検出した画像、撮影画像から左空きＶ字特徴７１１のみを検出した画像、撮影画像から水平平行線特徴７１２のみを検出した画像、撮影画像から垂直平行線特徴７１３のみを検出した画像を生成する。このことから４つの画像（二次特徴画像）のサイズ（縦横の画素数）は撮影画像と同じであるので、特徴画像と撮影画像とでは夫々画素が１対１に対応する。また、特徴画像において、検出した特徴部分の画素の値とそれ以外の部分の画素の値とは異なる値とし、例えば特徴部分の画素の値は１、それ以外の部分の画素の値は０とする。従って、特徴画像において画素値が１である画素があれば、撮影画像においてこれに対応する画素は二次特徴を構成する画素であるとすることができる。

以上のようにして二次特徴画像群を生成することで、撮影画像における二次特徴を検出することができる。

次に、検出した二次特徴群の何れかを組み合わせた三次特徴群を撮影画像から検出する。三次特徴群としては同図に示すように、眼特徴７２０，口特徴７２１といった特徴がある。眼特徴７２０は二次特徴である右空きＶ字特徴７１０と左空きＶ字特徴７１１と水平平行線特徴７１２と垂直平行線特徴７１３とを組み合わせた特徴であり、口特徴７２１は二次特徴である右空きＶ字特徴７１０と左空きＶ字特徴７１１と水平平行線特徴７１２とを組み合わせた特徴である。

一次特徴画像の生成と同様に、眼特徴７２０のみを検出した画像、撮影画像から口特徴７２１のみを検出した画像を生成する。このことから２つの画像（三次特徴画像）のサイズ（縦横の画素数）は撮影画像と同じであるので、特徴画像と撮影画像とでは夫々画素が１対１に対応する。また、特徴画像において、検出した特徴部分の画素の値とそれ以外の部分の画素の値とは異なる値とし、例えば特徴部分の画素の値は１、それ以外の部分の画素の値は０とする。従って、特徴画像において画素値が１である画素があれば、撮影画像においてこれに対応する画素は三次特徴を構成する画素であるとすることができる。

以上のようにして三次特徴画像群を生成することで、撮影画像における三次特徴を検出することができる。

次に、検出した三次特徴群を組み合わせた四次特徴を撮影画像から検出する。四次特徴は同図では顔特徴そのものである。顔特徴は三次特徴である眼特徴７２と口特徴７２１とを組み合わせた特徴である。

一次特徴画像の生成と同様に、顔特徴を検出した画像（四次特徴画像）を生成する。このことから四次特徴画像のサイズ（縦横の画素数）は撮影画像と同じであるので、特徴画像と撮影画像とでは夫々画素が１対１に対応する。また、特徴画像において、検出した特徴部分の画素の値とそれ以外の部分の画素の値とは異なる値とし、例えば特徴部分の画素の値は１、それ以外の部分の画素の値は０とする。従って、特徴画像において画素値が１である画素があれば、撮影画像においてこれに対応する画素は四次特徴を構成する画素であるとすることができる。従ってこの四次特徴画像を参照することで、例えば画素値が１である画素の重心位置をもって、顔領域の位置を求めることができる。

なお、この顔領域を矩形とする場合、この矩形が撮影画像に対してどれだけどの方向に傾いているのかを示す情報を求めるために、この矩形の撮影画像に対する傾きを求めることで、上記回転量を求めることができる。

以上のようにして、上記顔領域情報を求めることができる。求めた顔領域情報は上述の通り、表情判別部１０４に出力する。

また、上記各特徴画像（本実施形態では一次特徴画像、二次特徴画像、三次特徴画像、四次特徴画像）は上記中間検出結果として中間検出結果保持部１０３に出力する。

このようにして、撮影画像における四次特徴を検出することで、撮影画像における顔の領域を求めることができる。また、以上説明した顔領域の検出処理を撮影画像全体に対して行うことで、撮影画像に顔の領域が複数含まれていても、夫々の顔の領域を検出することができる。

なお、上記顔領域の検出処理については、並列階層処理により画像認識を行う神経回路網を用いて実現することも可能であり、これについては、M.Matsugu,K.Mori,et.al, “Convolutional Spiking Neural Network Model for Robust Face Detection”,2002,Internatinal Conference On Neural Information Processing (ICONIP02)に記述がされている。

図８を参照して神経回路網の処理内容を説明する。図８は、画像認識を行うための神経回路網の構成を示す図である。

この神経回路網は、入力データ中の局所領域において、対象または幾何学的特徴などの認識（検出）に関与する情報を階層的に扱うものであり、その基本構造はいわゆるConvolutionalネットワーク構造(LeCun, Y. and Bengio, Y., 1995, “Convolutional Networks for Images Speech, and Time Series” in Handbook of Brain Theory and Neural Networks (M. Arbib, Ed.), MIT Press, pp.255-258)である。最終層（最上位層）では検出したい被写体の有無と、存在すればその入力データ上の位置情報が得られる。この神経回路網を本実施形態に適用すれば、この最終層からは、撮影画像中の顔の領域の有無と、顔の領域が存在すれば、この顔の領域の撮影画像上における位置情報が得られる。

同図においてデータ入力層８０１は、画像データを入力する層である。最初の特徴検出層（１,０）は、データ入力層８０１より入力された画像パターンの局所的な低次の特徴（特定方向成分、特定空間周波数成分などの幾何学的特徴のほか色成分特徴を含んでもよい）を全画面の各位置を中心として局所領域（或いは、全画面にわたる所定のサンプリング点の各点を中心とする局所領域）において同一箇所で複数のスケールレベル又は解像度で複数の特徴カテゴリの数だけ検出する。

特徴統合層（２,０）は、所定の受容野構造（以下、受容野とは直前の層の出力素子との結合範囲を、受容野構造とはその結合荷重の分布を意味する）を有し、特徴検出層（１,０）からの同一受容野内にある複数のニューロン素子出力の統合（局所平均化、最大出力検出等によるサブサンプリングなどの演算）を行う。この統合処理は、特徴検出層（１，０）からの出力を空間的にぼかすことで、位置ずれや変形などを許容する役割を有する。また、特徴統合層内のニューロンの各受容野は同一層内のニューロン間で共通の構造を有している。

後続の層である各特徴検出層（１，１）、（１，２）、…、（１，Ｍ）、及び各特徴統合層（２，１）、（２，２）、…、（２，Ｍ）は、上述した各層と同様に、前者（（１，１）、…）は、各特徴検出モジュールにおいて複数の異なる特徴の検出を行い、後者（（２，１）、…）は、前段の特徴検出層からの複数特徴に関する検出結果の統合を行う。但し、前者の特徴検出層は同一チャネルに属する前段の特徴統合層の細胞素子出力を受けるように結合（配線）されている。特徴統合層で行う処理であるサブサンプリングは、同一特徴カテゴリの特徴検出細胞集団からの局所的な領域（当該特徴統合層ニューロンの局所受容野）からの出力についての平均化などを行うものである。

図８に示した神経回路網を用いて、図７に示した各特徴を検出するためには、各特徴検出層の検出に使用する受容野構造をその特徴を検出するためのものにすることで、各特徴の検出が可能である。また、最終層の顔検出層における顔の検出に使用する受容野構造を、各サイズや各回転量に適したものを用意し、顔特徴の検出において、顔が存在するという結果を得たときにどの受容野構造を用いて検出したかによって、その顔の大きさや向き等の顔データを得ることが出来る。

図２に戻って、次に、制御部１０１は、ステップＳ２０２で顔検出部１０２による顔領域検出処理の結果を参照して、撮影画像において顔領域が存在したか否かを判定する（ステップＳ２０３）。この判定方法としては、例えば四次特徴画像が得られたか否かを判定し、得られた場合には顔領域が撮影画像中に存在すると判定する。またその他にも、（顔）特徴検出層内の各ニューロンのうち、出力値がある基準値以上のニューロンが存在するかを判定し、基準値以上のニューロンが示す位置に顔（領域）が存在するとしても良い。その場合、基準値以上のニューロンが存在しない場合は、顔が存在しないとする。

そしてステップＳ２０３における判定処理の結果、撮影画像中に顔領域が存在しない場合、顔検出部１０２はその旨を制御部１０１に通知するので、処理をステップＳ２０１に戻し、制御部１０１は撮像部１００を制御して、新たな画像を撮影する。

一方、顔領域が存在した場合、顔検出部１０２はその旨を制御部１０１に通知するので、処理をステップＳ２０４に進め、制御部１０１は画像保持部１０５に保持されている撮影画像を表情判別部１０４に出力すると共に、中間検出結果保持部１０３に保持されている特徴画像を表情判別部１０４に出力し、表情判別部１０４は、入力された特徴画像と顔領域情報を用いて、撮影画像中の顔領域に含まれる顔の表情を判定する処理を行う（ステップＳ２０４）。

なお、画像保持部１０５から表情判別部１０４に出力する画像は本実施形態では撮影画像全体とするが、これに限定されるものではなく、例えば制御部１０１が顔領域情報を用いて撮影画像中の顔領域を特定し、この顔領域のみの画像を表情判別部１０４に出力するようにしても良い。

次に、表情判別部１０４が行う表情判定処理について、より詳細に説明する。上述のように、顔の表情を判別するために、一般的な表情記述法であるFACS（Facial Action Coding System）で用いられるAction Unit（AU）を検出し、検出したAUの種類により、表情判別を行うことが出来る。AUには、眉の外側を上げる、唇を横に引っ張る等がある。AUの組み合わせにより人間のあらゆる表情の記述は可能であるため、原理的には、AUが全て検出できれば、全ての表情を判別することが可能である。しかし、AUは４４個あり、全てを検出するのは容易ではない。

そこで本実施形態では図９に示すように、眉の端点（Ｂ１〜Ｂ４）、目の端点（Ｅ１〜Ｅ４）、口の端点（Ｍ１，Ｍ２）を表情判別に使用する特徴とし、それら特徴点の相対位置の変化を求めることにより表情を判別する。これらの特徴点の変化でいくつかのAUは記述可能であり、基本的な表情の判別は可能である。なお、各表情における各特徴点の変化は、表情判別データとして表情判別部１０４の中に保持されており、表情判別部１０４の表情判別処理に使用される。

図９は、各特徴点を示す図である。

図９に示した表情検出のための各特徴点は、目や眉などの端部であり、この端部の形状は大まかには右空きのＶ字、左空きのＶ字であるので、例えば図７に示した二次特徴の右空きＶ字特徴７１０，左空きＶ字特徴７１１に相当する。

また、表情判別に使用する特徴点の検出は、顔検出部１０２における顔検出処理の中間段階で得られている。そして、その顔検出処理の中間処理結果は、中間特徴結果保持部１０３に保持されている。

しかしながら、右空きＶ字特徴７１０，左空きＶ字特徴７１１は、顔以外にも、背景等、様々な位置に存在する。そのため、顔検出部１０２で得られた顔領域情報を用いて二次特徴画像中の顔領域を特定し、この領域において右空きＶ字特徴７１０，左空きＶ字特徴７１１の端点、即ち眉の端点、目の端点、口の端点を検出する。

そこで、図９に示すように、顔領域内で眉・目の端点の探索範囲（ＲＥ１，ＲＥ２）と口の端点の探索範囲（ＲＭ）を設定する。そして、その設定した探索範囲内の画素値を参照して、右空きＶ字特徴７１０，左空きＶ字特徴７１１を構成する画素群のうち、同図水平方向に両端の画素の位置を検出し、検出した位置をもって特徴点の位置とする。なお顔領域の中心位置に対するこの探索範囲（ＲＥ１，ＲＥ２，ＲＭ）の相対位置は予め設定されている。

例えば探索範囲ＲＥ１内で右空きＶ字特徴７１０を構成する画素群のうち、同図水平方向に端の画素の位置はＢ１，Ｅ１であるので、これを眉、目何れかの一端の位置とする。また、夫々の位置Ｂ１，Ｅ１の垂直方向の位置を参照し、より上側に位置するものが眉の一端の位置とする。同図ではＢ１がＥ１に比べてより上の位置にあるので、Ｂ１を眉の一端の位置とする。

このようにして、目、眉の一端の位置を求めることができる。同様に探索範囲ＲＥ１において左空きＶ字特徴７１１について同様の処理を行うことで、眉、目のもう一端の位置Ｂ２，Ｅ２の位置を求めることができる。

以上説明した処理により、目、眉、そして口の両端の位置、即ち各特徴点の位置を求めることができる。なお、特徴画像と撮影画像とはサイズが同じで、且つ各画素が１対１で対応するので、特徴画像中の各特徴点の位置はそのまま撮影画像中における位置とすることもできる。

なお、本実施形態では各特徴点の位置を求める処理に二次特徴を用いたが、これに限定されるものではなく、一次特徴や三次特徴等の何れか若しくはその組み合わせを用いても良い。

例えば右空きＶ字特徴７１０，左空きＶ字特徴７１１以外に、図７に示した三次特徴である目特徴７２０と口特徴７２１、及び一次特徴である縦特徴７０１，横特徴７０２，右上がり斜め特徴７０３，右下がり斜め特徴７０４を用いることもできる。

一次特徴と三次特徴とを用いて特徴点を求める処理を図１０を用いて説明する。図１０は図９に示した顔領域において一次特徴と三次特徴とを用いた特徴点を求める処理を説明するための図である。

図１０に示すように、目探索範囲（ＲＥ３、ＲＥ４）と口探索範囲（ＲＭ２）を設定し、そして、その設定した探索範囲内の画素値を参照して、目特徴７２０、口特徴７２１を構成する画素群が配置されている範囲を求める。そしてこの範囲を網羅するように、眉・目の端点の探索範囲（ＲＥ５，ＲＥ６）と口の端点の探索範囲（ＲＭ３）を設定する。

そして次に、夫々の探索範囲（ＲＥ５，ＲＥ６，ＲＭ３）内で縦特徴７０１，横特徴７０２，右上がり斜め特徴７０３，右下がり斜め特徴７０４から成る連続した線分上を追跡し、その結果、水平方向に両端の位置を求め、目、眉、口の両端を求めることができる。１次特徴は基本的にエッジ抽出であるので、各検出結果に対して、あるしきい値以上の領域を細線化し、その結果を追跡することで端点を検出することが出来る。

次に、求めた各特徴点を用いて行う、表情の判定処理について説明する。表情の判別の個人差を無くすために、まず無表情の時の顔画像に対して、顔検出処理を行い、各局所特徴の検出結果を求める。そして、それらの検出結果を用いて、図９または図１０に示した各特徴点の相対位置を求め、基準となる相対位置としてそのデータを表情判別部１０４に保持させておく。そして表情判別部１０４は、その基準の相対位置と、上記求めた各特徴点の相対位置とを参照し、夫々の特徴点が基準からどれだけ変化したか、即ち「ずれ」を求める処理を行う。なお、撮影した画像中の顔のサイズと予め撮影した無表情の時の顔のサイズは一般的に異なるため、求めた各特徴点のうちの相対位置、例えば両目間の距離に基づいて、各特徴点の位置を正規化する。

そして、各特徴点毎にその変化に依存した得点を求め、その得点の分布に基づいて、表情を判別する。例えば、喜びの表情を示す表情は、（１）眼尻が下がる、（２）頬の筋肉が持ち上がる、（３）口の端が持ち上がるなどの特徴が見られるため、「眼の端点から口端点までの距離」、「口の横幅の長さ」、「眼の横幅の長さ」に大きな変化が現れる。そして、それらの変化から求めた得点分布は、喜び表情に特有な得点分布となる。

この特有な得点分布は他の表情に関しても同様なことが言える。従って、分布の形状を混合ガウシアン近似してパラメトリックにモデル化し、求めた得点分布と各表情毎に設けられた得点分布との類似度判別を、パラメータ空間内の距離の大小を判定することにより求める。そして、求めた得点分布とより類似度の高い得点分布（より距離の小さい得点分布）が示す表情を、判定結果としての表情とする。

また、得点総和に対して、閾値処理を行なう方法も適用可能である。この閾値処理は、表情場面に類似した非表情場面（例えば、会話中で”い”という発音をした顔）と表情場面とを正確に判別するためにより有効である。なお、得点分布形状の判別と総和の閾値処理のいずれか一方を行っても良い。このように得点分布と得点の総和の閾値処理から表情の判定を行うことにより、正確に表情場面を認識し検出率を向上することができる。

以上の処理によって、顔の表情を判定することができたので、表情判別部１０４は、判定した表情に応じたコード（各表情に個別のコード）を出力する。このコードは例えば番号であっても良いし、その表現方法は特に限定されるものではない。

次に表情判別部１０４は、判定した表情が、予め設定された特定の表情（例えば笑顔）であるか否かを判定し、その判定結果を制御部１０１に通知する（ステップＳ２０５）。

ここで、ステップＳ２０４までの処理により判定した表情が、予め設定された特定の表情と同じであった場合、例えば本実施形態の場合には、表情判別部１０４が出力した「表情を示すコード」と、予め設定された特定の表情を示すコードとが一致した場合、制御部１０１は画像保持部１０５が保持している撮影画像を記録部１０７に記録する。また、記録部１０７がＤＶＤ−ＲＡＭやコンパクトフラッシュ（登録商標）である場合には、制御部１０１は記録部１０７を制御してＤＶＤ−ＲＡＭやコンパクトフラッシュ（登録商標）等の記憶媒体に撮影画像を記録する（ステップＳ２０６）。また、記録する画像を、顔領域の画像、即ち、特定の表情の顔画像としても良い。

一方、ステップＳ２０４までの処理により判定した表情が、予め設定された特定の表情と同じではなかった場合、例えば本実施形態の場合には、表情判別部１０４が出力した「表情を示すコード」と、予め設定された特定の表情を示すコードとが一致しなかった場合、制御部１０１は撮像部１００を制御し、新たな画像を撮影させる。

なお、判定された表情が特定の表情であった場合にはその他にも、例えばステップＳ２０６で、制御部１０１が撮像部１００を制御して次の画像を撮影させつつ、撮影した画像を記録部１０７に保持させるようにしても良い。また、制御部１０１は表示部１０６を制御して、撮影した画像を表示部１０６に表示しても良い。

一般に表情は急激に変化するものではなく、或程度の連続性を有するものであるので、上記ステップＳ２０２、ステップＳ２０４における処理が比較的短時間で終了すると、特定の表情を示した画像と連続した画像も同様な表情を示していることが多い。そこで、ステップＳ２０２で検出された顔領域をより明瞭とすべく、制御部１０１が撮影部１００の撮影パラメータ（露出補正、自動焦点、色補正等、撮像系の撮像パラメータ）を設定し、再撮影を行ない、表示、記録するように動作させることも可能である。

図１１は本実施形態に係る画像処理装置の基本構成を示す図である。

１００１はＣＰＵで、ＲＡＭ１００２やＲＯＭ１００３に格納されたプログラムやデータを用いて本装置全体の制御を行うと共に、上記表情判定に係る一連の処理を実行する。またＣＰＵ１００１は図１では上記制御部１０１に相当するものである。

１００２はＲＡＭで、外部記憶装置１００７や記憶媒体ドライブ１００８からロードされたプログラムやデータ、Ｉ／Ｆ１００９を介して撮像部１００から入力される画像のデータなどを一時的に格納するエリアを備えると共に、ＣＰＵ１００１が各種の処理を実行する為に必要なエリアも備える。図１では中間検出結果保持部１０３と画像保持部１０５とがこのＲＡＭ１００２に相当する。

１００３はＲＯＭで、例えば本装置全体のボートプログラムや設定データなどを格納する。

１００４、１００５は夫々キーボード、マウスで、夫々ＣＰＵ１００１に対して各種の指示を入力するために用いる。

１００６は表示装置で、ＣＲＴや液晶画面などにより構成されており、画像や文字などにより構成されている各種の情報を表示することができる。図１では表示部１０６に相当するものである。

１００７は外部記憶装置で、ハードディスクドライブ装置などの大容量情報記憶装置として機能するものであり、ここにＯＳ（オペレーティングシステム）やＣＰＵ１００１が上記表情判定に係る一連の処理を実行する為に実行するプログラムなどを保存している。そしてこのプログラムはＣＰＵ１００１からの指示により、ＲＡＭ１００２に読み出され、ＣＰＵ１００１により実行されるものである。なお、このプログラムは、図１に示した顔検出部１０２、表情判別部１０４をプログラムにより実現した場合には、この顔検出部１０２、表情判別部１０４に相当するプログラムを含むものである。

１００８は記憶媒体ドライブ装置１００８で、ＣＤ−ＲＯＭやＤＶＤ−ＲＯＭ等の記憶媒体に記録されたプログラムやデータを読み出してＲＡＭ１００２や外部記憶装置１００７に出力するものである。なお、ＣＰＵ１００１が上記表情判定に係る一連の処理を実行する為に実行するプログラムをこの記憶媒体に記録しておき、ＣＰＵ１００１からの指示により、記憶媒体ドライブ装置１００８がＲＡＭ１００２に読み出すようにしても良い。

１００９はＩ／Ｆで、図１に示した撮像部１００と本装置を接続するためのもので、撮像部１００が撮像した画像のデータはＩ／Ｆ１００９を介してＲＡＭ１００２に出力される。

１０１０は上記各部を繋ぐバスである。

続いて、本実施形態に係る画像処理装置を撮像装置に搭載させることにより、被写体が特定表情の場合に撮影を行う場合について、図１２を参照して説明する。図１２は本実施形態に係る画像処理装置を撮像装置に用いた例の構成を示す図である。

図１２中の撮像装置５１０１は、撮影レンズおよびズーム撮影用駆動制御機構を含む結像光学系５１０２、ＣＣＤ又はＣＭＯＳイメージセンサー５１０３、撮像パラメータの計測部５１０４、映像信号処理回路５１０５、記憶部５１０６、撮像動作の制御、撮像条件の制御などの制御用信号を発生する制御信号発生部５１０７、ＥＶＦなどファインダーを兼ねた表示ディスプレイ５１０８、ストロボ発光部５１０９、記録媒体５１１０などを具備し、更に上述した画像処理装置５１１１を表情検出装置として備える。

この撮像装置５１０１は、例えば撮影された映像中から人物の顔画像の検出（存在位置・サイズ・回転角度の検出）と表情の検出を画像処理装置５１１１により行う。そして、その人物の位置情報や表情情報等が画像処理装置５１１１から制御信号発生部５１０７に入力されると、同制御信号発生部５１０７は、撮像パラメータ計測部５１０４からの出力に基づき、その人物の画像を最適に撮影する制御信号を発生する。具体的には、例えば、人物の顔画像が撮影領域の中央に、所定以上のサイズで正面向きに得られ、笑った表情のときを撮影時点とすることができる。

上述した画像処理装置を、このように撮像装置に用いることで、顔検出と表情検出、それに基づくタイミングの良い撮影を行うことができるようになる。なお、上記説明では、上述した処理装置を画像処理装置５１１１として備える撮像装置５１０１について説明したが、当然、上述したアルゴリズムをプログラムとして実装し、ＣＰＵで動作させる処理手段として、撮像装置５１０１に搭載することも可能である。

またこの撮像装置に適用可能な画像処理装置としては本実施形態に係るものに限定されるものではなく、以下説明する実施形態に係る画像処理装置を適用しても良い。

上記説明したように、本実施形態に係る画像処理装置は、一次特徴、二次特徴、、、というような局所特徴を用いるので、撮影画像における顔の領域を特定できるだけでなく、新たに口や目などの検出処理を行うことなく、より簡便に表情の判定処理を行うことができる。

また、撮影画像中における顔の位置や向きなどがまちまちであっても、上記各局所特徴を求めることが出来、その結果、表情の判定処理を行うことができるので、撮影画像中における顔の位置や向きなどにロバストな表情判定を行うことができる。

また本実施形態によれば、何度も撮影を行う過程において、特定の表情のみを撮影することができる。

なお、本実施形態では顔の領域を検出するための画像は撮影画像であったが、これに限定されるものではなく、予め保存しておいたものであっても良いし、ダウンロードしたものであっても良い。

［第２の実施形態］
本実施形態では、第１の実施形態における顔検出領域の検出処理（ステップＳ２０２）と表情判別処理（ステップＳ２０４）とを並列に行なう。これにより、全体の処理をより高速に行うことができる。

図３は、本実施形態に係る画像処理装置の機能構成を示す図である。本実施形態に係る構成において、実質的には中間検出結果保持部３０３の構成と、画像保持部３０５の構成が第１の実施形態に係るそれとは異なっている。

中間検出結果保持部３０３はさらに、中間検出結果保持部Ａ３１３と中間検出結果保持部Ｂ３１４で構成されている。また、画像保持部３０５も同様に、画像保持部Ａ３１５と画像保持部Ｂ３１６で構成されている。

続いて、図３に示す構成の動作を、図４のタイミングチャートを用いて説明する。

図４のタイミングチャートにおいて、“Ａ”の表示はＡモードで動作することを、“Ｂ”の表示はＢモードで動作することを示している。「画像撮影」のＡモードとは、撮影した画像を画像保持部３０５に保持する際に、画像保持部Ａ３１５に保持することを、Ｂモードとは、画像保持部Ｂ３１６に保持することを示す。以下、画像撮影のＡモードとＢモードとは交互に切り替わり、それに応じて撮像部３００は画像の撮影を行うことから、撮像部３００は連続して画像を撮影を行う。なお撮影のタイミングは制御部１０１が与えるものとする。

また、「顔検出」のＡモードとは、顔検出部３０２の顔領域検出処理において、中間処理結果を中間検出結果保持部３０３に保持する際に、中間検出結果保持部Ａ３１３に保持することを、Ｂモードとは、中間検出結果保持部Ｂ３１４に保持することを示す。

さらに「表情判別」のＡモードとは、表情判別部３０４の表情判別処理において、画像保持部Ａ３１５に保持された画像と中間検出結果保持部Ａ３１３に保持された中間処理結果、及び顔検出部３０２の顔領域情報を用いて表情を判別することを示し、またＢモードとは、画像保持部Ｂ３１６に保持された画像と中間検出結果保持部Ｂ３１４に保持された中間特徴検出結果、及び顔検出部３０２の顔領域情報とを用いて表情を判別することを示す。

次に、本実施形態に係る画像処理装置の動作について説明する。

最初に画像撮影のＡモードで画像の撮影を行なうことにより、画像保持部３０５の画像保持部Ａ３１５に撮影された画像が保持される。また、表示部３０６に画像が表示され、さらに顔検出部３０２に画像が入力される。次に、顔検出部３０２では、入力された画像に対して、第１の実施形態と同様な処理を行うことにより顔領域情報を生成する処理を行う。そして、画像中に顔が検出されれば、顔領域情報のデータが表情判別部３０４に入力される。また、その顔検出処理の途中で得られる中間特徴検出結果を中間検出結果保持部３０３の中間検出結果保持部Ａ３１３に保持させる。

次に、Ｂモードの画像撮影とＢモードの顔検出処理、Ａモードの表情判別処理が並列に行なわれる。Ｂモードの画像撮影では、画像保持部３０５の画像保持部Ｂ３１６に撮影された画像が保持される。また、表示部３０６に画像が表示され、さらに顔検出部３０２に画像が入力される。そして、顔検出部３０２で、入力された画像に対して、第１の実施形態と同様の処理を行うことにより顔領域情報を生成する処理を行い、中間処理結果保持部Ｂ３１４に中間処理結果を保持する。

また、上記のＢモードの画像撮影とＢモードの顔領域検出処理と並列に、Ａモードの表情判別処理が行なわれる。Ａモードの表情判別処理では、表情判別部３０４で、画像保持部Ａ３１５から入力された画像に対して、顔検出部３０２からの顔領域情報及び中間検出結果保持部Ａ３１３に保持された中間特徴検出結果を用い、表情判別部３０４で顔の表情を判別する。表情判別部３０４で判別した表情が所望の表情の場合は、画像保持部Ａ３１５の画像を記録して終了となる。

表情判別部３０４で判別した表情が所望の表情と異なる場合は、続いて、Ａモードの画像撮影とＡモードの顔領域検出処理、Ｂモードの表情判別処理が並列に行なわれる。Ａモードの画像撮影では、画像保持部３０５の画像保持部Ａ３１５に撮影された画像が保持される。また、表示部３０６に画像が表示され、さらに顔検出処理部３０２に画像が入力される。続いて、顔検出部３０２で、入力された画像に対して、顔領域を検出する処理を行う。また、並列に行なわれる、Ｂモードの表情判別処理では、表情判別部３０４で、画像保持部Ｂ３１６から入力された画像に対して、顔検出部３０２からの顔領域情報及び中間検出結果保持部Ｂ３１４に保持された中間検出結果を用い、表情判別部３０４で顔の表情を検出する。

以下、表情判別部３０４で判別した表情が特定の表情と判定されるまで、同様の処理を繰り返す。そして、所望の表情と判別されると、表情判別処理がＡモードであれば画像保持部Ａ３１５の画像を、Ｂモードであれば画像保持部Ｂ３１６の画像を記録して終了となる。

なお、各処理におけるモードの切り替えは制御部１０１が行い、そのタイミングは顔検出部１０２が行う顔検出処理の終了を制御部１０１が検知した時点でモードの切り替えを行うものとする。

このように、画像保持部３０５が画像保持部Ａ３１５及び画像保持部Ｂ３１６から、また中間検出結果保持部３０３が中間検出結果保持部Ａ３１３及び中間検出結果保持部Ｂ３１４から構成されているため、画像撮影及び顔領域検出処理、と表情判別処理とを並列に行なうことが出来、結果として、表情を判別する画像の撮影レートを上げることが出来る。

［第３の実施形態］
本実施形態に係る画像処理装置は、第１，２の実施形態における顔検出部１０２が行う顔領域検出処理と、表情判別部１０４が行う表情判別処理とを並列に行なうことにより、システム全体のパフォーマンスを向上させることを目的とする。

第２の実施形態では、画像撮影及び顔領域検出処理の方が、表情判別処理よりも動作時間がかかることを利用して、表情判別処理と、次の画像の撮影及び次の画像中の顔領域の検出処理を並列に行なっていた。それに対し本実施形態では、顔検出処理において、第１の実施形態の図７に示した４次特徴量を検出する処理が、１次特徴量から３次特徴量を検出するのと比較して処理時間がかかることを利用して、顔領域情報は前画像の検出結果を利用し、目や口といった表情の検出に使用する特徴点の検出結果は現画像の検出結果を利用する。これにより、顔領域検出処理と表情判別処理の並列処理を実現するものである。

図５は本実施形態に係る画像処理装置の機能構成を示す図である。

撮像部５００は時系列画像又は動画像を撮像して、各フレームの画像のデータを顔検出部５０２、画像保持部５０５、表示部５０６、記録部５０７に出力するものである。本実施形態に係る構成において、実質的には、顔検出部５０２と表情判別部５０４とが第１の実施形態に係るそれとは異なっている。

顔検出部５０２は、第１の実施形態に係る顔領域検出処理と同じ処理を行うのであるが、その処理が終了すると、終了信号を表情判別部５０４に出力する。

表情判別部５０４は、さらに前画像検出結果保持部５１４を含む構成を備える。

次に、図５に示した各部が行う処理について、図６に示すタイミングチャートを用いて説明する。

撮像部５００により最初のフレームの画像が撮影されると、この画像のデータは顔検出部５０２に入力される。顔検出部５０２では、入力された画像に対して、第１の実施形態と同様の処理を行うことにより顔領域情報を生成し、表情判別部５０４に出力する。表情判別部５０４に入力された顔領域情報は前画像検出結果保持部５１４に保持される。また、その途中で得られる中間特徴検出結果は中間検出結果保持部５０３に入力され、保持される。

続いて、次のフレームの画像が撮像部５００により撮影されると、この画像のデータは画像保持部５０５に入力される。また、表示部５０６にその撮影された画像が表示され、さらに顔検出部５０２に画像が入力される。そして、顔検出部５０２は第１の実施形態と同様の処理を行うことにより顔領域情報を生成する。この顔領域検出処理が終了すると、顔検出部５０２は、その中間特徴の検出結果を中間検出結果保持部５０３に入力するとともに、表情判別部５０４が行うべき一連の処理が終了したことを示す信号を出力する。

そして、表情判別部５０４の判別結果の表情が、所望の表情でなかった場合は、顔検出部５０２で得られた顔領域情報を表情判別部５０４の前画像検出結果保持部５１４に保持する。

表情判別部５０４では、顔検出部５０２から上記終了信号を受けると、前画像検出結果保持部５１４に保持されている前画像（一つ若しくはそれ以上前のフレームの画像）に対する顔領域情報６０１と、画像保持部５０５に保持されている現画像（現在のフレームの画像）と、中間検出結果保持部５０３に保持されている現画像の中間特徴検出結果６０２を用いて、現画像に対する表情判別処理を行う。

即ち、１つ若しくはそれ以上前のフレームの画像において顔領域情報によって特定される領域に位置的に対応する原画像中の領域について、この領域から得られた中間検出結果を用いて表情判別処理を行う。

前画像を撮影した時間と現画像を撮影した時間との差が短ければ、夫々の画像中の顔領域の位置は大きくは変化しない。そのため、上記のように、顔領域情報は前画像から得られたものを使用し、図９、図１０に示した探索領域をより広く設定することで、前画像と現画像の顔領域の位置等のずれによる影響を抑えることができ、表情の判別処理を行なうことができる。

表情判別部５０４で判別した表情が所望の表情の場合は、画像保持部５０５の画像を記録して終了となる。表情判別部５０４で判別した表情が所望の表情と異なる場合は、次の画像を撮影し、顔検出部５０２で顔検出処理を行い、また表情判別部５０４で、撮影した画像、前画像検出結果保持部５１４に保持されている前画像に対する顔検出結果、中間検出結果保持部５０３に保持されている中間処理結果を用いて、表情の判別処理が行われる。

以下、表情判別部５０４で判別した表情が所望の表情になるまで、同様の処理を繰り返す。そして、所望の表情と判別されると、画像保持部５０５の画像を記録して終了となる。

このように、前画像検出結果保持部５１４に保持されている前画像に対する顔領域情報と中間検出結果保持部５０３に保持されている中間特徴検出処理結果を用いて、表情の判別処理が行われることにより、顔領域検出処理と表情判別処理とを並列に行なうことが出来、結果として、表情を判別する画像の撮影レートを上げることが出来る。

［第４の実施形態］
上記実施形態では顔の表情を判別する為の技術について説明したが、本実施形態では、その顔が誰のものであるかの判別、すなわち顔に対する個人の判別するための技術について説明する。

図１３は本実施形態に係る画像処理装置の機能構成を示す図である。本実施形態に係る画像処理装置は、撮像部１３００、制御部１３０１、顔検出部１３０２、中間検出結果保持部１３０３、個人判別部１３０４、画像保持部１３０５、表示部１３０６、記録部１３０７から成る。以下、各部について説明する。

撮像部１３００は、制御部１３０１からの制御信号に基づいて画像を撮影し、その撮影した画像（撮影画像）を、顔検出部１３０２、画像保持部１３０５、表示部１３０６若しくは記録部１３０７に出力する。

制御部１３０１は、本実施形態に係る画像処理装置全体を制御するための処理を行うものであり、撮像部１３００、顔検出部１３０２、中間検出結果保持部１３０３、個人判別部１３０４、画像保持部１３０５、表示部１３０６、記録部１３０７と接続されており、各部が適切なタイミングで動作するよう、各部を制御するものである。

顔検出部１３０２は、撮像部１３０１からの撮影画像において顔の領域（撮影画像中に含まれる顔の画像の領域）を検出する処理を行う。この処理は即ち、撮影画像中の顔領域の有無の判別、顔領域が存在する場合にはこの顔領域の数、撮影画像における顔領域の座標位置、顔領域のサイズ、顔領域の撮影画像における回転量（例えば顔領域を矩形とする場合、この矩形が撮影画像においてどの方向にどれだけ傾いているかを示す回転量）を求める処理に換言される。なお、これらの情報（撮影画像中の顔領域の数、撮影画像における顔領域の座標位置、顔領域のサイズ、顔領域の撮影画像における回転量）を総称して以下、「顔領域情報」と呼称する。従って、顔領域情報を求めることにより、撮影画像における顔の領域を特定することができる。

これらの検出結果は表情判別部１３０４に出力する。また、検出処理の途中で得られる後述の中間検出結果は中間検出結果保持部１３０３へ出力する。

中間検出結果保持部１３０３は、顔検出部１３０２から出力された上記中間特徴検出結果を保持する。

個人判別部１３０４は、顔検出部１３０２から出力される顔領域情報のデータと、中間検出結果保持部１３０３から出力される上記中間特徴検出結果のデータとを受け付ける。そして、それらのデータに基づいて、この顔が誰のものであるかの判別処理を行う。この判別処理について詳しくは後述する。

画像保持部１３０５は、撮像部１３００から出力された撮影画像を一時的に保持し、制御部１３０１の制御信号に基づいて、保持している撮影画像の全部若しくは一部を表示部１３０６、記録部１３０７へ出力する。

表示部１３０６は、例えばＣＲＴや液晶画面などにより構成されており、画像保持部１３０５から出力された撮影画像の全部若しくは一部、又は撮像部１３００で撮像された撮影画像を表示する。

記録部１３０７は、ハードディスクドライブやＤＶＤ−ＲＡＭ、コンパクトフラッシュ（登録商標）などの記憶媒体に情報を記録する装置により構成されており、画像保持部１３０５に保持された画像、または撮像部１３００で撮像された撮影画像を記録する。

次に、上記各部の動作によって実行される、撮影画像中の顔が誰のものであるかを判別する為のメインの処理について、同処理のフローチャートを示す図１４を用いて説明する。

先ず、制御部１３０１からの制御信号に基づいて撮像部１３００が画像を撮影する（ステップＳ１４０１）。撮影された画像のデータは、表示部１３０６に表示されると共に、画像保持部１３０５に出力され、更には顔検出部１３０２に入力される。

次に、顔検出部１３０２は入力された撮影画像を用いて、この撮影画像中の顔の領域を検出する処理を行う（ステップＳ１４０２）。この顔領域の検出処理については第１の実施形態と同様にして行うので、その説明は省略するが、顔検出処理における中間処理結果として、目・口、目や口の端点といった個人識別に有用な特徴が検出されているというのが、本実施形態に係る顔検出処理方式の大きな特徴である。

次に、制御部１３０１は、ステップＳ１４０２で顔検出部１３０２による顔領域検出処理の結果を参照して、撮影画像において顔領域が存在するか否かを判定する（ステップＳ１４０３）。この判定方法としては例えば、（顔）特徴検出層内の各ニューロンのうち、出力値がある基準値以上のニューロンが存在するかを判定し、基準値以上のニューロンが示す位置に顔（領域）が存在するとする。また、基準値以上のニューロンが存在しない場合は、顔が存在しないとする。

そしてステップＳ１４０３における判定処理の結果、撮影画像中に顔領域が存在しない場合、顔検出部１３０２はその旨を制御部１３０１に通知するので、処理をステップＳ１４０１に戻し、制御部１３０１は撮像部１３００を制御して、新たな画像を撮影する。

一方、顔領域が存在した場合、顔検出部１３０２はその旨を制御部１３０１に通知するので、処理をステップＳ１４０４に進め、制御部１３０１は顔検出部１３０２による中間検出結果情報を中間検出結果保持部１３０３に保持させると共に、顔検出部１３０２による顔領域情報を個人判別部１３０４に入力する。

ここで顔の数は、前述のように、基準値以上のニューロンの数で求めることが出来る。なお神経回路網による顔検出は、顔のサイズ変動や回転変動に対してロバストであり、そのため、画像中の１つの顔に対して、基準値を超えたニューロンが１つになるとは限らない。一般的には、複数になる。そこで、基準値を超えたニューロン間の距離に基づいて基準値を超えたニューロンをまとめることにより、画像中の顔の数を求める。また、このようにまとめた複数のニューロンの平均位置や重心位置を顔の位置とする。

回転量や顔の大きさは以下のように求められる。前述のように、顔特徴を検出する時の中間処理結果として、目や口の検出結果が得られる。つまり、第１の実施形態で示した図１０に示すように、顔検出結果を用いて、目探索範囲（ＲＥ３、ＲＥ４）と口探索範囲（ＲＭ２）を設定し、目特徴検出結果と口特徴検出結果に対して、その範囲で、目特徴と口特徴を検出することが出来る。具体的には、これらの範囲の、目検出層のニューロン及び口検出層のニューロンで、基準値を超えた複数のニューロンの平均位置または重心位置を目（左右の目）、口の位置とする。そして、それら３点の位置関係から顔の大きさや回転量が求められる。なお、この顔のサイズや回転量を求める際は目特徴検出結果から両目位置だけを求め、つまり口特徴を使用せずに、両目位置のみから顔のサイズや回転量を求めることも可能である。

そして個人判別部１３０４は、顔領域情報と中間検出結果保持部１３０３に保持れている中間検出結果情報とを用いて、撮影画像中の顔領域に含まれる顔が誰のものであるかの判別処理を行う（ステップＳ１４０４）。

ここで、個人判別部１３０４が行う判別処理（個人判別処理）について説明する。なお、この説明において先ずこの判別処理で使用する特徴ベクトルについて説明し、その後、その特徴ベクトルを用いた識別を行う識別器について説明する。

背景技術で説明したように、一般的に個人判別処理は、画像中の顔の位置や大きさを検出する顔検出処理とは独立に行われる。つまり通常、個人判別処理に使用される特徴ベクトルを求める処理と、顔検出処理とは別個独立のものである。それに対し、本実施形態では、個人判別処理に使用される特徴ベクトルを、顔検出処理の中間処理結果から得るので、個人判別処理を行う過程で求めるべき特徴量の数が従来よりも少なくてすむので、処理全体がより簡便になる。

図１５は、個人判別処理で用いる特徴ベクトルについて説明した図である。図１５（ａ）は個人判別処理に使用される特徴ベクトル１３０１を示す図、図１５（ｂ）は２次特徴の右空きＶ字特徴検出結果を示す図、図１５（ｃ）は左空きＶ字特徴検出結果を示す図、図１５（ｄ）は顔領域を含む撮影画像を示す図である。

ここで図１５（ｂ）、（ｃ）における点線は、顔における目のエッジを示している。このエッジは、実際の特徴ベクトルではなく、Ｖ字特徴検出結果と目の関係をわかりやすくするために示してあるものである。また、図１５（ｂ）において１５０２ａ〜１５０２ｄはそれぞれ、２次特徴の右空きＶ字特徴検出結果における、各特徴におけるニューロンの発火分布領域を示し、黒色が大きな値を、白色が小さな値を示している。同様に、図１５（ｃ）において１５０３ａ〜１５０３ｄはそれぞれ、２次特徴の左空きＶ字特徴検出結果における、各特徴におけるニューロンの発火分布領域を示し、黒色が大きな値を、白色が小さな値を示している。

また、一般的に検出対象の平均的な形状の特徴であれば、ニューロンの出力値は大きな値になり、回転や移動等の変動があれば、出力値は小さな値になるため、図１５（ｂ）、（ｃ）に示したニューロンの出力値の分布は、検出対象の存在する座標から周囲に向かって弱くなっている。

図１５に模式的に示したように、個人判別処理に使用される特徴ベクトル１５０１は、中間検出結果保持部１３０３に保持された中間検出結果の一つである、２次特徴の右空きＶ字特徴検出結果と左空きＶ字特徴検出結果とから作成される。また、この特徴ベクトルは、図１５（ｄ）に示した顔領域全体１５０５ではなく両目を含む領域１５０４を使用している。より具体的には、両目を含む領域で右空きＶ字特徴検出層ニューロンの複数の出力値と左空きＶ字特徴検出層ニューロンの複数、の出力値をそれぞれ配列と考え、同じ座標の出力値を比較して、大きな値を選択するようにして、特徴ベクトルを作成している。

背景技術で説明したEigenface法では、顔領域全体を、固有顔とよばれる基底で分解し、その係数を個人判別に使用する特徴ベクトルとしていた。つまり、Eigenface法では、顔領域全体の特徴を使用して、個人判別を行っている。しかしながら、個人間で異なる傾向を示す特徴であれば、顔領域全体を使用せずに個人判別を行うことも可能である。図１５で示した両目を含む領域の、右空きＶ字特徴検出結果と左空きＶ字特徴検出結果には、それぞれの目の大きさ、両目間の距離、また眉毛と目の距離といった情報が含まれており、これらの情報から個人判別することが可能である。

また、Eigenface法は、照明条件の変動に弱いという欠点があるが、図１５に示した右空きＶ字特徴検出結果と左空きＶ字特徴検出結果は、照明条件やサイズ・回転変動にロバストに顔を検出するために学習された受容野を用いて得られており、照明条件やサイズ・回転変動の影響を受けにくく、個人判別を行うための特徴ベクトルの作成に適している。

さらに、前述のように右空きＶ字特徴検出結果と左空きＶ字特徴検出結果から個人判別を行うための特徴ベクトルを生成するのは非常に簡便な処理である。このように、顔検出処理の中間で得られる中間処理結果を用いて、個人判別のための特徴ベクトルを生成することは、非常に有用である。

本実施形態では、得られた特徴ベクトルを用いて個人判別を行う為の識別器は特に限定しないが、その一例として最近傍識別器がある。最近傍識別器は、各個人を示すトレーニングベクトルをプロトタイプとして記憶し、入力された特徴ベクトルと最も近いプロトタイプが属するクラスによって対象を識別する手法である。つまり、前述した手法で各個人の特徴ベクトルをあらかじめ求めて、それを保持しておき、入力画像から求めた特徴ベクトルと、保持しておいた特徴ベクトルとの距離を求め、最も近い距離の特徴ベクトルを示した人を、識別結果とするというものである。

また別の識別器として、Vapnikらによって提案されたSupport Vector Machine（以降、SVMとする）を使用しても良い。このSVMは、トレーニングデータから、マージン最大化という基準で線形しきい素子のパラメータを学習する。

また、カーネルトリックと呼ばれる非線形変換を組み合わせることで識別性能に優れた識別器となっている( Vapnik, “Statistical Learning Theory”, John Wiley & Sons (1998) )。つまり、各個人を示すトレーニングデータから判別のためのパラメータを求め、そのパラメータと入力画像から求めた特徴ベクトルから個人を判別する。ただし、SVMは基本的に２クラスを識別する識別器を構成するため、複数の人を判別する際は、複数のSVMを組み合わせて判別を行う。

ステップＳ１４０２で行う顔検出処理は前述のように、並列階層処理により画像認識を行う神経回路網を使用している。また各特徴を検出する際に使用する受容野は、大量の顔画像及び非顔画像を用いた学習により獲得される。つまり、顔検出処理を行う神経回路網では、大量の顔画像中で共通しながら、非顔画像とは共通しない情報を入力画像中から抽出し、その情報を用いて顔・非顔の区別をしていると考えることが出来る。

それに対し、個人判別を行う識別器は、顔画像から個人毎に作成された特徴ベクトルの差を識別するように設計されている。つまり、各個人ごとに、少しずつ異なった表情や向き等の顔画像を複数用意し、それら顔画像をトレーニングデータとすると、各個人ごとにクラスタが形成され、SVMを用いると、各クラスタを分離する面が高精度に獲得できる。

また、最近傍識別器であれば、十分な数のプロトタイプが与えられると、ベイズ誤り確率の2倍以下の誤り確率を達成できるという理論的根拠があり、個人間の差異を識別することが可能である。

図１６は、３つの識別器それぞれにおいて学習時に用いられるデータを表として示した図である。すなわち同図の表は、顔検出識別器に（Ａさん、Ｂさんを含む）人の顔の検出を行わせるためのトレーニングを行う際に用いるデータ、Ａさん識別器にＡさんを識別するためのトレーニングを行う際に用いるデータ、Ｂさん識別器にＢさんを識別するためのトレーニングを行う際に用いるデータを示すもので、あって、顔検出識別器を用いた顔検出の為のトレーニング時では、サンプルに用いる全ての人（Ａさん、Ｂさん、その他の人）の顔の画像から求めた特徴ベクトルを正解データとして用い、顔の画像でない背景画像（非顔画像）を不正解データとして用いる。

一方、Ａさん識別器を用いたＡさんの識別の為のトレーニング時ではＡさんの顔画像から求めた特徴ベクトルを正解データとして用い、Ａさん以外の人（同図では「Ｂさん」、「その他」）の顔画像から求めた特徴ベクトルを不正解データとして用いる。また、背景画像についてはトレーニング時には用いない。

同様に、Ｂさん識別器を用いたＢさんの識別の為のトレーニング時ではＢさんの顔画像から求めた特徴ベクトルを正解データとして用い、Ｂさん以外の人（同図では「Ａさん」、「その他」）の顔画像から求めた特徴ベクトルを不正解データとして用いる。また、背景画像についてはトレーニング時には用いない。

従って、３次特徴である目を検出する際に使用する２次特徴検出結果と、前述の個人判別に使用する２次特徴検出結果は一部共通するが、上述のように、顔検出時に目特徴を検出するための識別器（神経回路網）と個人判別を行う識別器は、識別器の種類の違い（すなわち、第１の実施形態で示した神経回路網とSVMや最近傍識別器との違い）だけではなく、トレーニングに使用されるデータの組が異なるため、共通する検出結果を使用してもそこから抽出される、識別に使用する情報が結果的に異なることになり、前者は目を検出し、後者は個人を判別することが出来る。

なお、特徴ベクトルを作成する際に、顔検出部１３０２で得られた顔のサイズや向きが所定の範囲に入っていない場合は、中間検出結果保持部１３０３に保持されている中間処理結果に対して、回転補正やサイズ正規化を行うことも可能である。個人判別の識別器は、個人の細かな差異を識別するように設計されているため、サイズや回転を統一する方が、精度が向上する傾向がある。回転補正及びサイズ正規化は、中間検出結果保持部１３０３に保持されている中間処理結果を、個人判別部１３０４に入力するために、中間検出結果保持部１３０３から読み出すときに、行うことが出来る。

以上の処理によって、顔の個人判別ができたので、個人判別部１３０４は、判定した個人に応じたコード（各個人に個別のコード）が、予め設定されたある個人に対応するコードに一致しているか否かを判断する（ステップＳ１４０５）。このコードは例えば番号であっても良いし、その表現方法は特に限定されるものではない。この判定結果は制御部１３０１に通知する。

ここで、ステップＳ１４０４までの処理により判定した個人が、予め設定された特定の個人と同じであった場合、例えば本実施形態の場合には、個人判別部１３０４が出力した「個人を示すコード」と、予め設定された特定の個人を示すコードとが一致した場合、制御部１３０１は画像保持部１３０５が保持している撮影画像を記録部１３０７に記録する。また、記録部１３０７がＤＶＤ−ＲＡＭやコンパクトフラッシュ（登録商標）である場合には、制御部１３０１は記録部１３０７を制御してＤＶＤ−ＲＡＭやコンパクトフラッシュ（登録商標）等の記憶媒体に撮影画像を記録する（ステップＳ１４０６）。また、記録する画像を、顔領域の画像としても良い。

一方、ステップＳ１４０４までの処理により判定した個人が、予め設定された特定の個人と同じではなかった場合、例えば本実施形態の場合には、個人判別部１３０４が出力した「個人を示すコード」と、予め設定された特定の個人を示すコードとが一致しなかった場合、制御部１３０１は撮像部１３００を制御し、新たな画像を撮影させる。

なお、判定された個人が特定の表情であった場合にはその他にも、例えばステップＳ１４０６で、制御部１３０１が撮像部１３００を制御して次の画像を撮影させつつ、撮影した画像を記録部１３０７に保持させるようにしても良い。また、制御部１３０１は表示部１３０６を制御して、撮影した画像を表示部１３０６に表示しても良い。

また、ステップＳ２０２で検出された顔領域が綺麗に撮像されるように、制御部１３０１が撮影部１３００の撮影パラメータ（露出補正、自動焦点、色補正等、撮像系の撮像パラメータ）を設定し、再撮影を行ない、表示、記録するように動作させることも可能である。

上記説明したように、階層的に検出した局所特徴から最終的な検出対象を検出するアルゴリズムに基づいて、画像中の顔を検出すると、検出した顔領域に基づいて、露出補正や自動焦点、及び色補正等の処理が行なえるだけではなく、その顔検出処理の途中で得られる中間特徴検出結果である、目の候補の検出結果、及び口の候補の検出結果を用いて、個人の判別が、目や口を検出するための新たな検出処理を行うことなく可能になり、処理コストの増加を抑えつつ個人を検出し撮影することが出来るという効果がある。また、顔の位置やサイズなどの変動に強い個人認識が可能になる。

また、本実施形態に係る画像処理装置は図１１に示す構成を備えるコンピュータとしても良い。また、図１２に示す撮像装置における画像処理装置５１１１に適用しても良く、その場合、個人の判別結果に応じた撮影を行うことが可能となる。

［第５の実施形態］
本実施形態に係る画像処理装置は、同じ１つの画像に対して上記実施形態で説明した顔領域検出処理、第１乃至３の実施形態で説明した表情判別処理、第４の実施形態で説明した個人判別処理を行う。

図１７は、本実施形態に係る画像処理装置の機能構成を示す図である。基本的には第１の実施形態に係る画像処理装置の構成に、第４の実施形態に係る画像処理装置の構成、及び統合部１７０８を加えたものとなっている。統合部１７０８を除く各部については上記実施形態において同じ名前の部分と同じ動作を行う。すなわち、撮像部１７００からの画像は顔検出部１７０２、画像保持部１７０５、記録部１７０７、表示部１７０６に出力される。顔検出部１７０２は、上記実施形態と同様の顔領域検出処理を行い、検出処理結果を上記実施形態と同様に、表情検出部１７０４、個人判別部１７１４に出力する。また、その処理の途中で得られる中間検出結果を中間検出結果保持部１７０３に出力する。表情検出部１７０４は、第１の実施形態における表情検出部１０４と同様の処理を行う。個人判別部１７１４は、第４の実施形態における個人判別部１３０４と同様の処理を行う。

統合部１７０８は、顔検出部１７０２、表情検出部１７０４、個人判別部１７１４それぞれの処理結果のデータを受け、これを用いて、顔検出部１７０２が検出した顔が、ある特定の個人の顔であるか否か、そして特定の個人の顔である場合にはこの特定の顔がある特定の表情であるか否かの判断処理を行う。つまり、ある特定の個人が特定の表情であるかを判別する。

次に、上記各部の動作によって実行される、撮影画像中の顔が誰のもので、且つどのような表情であるのかを判別する為のメインの処理について、同処理のフローチャートを示す図１８を用いて説明する。

ステップＳ１８０１からステップＳ１８０３の各ステップにおける処理は、それぞれ図１４のステップＳ１４０１からステップＳ１４０３の各ステップにおける処理と同じであるので説明は省略する。すなわち、ステップＳ１８０１からステップＳ１８０３までの処理で、制御部１７０１と顔検出部１７０２とにより、撮像部１７００からの画像に顔領域が存在するか否かを判断する。

存在する場合には処理をステップＳ１８０４に進め、図２のステップＳ２０４における処理と同じ処理を行うことで、表情検出部１７０４は、検出した顔領域中の顔の表情を判別する。

次にステップＳ１８０５では、図１４のステップＳ１４０４における処理と同じ処理を行うことで、個人判別部１７１４は、検出した顔領域中の顔の個人判別を行う。

なお、ステップＳ１８０４，ステップＳ１８０５の各ステップにおける処理は、ステップＳ１８０２で検出した各顔毎に行う処理である。

次に、ステップＳ１８０６では、統合部１７０８が、表情検出部１７０４から出力される「判定した表情に応じたコード」と、個人判別部１７１４から出力される「判定した個人に応じたコード」とを、各顔毎に管理する。

図１９は、この管理したデータの構成例を示す図である。上述の通り、表情検出部１７０４、個人判別部１７１４は共に、顔検出部１７０２が検出した各顔毎に表情判別、個人判別を行う。従って、統合部１７０８は、各顔毎に固有のＩＤ（同図では数字１，２，、）に関連付けて、「判定した表情に応じたコード」と、「判定した個人に応じたコード」とを管理する。例えば、「判定した表情に応じたコード」として「笑顔」というコードと、「判定した個人に応じたコード」として「Ａ」というコードは、ＩＤが１の顔に対するものであるので、これらのコードを１のＩＤに関連付けて管理する。これはＩＤが２の場合についても同様である。このようにして統合部１７０８は各コードを管理するためのテーブルデータ（例えば図１９に示す構成を有する）を生成し、保持する。

そしてその後、統合部１７０８はステップＳ１８０６で、特定の個人が、ある特定の表情であるか否かをこのテーブルデータを参照することで、判断する。例えば、Ａさんが笑っているのか否かを図１９のテーブルデータを用いて判断するとすると、図１９のテーブルデータではＡさんは笑顔であるので、Ａさんは笑っていると判断する。

このようにして判断した結果、特定の個人が、ある特定の表情である場合には統合部１７０８はその旨を制御部１７０１に通知するので、処理をステップＳ１８０７に進め、図１４のステップＳ１４０６と同じ処理を行う。

尚本実施形態では顔検出処理と表情判別処理とを連続して行ったが、第２，３の実施形態で説明した方法を用いても良い。その場合、全体の処理時間を短縮することができる。

以上の説明によって本実施形態によれば、画像から顔を検出し、個人を特定し、その表情を特定することで、多人数の中から所望の個人の所望の表情の写真を撮影すること、例えば、複数の子供の中から自分の子供の笑顔の瞬間を撮影することが可能となる。

つまり、第１の実施形態で説明した撮像装置の画像処理装置に本実施形態に係る画像処理装置を適用すれば、個人判別処理、表情判別処理の両方を行うことができ、その結果、特定の個人が特定の表情をしたときの撮影を行うことが可能となる。さらに、特定の個人、表情を認識することで、人間と機械のインターフェースとしても使用することが出来る。

［第６の実施形態］
本実施形態では、第５の実施形態で説明した表情判別処理と個人判別処理とを、シーケンシャルに行う。これにより、より高精度に特定の個人の特定の表情を判別することができる。

図２０は、本実施形態に係る画像処理装置の機能構成を示す図である。同図に示した構成は、図１８に示した第５の実施形態に係る画像処理装置の構成に対して、ほぼ同じであるが、個人判別部２０１４と表情判別部２００４とが接続されている点、統合部１７０８の代わりに表情判別データ保持部２００８が用いられている点が異なる。

図２１は本実施形態に係る画像処理装置が行うメインの処理のフローチャートである。以下同図を用いて、本実施形態に係る画像処理装置が行う処理について説明する。

ステップＳ２１０１からステップＳ２１０３の各ステップにおける処理は、図１８のステップＳ１８０１からステップＳ１８０３の各ステップにおける処理と同じであるので、その説明は省略する。

ステップＳ２１０４では、個人判別部２０１４がステップＳ１８０４と同様の処理を行うことで、個人判別処理を行う。なお、ステップＳ２１０４における処理は、ステップＳ１８０２で検出した各顔毎に行う処理である。次にステップＳ２１０５では、個人判別部２０１４は、ステップＳ２１０４で判別した顔がある特定の顔であるか否かを判断する。これは例えば、第５の実施形態で説明したように、管理情報（この場合、各顔固有のＩＤと、個人を示すコードとを関連付けるテーブル）を参照することで成されるものである。

そしてある特定の顔を示すコードと、判別した顔を示すコードとが一致する場合、すなわち、ステップＳ２１０４で判別した顔がある特定の顔である場合には個人判別部２０１４はその旨を表情検出部２００４に通知し、そして処理をステップＳ２１０６に進め、表情判別処理２００４は第１の実施形態と同様にして表情判別処理を行うのであるが、本実施形態では、表情検出部２００４は表情判別処理を行う際には、表情判別データ保持部２００８に保持されている「各個人に対応した表情判別データ」を用いる。

図２２は、この表情判別データの構成例を示す図である。同図に示す如く、各個人毎に表情判別の為のパラメータをあらかじめ用意しておく。ここでパラメータとは、第１の実施形態で説明した「目の端点と口の端点の距離」「口の横幅の長さ」「目の横幅の長さ」のほかに、「頬の部分の影」や「目の下の影」等である。基本的には、第１の実施形態で説明したように、無表情の画像データから作成した参照データとの差分により、個人に依存しない表情認識は行えるが、個人に依存した特異な変化を検出することでより高精度の表情判別が行える。

例えば、ある特定の人物では、笑顔の時に、口が大きく横に伸びたり、頬の部分に影が出たり、目の下に影が出来るとすると、その人物に対する表情判別では、上記の特異な変化を使用することで、より精度の高い表情判別が可能になる。

従って表情検出部２００４は、個人判別部２００４が判別した顔を示すコードを受け、このコードに応じた表情判別のためのパラメータを表情判別データ保持部２００８から読み出す。例えばこの表情判別データが図２２に示す如く構成を有する場合、個人判別部２００４が画像中のある顔をＡさんのものであると判別し、Ａさんを示すコードを表情検出部２００４に出力すれば、表情検出部２００４は、表情判別データ保持部２００８から、Ａさんに対応するパラメータ（目口間距離の変動率＞１．１，頬領域エッジ密度３．０、、、を示すパラメータ）を読み出し、これを用いて表情判別処理を行う。

これにより表情検出部２００４は、第１の実施形態で説明した処理を行うことで求めた目口間距離の変動率、頬領域エッジ密度等がこのパラメータが示す範囲に入っているのか否かをチェックすることで、更に高精度に表情判別を行うことができる。

図２１に戻って、次に、表情検出部２００４は、ステップＳ２１０６で判別した表情が、予め設定された特定の表情であるのか否かを判断する。これは、ステップＳ２１０６で判別した表情を示すコードと、予め設定された特定の表情を示すコードとが一致しているか否かを判別することで成されるものである。

そして一致している場合には処理をステップＳ２１０８に進め、その旨を制御部１７０１に通知し、図１４のステップＳ１４０６と同じ処理を行う。

このように、各個人を特定してから、個人に合わせた表情認識を行うため、表情認識の精度が向上するという効果がある。また、画像から顔を検出し、個人を特定し、その表情を特定することで、多人数の中から所望の個人の所望の表情の写真を撮影すること、例えば、複数の子供の中から自分の子供の笑顔の瞬間を撮影することが可能となる。さらに、特定の個人、表情を認識することで、人間と機械のインターフェースとしても使用することが出来る。

また上記実施形態で「ある特定の個人」や「ある特定の表情」は所定の操作部を介して適宜ユーザが設定することも可能である。よって適宜設定するとそれに応じて当然、それらを示すコードもまた変更される。

また上記実施形態では、被写体を顔としたが、これに限らず、乗り物や建物などであってもよい。

［その他の実施形態］
本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記録媒体（または記憶媒体）を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ（またはＣＰＵやＭＰＵ）が記録媒体に格納されたプログラムコードを読み出し実行することによっても、達成されることは言うまでもない。この場合、記録媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記録した記録媒体は本発明を構成することになる。

また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているオペレーティングシステム（ＯＳ）などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。

さらに、記録媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張カードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張カードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。

本発明を上記記録媒体に適用する場合、その記録媒体には、先に説明したフローチャートに対応するプログラムコードが格納されることになる。

Claims

画像を順次入力する入力手段と、
順次入力された前記画像を一時的に保持する保持手段と、
前記保持手段に保持された画像から顔を検出する検出手段と、
前記検出手段により顔が検出された場合に当該顔の表情を判別する表情判別手段と、
判別された前記顔の表情が特定の表情である場合に、前記保持手段に保持された、当該特定の表情であると判別された顔が検出された画像を撮影画像として記録媒体に記録する撮影制御手段と
を備えることを特徴とする画像処理装置。
前記検出手段は、前記画像から局所特徴を検出し、該局所特徴に基づいて前記顔を検出し、
前記表情判別手段は、前記検出手段で検出された局所特徴に基づいて前記顔の表情を判別する
ことを特徴とする請求項１に記載の画像処理装置。
画像を順次入力する入力手段と、
順次入力された前記画像を一時的に保持する保持手段と、
前記保持手段に保持された画像から顔を検出する検出手段と、
前記検出手段により顔が検出された場合に当該顔の表情に係る評価値を求める評価手段と、
前記評価値に基づいて、前記保持手段に保持された、該評価値を求める対象となった顔が検出された画像を撮影画像として記録媒体に記録するか否かを制御する撮影制御手段と
を備えることを特徴とする画像処理装置。
請求項１乃至３に記載の画像処理装置と、
前記入力手段に順次入力される画像を撮像する撮像手段と
を備えることを特徴とする撮像装置。
画像処理装置が行う画像処理方法であって、
前記画像処理装置が有する入力手段が、画像を順次入力する入力工程と、
前記画像処理装置が有する保持手段が、順次入力された前記画像を一時的に保持する保持工程と、
前記画像処理装置が有する検出手段が、前記保持手段に保持された画像から顔を検出する検出工程と、
前記画像処理装置が有する表情判別手段が、前記検出工程で顔が検出された場合に当該顔の表情を判別する表情判別工程と、
前記画像処理装置が有する撮影制御手段が、判別された前記顔の表情が特定の表情である場合に、前記保持手段に保持された、当該特定の表情であると判別された顔が検出された画像を撮影画像として記録媒体に記録する撮影制御工程と
を備えることを特徴とする画像処理方法。
画像処理装置が行う画像処理方法であって、
前記画像処理装置が有する入力手段が、画像を順次入力する入力工程と、
前記画像処理装置が有する保持手段が、順次入力された前記画像を一時的に保持する保持工程と、
前記画像処理装置が有する検出手段が、前記保持手段に保持された画像から顔を検出する検出工程と、
前記画像処理装置が有する評価手段が、前記検出工程で顔が検出された場合に当該顔の表情に係る評価値を求める評価工程と、
前記画像処理装置が有する撮影制御手段が、前記評価値に基づいて、前記保持手段に保持された、該評価値を求める対象となった顔が検出された画像を撮影画像として記録媒体に記録するか否かを制御する撮影制御工程と
を備えることを特徴とする画像処理方法。
コンピュータに請求項５または６に記載の画像処理方法の各工程を実行させるためのコンピュータプログラム。
請求項７に記載のコンピュータプログラムを格納した、コンピュータ読み取り可能な記憶媒体。