JP4166143B2

JP4166143B2 - 顔位置の抽出方法、およびコンピュータに当該顔位置の抽出方法を実行させるためのプログラムならびに顔位置抽出装置

Info

Publication number: JP4166143B2
Application number: JP2003391148A
Authority: JP
Inventors: 慎二郎川戸; 康隆千田
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2002-11-21
Filing date: 2003-11-20
Publication date: 2008-10-15
Anticipated expiration: 2023-11-20
Also published as: JP2004185611A

Description

この発明はカメラ等からの画像を処理する画像処理に関し、特に、画像中の人物の顔を抽出するための画像認識の分野に関する。

通信により、遠隔地にいる複数の人間で会議を行なうＴＶ会議システムが実用化されている。しかしこれらシステムにおいて、映像そのものを送ると通信データ量が増大するという問題点がある。そのために、たとえば対象となる人物の視線、顔の向き、表情等に関する特徴データを各地で抽出し、抽出したデータのみを互いに送信する技術が研究されている。受信側では、このデータに基づいて仮想的な人物の顔面の画像を生成して表示する。これにより、通信データ量を削減しながら、ＴＶ会議を効率良く行なえる。

さらに、このような画像中から人物を検出する技術は、ヒューマンコンピュータインタラクション、ジェスチャー認識、セキュリティーなどの分野の発展に欠かせない技術としても、盛んに研究されている。

これらの人物検出技術の応用においては、１）検出率が高い、２）照明環境の変化に強い、３）実時間で動作する、という条件を満たす安定したシステムを構築する必要がある。さらに今後、高品質画像（一画面を構成する画素数の多い画像）を対象にした実時間人物検出の必要性が高まってくると考えられ、今後はさらに、より高速な人物検出アルゴリズムの開発が必要になる。

人物を検出するには、まず顔を検出する手法が有効である。顔は表情など重要な情報を有しており、顔を検出できれば四肢の位置を推測して探索することが容易になる。

これまでに、肌色情報を用いた顔検出システムは報告が数多くなされている（たとえば、特許文献１、非特許文献１〜非特許文献４を参照）。

これらの手法は、画像から肌色領域を抽出し顔候補領域を求める。顔候補領域を限定できることから、処理の範囲が限定され、計算量を大幅に減らすことができるので、高速なシステムを構築することが可能である。しかし、色情報を利用する手法は照明環境の変動に弱く、一般的な環境下で動作させる場合、安定した性能を期待できない。

一方、色情報を用いない（濃淡情報を用いる）顔検出手法では、テンプレートマッチングやニューラルネットワーク等の学習的手法を利用した手法が数多く報告されている（たとえば、非特許文献５〜非特許文献６を参照）。これらの手法は高い検出率と照明環境に対するロバスト性が特徴である。たとえば、非特許文献５に開示された技術においては、ニューラルネットワークを応用し、非常に高い検出率を実現している。

しかし、これらの手法は、サイズを変えながら画像全体にわたってテンプレート（モデル）とのマッチングをとる必要があり、計算量が多いという問題がある。そのため、画素サイズが大きくなった場合には、計算量が飛躍的に増加するため、実時間システムを構築することは非常に困難である。

一方、非特許文献７に開示された技術では、分割預域の平均明るさの明暗関係から顔を検出するが、その領域が額から顎まで分布していて１６分割領域があり、まともにヘアスタイルや髭の影響を受けてしまうという問題がある。
川戸慎二郎、鉄谷信二、"リング周波数フィルタを利用した眉間の実時間検出"信学論（Ｄ−ＩＩ），ｖｏｌ．Ｊ８４−Ｄ−ＩＩ，ｎｏ１２，ｐｐ．２５７７−２５８４，Ｄｅｃ．２００１．川戸慎二郎、鉄谷信二、"目のリアルタイム検出と追跡"，信学技報，ＰＲＭＵ２０００−６３，ｐｐ．１５−２２、Ｓｅｐｔ．２０００．チャイＤ，ガンＫ．Ｎ．「テレビ電話アプリケーションにおける肌色マップを用いた顔の分割」ＩＥＥＥトランザクションオンサーキッツアンドシステムズフォービデオテクノロジー，第９巻、Ｎｏ．４，ｐｐ．５５１−５６４，１９９０（Chai, D. and Ngan, K.N.:"Face Segmentation Using Skin-Color Map in Videophone Application," IEEE Trans. on Circuits and Systems For Video Technology, Vol.9, No., pp.551-564, 1990）Ｊ．ヤン，Ａ．ワイベル，「実時間の顔追跡器」，プロシィーディング３ｒｄＩＥＥＥワークショップオンアプリケーションオブコンピュータビジョン，ｐｐ．１４２−１４７，１９９６年（J. Yang and A. Waibel, "A real-time face tracker," Proc. 3rd IEEE Workshop on Application of Computer Vision, pp.142-147, 1996) Ｈ．ローリー，Ｓ．バルージャ，Ｔ．カナダ，「ニューラルネットワークによる顔検知」ＩＥＥＥトランザクションパターンアナリシスアンドマシンインテリジェンス，第２０巻，ｎｏ．１，ｐｐ．２３−３８，１月１９９８年（H. Rowly, S. Baluja, and T. Kanada, "Neural-Network-Based Face Detection," IEEE Trans. Pattern Analysis and Machine Intelligence, vol.20, no.1, pp.23-38, Jan.1998）Ｅ．ジェルマス、Ｂ．Ｋ．ロウ「顔検知：サーベイ」コンピュータビジョンアンドイメージアンダスタンディング、８３（３）、ｐｐ．２３６−２７４，２００１年 (E. Hjelmas and B. K. Low, "Face Detection : A survey," Computer Vision and Image Understanding, 83(3), pp.236-274, 2001) ブライアンスカセッラティ「フォビーティッドアクティブビジョンシステムに対する顔検出による目の検出」プロシィーディングズＡＡＡＩ１９９８年ｐｐ．９６９−９７６（Brian Scassellati, "Eye Finding via Face Detection for a Foveated, Active Vision System", Proc. AAAI ’98, pp.969-976）特開２００１−５２１７６号公報明細書上述した特許文献１に開示された技術では、安定した顔の特徴点として両目の間の点（以下では眉間（Ｂｅｔｗｅｅｎ−ｔｈｅ−Ｅｙｅｓ）と呼ぶ）に着目している。つまり、眉間の周囲は、額部と鼻筋は相対的に明るく、両サイドの目と眉の部分は暗いパターンになっており、それを検出するリング周波数フィルタを用いている。

しかしリング周波数フィルタでは、肌色領域を抽出して、領域を限定する前処理が必要な点と、前髪が眉までかかっているような顔は上述のようなパターンが現れないために、検出できない場合があるという問題があった。

それゆえに本発明の目的は、照明の状況や人物の髪型の影響等を抑えて、画像情報から顔画像を抽出することが可能な顔位置抽出装置、そのための方法および当該方法をコンピュータを用いて実現するためのプログラムを提供することである。

さらに、本発明の他の目的は、照明の状況や人物の髪型の影響等を抑えて、顔の眉間の位置を特定して実時間でその位置を追跡することが可能な顔位置抽出装置、そのための方法および当該方法をコンピュータを用いて実現するためのプログラムを提供することである。

この発明のある局面に従うと、顔位置の抽出方法であって、人間の顔領域を含む対象画像領域内の各画素の値のデジタルデータを準備するステップと、対象となる画像領域内において、６つの矩形形状の結合した眉間検出フィルタによるフィルタリング処理により眉間候補点の位置を抽出するステップと、抽出された眉間候補点の位置を中心として、所定の大きさで対象画像を切り出し、パターン判別処理に応じて、眉間候補点のうちから真の候補点を選択するステップとを備える。

好ましくは、眉間検出フィルタは、１つの矩形形状を６分割したものである、請求項１記載の顔位置の抽出方法。

好ましくは、６つの矩形形状は、鉛直方向に隣接する２つの第１の矩形形状と、第１の矩形形状とは鉛直方向に所定量だけずれ、かつ鉛直方向に隣接する２つの第２の矩形形状と、第２の矩形形状とは鉛直方向に所定量だけずれ、かつ鉛直方向に隣接する２つの第３の矩形形状とを含む。

好ましくは、真の候補点を選択するステップは、眉間候補点に対応する眉間検出フィルタを構成する矩形形状のうち、所定の２つの矩形形状に対応する対象画像に対して、目のパターン判別処理により、目の位置を検出するステップと、検出された目の位置に基づいて、眉間候補点の位置を、２つの目の中点の位置に修正するステップと、修正された眉間候補点位置を中心に２つの目が水平となるように入力画像を回転するステップと、回転された入力画像について、修正された眉間候補点の位置を中心として、所定の大きさで対象画像を切り出し、パターン判別処理に応じて、眉間候補点のうちから真の候補点を選択するステップとを含む。

好ましくは、デジタルデータを準備するステップは、対象画像をステレオ画像として準備するステップを含み、真の候補点を選択するステップは、ステレオ画像に基づいて検出される眉間候補点の観測点からの距離に応じて、眉間候補点のうちから真の候補点を選択するステップとを含む。

この発明の他の局面に従うと、コンピュータに、対象となる画像領域内の顔位置を抽出する方法を実行させるためのプログラムであって、プログラムは、人間の顔領域を含む対象画像領域内の各画素の値のデジタルデータを準備するステップと、対象となる画像領域内において、６つの矩形形状の結合した眉間検出フィルタによるフィルタリング処理により眉間候補点の位置を抽出するステップと、抽出された眉間候補点の位置を中心として、所定の大きさで対象画像を切り出し、パターン判別処理に応じて、眉間候補点のうちから真の候補点を選択するステップとを備える。

好ましくは、眉間検出フィルタは、１つの矩形形状を６分割したものである。

この発明のさらに他の局面に従うと、顔位置抽出装置であって、人間の顔領域を含む対象画像領域内の各画素の値のデジタルデータを準備する撮影手段と、対象となる画像領域内において、６つの矩形形状の結合した眉間検出フィルタによるフィルタリング処理により眉間候補点の位置を抽出する手段と、抽出された眉間候補点の位置を中心として、所定の大きさで対象画像を切り出し、パターン判別処理に応じて、眉間候補点のうちから真の候補点を選択する選択手段とを備える。

好ましくは、選択手段は、眉間候補点に対応する眉間検出フィルタを構成する矩形形状のうち、所定の２つの矩形形状に対応する対象画像に対して、目のパターン判別処理により、目の位置を検出する手段「と、検出された目の位置に基づいて、眉間候補点の位置を、２つの目の中点の位置に修正する手段と、修正された眉間候補点位置を中心に２つの目が水平となるように入力画像を回転する手段と、回転された入力画像について、修正された眉間候補点の位置を中心として、所定の大きさで対象画像を切り出し、パターン判別処理に応じて、眉間候補点のうちから真の候補点を選択する手段とを含む。

好ましくは、撮影手段は、対象画像をステレオ画像として準備する手段を含み、選択手段は、ステレオ画像に基づいて検出される眉間候補点の観測点からの距離に応じて、眉間候補点のうちから真の候補点を選択する手段を含む。

以上説明したとおり、本発明によれば、連続する画面情報から実時間で、人物の顔の位置、特に、眉間または目の位置を検出することができる。

［実施の形態１］
［ハードウェア構成］
以下、本発明の実施の形態１にかかる顔位置抽出装置について説明する。この顔位置抽出装置は、パーソナルコンピュータまたはワークステーション等、コンピュータ上で実行されるソフトウェアにより実現されるものであって、対象画像から人物の顔を抽出し、さらに人物の顔の映像から、眉間の位置および目の位置を検出するためのものである。図１に、この顔位置抽出装置の外観を示す。

図１を参照してこのシステム２０は、ＣＤ−ＲＯＭ（Compact Disc Read-Only Memory ）ドライブ５０およびＦＤ（Flexible Disk ）ドライブ５２を備えたコンピュータ本体４０と、コンピュータ本体４０に接続された表示装置としてのディスプレイ４２と、同じくコンピュータ本体４０に接続された入力装置としてのキーボード４６およびマウス４８と、コンピュータ本体４０に接続された、画像を取込むためのカメラ３０とを含む。この実施の形態の装置では、カメラ３０としてはＣＣＤ（固体撮像素子）を含むビデオカメラを用い、カメラ３０の前にいてこのシステム２０を操作する人物の眉間または目の位置を検出する処理を行なうものとする。

すなわち、カメラ３０により、人間の顔領域を含む画像であって対象となる画像領域内の各画素の値のデジタルデータが準備される。

図２に、このシステム２０の構成をブロック図形式で示す。図２に示されるようにこのシステム２０を構成するコンピュータ本体４０は、ＣＤ−ＲＯＭドライブ５０およびＦＤドライブ５２に加えて、それぞれバス６６に接続されたＣＰＵ（Central Processing Unit ）５６と、ＲＯＭ（Read Only Memory) ５８と、RAM （Random Access Memory）６０と、ハードディスク５４と、カメラ３０からの画像を取込むための画像取込装置６８とを含んでいる。ＣＤ−ＲＯＭドライブ５０にはＣＤ−ＲＯＭ６２が装着される。ＦＤドライブ５２にはＦＤ６４が装着される。

既に述べたようにこの顔位置抽出装置の主要部は、コンピュータハードウェアと、ＣＰＵ５６により実行されるソフトウェアとにより実現される。一般的にこうしたソフトウェアはＣＤ−ＲＯＭ６２、ＦＤ６４等の記憶媒体に格納されて流通し、ＣＤ−ＲＯＭドライブ５０またはＦＤドライブ５２等により記憶媒体から読取られてハードディスク５４に一旦格納される。または、当該装置がネットワークに接続されている場合には、ネットワーク上のサーバから一旦ハードディスク５４にコピーされる。そうしてさらにハードディスク５４からＲＡＭ６０に読出されてＣＰＵ５６により実行される。なお、ネットワーク接続されている場合には、ハードディスク５４に格納することなくＲＡＭ６０に直接ロードして実行するようにしてもよい。

図１および図２に示したコンピュータのハードウェア自体およびその動作原理は一般的なものである。したがって、本発明の最も本質的な部分は、ＦＤ６４、ハードディスク５４等の記憶媒体に記憶されたソフトウェアである。

なお、最近の一般的傾向として、コンピュータのオペレーティングシステムの一部として様々なプログラムモジュールを用意しておき、アプリケーションプログラムはこれらモジュールを所定の配列で必要な時に呼び出して処理を進める方式が一般的である。そうした場合、当該顔位置抽出装置を実現するためのソフトウェア自体にはそうしたモジュールは含まれず、当該コンピュータでオペレーティングシステムと協働してはじめて顔位置抽出装置が実現することになる。しかし、一般的なプラットフォームを使用する限り、そうしたモジュールを含ませたソフトウェアを流通させる必要はなく、それらモジュールを含まないソフトウェア自体およびそれらソフトウェアを記録した記録媒体（およびそれらソフトウェアがネットワーク上を流通する場合のデータ信号）が実施の形態を構成すると考えることができる。

［顔画像の抽出の基本的原理］
まず、本発明の手続きの概略をまとめると、顔を連続撮影したビデオ画像を処理するにあたり、横が顔幅、縦がその半分程度の大きさの矩形フィルターで画面を走査する。矩形は、たとえば、３×２に６分割されていて、各分割領域の平均明るさが計算され、それらの相対的な明暗関係がある条件を満たすとき、その矩形の中心を眉間候補とする。

連続した画素が眉間候補となるときは、それを取囲む枠の中心候補のみを眉間候補として残す。残った眉間候補を標準パターンと比較してテンプレートマッチング等を行なうことで、上述した手続きで得られた眉間候補のうちから、偽の眉間候補を捨て、真の眉間を抽出する。

以下、本発明の顔検出の手続きについて、さらに詳しく説明する。

（６分割矩形フィルタ）
図３は、上述した３×２に６分割された矩形フィルタ（以下、「６分割矩形フィルタ」と呼ぶ）を示す図である。

６分割矩形フィルタは、１）鼻筋は両目領域よりも明るい、２）目領域は頬部よりも暗い、という顔の特徴を抽出し、顔の眉間位置を求めるフィルタである。点（ｘ、ｙ）を中心として、横ｉ画素、縦ｊ画素（ｉ，ｊ：自然数）の矩形の枠を設ける。

図３のように、この矩形の枠を、横に３等分、縦に２等分して、６個のブロックＳ１〜Ｓ６に分割する。

図４は、このような６分割矩形フィルタを顔画像に当てはめた場合を示す概念図である。図４（ａ）は６分割矩形フィルタの形状を示し、図４（ｂ）は６分割矩形フィルタを顔画像の両目領域および頬部に当てはめた状態を示す。

なお、鼻筋の部分が目の領域よりも通常は狭いことを考慮すると、ブロックＳ２およびＳ５の横幅ｗ２は、ブロックＳ１，Ｓ３，Ｓ４およびＳ６の横幅ｗ１よりも狭い方がより望ましい。好ましくは、幅ｗ２は幅ｗ１の半分とすることができる。図５は、このような場合の６分割矩形フィルタの構成を示す概念図である。

実施の形態１では、図５に示すような６分割矩形フィルタを用いるものとする。

また、ブロックＳ１、Ｓ２およびＳ３の縦幅ｈ１と、ブロックＳ４、Ｓ５およびＳ６の縦幅ｈ２とは、必ずしも同一である必要もない。ただし、以下の説明では、縦幅ｈ１と縦幅ｈ２とは等しいものとして説明する。

図５に示す６分割矩形フィルタにおいて、それぞれのブロックＳｉ（１≦ｉ≦６）について、画素の輝度の平均値「バーＳｉ」（Ｓｉに上付きの“−”をつける）を求める。

ブロックＳ１に１つの目と眉が存在し、ブロックＳ３に他の目と眉が存在するものとすると、以下の関係式（１）が成り立つ。

図６は、このような６分割矩形フィルタを走査する対象となる画像を示す概念図である。

図６に示すとおり、顔画像を検知する対象画像は、横方向にＭ画素、縦方向にＮ画素のＭ×Ｎ画素から構成される。原理的には、左上隅の画素（０，０）から横方向および縦方向について順次１画素ずつずらせながら、上記６分割矩形フィルタを当てはめて、上記関係式（１）の妥当性をチェックする作業を行なえばよいことになる。しかしながら、このように６分割矩形フィルタをずらせるたびに、各ブロック内の輝度の平均値を求めるのでは、効率が悪い。

そこで、本発明では、矩形枠内の画素の総和を求める処理について、公知の文献（P. Viola and M. Jones, “Rapid Object Detection using a Boosted Cascade of Simple Features,” Proc. Of IEEE Conf. CVPR,1,pp.511-518, 2001）がにおいて開示されている、インテグラルイメージ（ＩｎｔｅｇｒａｌＩｍａｇｅ）を利用した計算の高速化手法を取り入れる。

画像ｉ（ｘ、ｙ）から、「インテグラルイメージ」は、次式（２）で定義される。

インテグラルイメージは、以下の繰り返しで求めることができる。

ｓ（ｘ、ｙ）は行の画素の総和を表わす。ただしｓ（ｘ、−１）＝０、ｉｉ（−１、ｙ）＝０とする。重要な点は、画像全体を一回走査するだけで、インテグラルイメージを求めることができることである。

インテグラルイメージを用いると、長方形領域内の画素の輝度値の総和を簡単に求めることができる。図７は、このようなインテグラルイメージを用いて、総和を求める長方形領域を示す図である。

インテグラルイメージを用いて、図７に示す長方形Ｄの枠内の画素の輝度の総和Ｓｒは、以下のように４点の値の計算で求めることができる。

このように、インテグラルイメージを用いることによって、長方形領域内の画素の輝度値の総和、ひいては、画素の輝度値の平均を高速に求めることができるので、高速に６分割矩形フィルタに対する処理を行なうことが可能である。

（眉間候補点の抽出処理）
以下では、上述した６分割矩形フィルタを用いて、眉間の候補点を抽出する処理を説明する。

図８は、眉間の候補点を抽出する処理を説明するためのフローチャートである。

図８を参照して、まず、初期化処理として、変数ｍ、ｎの値を、ｍ＝０，ｎ＝０とする（ステップＳ１００）。

続いて、６分割フィルタの左上コーナーを画像の（ｍ，ｎ）画素に合わせる（ステップＳ１０２）。さらに、ブロックＳｉの領域の画素の平均濃度バーＳｉを計算する（ステップＳ１０４）。

次に、平均濃度バーＳｉの値の大小が、式（１）による眉間候補条件を満たすがどうかテストする（ステップＳ１０６）。

テスト条件を満たす場合は（ステップＳ１０８）、フィルタの中心点に相当する（ｍ＋ｉ/２，ｎ＋ｊ/２）の位置の画素に眉間候補マークをつける（ステップＳ１１０）。一方、テスト条件を満たさない場合は（ステップＳ１０８）、処理はステップＳ１１２に移行する。

ステップＳ１１２では、変数ｍの値が１だけインクリメントされる。次に、変数ｍの値が対象画像の中で横方向にフィルタが動ける範囲内であるかが判定される（ステップＳ１１４）。フィルタが動ける範囲内であるときは、処理はステップＳ１０２に復帰する。一方、フィルタが横方向に動ける限界になっているときは、変数ｍの値を０にリセットし、変数ｎの値を１だけインクリメントする（ステップＳ１１６）。

次に、変数ｎの値が対象画像の中で縦方向にフィルタが動ける範囲内であるかが判定される（ステップＳ１１８）。フィルタが動ける範囲内であるときは、処理はステップＳ１０２に復帰する。一方、フィルタが縦方向に動ける限界になっているときは、眉間候補マークのついて、画素の連結性を調べ、各連結要素ごとに連結要素の外形枠の中央の画素を眉間候補点とする（ステップＳ１２０）。ここで、「中央の画素」とは、特に限定されないが、たとえば、各連結要素の重心位置とすることができる。

図９は、以上のような処理による眉間候補点の抽出結果を示す図である。

図９（ａ）は、適用した６分割矩形フィルタの形状および大きさを示し、図９（ｂ）は、眉間候補マークのついた連結要素をハッチングした領域として示す。

なお、与えられた対象画像に対して、どのような大きさの６分割矩形フィルタを適用するかについては、たとえば、予め対象画像中の顔画像の大きさが分かっている場合は、その大きさに合わせて設定しておくことも可能である。あるいは、撮影対象となる範囲内（カメラ３０からの距離）に人物が存在する場合の顔の大きさに対応して、予め幾種類かの大きさの６分割矩形フィルタを準備しておき、一番最初に顔を検出する際には、この複数種類の６分割矩形フィルタのうちから、順次違う大きさのものを選択して適用して、以下に説明するような顔検出の適合度が最も高いものを選ぶこととしてもよい。

（目の候補点の抽出および真の眉間候補点の抽出）
以上のようにして抽出された眉間候補点には、真の眉間候補点以外に偽の眉間候補点も含まれる。そこで、以下に説明する手順で、真の眉間候補点を抽出する。

まず、眉間候補点の情報に基づいて、目の位置の候補点を抽出する。

そのために、複数の目の画像を顔画像データベースから抽出し、その平均画像を得る。

図１０は、このようにして得られた右目のテンプレートを示す図である。左目のテンプレートは、この右目テンプレートを水平方向に反転させればよい。

この右目テンプレートおよび左目のテンプレートを用いて、図３に示した眉間候補点を中心とする６分割矩形フィルタのブロックＳ１およびＳ３の領域において、テンプレートマッチング処理を行なえば、右目および左目の各々の候補点を抽出できる。

図１１は、このような目の候補点の抽出を行なった上で、真の眉間候補点の抽出を行なう処理を説明するためのフローチャートである。

図１１を参照して、まず、眉間候補抽出フィルターのブロックＳ１とＳ３のそれぞれの領域において、目のテンプレートともっとも良くマッチする点を探索し、左右の目の候補点とする（ステップＳ２００）。

次に、眉間候補点位置を左右の目の候補点の中点に修正する（ステップＳ２０２）。続いて、修正眉間候補点位置を中心に左右の目の候補点が水平に並ぶように入力画像を回転する（ステップＳ２０４）。

回転後の修正眉間候補点を中心とするパターンと、後に説明するような手続きで予め形成されている眉間テンプレートとの類似度を計算する（ステップＳ２０６）。

類似度が予め定めたしきい値以上かを判断し（ステップＳ２０８）、しきい値以上であれば、それを真の眉間候補点とする（ステップＳ２１０）。一方、しきい値未満であれば、それを偽の眉間候補点とする（ステップＳ２１２）。

このような処理をすべての眉間候補点について行なう。

図１２は、図１１のステップＳ２００における目の候補点の抽出処理を説明するための図である。

図１２において、白丸は、修正前の眉間の候補点であり、白十字は、目の候補点を示す。

（眉間テンプレート）
次に、図１１のステップＳ２０６において使用する眉間テンプレートの形成方法について説明する。

図１３は、眉間テンプレートの形成手順を説明するためのフローチャートである。

図１３を参照して、まず、複数の顔画像データを準備する（ステップＳ３００）。続いて、各顔画像について両目の位置をマウス等により、操作者が入力する（ステップＳ３０２）。

さらに、以下は、計算機内部での処理として、両目の位置が水平となるように、両目の中点を中心に画像を回転して、向きの正規化を行なう（ステップＳ３０４）。両目の間隔が所定の距離となるように画像を拡大あるいは縮小して、サイズの正規化を行なう（ステップＳ３０６）。次に、両目の中点を中心とする眉間パターンｉ×ｊ画素を抽出する（ステップＳ３０８）。

さらに、抽出した眉間パターンの平均濃度が所定の値、たとえばゼロとなるように、分散が他の所定の値、たとえば１．０になるように濃度を変換して、濃度の正規化を行なう（ステップＳ３１０）。

正規化した多数の眉間パターンの平均パターンを計算して（ステップＳ３１２）、得られた平均パターンを眉間のテンプレートとする（ステップＳ３１４）。

ただし、本発明では、ステップＳ３１４で得られた眉間テンプレートをさらに以下のように処理する。

すなわち、髪の毛が眉までかかっている人の場合は、額部が低い輝度値になるが、平均テンプレートは高い濃度値になっており、このままマッチング評価を行なうと、マッチング度が低くなってしまう。そこで、髪型の影響を受けないように上から所定の画素数、たとえば、３画素の額にあたる部分は評価しない。たとえば、ステップＳ３１４で得られた眉間テンプレートが３２×１６画素のパターンであるならば、結局、３２×１３画素のパターンを用いてテンプレートマッチングを行なう。

図１４は、眉間テンプレートを説明するための図である。

図１４（ａ）は、図１３のステップＳ３１４で得られた眉間テンプレートを示し、図１４（ｂ）は、額の影響を排除するための最終的な眉間テンプレートを示す。

なお、テンプレートマッチングは、顔の向きによって照明のあたり方が異なる場合を考慮して、左右独立に評価を行なうことも可能である。このときは、上述した眉間テンプレートを左右に２分割して、それぞれテンプレートマッチングを行なえばよい。たとえば、上記例のような大きさの眉間テンプレートであれば、左右それぞれ、片側１６×１３画素のパターンを用いてテンプレートマッチングを行なってもよい。

次に、図１１のステップＳ２０６のテンプレートマッチングの処理をさらに詳しく説明する。

図１５は、ステップＳ２０６のテンプレートマッチングの手続きを説明するためのフローチャートである。

図１５を参照して、まず、眉間候補点を抽出して（ステップＳ４００）、必要に応じて、眉間候補点を中心に回転を行ない、スケール補正を行なう（ステップＳ４０２）。

次に、眉間候補点を中心として、テンプレートと同じサイズの画像を切り出す（ステップＳ４０４）。切り出した眉間候補パターンと眉間テンプレートとの相関値を計算して類似度とする（ステップＳ４０６）。

なお、類似度の計算としては、切り出した眉間候補パターンの濃度を正規化（平均ゼロ、分散１．０）して、画素ごとにテンプレートの対応画素との差の２乗を計算し、その総和を求めることとしてもよい。すなわち、この場合、総和の値は、不類似度とみなせるので、この逆数により類似度を評価してもよい。

図１６は、このようにして対象画像から眉間および目の位置を抽出した例を示す図である。

帽子をかぶり、かつ手で口を覆うという状態であるにも関わらず、眉間の位置（図中長方形の枠の中心）と目の位置（十字）が良好に検出されている。

実施の形態１の本発明においては、濃淡情報を用いて６分割矩形フィルタにより、まず、眉間の候補点を抽出してから、最終的に目の位置を特定しているので、照明条件の変化に強く、かつ、高速な顔位置の抽出を行なうことができる。

さらに、以上のような処理を、撮影されたビデオ画像の各フレームについて行なえば、動画像において、顔画像を追跡することも可能となる。

このときは、既に顔画像が検出されている前フレームの情報を基にして、原フレームにおいてフィルタ処理をする領域を絞り込むことも可能である。

なお、以上の説明では、眉間の候補点を探索する際に用いるフィルタは、矩形形状を３×２に６分割した６分割矩形フィルタを用いることとした。

ただし、顔画像が水平から傾いている場合にも対応可能とするためには、フィルタの形状は、図３や図５に示したものに限定されない。

図１７および図１８は、このようなフィルタの他の形状を説明するための図である。

すなわち、図１７や図１８に示すように、図１におけるブロックＳ２およびＳ５に対して、ブロックＳ１およびＳ４と、ブロックＳ３およびＳ５とを、互いに反対方向に上下に所定の量だけずらせることも可能である。

この場合、ずれた量に対応する角度だけ、顔画像が傾いている場合にも良好に眉間の候補点を抽出できる。

本明細書中では、図３および図５に示した形状のフィルタ（６分割矩形フィルタ）と、図１７や図１８に示したようなフィルタとを総称して、「眉間検出フィルタ」と呼ぶことにする。

［実施の形態２］
実施の形態１の図１１において説明したとおり、眉間候補点から真の候補点を抽出する際には、一般には、眉間候補点の位置の修正および入力画像の回転等を行なう必要がある。ただし、テレビ会議のように画像中の人物の動きが比較的小さい場合には、真の候補点の抽出処理を簡略化することも可能である。

図１９は、このような実施の形態２の顔位置抽出装置において、真の眉間候補点の抽出を行なう処理を説明するためのフローチャートである。

図１９を参照して、まず、入力画像における眉間候補点を中心とするパターンと、予め形成されている眉間テンプレートとの類似度を計算する（ステップＳ５００）。

類似度が予め定めたしきい値以上かを判断し（ステップＳ５０２）、しきい値以上であれば、それを真の眉間候補点とする（ステップＳ５０４）。一方、しきい値未満であれば、それを偽の眉間候補点とする（ステップＳ５０６）。

このような処理をすべての眉間候補点について行なう。

その他の処理および構成は、実施の形態１の顔位置抽出装置と同様であるので、その説明は繰り返さない。

このような構成でも、人物のカメラ３０からの位置や顔の向きの変化が小さい場合は、実施の形態１と同様の効果を奏することができる。

［実施の形態３］
実施の形態１および２では、カメラ３０は１台で撮影を行なうこととしていた。

これに対して、カメラ３０をたとえば２台として、２眼ステレオ構成とすると、人物についての距離の情報も得ることができる。

すなわち、６分割矩形フィルタで抽出した候補点の中から、真の顔候補点を検出する手法は、実施の形態３でも、原理的には、実施の形態１または２と同様の方法を用いることができる。

ただし、実施の形態３の顔位置抽出装置では、検出できる顔の大きさの範囲をより広げるため、カメラ３０を２眼ステレオ構成とし、距離情報に応じて顔候補領域を切りだすサイズを切り替える。

顔候補領域の切り出すサイズを切り替えることで、平均顔テンプレートと同じ顔の大きさにスケーリングしてマッチングをとることができ、顔の大きさの検出範囲を広げることが可能である。

実施の形態３では、上述のとおり、２眼ステレオ構成とし、候補点の視差情報を求める。顔の大きさは視差に反比例すると考えられるので、視差情報からその候補点を切り出すサイズを決定する。そのため、最適なサイズで顔候補領域を切り出してテンプレートとのマッチングを採ることができる。

ここで、以下では、４０人、各人１０枚、計４００枚の表情や向き照明条件などを少しずつ変化させた画像が納められている顔画像データベースに対する評価を交えて説明する。

このデータベース内の顔画像は、画像サイズが９２×１１２のモノクロ画像である。矩形サイズは、横が左右こめかみの間の画素数、縦が眉毛から鼻先までの画素数の大きさを基準とした。手動で計測した結果、顔画像（９２×１１２）に対して、基準の矩形サイズは６０×３０とした。

まず、図２０は、異なるサイズの６分割矩形フィルタにより、同一の顔画像について、どの範囲で眉間候補点が検出可能であるかを示す図である。

図２０では、矩形サイズを基準サイズから２０％ずつ変化させながら、眉間抽出処理を行なっている。実験では、真の候補点抽出率と候補点の個数を調べた。候補点に真の候補点が含まれているかは、眉間付近に候補点が存在するかを目視で判断した。

図２０より、基準の矩形サイズ（６０×３０）での抽出率は、９２．０％であり、有効に機能していると考えられる。一方、矩形サイズが８４×４２の場合には抽出率が非常に悪くなっており、矩形が大きすぎて顔の特徴を抽出できていないと考えられる。

図２０を参照すると、基準の矩形サイズから、０．６〜１．２倍のサイズの矩形で眉間候補点の抽出ができることを確認できる。顔の大きさと矩形サイズとは単純な比例関係にあると考えられる。したがって、矩形フィルタは、基準の大きさの顔から、０，８３〜１．６７倍の範囲の大きさの顔の眉間候補点が抽出できると考えられる。

次に、人物の距離と切り出す顔候補領域の大きさの関係を求めるために、顔位置抽出装置で使用しているカメラ構成で人物の顔を撮影し、カメラ３０との距離を変えながら、眉間位置の視差と、その顔に最適な顔を切り出すサイズを計測しておく。

たとえば、視差は左右のカメラ３０に写る人物の眉間の位置の横方向の画素数の差を手動で計測することにより得る。顔を切り出すサイズは、左右のこめかみの間の画素数を手動で測定する。特に限定されないが、６分割矩形フィルタの縦方向のサイズは横方向の半分と定めることができる。

図２１は、視差と最適な顔を切り出すサイズの関係を示す図である。

この図２１を基に、６分割矩形フィルタのサイズ、顔候補点を切り出すサイズ、視差と顔候補点を切り出すサイズの関係を決定する。

図２２は、図２１より設定した６分割矩形フィルタサイズ、視差、候補点を切り出すサイズの関係を示す図である。あるサイズの６分割矩形フィルタが抽出できる顔候補領域を切り出すサイズが０．８３〜１．６７倍の範囲を持つことを利用し、たとえば、４０×２０、２４×１２の２段階のフィルタサイズで全体をカバーできるように設定した。顔候補領域を切り出すサイズは視差５画素ごとに切り替えるように設定した。切り出すサイズは細かく設定する方が制度が高くなると考えられるが、平均顔テンプレートのマッチング処理はある程度の大きさに対する柔軟性があるため、この範囲での切り替えで十分である。図２２では、例えば、矩形フィルタサイズが４０×２０のとき、ステレオマッチングの結果、視差が２０であれば、４８×２４の大きさで候補点を切り出すという意味である。

もしも、この表に当てはまらない視差が出てきた場合、または、どこにもマッチングしなかった場合、その候補点は偽の候補点であるとして切り捨てる。

以上の処理により、実施の形態３の顔位置抽出装置において、対象となる画像から眉間の候補点を抽出することができる。

図２３は、実施の形態３の顔位置抽出装置において、真の眉間候補点の抽出を行なう処理を説明するためのフローチャートである。

図２３を参照して、まず、候補点のカメラ３０からの距離を２眼ステレオ方式により推定する（ステップＳ６００）。

次に、距離が予め定めた範囲内にあるかを判断する（ステップＳ６０２）。もしも、予め定めた範囲内に眉間の候補点がないならば、それは偽の候補点であると判断する（ステップＳ６１２）。

一方、距離が予め定めた範囲内にある場合は、次に、距離に応じて、予め用意しておいたサイズの異なる眉間テンプレートを選択する（ステップＳ６０４）。

入力画像における眉間候補点を中心とするパターンと、選択された眉間テンプレートとの類似度を計算する（ステップＳ６０６）。

類似度が予め定めたしきい値以上かを判断し（ステップＳ６０８）、しきい値以上であれば、それを真の眉間候補点とする（ステップＳ６１０）。一方、しきい値未満であれば、それを偽の眉間候補点とする（ステップＳ６１２）。

このような処理をすべての眉間候補点について行なう。

このような構成では、人物のカメラ３０からの距離も考慮して、真の候補点の抽出を行なうので、より高速に顔画像の位置検出を行なうことが可能である。したがって、この実施の形態３の処理を動画像の各フレームに対して行なうことで、顔画像の追跡を行なうことも可能である。

なお、実施の形態３においても、実施の形態１の図１１において説明したとおり、眉間候補点から真の候補点を抽出する際に、目の位置を検出した上で眉間候補点の位置の修正および入力画像の回転等を行なうことも可能である。

［実施の形態４］
実施の形態３では、予め準備しておいたサイズの異なる眉間テンプレートから眉間候補点のカメラ３０からの距離に応じて、眉間テンプレートを選択した。

しかしながら、眉間候補点のカメラ３０からの距離に応じて、基準となる眉間テンプレートのサイズに合うように入力画像を縮小（または拡大）して、テンプレートマッチングを行なうことも可能である。

図２４は、このような実施の形態４の顔位置抽出装置において、真の眉間候補点の抽出を行なう処理を説明するためのフローチャートである。

図２４を参照して、まず、候補点のカメラ３０からの距離を２眼ステレオ方式により推定する（ステップＳ７００）。

次に、距離が予め定めた範囲内にあるかを判断する（ステップＳ７０２）。もしも、予め定めた範囲内に眉間の候補点がないならば、それは偽の候補点であると判断する（ステップＳ７１２）。

一方、距離が予め定めた範囲内にある場合は、次に、距離に応じて、眉間像がテンプレートサイズに合うように入力画像を縮小する（ステップＳ７０４）。

入力画像の候補点を中心とする縮小パターンと眉間テンプレートとの類似度を計算する（ステップＳ７０６）。

類似度が予め定めたしきい値以上かを判断し（ステップＳ７０８）、しきい値以上であれば、それを真の眉間候補点とする（ステップＳ７１０）。一方、しきい値未満であれば、それを偽の眉間候補点とする（ステップＳ７１２）。

このような処理をすべての眉間候補点について行なう。

その他の処理および構成は、実施の形態３の顔位置抽出装置と同様であるので、その説明は繰り返さない。

このような構成では、人物のカメラ３０からの距離も考慮して、真の候補点の抽出を行なうので、より高速に顔画像の位置検出を行なうことが可能である。したがって、この実施の形態４の処理を動画像の各フレームに対して行なうことで、顔画像の追跡を行なうことも可能である。

なお、実施の形態４においても、実施の形態１の図１１において説明したとおり、眉間候補点から真の候補点を抽出する際に、目の位置を検出した上で眉間候補点の位置の修正および入力画像の回転等を行なうことも可能である。

以上説明したような各実施の形態の処理で、時間軸について所定間隔で連続する画面情報、たとえば、連続するフレーム画像から、実時間で、眉間または目の位置を検出することができる。さらに、このような連続する画面情報の各々において、眉間または目の位置の検出を連続して行なっていくことで、眉間または目の位置のトラッキングを行なうことができる。

［眉間の候補点の中から真の眉間を選択する処理の変形例］
以上説明した実施の形態では、顔位置の抽出処理において、眉間検出フィルタで画像中から眉間の候補点を抽出し、候補点の中から真の眉間を選択する、という処理を行なっている。

この「真の眉間を検出する処理」は、言い換えると、複数の眉間候補点から、真の眉間に相当する候補点を選択するためのパターン判別処理を行なっていることに相当する。上述した実施の形態では、「眉間テンプレートとの類似度」に基づいて、パターン判別処理を行なうものとしたが、パターン判別の方法としては、必ずしもこのような方法に限定されるものではない。

以下では、「眉間テンプレートとの類似度」によるパターン判別処理も含めて、このようなパターン判別処理として可能な変形例について説明する。

（１）パターンテンプレートとの類似度によるパターン判別処理
テンプレートをｆ＝｛ｔ_ij｝、評価されるパターンをｆ＝｛ｆ_ij｝とすると、単純な類似度評価値（ｑ）としては、以下の式（５）のような各対応画素値の差の絶対値の総和がある。

あるいは、以下の式（６）のような差の絶対値の２乗和を用いることもできる。

式（５）または（６）を用いる場合は値が小さいほど類似度が高いと判断することになる。

一方、他の評価値としては次式（７）で表わされる正規化相関値を用いることもできる。

式（７）において、｛ｔ_ij｝と、｛ｆ_ij｝とが完全に一致していれば、ｑの値は１であり、完全に反転パターン（明暗が逆）ならばｑの値は−１になる。それ以外の場合は、ｑの値は１と−１の間の値となる。式（７）を用いるときは、ｑの値が大きいほど類似度は高いという評価になる。

正規化相関値は、平均値からの差で評価しているので、全体的に明るさレベルがシフトしてもその評価に影響がない。また、例えば照明が暗くなると明るさの平均値が下がるだけでなく、明暗の差も小さくなる。この場合でも、分母の正規化項のおかげでｑの値に影響がない。

また、以下の式（８）で示されるように、テンプレートととして多くのサンプルパターン（ｓⁿ＝｛ｓⁿ _ij｝）の平均パターンを使うこともできる。

この場合は、重み付きの類似度評価を行なうことができる。例えば、右目の右上部分や左目の左上部分は、人によっては前髪が下がっていたりいなかったりする。このため、その部分は、テンプレートと差があっても、あまり重要でないと考えられる。

そこで、多くのサンプルパターンがある場合は、以下の式（９）に示すように、各画素位置で明るさがどれくらいサンプル間でばらついているかを示す分散をまず計算する。

次に、その分散の逆数を重みづけに使って、以下の式（１０）に示すような評価値ｑを用いた重み付き類似度評価を行なうこともできる。

あるいは、「右目位置に対象な位置には左目があって同じように黒いはず」であり、「その中央は鼻筋で明るいはず」というように、互いの画素間にも関係があって、その関係がどれくらいばらついているかを表わす指標である共分散を考慮して重み付けを行なうことができる。なお、これに対して、式（９）は、自己分散の場合である。

このような共分散を考慮して重みづけをした類似度は、「マハラノビス距離」と呼ばれる。

すなわち、ｔ_ijを１列にならべてベクトルのように表わすとすると、マハラノビス距離ｑは、以下の式（１１）のように表わされる。

ここでΣはｓⁿの共分散行列である。このマハラノビス距離ｑを用いても、パターンテンプレートとの類似度によるパターン判別処理を実施することができる。

（２）統計的パターン判別処理
眉間検出フィルタで画像中から眉間の候補点を抽出し、候補点の中から真の眉間を選択する、という処理は、言い換えれば、眉間の候補点の中から、顔のパターンに対応するのか、あるいは、顔パターンではないのかを判別することで、真の眉間を抽出する、との手続きとみることもできる。

この場合、「顔」と「非顔」の判別処理には、統計的パターン判別処理を適用することができる。

すなわち、統計的パターン判別処理は、多数の「顔」と「非顔」のサンプルが与えられたときに、それらのデータを元に「不明」のパターンを「顔」か「非顔」に判別するものである。これに対して、上述した類似度計算では「非顔」という概念は、必要ない。

（２−１）線形判別法
パターンｆ＝｛ｆ_ij｝を、その画素値を一列にならべたＩ×Ｊ次元のベクトルと考えると、１パターンはＩ×Ｊ次元空間の１点と考えられる。

以下の説明では、３次元以上は平面上に図示しにくいので、２次元の場合を例にとって説明する。

図２５は、「顔」のサンプルと「非顔」のサンプルの分布の一例を示す概念図である。

図２５に示すように、「顔」のサンプル（○）と「非顔」のサンプル（×）が分布していたとすると、「顔」（○）と「非顔」（×）を分離する直線Ｌ１を予め求めておき、「不明」の入力パターンが直線Ｌ１のどちらにあるかで、「顔」（○）と「非顔」（×）かを判定することができる。

２次元では直線ａｘ＋ｂｙになるが、３次元ではａｘ＋ｂｙ＋ｃｚで表現される平面になる。より一般に、さらに高次元では各次元要素の線形結合で表わされる超平面となる。このような超平面による判別を、「線形判別法」と呼ぶ。

一般には、一つの超平面で完全に「顔」（○）と「非顔」（×）を分離できるとはかぎらないものの、「顔」（○）の側に「非顔」（×）がくる誤りと、「非顔」（×）の側に「顔」（○）がくる誤りの合計が最小になるように超平面を決定しておく。

（２−２）サポートベクターマシン
上述した線形判別法で誤りが最小になるように超平面を決定しても、実用上は、誤りが大きすぎる場合もあり得る。

そのようなときであっても、例えば（ｘ，ｙ，ｚ）の３次元の空間の点を（ｘ²，ｙ²，ｚ²，ｘｙ，ｙｚ，ｚｘ）のようなより高次元（この場合６次元）の空間に写像してやると、その空間の超平面でうまく、上述したような「顔」（○）と「非顔」（×）とが分離できるようになる場合があることが知られている。しかも、サポートベクターマシンでは、実際には高次元の空間に写像することなく、もとの空間で写像先の高次元空間の超平面を計算することができる。

サポートベクターマシンで顔の検出を行なう具体的な構成については、たとえば、文献：E.Osuna, R.Freund, and F.Girosi: "Training Support Vector Machines: an Application to Face Detection", Proc. of International Conference on Computer Vision and Pattern Recognition, pp.130-136(1997)に開示されている。

以下では、サポートベクターマシンの概要について説明する。

図２６は、サポートベクターマシンが適用される写像先の高次元空間を示す図である。

図２６でも、高次元空間を２次元空間として説明している。

サポートベクターマシンでは平行な超平面が２つ想定される。この２つの超平面は、１つは「非顔」（図では×）のサンプルに接する超平面Ｐ１であり、もう１つは「顔」（図では○）のサンプルに接する超平面Ｐ２のようなペアである。

他のペアの超平面Ｐ３および超平面Ｐ４も考えられる。しかし、サポートベクターマシンでは、可能な超平面のペアの中で間隔が最大となるペアが採用される。この間隔が、判別の際の余裕と考えられ、余裕が最大となるようなペアが採用されることになる。

図２６に示すような超平面による、「顔」パターンと「非顔」パターンの判別は、超平面Ｐ１と超平面Ｐ２から等距離にある中間の超平面を、上述した線形判別におけるの判定のための超平面のようにみなして行なう。

（２−３）ベイズ推定による判別
排反事象Ｈ₁（顔である）とＨ₂（非顔である）があって、Ａを任意の事象（切り出した濃淡パターン）としたとき、ベイズの定理は、以下の式で表わされる。

ここで、Ｐ（Ｈ₁｜Ａ）はＡが生じた時にそれがＨ₁である事後確率で、Ｐ（Ａ｜Ｈ₁）は、Ｈ₁の時にＡが生じる事前確率である。Ａが生じたとわかったあとで、それがＨ₁である事後確率またはＨ₂である事後確率の両者を比較して、ベイズ判定では確率の高い方のパターンであると判定を行なう。ふたつの事後確率の比は、以下の式で表わされる。

式（９）が１より大きければ方１と判断することになる。式（９）は書き直せば、以下の式（１０）となる。

そこで、事象Ｈ₁とＨ₂のサンプルをたくさん収集して、Ｐ（Ａ｜Ｈ₁）とＰ（Ａ｜Ｈ₂）を推定しておき、λをしきい値パラメータとして、式（１０）により判定すれば、事象Ａを事象Ｈ₁と判断するか事象Ｈ₂と判断するかを決めることができる。

ベイズ判定方法で顔を検出する方法については、たとえば、文献：H.Shneiderman and T.Kanade:"Probabilistic Modeling Of Local Appearance and Spatial Relationships for Object Recognition", Proc. of International Conference on Computer Vision and Pattern Recognition, pp.45-51(1998)に開示されている。

この他、ニューラルネットワークによる判別により、「顔」と「非顔」の判別処理を行なうことも可能である。

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

本発明の１実施の形態にかかるシステムの外観図である。本発明の１実施の形態にかかるシステムのハードウェア的構成を示すブロック図である。６分割矩形フィルタを示す図である。６分割矩形フィルタを顔画像に当てはめた場合を示す概念図である。６分割矩形フィルタの他の構成を示す概念図である。分割矩形フィルタを走査する対象となる画像を示す概念図である。インテグラルイメージを用いて、総和を求める長方形領域を示す図である。眉間の候補点を抽出する処理を説明するためのフローチャートである。眉間候補点の抽出結果を示す図である。右目のテンプレートを示す図である。目の候補点の抽出を行なった上で、真の眉間候補点の抽出を行なう処理を説明するためのフローチャートである。図１１のステップＳ２００における目の候補点の抽出処理を説明するための図である。眉間テンプレートの形成手順を説明するためのフローチャートである。眉間テンプレートを説明するための図である。ステップＳ２０６のテンプレートマッチングの手続きを説明するためのフローチャートである。対象画像から眉間および目の位置を抽出した例を示す図である。眉間検出フィルタの他の形状を説明するための第１の図である。眉間検出フィルタの他の形状を説明するための第２の図である。実施の形態２の顔位置抽出装置において、真の眉間候補点の抽出を行なう処理を説明するためのフローチャートである。異なるサイズの６分割矩形フィルタにより、同一の顔画像について、どの範囲で眉間候補点が検出可能であるかを示す図である。視差と最適な顔を切り出すサイズの関係を示す図である。図２１より設定した６分割矩形フィルタサイズ、視差、候補点を切り出すサイズの関係を示す図である。実施の形態３の顔位置抽出装置において、真の眉間候補点の抽出を行なう処理を説明するためのフローチャートである。実施の形態４の顔位置抽出装置において、真の眉間候補点の抽出を行なう処理を説明するためのフローチャートである。「顔」のサンプルと「非顔」のサンプルの分布の一例を示す概念図である。サポートベクターマシンが適用される写像先の高次元空間を示す図である。

符号の説明

２０顔位置抽出装置、３０カメラ、４０コンピュータ本体、４２モニタ。

Claims

人間の顔領域を含む対象画像領域内の各画素の値のデジタルデータを準備するステップと、
前記対象となる画像領域内において、６つの矩形形状の結合した眉間検出フィルタによるフィルタリング処理により眉間候補点の位置を抽出するステップと、
抽出された前記眉間候補点の位置を中心として、所定の大きさで前記対象画像を切り出し、パターン判別処理に応じて、前記眉間候補点のうちから真の候補点を選択するステップとを備える、顔位置の抽出方法。
人間の顔領域を含む対象画像領域内の各画素の値のデジタルデータを準備するステップと、
前記対象となる画像領域内において、６つの矩形形状の結合した眉間検出フィルタによる、各前記矩形形状の相対的な明暗関係が所定の条件を満たす場合に前記眉間検出フィルタの中心を抽出するフィルタリング処理により眉間候補点の位置を抽出するステップと、
抽出された前記眉間候補点の位置を中心として、所定の大きさで前記対象画像を切り出し、パターン判別処理に応じて、前記眉間候補点のうちから真の候補点を選択するステップとを備える、顔位置の抽出方法。
前記眉間検出フィルタは、１つの矩形形状を６分割したものである、請求項１または２に記載の顔位置の抽出方法。
前記６つの矩形形状は、
鉛直方向に隣接する２つの第１の矩形形状と、
前記第１の矩形形状とは前記鉛直方向に所定量だけずれ、かつ前記鉛直方向に隣接する２つの第２の矩形形状と、
前記第２の矩形形状とは前記鉛直方向に所定量だけずれ、かつ前記鉛直方向に隣接する２つの第３の矩形形状とを含む、請求項１または２に記載の顔位置の抽出方法。
前記真の候補点を選択するステップは、
前記眉間候補点に対応する前記眉間検出フィルタを構成する矩形形状のうち、所定の２つの矩形形状に対応する前記対象画像に対して、目のパターン判別処理により、目の位置を検出するステップと、
前記検出された目の位置に基づいて、前記眉間候補点の位置を、２つの目の中点の位置に修正するステップと、
前記修正された眉間候補点位置を中心に２つの目が水平となるように入力画像を回転するステップと、
前記回転された入力画像について、前記修正された眉間候補点の位置を中心として、所定の大きさで前記対象画像を切り出し、パターン判別処理に応じて、前記眉間候補点のうちから真の候補点を選択するステップとを含む、請求項１または２に記載の顔位置の抽出方法。
デジタルデータを準備するステップは、前記対象画像をステレオ画像として準備するステップを含み、
前記真の候補点を選択するステップは、
前記ステレオ画像に基づいて検出される前記眉間候補点の観測点からの距離に応じて、前記眉間候補点のうちから真の候補点を選択するステップを含む、請求項１または２に記載の顔位置の抽出方法。
コンピュータに、対象となる画像領域内の顔位置を抽出する方法を実行させるためのプログラムであって、前記プログラムは、
人間の顔領域を含む対象画像領域内の各画素の値のデジタルデータを準備するステップと、
前記対象となる画像領域内において、６つの矩形形状の結合した眉間検出フィルタによるフィルタリング処理により眉間候補点の位置を抽出するステップと、
抽出された前記眉間候補点の位置を中心として、所定の大きさで前記対象画像を切り出し、パターン判別処理に応じて、前記眉間候補点のうちから真の候補点を選択するステップとを備える、プログラム。
コンピュータに、対象となる画像領域内の顔位置を抽出する方法を実行させるためのプログラムであって、前記プログラムは、
人間の顔領域を含む対象画像領域内の各画素の値のデジタルデータを準備するステップと、
前記対象となる画像領域内において、６つの矩形形状の結合した眉間検出フィルタによる、各前記矩形形状の相対的な明暗関係が所定の条件を満たす場合に前記眉間検出フィルタの中心を抽出するフィルタリング処理により眉間候補点の位置を抽出するステップと、
抽出された前記眉間候補点の位置を中心として、所定の大きさで前記対象画像を切り出し、パターン判別処理に応じて、前記眉間候補点のうちから真の候補点を選択するステップとを備える、プログラム。
前記眉間検出フィルタは、１つの矩形形状を６分割したものである、請求項７または８に記載のプログラム。
前記６つの矩形形状は、
鉛直方向に隣接する２つの第１の矩形形状と、
前記第１の矩形形状とは前記鉛直方向に所定量だけずれ、かつ前記鉛直方向に隣接する２つの第２の矩形形状と、
前記第２の矩形形状とは前記鉛直方向に所定量だけずれ、かつ前記鉛直方向に隣接する２つの第３の矩形形状とを含む、請求項７または８に記載のプログラム。
前記真の候補点を選択するステップは、
前記眉間候補点に対応する前記眉間検出フィルタを構成する矩形形状のうち、所定の２つの矩形形状に対応する前記対象画像に対して、目のパターン判別処理により、目の位置を検出するステップと、
前記検出された目の位置に基づいて、前記眉間候補点の位置を、２つの目の中点の位置に修正するステップと、
前記修正された眉間候補点位置を中心に２つの目が水平となるように入力画像を回転するステップと、
前記回転された入力画像について、前記修正された眉間候補点の位置を中心として、所定の大きさで前記対象画像を切り出し、パターン判別処理に応じて、前記眉間候補点のうちから真の候補点を選択するステップとを含む、請求項７または８に記載のプログラム。
デジタルデータを準備するステップは、前記対象画像をステレオ画像として準備するステップを含み、
前記真の候補点を選択するステップは、
前記ステレオ画像に基づいて検出される前記眉間候補点の観測点からの距離に応じて、前記眉間候補点のうちから真の候補点を選択するステップを含む、請求項７または８に記載のプログラム。
人間の顔領域を含む対象画像領域内の各画素の値のデジタルデータを準備する撮影手段と、
前記対象となる画像領域内において、６つの矩形形状の結合した眉間検出フィルタによるフィルタリング処理により眉間候補点の位置を抽出する手段と、
抽出された前記眉間候補点の位置を中心として、所定の大きさで前記対象画像を切り出し、パターン判別処理に応じて、前記眉間候補点のうちから真の候補点を選択する選択手段とを備える、顔位置抽出装置。
人間の顔領域を含む対象画像領域内の各画素の値のデジタルデータを準備する撮影手段と、
前記対象となる画像領域内において、６つの矩形形状の結合した眉間検出フィルタによる、各前記矩形形状の相対的な明暗関係が所定の条件を満たす場合に前記眉間検出フィルタの中心を抽出するフィルタリング処理により眉間候補点の位置を抽出する手段と、
抽出された前記眉間候補点の位置を中心として、所定の大きさで前記対象画像を切り出し、パターン判別処理に応じて、前記眉間候補点のうちから真の候補点を選択する選択手段とを備える、顔位置抽出装置。
前記眉間検出フィルタは、１つの矩形形状を６分割したものである、請求項１３または１４に記載の顔位置抽出装置。
前記６つの矩形形状は、
鉛直方向に隣接する２つの第１の矩形形状と、
前記第１の矩形形状とは前記鉛直方向に所定量だけずれ、かつ前記鉛直方向に隣接する２つの第２の矩形形状と、
前記第２の矩形形状とは前記鉛直方向に所定量だけずれ、かつ前記鉛直方向に隣接する２つの第３の矩形形状とを含む、請求項１３または１４に記載の顔位置抽出装置。
前記選択手段は、
前記眉間候補点に対応する前記眉間検出フィルタを構成する矩形形状のうち、所定の２つの矩形形状に対応する前記対象画像に対して、目のパターン判別処理により、目の位置を検出する手段と、
前記検出された目の位置に基づいて、前記眉間候補点の位置を、２つの目の中点の位置に修正する手段と、
前記修正された眉間候補点位置を中心に２つの目が水平となるように入力画像を回転する手段と、
前記回転された入力画像について、前記修正された眉間候補点の位置を中心として、所定の大きさで前記対象画像を切り出し、パターン判別処理に応じて、前記眉間候補点のうちから真の候補点を選択する手段とを含む、請求項１３または１４に記載の顔位置抽出装置。
前記撮影手段は、前記対象画像をステレオ画像として準備する手段を含み、
前記選択手段は、前記ステレオ画像に基づいて検出される前記眉間候補点の観測点からの距離に応じて、前記眉間候補点のうちから真の候補点を選択する手段を含む、請求項１３または１４に記載の顔位置抽出装置。