JP2007102517A

JP2007102517A - 顔認識装置および方法、係数生成装置および方法、プログラム、並びに記録媒体

Info

Publication number: JP2007102517A
Application number: JP2005291976A
Authority: JP
Inventors: Tetsujiro Kondo; 哲二郎近藤; Sakon Yamamoto; 左近山元
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2005-10-05
Filing date: 2005-10-05
Publication date: 2007-04-19

Abstract

【課題】時間が経過しても確実に顔を認識することができる。
【解決手段】顔画像抽出部３２は、顔画像入力部３１から供給された顔画像から、顔の領域を抽出する。特徴量算出部３４は、顔が撮影された時点の日付と時刻、被写体である人の年齢、または顔を登録した時点から顔が撮影された時点までの時間などに対応する特徴量を算出する。認識部３５は、特徴量算出部３４から供給された特徴量を用いて、顔を認識する。本発明は、顔を認識する顔認識装置に適用できる。
【選択図】図２

Description

本発明は顔認識装置および方法、係数生成装置および方法、プログラム、並びに記録媒体に関し、特に、より確実に顔を認識できるようにした顔認識装置および方法、係数生成装置および方法、プログラム、並びに記録媒体に関する。

顔を撮影して、撮影した画像から顔を認識する顔認識装置が利用されている。

図１は、従来の顔認識装置の構成を示すブロック図である。顔画像入力部１１は、ビデオカメラなどで構成され、顔を含んだ画像を取得することで、画像を入力する。顔画像入力部１１は、入力した画像を顔画像抽出部１２に供給する。顔画像抽出部１２は、顔画像入力部１１から供給された画像から顔領域を抽出する。より具体的には、顔画像抽出部１２は、供給された画像から、肌色領域を抽出し、標準的な顔の画像であるテンプレートを用いて抽出した肌色領域が顔の画像の領域であるかを判定する。そして、顔画像抽出部１２は、顔の画像の領域であると判定された場合、肌色領域を含む方形領域を顔画像として、顔画像正規化部１３に供給する。

顔画像正規化部１３は、顔画像の明暗を調整し、目や口の位置を基準としてアフィン変換を顔画像に適用して、顔画像を正規化する。すなわち、顔画像正規化部１３は、顔画像全体の明暗を調整して、明暗を調整し、また、目や口の位置が予め設定した位置になるように顔画像にアフィン変換を適用する。顔画像正規化部１３は、正規化した顔画像を識別部１４に供給する。

識別部１４は、登録することで登録顔画像記憶部１５に予め記憶されている登録顔画像と、顔画像正規化部１３から供給された正規化された顔画像とで、顔を識別する。より具体的には、識別部１４は、入力された顔画像が、正規化された顔画像との差分絶対値の総和が最小になる登録顔画像であると識別する。

従来は、運転免許証のように、所有者の顔画像や人定事項（個人情報）を券面上に印刷する証明用媒体において、内蔵するＩＣチップに利用されるごとに最新のものに更新される利用時に本人確認のための顔照合に利用される最新顔情報テンプレートを記録するようにしているものもある（例えば、特許文献１参照）。

また、経年変化によって微妙に変化する人間の顔データとの関係を考慮して、登録された時点からの経過時間や判別に用いる元になった時点からの経過時間によるデータの有効性を考慮しながら登録データを削除するようにしている顔照合装置もある（例えば、特許文献２参照）。

特開２００５−１２２３９５号公報

特開２００４−５４８８８号公報

しかしながら、登録顔画像を登録した時点から時間が経過して、認識しようとする人の顔が変わってしまい、入力された顔画像が変化（経年変化）すると、同じ人であっても正しく認識できないことがあった。

本発明は、このような状況に鑑みてなされたものであり、時間が経過しても確実に顔を認識することができるようにするものである。

本発明の第１の側面の顔認識装置は、入力された画像から顔の領域を抽出する領域抽出手段と、抽出された領域の顔に関係する時間の情報に対応する特徴量を算出する特徴量算出手段と、前記特徴量を用いて、前記顔を認識する認識手段とを備える。

前記特徴量算出手段に、顔の領域の画素値と、時間の情報との関係に対応する係数を出力する出力手段と、前記係数と、顔の領域の画素値との演算により前記特徴量を算出する演算手段とを設けることができる。

前記係数は、複数の学習用顔画像と、前記学習用顔画像それぞれの時間の情報である学習用時間情報とを用いて、前記学習用顔画像と前記学習用時間情報との関係を表すように生成されたものとすることができる。

前記特徴量算出手段は、顔が撮影された時刻を示す前記特徴量を算出し、前記認識手段は、前記特徴量で示される時刻と現在時刻とから、前記顔を認識することができる。

前記領域抽出手段は、前記画像から、肌色の範囲の色相の画素を抽出する抽出手段と、肌色の範囲の色相の画素であって、所定の方向に連続している画素の数が最大となる前記画像上の位置を基準として、顔の領域を決定する決定手段とを設け、決定された顔の領域を抽出することができる。

前記領域抽出手段に、抽出した領域の顔と、予め定めた基準の顔とを比較することにより、抽出した領域が顔の領域であるか否かを判定する判定手段をさらに設けることができる。

抽出された顔の領域を正規化する正規化手段をさらに設け、前記特徴量算出手段は、正規化された領域の顔に関係する時間の情報に対応する前記特徴量を算出することができる。

本発明の第１の側面の顔認識方法は、入力された画像から顔の領域を抽出し、抽出された領域の顔に関係する時間の情報に対応する特徴量を算出し、前記特徴量を用いて、前記顔を認識するステップを含む。

顔認識方法において、顔の領域の画素値と、時間の情報との関係に対応する係数を出力し、前記係数と、顔の領域の画素値との演算により前記特徴量を算出することができる。

顔認識方法において、顔が撮影された時刻を示す前記特徴量を算出し、前記特徴量で示される時刻と現在時刻とから、前記顔を認識することができる。

顔認識方法において、前記画像から、肌色の範囲の色相の画素を抽出し、肌色の範囲の色相の画素であって、所定の方向に連続している画素の数が最大となる前記画像上の位置を基準として、顔の領域を決定し、決定された顔の領域を抽出することができる。

顔認識方法において、抽出した領域の顔と、予め定めた基準の顔とを比較することにより、抽出した領域が顔の領域であるか否かをさらに判定することができる。

顔認識方法において、抽出された顔の領域を正規化し、正規化された領域の顔に関係する時間の情報に対応する前記特徴量を算出することができる。

本発明の第１の側面のプログラムは、入力された画像から顔の領域を抽出し、抽出された領域の顔に関係する時間の情報に対応する特徴量を算出し、前記特徴量を用いて、前記顔を認識するステップをコンピュータに実行させる。

本発明の第１の側面においては、入力された画像から顔の領域が抽出され、抽出された領域の顔に関係する時間の情報に対応する特徴量が算出され、前記特徴量を用いて、前記顔が認識される。

本発明の第２の側面の係数生成装置は、入力された画像から顔の領域を抽出する領域抽出手段と、入力された画像に関係する時間の情報と、抽出された顔の領域の画素値とから、時間の情報と顔の領域の画素値との関係を表す係数を生成する係数生成手段とを備える。

前記係数生成手段に、複数の画像とそれぞれの画像に関係する時間の情報とから、それぞれの画像から抽出された顔の領域の画素値とそれぞれの画像に関係する時間の情報との関係を表す方程式を生成する方程式生成手段と、生成された方程式を解くことで前記係数を生成する演算手段とを設けることができる。

生成された前記係数を記憶する記憶手段をさらに設けることができる。

本発明の第２の側面の係数生成方法は、入力された画像から顔の領域を抽出し、入力された画像に関係する時間の情報と、抽出された顔の領域の画素値とから、時間の情報と顔の領域の画素値との関係を表す係数を生成するステップを含む。

本発明の第２の側面のプログラムは、入力された画像から顔の領域を抽出し、入力された画像に関係する時間の情報と、抽出された顔の領域の画素値とから、時間の情報と顔の領域の画素値との関係を表す係数を生成するステップをコンピュータに実行させる。

本発明の第２の側面においては、入力された画像から顔の領域が抽出され、入力された画像に関係する時間の情報と、抽出された顔の領域の画素値とから、時間の情報と顔の領域の画素値との関係を表す係数が生成される。

本発明の第１の側面のプログラムまたは本発明の第２の側面のプログラムは記録媒体に記録することができる。

以上のように、本発明の第１の側面によれば、顔を認識することができる。

また、本発明の第１の側面によれば、時間が経過しても確実に顔を認識することができる。

本発明の第２の側面によれば、顔の認識に用いる係数を生成することができる。

また、本発明の第２の側面によれば、生成した係数を用いることで、時間が経過しても確実に顔を認識することができる。

以下に本発明の実施の形態を説明するが、本発明の構成要件と、発明の詳細な説明に記載の実施の形態との対応関係を例示すると、次のようになる。この記載は、本発明をサポートする実施の形態が、発明の詳細な説明に記載されていることを確認するためのものである。従って、発明の詳細な説明中には記載されているが、本発明の構成要件に対応する実施の形態として、ここには記載されていない実施の形態があったとしても、そのことは、その実施の形態が、その構成要件に対応するものではないことを意味するものではない。逆に、実施の形態が構成要件に対応するものとしてここに記載されていたとしても、そのことは、その実施の形態が、その構成要件以外の構成要件には対応しないものであることを意味するものでもない。

本発明の第１の側面の顔認識装置は、入力された画像から顔の領域を抽出する領域抽出手段（例えば、図２の顔画像抽出部３２）と、抽出された領域の顔に関係する時間の情報に対応する特徴量を算出する特徴量算出手段（例えば、図２の特徴量算出部３４）と、前記特徴量を用いて、前記顔を認識する認識手段（例えば、図２の認識部３５）とを備える。

前記領域抽出手段は、前記画像から、肌色の範囲の色相の画素を抽出する抽出手段（例えば、図３の肌色領域抽出部６２）と、肌色の範囲の色相の画素であって、所定の方向に連続している画素の数が最大となる前記画像上の位置を基準として、顔の領域を決定する決定手段（例えば、図３の横枠検出部６３および縦枠検出部６４）とを設け、決定された顔の領域を抽出するようにすることができる。

前記領域抽出手段に、抽出した領域の顔と、予め定めた基準の顔とを比較することにより、抽出した領域が顔の領域であるか否かを判定する判定手段（例えば、図３の顔画像識別部６６）をさらに設けることができる。

抽出された顔の領域を正規化する正規化手段（例えば、図２の顔画像正規化部３３）をさらに設け、前記特徴量算出手段は、正規化された領域の顔に関係する時間の情報に対応する前記特徴量を算出することができる。

本発明の第１の側面の顔認識方法またはプログラムは、入力された画像から顔の領域を抽出し（例えば、図１４のステップＳ１２）、抽出された領域の顔に関係する時間の情報に対応する特徴量を算出し（例えば、図１４のステップＳ１５）、前記特徴量を用いて、前記顔を認識する（例えば、図１４のステップＳ１６およびステップＳ１８）ステップを含む。

本発明の第２の側面の係数生成装置は、入力された画像から顔の領域を抽出する領域抽出手段（例えば、図１５の顔画像抽出部２０２）と、入力された画像に関係する時間の情報と、抽出された顔の領域の画素値とから、時間の情報と顔の領域の画素値との関係を表す係数を生成する係数生成手段（例えば、図１５の係数生成部２０４）とを備える。

前記係数生成手段に、複数の画像とそれぞれの画像に関係する時間の情報とから、それぞれの画像から抽出された顔の領域の画素値とそれぞれの画像に関係する時間の情報との関係を表す方程式を生成する方程式生成手段（例えば、図１５の正規方程式生成部２２３）と、生成された方程式を解くことで前記係数を生成する演算手段（例えば、図１５の係数決定部２２４）とを設けることができる。

生成された前記係数を記憶する記憶手段（例えば、図１５の係数メモリ２０５）をさらに設けることができる。

本発明の第２の側面の係数生成方法またはプログラムは、入力された画像から顔の領域を抽出し（例えば、図１８のステップＳ５２）、入力された画像に関係する時間の情報と、抽出された顔の領域の画素値とから、時間の情報と顔の領域の画素値との関係を表す係数を生成する（例えば、図１８のステップＳ５７およびステップＳ５９）ステップを含む。

図２は、本発明の一実施の形態の顔画像識別装置の構成を示すブロック図である。顔画像識別装置は、顔画像入力部３１、顔画像抽出部３２、顔画像正規化部３３、特徴量算出部３４、および認識部３５により構成されている。

顔画像入力部３１は、顔画像を入力する。すなわち、顔画像入力部３１は、例えば、ビデオカメラまたはデジタルスチルカメラなどからなり、被写体である人の顔を撮影して、人の顔を含む画像をデータとして取得する。または、例えば、顔画像入力部３１は、インターフェースとして構成され、接続されている外部のビデオカメラまたはデジタルスチルカメラなどから供給された人の顔を含む画像のデータを取得する。顔画像入力部３１は、入力した顔画像を顔画像抽出部３２に供給する。

顔画像抽出部３２は、顔画像入力部３１から供給された顔画像から、顔の領域を抽出する。例えば、顔画像抽出部３２は、顔画像から、肌色の画素の領域を抽出する。そして、顔画像抽出部３２は、抽出した肌色の画素の領域と、標準的な顔の画像であるテンプレートとを比較することにより、抽出した肌色の画素の領域の画像が顔の画像であるか否かを判定する。さらに、顔画像抽出部３２は、抽出した肌色の画素の領域の画像が顔の画像であると判定された場合、その肌色の画素の領域を含む方形の領域を顔の領域として抽出する。顔画像抽出部３２は、抽出した顔の領域を顔画像正規化部３３に供給する。

顔画像正規化部３３は、顔画像抽出部３２から供給された顔の領域を正規化する。すなわち、例えば、顔画像正規化部３３は、顔の領域の明暗（明度）を調整し、目や口の画像などの位置を基準として、顔の領域にアフィン変換を適用する。より詳細には、例えば、顔画像正規化部３３は、顔の領域全体の輝度値を調整して、顔の領域の明暗を調整する。そして、顔画像正規化部３３は、目や口の画像が予め決めた位置に配置されるように、顔の領域にアフィン変換を適用する。顔画像正規化部３３は、正規化した顔の領域を特徴量算出部３４に供給する。

特徴量算出部３４は、顔画像正規化部３３から供給された領域の顔に関係する時間の情報に対応する特徴量を算出する。

ここで、顔に関係する時間の情報とは、例えば、顔が撮影された時点の日付と時刻、被写体である人の年齢、または顔を登録した時点から顔が撮影された時点までの時間などをいう。なお、顔を登録した時点は、基準となる時点の一例である。顔の登録の詳細については後述する。

特徴量算出部３４は、例えば、顔が撮影された時点の日付と時刻、被写体である人の年齢、または顔を登録した時点から顔が撮影された時点までの時間などに対応する特徴量を算出する。

特徴量算出部３４は、予測部４１および予測係数メモリ４２から構成される。

予測部４１は、予測係数メモリ４２から読み出した予測係数と、正規化された顔の領域の画素値との演算により、領域の顔に関係する時間の情報に対応する特徴量を演算する。予測係数メモリ４２は、顔の領域の画素値と、時間の情報との関係に対応する予測係数を予め記憶し、記憶している予測係数を出力する。

ここで、予測係数は、複数の学習用顔画像と、学習用顔画像それぞれの時間の情報である学習用時間情報とを用いて、学習用顔画像と学習用時間情報との関係を表すように予め生成されている。予測係数の生成の詳細は後述する。

より具体的に説明すれば、例えば、予測係数メモリ４２は、顔の領域の画素値と、顔を登録した時点から顔が撮影された時点までの時間との関係に対応する予測係数を記憶し、記憶している予測係数を予測部４１に供給（出力）する。予測部４１は、予測係数メモリ４２から読み出した予測係数と、正規化された顔の領域の画素値との演算により、顔を登録した時点から顔が撮影された時点までの時間を予測する特徴量を演算する。

特徴量算出部３４は、算出した特徴量を認識部３５に供給する。

認識部３５は、特徴量算出部３４から供給された特徴量を用いて、顔を認識する。認識部３５は、判定部４３および時間情報入力部４４から構成される。

判定部４３は、特徴量算出部３４から供給された特徴量と、時間情報入力部４４から入力される顔に関係する時間の情報との一致度を判定する。時間情報入力部４４は、特徴量算出部３４から供給された特徴量に対応する、顔に関係する時間の情報を入力する。

例えば、時間情報入力部４４は、いわゆるリアルタイムクロックから、現在の日付および時刻を示す時間の情報を入力する。そして、時間情報入力部４４は、顔を登録した時点から現在までの時間を示す時間の情報を判定部４３に供給する。判定部４３は、特徴量算出部３４から供給された特徴量であって、顔を登録した時点から顔が撮影された時点までの時間を予測する特徴量と、顔を登録した時点から現在までの時間を示す時間の情報との一致度を判定する。

認識部３５は、特徴量と顔に関係する時間の情報との一致度の判定の結果に応じた、顔の認識の結果を出力する。

以下、顔画像抽出部３２、顔画像正規化部３３、特徴量算出部３４、および認識部３５のそれぞれの詳細について説明する。

図３は、顔画像抽出部３２の構成の例を示すブロック図である。顔画像抽出部３２は、HSV（Hue Saturation Value（色相、彩度、明度））変換部６１、肌色領域抽出部６２、横枠検出部６３、縦枠検出部６４、顔領域抽出部６５、および顔画像認識部６６から構成される。

HSV変換部６１は、顔画像入力部１１から供給されたRGB（red green blue）方式の顔画像を、HSV方式の顔画像に変換する。HSV変換部６１は、HSV方式の顔画像を肌色領域抽出部６２に供給する。

肌色領域抽出部６２は、HSV方式の顔画像から、肌色の範囲の色相（Hue）の画素（以下、肌色画素と称する）を抽出する。例えば、色相は、０乃至３６０の範囲で表現される。０である色相は、赤を示し、６０である色相は、黄を示し、さらに３６０までの色相は、順に、緑、シアン、青、マゼンタ、赤を示す。例えば、肌色領域抽出部６２は、２０を超えて４０未満である色相の画素を、HSV方式の顔画像から抽出する。

図４で示されるように、肌色領域抽出部６２は、HSV方式に変換された顔画像７１から、肌色の範囲の２０を超えて４０未満である色相の画素を肌色画素として抽出する。肌色領域抽出部６２は、抽出した肌色画素からなる顔画像７２を生成する。なお、理解を容易にするため、図面における顔画像７２には、肌色画素以外の画素による画像が示されている。

なお、例えば、肌色領域抽出部６２が、肌色画素を特定するフラグを顔画像７１に付加し、このフラグを基に、以下で説明する処理が実行されるようにしてもよい。

肌色領域抽出部６２は、顔画像７１および肌色画素からなる顔画像７２を横枠検出部６３に供給する。

横枠検出部６３は、抽出する顔の領域の横枠を決める。まず、横枠検出部６３は、顔画像７２における、画素の横の列毎の肌色画素の数を数える。言い換えれば、横枠検出部６３は、顔画像７２における、水平方向に、横１列の画素毎に、その１列の画素に含まれる連続している肌色画素の数を数える。この場合、横枠検出部６３は、顔画像７２の１つの横の列の画素において、ｉ個の肌色画素が連続し、これとは離れてｊ個の肌色画素が連続している場合、ｉ＞ｊであるとき、より多いｉ個をその列の肌色画素の数とする。

図５で示されるように、横枠検出部６３は、横の列毎の肌色画素の数のうち、最大の数（以下、単に最大数と称する）を求める。そして、横枠検出部６３は、肌色画素の数が最大の横の列の、垂直方向の座標を垂直基準点とする。

さらに、横枠検出部６３は、このように求めた最大数に、０．８を乗算して得た値を横枠の幅とする。そして、横枠検出部６３は、幅を決めた横枠の中心を、顔画像７２の水平方向の中心に一致させる。

横枠検出部６３は、顔画像７２と共に、垂直基準点、並びに幅および水平方向の位置が決められた横枠を示すデータを縦枠検出部６４に供給する。また、横枠検出部６３は、顔画像７１および顔画像７２と共に、幅および水平方向の位置が決められた横枠を示すデータを顔領域抽出部６５に供給する。

縦枠検出部６４は、抽出する顔の領域の縦枠を決める。縦枠検出部６４は、横枠の幅に、１．３を乗算して得た値を縦枠の高さ（長さ）とする。図６で示されるように、縦枠検出部６４は、垂直基準点に対して所定の長さだけオフセットした位置を縦枠の中心とする。例えば、縦枠検出部６４は、垂直基準点から−４０だけオフセットした位置（垂直基準点から４０画素だけ上側の位置）を縦枠の中心とする。

縦枠検出部６４は、高さおよび垂直方向の位置が決められた縦枠を示すデータを顔領域抽出部６５に供給する。

顔領域抽出部６５は、横枠検出部６３から供給された横枠を示すデータ、および縦枠検出部６４から供給された縦枠を示すデータを用いて、縦枠および横枠を統合し、四角の枠を求める。すなわち、顔領域抽出部６５は、横枠の幅と同じ幅で、縦枠の高さと同じ高さの四角の枠を求める。顔領域抽出部６５は、横枠の水平方向の位置と縦枠の中心とで決まる位置と、その四角の枠の中心が一致するように、四角の枠の位置を決める。

顔領域抽出部６５は、図７で示されるように、横枠検出部６３から供給された顔画像７１から、縦枠および横枠を統合して求められた四角の枠の中の顔領域８１を抽出する。なお、顔領域抽出部６５は、RGB方式の元の顔画像から顔領域８１を抽出するようにしてもよい。

顔領域抽出部６５は、顔画像７２と共に、抽出した顔領域８１を顔画像識別部６６に供給する。

顔画像識別部６６は、顔領域８１の顔と、予め定めた基準の顔とを比較することにより、顔領域８１が顔の領域であるか否かを判定する。例えば、図８で示されるように、顔画像識別部６６は、標準的な顔画像のテンプレート９１を予め記憶している。テンプレート９１は、所定の数の複数の人の顔の画像を平均した標準的な顔画像である。顔画像識別部６６は、顔領域抽出部６５において抽出された顔領域８１の画像とテンプレート９１との一致の度合いを示す値を求める。例えば、顔画像識別部６６は、一致の度合いを示す値として、顔領域８１の画像とテンプレート９１との差分絶対値の総和を算出する。具体的には、顔画像識別部６６は、顔領域８１の画素のそれぞれについて、顔領域８１の画素の画素値と、その画素の位置と同じ位置のテンプレート９１の画素の画素値の差分を求めて、求めた差分の絶対値を求める。そして、顔画像識別部６６は、絶対値の総和を求める。

なお、顔領域８１のサイズとテンプレート９１のサイズが一致しない場合、顔領域８１の画像とテンプレート９１との一致の度合いを示す値を求める前に、顔画像識別部６６は、テンプレート９１の画素を補間するか、またはテンプレート９１の画素を間引いて、テンプレート９１のサイズを調整して、顔領域８１のサイズとテンプレート９１のサイズとを一致させる。

顔画像識別部６６は、顔領域８１の画像とテンプレート９１との一致の度合いを示す値を基に、一致の度合いが基準値より大きい場合、顔領域８１が顔の領域（顔画像）であると判定する。例えば、顔画像識別部６６は、一致の度合いを示す値として、顔領域８１の画像とテンプレート９１との差分絶対値の総和を算出した場合、その総和が予め定めた閾値より小さい場合、顔領域８１が顔の領域であると判定し、その総和が予め定めた閾値以上である場合、顔領域８１が顔の領域でないと判定する。

顔領域８１が顔の領域であると判定された場合、顔画像識別部６６は、顔画像７２と共に、顔領域８１を顔画像正規化部３３に供給する。

顔領域８１が顔の領域であると判定された場合、顔画像正規化部３３、特徴量算出部３４、および認識部３５が以下で説明する処理を継続し、顔領域８１が顔の領域でないと判定された場合、顔画像正規化部３３、特徴量算出部３４、および認識部３５は以下で説明する処理を実行しないで、処理は終了する。

次に、顔画像正規化部３３における顔領域８１の正規化について説明する。

図９は、顔画像正規化部３３の構成の例を示すブロック図である。顔画像正規化部３３は、ラベリング部１０１、重心算出部１０２、目位置検出部１０３、口位置検出部１０４、アフィン変換部１０５、および輝度値調整部１０６から構成される。

ラベリング部１０１は、顔画像７２を基に、顔領域８１の画素のうち、肌色画素に相当しない（肌色画素以外の）画素（以下、非肌色画素と称する）にラベリングし、オブジェクトを抽出する。例えば、ラベリング部１０１は、４近傍によるラベリング処理を顔領域８１の非肌色画素に適用する。すなわち、例えば、ラベリング部１０１は、非肌色画素のそれぞれに、隣接している非肌色画素の番号（ラベル）と同じ番号を付加することで、連続して接している非肌色画素に共通し、間に肌色画素がある非肌色画素では異なる番号を付加する。これにより、顔領域８１の非肌色画素からなるオブジェクトには、それぞれ、番号（ラベル）が付加されることになる。

ラベリング部１０１は、ラベリングした顔領域８１を重心算出部１０２に供給する。

重心算出部１０２は、ラベルを参照して、顔領域８１の非肌色画素からなるオブジェクトのそれぞれの重心を算出する。例えば、重心算出部１０２は、オブジェクトの重心のｘ座標の位置を、そのオブジェクトに含まれる非肌色画素のｘ座標の位置の平均値とし、そのオブジェクトの重心のｙ座標の位置を、そのオブジェクトに含まれる非肌色画素のｙ座標の位置の平均値として、それぞれのオブジェクトの重心の座標上の位置を求める。

重心算出部１０２は、ラベリングした顔領域８１と共に、顔領域８１の非肌色画素からなるオブジェクトのそれぞれの重心を示す重心データを目位置検出部１０３および口位置検出部１０４に供給する。

目位置検出部１０３は、重心算出部１０２から供給された重心データから、目のオブジェクトを検出する。すなわち、例えば、目位置検出部１０３は、重心データで重心の位置が示されるオブジェクトのうち、顔領域８１の上半分の領域に重心が存在し、かつオブジェクトの面積が所定の値以上のオブジェクトを検出する。さらに、目位置検出部１０３は、このように検出されたオブジェクトのうち、顔領域８１を左右に２等分する垂直線に対して、両側に存在するものであって、一番下に位置するオブジェクトを目のオブジェクトとする。例えば、図１０で示されるように、目位置検出部１０３は、顔領域８１に含まれる目のオブジェクト１２１を検出する。

目位置検出部１０３は、顔領域８１と共に、このように検出した目のオブジェクト１２１の位置を特定するデータ（例えば、目のオブジェクト１２１の重心の位置を示すデータ）をアフィン変換部１０５に供給する。

口位置検出部１０４は、重心算出部１０２から供給された重心データから、口のオブジェクトを検出する。すなわち、例えば、口位置検出部１０４は、重心データで重心の位置が示されるオブジェクトのうち、顔領域８１の下側の４分の１の領域に重心が存在するオブジェクトを検出する。言い換えれば、口位置検出部１０４は、顔領域８１を縦に並ぶ同じ高さの４つの領域に分けて、その４つの領域のうちの最も下の領域に重心が存在するオブジェクトを検出する。

さらに、口位置検出部１０４は、このように検出されたオブジェクトのうち、面積が最大のオブジェクトを口のオブジェクトとする。例えば、図１０で示されるように、口位置検出部１０４は、顔領域８１に含まれる口のオブジェクト１２２を検出する。

口位置検出部１０４は、このように検出した口のオブジェクト１２２の位置を特定するデータ（例えば、口のオブジェクト１２２の重心の位置を示すデータ）をアフィン変換部１０５に供給する。

アフィン変換部１０５は、目位置検出部１０３から供給された、目のオブジェクト１２１の位置を特定するデータ、および口位置検出部１０４から供給された、口のオブジェクト１２２の位置を特定するデータを基に、目位置検出部１０３から供給された顔領域８１にアフィン変換の処理を適用する。例えば、アフィン変換部１０５は、目のオブジェクト１２１の位置と口のオブジェクト１２２の位置とが、予め定めた所定の大きさの方形領域における所定の位置になるように、顔領域８１にアフィン変換の処理を適用する。

より具体的には、例えば、図１１で示されるように、縦にｍ画素、横にｎ画素の方形領域１３１において、２つの目のオブジェクト１２１の重心が、方形領域１３１の上端からｍ／１０画素下の位置に配置され、左側の目のオブジェクト１２１の重心が、方形領域１３１の左端から３×ｎ／１０画素右の位置に配置され、右側の目のオブジェクト１２１の重心が、方形領域１３１の右端から３×ｎ／１０画素左の位置に配置され、かつ口のオブジェクト１２２の下端が方形領域１３１の下端に接するように、アフィン変換部１０５は、顔領域８１にアフィン変換の処理を適用する。

アフィン変換部１０５は、アフィン変換の結果、方形領域１３１を得る。

アフィン変換部１０５は、アフィン変換の結果得られた方形領域１３１を輝度値調整部１０６に供給する。

輝度値調整部１０６は、方形領域１３１の輝度値を調整する。輝度値調整部１０６は、予め定めた平均値および分散（以下、それぞれ既定平均値および既定分散と称する）並びに方形領域１３１の画素の画素値の平均値および分散を基に、方形領域１３１の全ての画素の輝度を調整する。例えば、輝度値調整部１０６は、まず、方形領域１３１の画素の画素値の平均値（以下、単に、領域平均値と称する）および分散（以下、単に、領域分散と称する）を算出する。そして、輝度値調整部１０６は、方形領域１３１のそれぞれの画素について、式（１）を基に輝度値を調整した画素値を算出する。
（画素値−領域平均値）／領域分散×既定分散＋既定平均値
・・・（１）

輝度値調整部１０６は、輝度値を調整した方形領域１３１を正規化した画像として特徴量算出部３４に供給する。

特徴量算出部３４は、顔画像正規化部３３から供給された正規化された方形領域１３１の顔に関係する時間の情報に対応する特徴量を算出する。

正規化された方形領域１３１には、例えば、図１２で示されるようにＭ＋１個の画素が配置されている。図１２において、１つの丸は、１つの画素を示す。例えば、方形領域１３１は、横にｎ個の画素、縦にｍ（ｍ＝ｎでもよい）個の画素からなり、方形領域１３１を構成する画素の総数は、ｎ×ｍである。

特徴量算出部３４は、例えば、式（２）によって、方形領域１３１の顔に関係する時間の情報に対応する特徴量として、予測される時間ｙ’を算出する。

・・・（２）
式（２）において、ｘ_iは、各画素の画素値であり、Ｍは、方形領域１３１を構成する画素の総数から１を引き算した値を示す。式（２）において、ａ_iは、予測係数である。

すなわち、時間ｙ’は、方形領域１３１のそれぞれの画素値ｘ_iとこれに対応する予測係数ａ_iとの積の、方形領域１３１の総ての画素についての総和として算出される。

この場合、予測係数メモリ４２は、方形領域１３１の画素値ｘ_iと、方形領域１３１の予測される時間ｙ’との関係に対応する予測係数ａ_iであって、登録されている個々の顔に対する（Ｍ＋１）個の予測係数ａ_iを予め記憶し、記憶している（Ｍ＋１）個の予測係数ａ_iを予測部４１に出力する。例えば、登録されている個々の顔は、インデックスで識別され、予測係数メモリ４２は、登録されている個々の顔に、すなわちインデックス毎に、（Ｍ＋１）個の予測係数ａ_iを予め記憶している。

予測部４１は、予測係数メモリ４２から読み出した所定のインデックスの（Ｍ＋１）個の予測係数ａ_iと、正規化された顔の領域である方形領域１３１の（Ｍ＋１）個の画素値ｘ_iとに式（２）の演算を適用することにより、そのインデックスについて、方形領域１３１の顔に関係する時間の情報に対応する特徴量として、予測される時間ｙ’を演算する。

詳細は後述するが、インデックス毎に、例えば、図１３で示されるように、時間ｔ₀の顔の画像、時間ｔ₁の顔の画像、・・・時間ｔ_N-1の顔の画像、および時間ｔ_Nの顔の画像から（Ｍ＋１）個の予測係数ａ_iが生成されている。例えば、時間ｔ₀の顔の画像、時間ｔ₁の顔の画像、・・・時間ｔ_N-1の顔の画像、および時間ｔ_Nの顔の画像は、それぞれ異なる日に撮影されたＮ＋１日分の顔の画像である。

ここで、時間ｔ₀は、所定の基準となる時刻から時間ｔ₀の顔の画像（インデックスで特定される顔の画像）が撮影された時刻までの時間を示し、時間ｔ₁は、その基準となる時刻から時間ｔ₁の顔の画像が撮影された時刻までの時間を示す。このように時間ｔ_k（ｋ＝０乃至Ｎ）は、所定の基準となる時刻から時間ｔ_kの顔の画像（インデックスで特定される顔の画像）が撮影された時刻までの時間を示す。ここで、基準となる時刻は、任意に定めた時刻とすることができ、例えば、時間ｔ₀の顔の画像が撮影された時刻、または登録が要求された時刻などとすることができる。

そして、時間ｙの顔の画像が入力（撮影）されると、特徴量算出部３４は、時間ｔ₀の顔の画像、時間ｔ₁の顔の画像、・・・時間ｔ_N-1の顔の画像、および時間ｔ_Nの顔の画像から予め生成されている、インデックス毎の（Ｍ＋１）個の予測係数ａ_iと、方形領域１３１の（Ｍ＋１）個の画素値ｘ_iとを用いて、予測係数ａ_iが対応付けられているインデックスについて、時間ｙを予測する時間ｙ’を演算する。時間ｙは、所定の基準となる時刻から顔の画像が撮影された時刻までの時間を示す。

特徴量算出部３４は、方形領域１３１の顔に関係する時間の情報に対応する特徴量を認識部３５に供給する。例えば、特徴量算出部３４は、方形領域１３１の顔に関係する時間の情報に対応する特徴量の一例である、インデックス毎に予測した時間ｙ’を示すデータを認識部３５に供給する。

なお、それぞれ、所定の時刻において撮影された（Ｎ＋１）個の顔の画像から（Ｍ＋１）個の予測係数ａ_iを生成し、顔の画像が入力された場合、入力された顔の画像が撮影された時刻を予測するようにしてもよい。

また、それぞれ、所定の年齢において撮影された（Ｎ＋１）個の顔の画像から（Ｍ＋１）個の予測係数ａ_iを生成し、顔の画像が入力された場合、入力された顔の画像から撮影された時点における年齢を予測するようにしてもよい。

認識部３５は、特徴量算出部３４から供給された、インデックス毎に予測された時間ｙ’の特徴量を用いて、顔を認識する。例えば、時間情報入力部４４は、所定の基準となる時刻から現在時刻までの時間、すなわち時間ｙを示すデータを判定部４３に供給する。判定部４３は、インデックス毎に、予測される時間ｙ’の特徴量と、時間情報入力部４４から入力されるデータで示される時間ｙとの一致度を判定する。

例えば、判定部４３は、予測された時間ｙ’の特徴量と、時間ｙとの一致度として、時間ｙと予測された時間ｙ’との差の絶対値を算出する。判定部４３は、時間ｙと予測された時間ｙ’との差の絶対値が予め定めた閾値より大きいか否かを判定する。判定部４３は、時間ｙと予測された時間ｙ’との差の絶対値が閾値より大きいと判定された場合、時間ｙと予測された時間ｙ’とが一致しないとし、時間ｙと予測された時間ｙ’との差の絶対値が閾値以下であると判定された場合、時間ｙと予測された時間ｙ’とが一致するとする。

また、例えば、判定部４３は、時間情報入力部４４から入力されるデータで示される時間ｙを基準とした所定の長さの範囲を定めて、予測される時間ｙ’がその範囲に入る場合、予測される時間ｙ’と時間ｙとが一致すると判定し、予測される時間ｙ’がその範囲に入らない場合、予測される時間ｙ’と時間ｙとが一致しないと判定する。

なお、顔の画像が撮影された時刻を予測する特徴量が求められる場合、時間情報入力部４４は、現在の日付および時刻を示すデータを判定部４３に供給し、判定部４３は、現在の日付および時刻を基準とした所定の長さの範囲を定めて、特徴量で示される予測された時刻がその範囲に入る場合、特徴量算出部３４から供給された特徴量と、顔に関係する時間の情報とが一致すると判定し、特徴量で示される予測された時刻がその範囲に入らない場合、特徴量算出部３４から供給された特徴量と、顔に関係する時間の情報とが一致しないと判定する。

また、年齢を予測する特徴量が求められる場合、時間情報入力部４４は、現在の年齢を示すデータを判定部４３に供給し、判定部４３は、現在の年齢を基準とした所定の長さの範囲を定めて、特徴量で示される予測された年齢がその範囲に入る場合、特徴量算出部３４から供給された特徴量と、顔に関係する時間の情報とが一致すると判定し、特徴量で示される予測された年齢がその範囲に入らない場合、特徴量算出部３４から供給された特徴量と、顔に関係する時間の情報とが一致しないと判定する。

このように、所定のインデックスについて、特徴量算出部３４から供給された特徴量と、顔に関係する時間の情報とが一致すると判定された場合、顔に関係する時間の情報と一致する特徴量に対応付けられているインデックスで識別される、登録されている顔が認識され、総てのインデックスについて、特徴量算出部３４から供給された特徴量と、顔に関係する時間の情報とが一致しないと判定された場合、登録されている顔ではないと認識されることになる。

このように、時間ｔ₀の顔の画像、時間ｔ₁の顔の画像、・・・時間ｔ_N-1の顔の画像、および時間ｔ_Nの顔の画像から（Ｍ＋１）個から生成された予測係数ａ_iと、正規化された顔の画像の（Ｍ＋１）個の画素値ｘ_iとから、正規化された領域の顔に関係する時間の情報に対応する特徴量が算出され、この特徴量を用いて、顔が認識されるので、時間が経過しても確実に顔を認識することができる。

図１４は、顔画像識別装置による識別の処理を説明するフローチャートである。ステップＳ１１において、顔画像入力部３１は、認識しようとする顔の画像を入力する。例えば、ステップＳ１１において、顔画像入力部３１は、認識しようとする顔を撮影して、撮影した顔の画像を入力する。

ステップＳ１２において、顔画像抽出部３２は、顔領域８１を抽出する。例えば、ステップＳ１２において、顔画像抽出部３２のHSV変換部６１は、入力されたRGB方式の画像を、HSV方式の画像に変換し、顔画像抽出部３２の肌色領域抽出部６２は、HSV方式に変換された画像から、肌色の範囲の色相（Hue）の画素を抽出する。そして、横枠検出部６３は、抽出する顔の領域の横枠を決め、縦枠検出部６４は、抽出する顔の領域の縦枠を決め、顔領域抽出部６５は、縦枠および横枠を統合し、四角の枠を求めて、四角の枠の中の顔領域８１を抽出する。

ステップＳ１３において、顔画像抽出部３２の顔画像識別部６６は、顔領域抽出部６５において抽出された顔領域８１の画像とテンプレート９１との一致の度合いを示す値を求めて、求めた一致の度合いを基に、顔領域８１が顔画像であるか否かを判定する。

ステップＳ１３において、顔領域８１が顔画像であると判定された場合、ステップＳ１４に進み、顔画像正規化部３３は、顔画像である顔領域８１を正規化する。例えば、ステップＳ１４において、顔画像正規化部３３のラベリング部１０１は、顔画像７２を基に、顔領域８１の画素のうち、非肌色画素にラベリングし、オブジェクトを抽出する。そして、重心算出部１０２は、ラベルを参照して、顔領域８１の非肌色画素からなるオブジェクトのそれぞれの重心を算出する。目位置検出部１０３は、重心算出部１０２から供給された重心データから、目のオブジェクト１２１を検出し、口位置検出部１０４は、重心算出部１０２から供給された重心データから、口のオブジェクト１２２を検出する。アフィン変換部１０５は、目のオブジェクト１２１の位置、および口のオブジェクト１２２の位置を基に、顔領域８１にアフィン変換の処理を適用する。さらに、輝度値調整部１０６は、アフィン変換の結果得られた方形領域１３１の輝度を調整する。

ステップＳ１５において、特徴量算出部３４は、正規化の結果得られた方形領域１３１から、所定のインデックスについて、方形領域１３１の顔に関係する時間の情報に対応する特徴量として、予測時間を演算する。例えば、ステップＳ１５において、特徴量算出部３４の予測部４１は、予測係数メモリ４２から、予め記憶されている所定のインデックスについての予測係数を読み出して、読み出した予測係数と方形領域１３１の画素値とに式（２）の演算を適用することにより、そのインデックスについての、予測時間（予測される時間ｙ’）を演算する。

ステップＳ１６において、認識部３５は、現在の時刻と予測時間との一致度を算出する。例えば、ステップＳ１６において、時間情報入力部４４は、所定の基準となる時刻から現在時刻までの時間を示すデータを判定部４３に供給する。そして、例えば、判定部４３は、予測された時間ｙ’の特徴量と、時間ｙとの一致度として、時間ｙと予測された時間ｙ’との差の絶対値を算出する。

ステップＳ１７において、認識部３５は、処理を終了するか否かを判定する。例えば、ステップＳ１７において、認識部３５の判定部４３は、予測された時間ｙ’の特徴量と、時間ｙとの一致度として算出された、時間ｙと予測された時間ｙ’との差の絶対値が予め定めた閾値より大きいか否かを判定し、時間ｙと予測された時間ｙ’との差の絶対値が予め定めた閾値より大きいと判定された場合、時間ｙと予測された時間ｙ’とが一致していないので、処理を終了しないと判定する。

ステップＳ１７において、処理を終了しないと判定された場合、ステップＳ１５に戻り、次のインデックスについて、予測時間を演算し、一致度を算出し、処理を終了するか否かを判定する処理を繰り返す。

ステップＳ１７において、処理を終了すると判定された場合、ステップＳ１８に進み、認識部３５は、入力された顔画像を識別して、処理は終了する。すなわち、例えば、ステップＳ１７において、時間ｙと予測された時間ｙ’との差の絶対値が予め定めた閾値以下であると判定された場合、時間ｙと予測された時間ｙ’とが一致しているので、ステップＳ１８に進み、認識部３５は、ステップＳ１５の予測時間の演算において用いた予測係数のインデックスを、認識した顔を示すデータとして出力して、処理は終了する。

また、例えば、ステップＳ１７において、認識部３５の判定部４３は、総てのインデックスに対する予測された時間ｙ’について、時間ｙと予測された時間ｙ’との差の絶対値を求めたかを基に、処理を終了するか否かを判定し、総てのインデックスに対する予測された時間ｙ’について、時間ｙと予測された時間ｙ’との差の絶対値を求めた場合、処理を終了すると判定する。そして、ステップＳ１８において、認識部３５は、インデックスそれぞれの予測された時間ｙ’と時間ｙとの差の絶対値のうち、最小の絶対値が得られた予測された時間ｙ’に対するインデックスを、認識した顔を示すデータとして出力する。

さらにまた、例えば、判定部４３は、インデックスそれぞれの予測された時間ｙ’と時間ｙとの差の絶対値のうち、最小の絶対値が予め定めた閾値より小さいか否かを判定し、最小の絶対値がその閾値より小さいと判定された場合、最小の絶対値が得られた予測された時間ｙ’に対するインデックスを、認識した顔を示すデータとして出力し、最小の絶対値がその閾値以上であると判定された場合、顔が正しく認識されなかったものとして、顔が認識されなかったことを示すデータ（認識が無効であることを示すデータ）を出力するようにしてもよい。

ステップＳ１３において、顔領域８１が顔画像でないと判定された場合、ステップＳ１４乃至ステップＳ１８の処理は実行されずに、処理は終了する。

このように、予測係数と、顔画像の画素値とから、正規化された領域の顔に関係する時間の情報に対応する特徴量が算出され、この特徴量を用いて、顔が認識されるので、時間が経過して顔が変化してしまっても確実に顔を認識することができる。

ユーザＡと異なるユーザＢの顔の画像が入力された場合、ユーザＢの顔の画像とユーザＡの予測係数との演算によって求められる予測される時間ｙ’は、時間ｙと大きく異なるので、ユーザＢの顔の画像からユーザＡの顔であると認識されることはない。

次に、予測係数の生成について説明する。

図１５は、本発明の一実施の形態の予測係数生成装置の構成を示すブロック図である。予測係数生成装置は、顔画像入力部２０１、顔画像抽出部２０２、顔画像正規化部２０３、係数生成部２０４、および係数メモリ２０５から構成される。

顔画像入力部２０１は、顔画像入力部３１と同様に構成され、学習し、予測係数を生成するための顔画像（以下、学習用顔画像とも称する）を入力する。顔画像入力部２０１は、学習用顔画像を顔画像抽出部２０２に供給する。

顔画像抽出部２０２は、顔画像抽出部３２と同様に構成され、顔画像入力部２０１から供給された学習用顔画像から、顔の領域（以下、学習用顔領域とも称する）を抽出する。顔画像抽出部２０２は、抽出した学習用顔領域を顔画像正規化部２０３に供給する。

顔画像正規化部２０３は、顔画像正規化部３３と同様に構成され、顔画像抽出部２０２から供給された学習用顔領域を正規化する。例えば、顔画像正規化部２０３は、学習用顔領域を正規化し、方形領域１３１と同様の顔の領域を生成する。顔画像正規化部２０３は、正規化の結果得られた学習用顔領域を係数生成部２０４に供給する。

係数生成部２０４は、正規化された学習用顔領域から、学習用顔領域の画素値と、時間の情報との関係に対応する予測係数を生成する。係数生成部２０４は、時間情報入力部２２１、インデックス入力部２２２、正規方程式生成部２２３、および係数決定部２２４からなる。

時間情報入力部２２１は、顔画像入力部２０１から入力された顔画像についての、顔に関係する時間の情報（以下、学習用時間情報とも称する）を入力する。例えば、時間情報入力部２２１は、いわゆるリアルタイムクロックから、現在の日付および時刻を示す時間の情報を入力する。そして、時間情報入力部２２１は、最初に顔を登録した基準となる時点から現在までの時間を示す学習用時間情報を正規方程式生成部２２３に供給する。

または、例えば、時間情報入力部２２１は、顔画像入力部２０１から入力された顔画像に付加されているメタデータから、顔画像が撮影された日付および時刻を示す時間の情報を入力する。そして、時間情報入力部２２１は、最初に顔を登録した基準となる時点から顔画像が撮影された時点までの時間を示す学習用時間情報を正規方程式生成部２２３に供給する。

さらに、例えば、時間情報入力部２２１は、顔画像入力部２０１から入力された顔画像に付加されているメタデータから、顔画像が撮影された日付および時刻を示す時間の情報を入力し、その時間の情報をそのまま学習用時間情報として正規方程式生成部２２３に供給する。

インデックス入力部２２２は、顔画像入力部２０１から入力された顔画像に含まれる顔を識別するインデックスを入力し、入力したインデックスを正規方程式生成部２２３に供給する。例えば、インデックス入力部２２２は、ボタンまたはキーなどの入力装置への使用者の操作に応じた信号を入力装置から取得することにより、インデックスを入力する。または、例えば、インデックス入力部２２２は、新たに顔が登録された場合、所定の桁数の乱数を生成して、生成した乱数をインデックスとすることにより、インデックスを入力する。

正規方程式生成部２２３は、複数の学習用顔画像とそれぞれの顔画像に関係する学習用時間情報とから、それぞれの学習用顔画像から抽出された学習用顔領域の画素値とそれぞれの画像に関係する学習用時間情報との関係を表す方程式を生成する。

例えば、図１６で示されるように、１つの顔に対応して、すなわち、１つのインデックスに対応して、時間ｔ₀の顔の画像、時間ｔ₁の顔の画像、・・・時間ｔ_N-1の顔の画像、および時間ｔ_Nの顔の画像からなる合計で（Ｎ＋１）個の学習用顔画像が顔画像入力部２０１から入力される。また、時間情報入力部２２１から、時間ｔ₀、時間ｔ₁、・・・時間ｔ_N-1、および時間ｔ_Nのそれぞれを示す学習用時間情報が入力される。

例えば、時間ｔ₀の顔の画像、時間ｔ₁の顔の画像、・・・時間ｔ_N-1の顔の画像、および時間ｔ_Nの顔の画像は、同じ顔を、それぞれ異なる日に撮影したＮ＋１日分の顔の画像である。

顔画像正規化部２０３から正規方程式生成部２２３には、方形領域１３１と同様の学習用顔領域が供給される。例えば、図１７で示されるように、Ｍ＋１個の画素からなる方形の学習用顔領域が正規方程式生成部２２３に供給される。図１７において、１つの丸は、１つの画素を示す。このＭ＋１個の画素からなる方形の学習用顔領域は、方形領域１３１と同様に、横にｎ個の画素、縦にｍ（ｍ＝ｎでもよい）個の画素からなり、画素の総数は、ｎ×ｍである。なお、Ｍ＝ｎ×ｍ−１である。

正規方程式生成部２２３は、学習用顔領域の画素の画素値に対して式（３）で表される誤差Ｅが最小となる予測係数ａ_iを回帰によって算出するための方程式を生成する。

・・・（３）
式（３）において、ｘ_iは、各画素の画素値であり、Ｍは、学習用顔領域を構成する画素の総数から１を引き算した値を示す。式（３）において、Ｎは、学習用顔画像の総数から１を引き算した値を示す。

すなわち、誤差Ｅは、学習用顔領域のそれぞれの画素値ｘ_iとこれに対応する予測係数ａ_iとの積の、学習用顔領域の総ての画素についての総和を、その学習用顔領域の時間から引き算し、総ての学習用顔領域についての引き算の結果の自乗の総和として算出される。

誤差Ｅを最小となる予測係数ａ_iにおいて、式（４）が成立する。

・・・（４）

式（４）と式（３）から、式（５）が求められる。

・・・（５）

式（６）および式（７）とすると、式（５）から式（８）で示される正規方程式が導き出せる。

・・・（６）

・・・（７）

・・・（８）

正規方程式生成部２２３は、式（８）で示される正規方程式を生成し、生成した正規方程式を係数決定部２２４に供給する。

係数決定部２２４は、正規方程式を掃き出し法（Gauss-Jordanの消去法）などにより、インデックス毎に、予測係数ａ_iについて解いて、予測係数ａ_iを求める。係数決定部２２４は、インデックス毎の、予測係数ａ_iからなる係数データを係数メモリ２０５に供給する。

係数メモリ２０５は、係数決定部２２４から供給された、インデックス毎の、予測係数ａ_iからなる係数データを記憶する。

このように、インデックス毎、すなわち、登録されている顔毎に、予測係数ａ_iが求められる。

なお、学習用顔領域に含まれる画素の数Ｍ＋１が顔の画像の数Ｎ＋１より多い場合には、そのままでは予測係数を求めることはできない。そこで、このような場合には、学習用顔領域を複数の画素からなるブロックに分割し、それぞれのブロックの画素値の平均値を画素値として学習用顔領域を再構成する（学習用顔領域を縮小する）ことで、画素の数Ｍ＋１を減らして予測係数を求める。このとき、顔画像識別装置において、予測係数を算出する場合の学習用顔領域の縮小と同じように、方形領域１３１が縮小させられてから、特徴量が求められる。

次に、図１８のフローチャートを参照して、予測係数生成装置における係数生成の処理を説明する。ステップＳ５１において、顔画像入力部２０１は、学習用顔画像である顔の画像を入力する。ステップＳ５２において、顔画像抽出部２０２は、ステップＳ１２の処理と同様の処理で、学習用顔領域である顔領域を抽出する。

ステップＳ５３において、顔画像抽出部２０２は、ステップＳ１３の処理と同様の処理で、学習用顔領域が顔画像であるか否かを判定する。

ステップＳ５３において、学習用顔領域が顔画像であると判定された場合、ステップＳ５４に進み、顔画像正規化部２０３は、ステップＳ１４の処理と同様の処理で、顔画像である学習用顔領域を正規化する。

ステップＳ５５において、時間情報入力部２２１は、入力された顔画像についての、顔に関係する時間の情報（学習用時間情報）を入力する。ステップＳ５６において、インデックス入力部２２２は、入力された顔画像に含まれる顔を識別するインデックスを入力する。

ステップＳ５７において、正規方程式生成部２２３は、正規方程式を生成する。例えば、ステップＳ５７において、正規方程式生成部２２３は、複数の学習用顔画像とそれぞれの顔画像に関係する学習用時間情報とから、それぞれの学習用顔画像から抽出された学習用顔領域の画素値とそれぞれの画像に関係する学習用時間情報との関係を表す方程式を生成する。より詳細には、例えば、正規方程式生成部２２３は、学習用顔領域の画素値とそれぞれの画像に関係する学習用時間情報を、式（８）に示される正規方程式に代入することにより、正規方程式を生成する。

ステップＳ５８において、正規方程式生成部２２３は、生成しようとする正規方程式に必要な総ての画素値と学習用時間情報とを設定したかを基に、処理を終了するか否かを判定する。ステップＳ５８において、生成しようとする正規方程式に必要な総ての画素値と学習用時間情報とが設定されていない場合、処理を終了しないと判定し、ステップＳ５１に戻り、次の学習用顔画像について、ステップＳ５１乃至ステップＳ５７の処理を繰り返す。

すなわち、１回のステップＳ５１乃至ステップＳ５７の一連の処理は、１つの学習用顔画像について実行され、ステップＳ５１乃至ステップＳ５７の処理は、少なくとも、１つのインデックスについて学習用顔画像の数だけ繰り返される。

複数のインデックス、すなわち、複数の登録されている顔について、それぞれに、予測係数ａ_iを求める場合には、それぞれのインデックスについて、ステップＳ５１乃至ステップＳ５７の処理が、学習用顔画像の数だけ繰り返される。言い換えれば、複数のインデックスについて、それぞれに、予測係数ａ_iを求める場合には、インデックスの数と学習用顔画像の数との積と同じ回数だけ、ステップＳ５１乃至ステップＳ５７の処理が繰り返される。

ステップＳ５８において、生成しようとする正規方程式に必要な総ての画素値と学習用時間情報とが設定された場合、処理を終了すると判定し、ステップＳ５９に進み、係数決定部２２４は、正規方程式を解いて、予測係数ａ_iからなる係数データを生成して、処理は終了する。例えば、ステップＳ５９において、係数決定部２２４は、掃き出し法（Gauss-Jordanの消去法）などにより、生成された正規方程式を予測係数ａ_iについて解いて、予測係数ａ_iを求めて、予測係数ａ_iからなる係数データを生成する。係数データは、係数メモリ２０５に記憶される。

このように、それぞれのインデックスに対して、正規方程式が生成されて、正規方程式を解くことによって、それぞれのインデックスに対する予測係数ａ_iが求められる。

以上の処理で求められた、それぞれのインデックスに対する予測係数ａ_iからなる係数データは、係数メモリ２０５から読み出されて、予測係数メモリ４２に記憶される。従って、予測係数生成装置で生成した係数を用いることで、顔画像識別装置において、時間が経過しても確実に顔を認識することができるようになる。

なお、顔画像識別装置において、顔を認識した場合、予測係数を更新するようにしてもよい。

図１９は、顔を認識した場合、予測係数を更新する、顔画像識別装置の構成の他の例を示すブロック図である。顔画像識別装置は、顔画像入力部３１、顔画像抽出部３２、顔画像正規化部３３、特徴量算出部３４、認識部３５、正規方程式生成部２２３、係数決定部２２４、および顔画像記録部２４１により構成されている。

図１９で構成が示される顔画像識別装置における顔画像入力部３１、顔画像抽出部３２、顔画像正規化部３３、特徴量算出部３４、および認識部３５は、図２で示される場合と同様なので、その説明は適宜省略する。また、図１９で構成が示される顔画像識別装置における正規方程式生成部２２３および係数決定部２２４は、図１５の予測係数生成装置における場合と同様なので、その説明は適宜省略する。

図１９の顔画像識別装置における特徴量算出部３４は、特徴量と共に、方形領域１３１を認識部３５に供給する。

認識部３５の判定部４３は、特徴量算出部３４から供給された特徴量と、時間情報入力部４４から入力される顔に関係する時間の情報とが一致すると判定した場合、インデックスおよび方形領域１３１を顔画像記録部２４１に供給する。また、認識部３５の時間情報入力部４４は、顔を登録した時点から現在までの時間を示す時間の情報などの、顔に関係する時間の情報を正規方程式生成部２２３に供給する。

顔画像記録部２４１は、認識部３５から供給された、インデックスおよび方形領域１３１を関係付けて記録する。顔画像記録部２４１は、記録しているインデックスおよび方形領域１３１を正規方程式生成部２２３に供給する。

図１９の顔画像識別装置における正規方程式生成部２２３は、顔画像記録部２４１から供給された方形領域１３１を学習用顔画像とし、認識部３５から供給された顔に関係する時間の情報を学習用時間情報として、それぞれの学習用顔画像から抽出された学習用顔領域の画素値とそれぞれの画像に関係する学習用時間情報との関係を表す正規方程式を生成する。正規方程式生成部２２３は、生成した正規方程式を係数決定部２２４に供給する。

図１９の顔画像識別装置における係数決定部２２４は、正規方程式を掃き出し法（Gauss-Jordanの消去法）などにより、予測係数ａ_iについて解いて、予測係数ａ_iを求める。係数決定部２２４は、予測係数ａ_iからなる係数データを予測係数メモリ４２に供給する。図１９の顔画像識別装置における予測係数メモリ４２は、係数決定部２２４から供給された、予測係数ａ_iからなる係数データを記憶する。

図２０は、図１９で構成が示される顔画像識別装置による、識別の処理の他の例を説明するフローチャートである。ステップＳ８１乃至ステップＳ８８の処理は、それぞれ、図１４のステップＳ１１乃至ステップＳ１８の処理と同様なので、その説明は省略する。

ステップＳ８９において、正規方程式生成部２２３および係数決定部２２４は、予測係数メモリ４２に記憶されている係数を更新して、処理は終了する。すなわち、例えば、ステップＳ８９において、正規方程式生成部２２３は、ステップＳ５５乃至ステップＳ５７の処理と同様に、正規方程式を生成する。そして、係数決定部２２４は、ステップＳ５９の処理と同様に、掃き出し法（Gauss-Jordanの消去法）などにより、生成された正規方程式を予測係数ａ_iについて解いて、予測係数ａ_iを求めて、予測係数ａ_iからなる係数データを生成する。予測係数メモリ４２は、生成された係数データを記憶する。

このように、顔を識別した場合、予測係数メモリ４２に記憶されている予測係数を更新することができる。このようにした場合、顔を識別する度に、識別されたより最近の顔に応じて予測係数が更新されるので、さらにより確実に顔を認識することができる。

このように、入力された画像から顔の領域を抽出するようにした場合には、顔を認識することができる。また、入力された画像から顔の領域を抽出し、抽出された領域の顔に関係する時間の情報に対応する特徴量を算出し、特徴量を用いて、顔を認識するようにした場合には、時間が経過しても確実に顔を認識することができる。

また、顔の画像から方程式を生成し、この方程式を解いて係数を生成するようにした場合には、顔の認識に用いる係数を生成することができる。また、入力された画像から顔の領域を抽出し、入力された画像に関係する時間の情報と、抽出された顔の領域の画素値とから、時間の情報と顔の領域の画素値との関係を表す係数を生成するようにした場合には、生成した係数を用いることで、時間が経過しても確実に顔を認識することができる。

図２１は、上述した一連の処理をプログラムにより実行するパーソナルコンピュータの構成の例を示すブロック図である。CPU（Central Processing Unit）３０１は、ROM（Read Only Memory）３０２、または記憶部３０８に記憶されているプログラムに従って各種の処理を実行する。RAM（Random Access Memory）３０３には、CPU３０１が実行するプログラムやデータなどが適宜記憶される。これらのCPU３０１、ROM３０２、およびRAM３０３は、バス３０４により相互に接続されている。

CPU３０１にはまた、バス３０４を介して入出力インターフェース３０５が接続されている。入出力インターフェース３０５には、キーボード、マウス、マイクロホンなどよりなる入力部３０６、ディスプレイ、スピーカなどよりなる出力部３０７が接続されている。CPU３０１は、入力部３０６から入力される指令に対応して各種の処理を実行する。そして、CPU３０１は、処理の結果を出力部３０７に出力する。

入出力インターフェース３０５に接続されている記憶部３０８は、例えばハードディスクからなり、CPU３０１が実行するプログラムや各種のデータを記憶する。通信部３０９は、インターネットやローカルエリアネットワークなどのネットワークを介して外部の装置と通信する。

また、通信部３０９を介してプログラムを取得し、記憶部３０８に記憶してもよい。

入出力インターフェース３０５に接続されているドライブ３１０は、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア３１１が装着されたとき、それらを駆動し、そこに記録されているプログラムやデータなどを取得する。取得されたプログラムやデータは、必要に応じて記憶部３０８に転送され、記憶される。

上述した一連の処理は、ハードウエアにより実行させることもできるし、ソフトウエアにより実行させることもできる。一連の処理をソフトウエアにより実行させる場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。

コンピュータにインストールされ、コンピュータによって実行可能な状態とされるプログラムを格納するプログラム記録媒体は、図２１に示すように、磁気ディスク（フレキシブルディスクを含む）、光ディスク（CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)を含む）、光磁気ディスクを含む）、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア３１１、または、プログラムが一時的もしくは永続的に格納されるROM３０２や、記憶部３０８を構成するハードディスクなどにより構成される。プログラム記録媒体へのプログラムの格納は、必要に応じてルータ、モデムなどのインターフェースである通信部３０９を介して、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の通信媒体を利用して行われる。

なお、本明細書において、プログラム記録媒体に格納されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。

なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。

従来の顔認識装置の構成を示すブロック図である。本発明の一実施の形態の顔画像識別装置の構成を示すブロック図である。顔画像抽出部の構成の例を示すブロック図である。肌色画素の抽出を説明する図である。垂直基準点および横枠を説明する図である。オフセットおよび縦枠を説明する図である。縦枠および横枠を統合した四角の枠の中の顔領域を説明する図である。顔の領域であるか否かの判定を説明する図である。顔画像正規化部の構成の例を示すブロック図である。目のオブジェクトおよび口のオブジェクトの検出を説明する図である。顔領域のアフィン変換の処理を説明する図である。正規化された方形領域と特徴量の演算とを説明する図である。特徴量と特徴量による判定とを説明する図である。識別の処理を説明するフローチャートである。本発明の一実施の形態の予測係数生成装置の構成を示すブロック図である。学習用顔画像および学習用時間情報を説明する図である。正規化された方形領域と予測係数の演算とを説明する図である。係数生成の処理を説明するフローチャートである。顔画像識別装置の構成の他の例を示すブロック図である。識別の処理の他の例を説明するフローチャートである。パーソナルコンピュータの構成の例を示すブロック図である。

符号の説明

３１顔画像入力部，３２顔画像抽出部，３３顔画像正規化部，３４特徴量算出部，３５認識部，４１予測部，４２予測係数メモリ，４３判定部，４４時間情報入力部，６１ HSV変換部，６２肌色領域抽出部，６３横枠検出部，６４縦枠検出部，６５顔領域抽出部，６６顔画像識別部，１０１ラベリング部，１０２重心算出部，１０３目位置検出部，１０４口位置検出部，１０５アフィン変換部，１０６輝度値調整部，２０１顔画像入力部，２０２顔画像抽出部，２０３顔画像正規化部、２０４係数生成部，２０５係数メモリ，２２１時間情報入力部，２２２インデックス入力部，２２３正規方程式生成部，２２４係数決定部，２４１顔画像記録部，３０１ＣＰＵ，３０２ＲＯＭ，３０３ＲＡＭ，３０８記憶部，３１１リムーバブルメディア

Claims

入力された画像から顔の領域を抽出する領域抽出手段と、
抽出された領域の顔に関係する時間の情報に対応する特徴量を算出する特徴量算出手段と、
前記特徴量を用いて、前記顔を認識する認識手段と
を備える顔認識装置。
前記特徴量算出手段は、
顔の領域の画素値と、時間の情報との関係に対応する係数を出力する出力手段と、
前記係数と、顔の領域の画素値との演算により前記特徴量を算出する演算手段と
を備える
請求項１の顔認識装置。
前記係数は、複数の学習用顔画像と、前記学習用顔画像それぞれの時間の情報である学習用時間情報とを用いて、前記学習用顔画像と前記学習用時間情報との関係を表すように生成されている
請求項２の顔認識装置。
前記特徴量算出手段は、顔が撮影された時刻を示す前記特徴量を算出し、
前記認識手段は、前記特徴量で示される時刻と現在時刻とから、前記顔を認識する
請求項１の顔認識装置。
前記領域抽出手段は、
前記画像から、肌色の範囲の色相の画素を抽出する抽出手段と、
肌色の範囲の色相の画素であって、所定の方向に連続している画素の数が最大となる前記画像上の位置を基準として、顔の領域を決定する決定手段と
をさらに備え、
決定された顔の領域を抽出する
請求項１の顔認識装置。
前記領域抽出手段は、抽出した領域の顔と、予め定めた基準の顔とを比較することにより、抽出した領域が顔の領域であるか否かを判定する判定手段をさらに備える
請求項１の顔認識装置。
抽出された顔の領域を正規化する正規化手段をさらに備え、
前記特徴量算出手段は、正規化された領域の顔に関係する時間の情報に対応する前記特徴量を算出する
請求項１の顔認識装置。
入力された画像から顔の領域を抽出し、
抽出された領域の顔に関係する時間の情報に対応する特徴量を算出し、
前記特徴量を用いて、前記顔を認識する
ステップを含む顔認識方法。
顔の領域の画素値と、時間の情報との関係に対応する係数を出力し、
前記係数と、顔の領域の画素値との演算により前記特徴量を算出する
請求項８の顔認識方法。
前記係数は、複数の学習用顔画像と、前記学習用顔画像それぞれの時間の情報である学習用時間情報とを用いて、前記学習用顔画像と前記学習用時間情報との関係を表すように生成されている
請求項９の顔認識方法。
顔が撮影された時刻を示す前記特徴量を算出し、
前記特徴量で示される時刻と現在時刻とから、前記顔を認識する
請求項８の顔認識方法。
前記画像から、肌色の範囲の色相の画素を抽出し、
肌色の範囲の色相の画素であって、所定の方向に連続している画素の数が最大となる前記画像上の位置を基準として、顔の領域を決定し、
決定された顔の領域を抽出する
請求項８の顔認識方法。
抽出した領域の顔と、予め定めた基準の顔とを比較することにより、抽出した領域が顔の領域であるか否かをさらに判定する
請求項８の顔認識方法。
抽出された顔の領域を正規化し、
正規化された領域の顔に関係する時間の情報に対応する前記特徴量を算出する
請求項８の顔認識方法。
入力された画像から顔の領域を抽出し、
抽出された領域の顔に関係する時間の情報に対応する特徴量を算出し、
前記特徴量を用いて、前記顔を認識する
ステップをコンピュータに実行させるプログラム。
入力された画像から顔の領域を抽出する領域抽出手段と、
入力された画像に関係する時間の情報と、抽出された顔の領域の画素値とから、時間の情報と顔の領域の画素値との関係を表す係数を生成する係数生成手段と
を備える係数生成装置。
前記係数生成手段は、
複数の画像とそれぞれの画像に関係する時間の情報とから、それぞれの画像から抽出された顔の領域の画素値とそれぞれの画像に関係する時間の情報との関係を表す方程式を生成する方程式生成手段と、
生成された方程式を解くことで前記係数を生成する演算手段と
を備える
請求項１６の係数生成装置。
生成された前記係数を記憶する記憶手段をさらに備える
請求項１６の係数生成装置。
入力された画像から顔の領域を抽出し、
入力された画像に関係する時間の情報と、抽出された顔の領域の画素値とから、時間の情報と顔の領域の画素値との関係を表す係数を生成する
ステップを含む係数生成方法。
入力された画像から顔の領域を抽出し、
入力された画像に関係する時間の情報と、抽出された顔の領域の画素値とから、時間の情報と顔の領域の画素値との関係を表す係数を生成する
ステップをコンピュータに実行させるプログラム。
請求項１５または請求項２０に記載のプログラムが記録されている記録媒体。