JP4217664B2

JP4217664B2 - 画像処理方法、画像処理装置

Info

Publication number: JP4217664B2
Application number: JP2004190306A
Authority: JP
Inventors: 崇士鈴木; 克彦森; 優和真継
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2004-06-28
Filing date: 2004-06-28
Publication date: 2009-02-04
Anticipated expiration: 2024-06-28
Also published as: JP2006011978A; CN1977286A; EP1774470B1; EP1774470A1; US20070242856A1; WO2006001525A1; EP1774470A4; CN1977286B; US7912253B2

Description

本発明は、対象を含む画像から、当該対象を個別判別する為の技術に関するものである。

本項では、物体認識の従来技術を説明するため、取得した顔画像を誰であるか認識する個人認識を例として取り上げる。一般的に顔画像による個人認識のアプローチとして２パターンある。

第１のアプローチは、顔を各画素の濃淡値の２次元配列として表現される画像パターンとして捕らえ、そのマッチングによって認識を行うパターン整合法である。パターン整合法の代表的な一例として、主成分分析（ＰＣＡ：ＰｒｉｎｃｉｐａｌＣｏｍｐｏｎｅｎｔＡｎａｌｙｓｉｓ）を用いた固有顔（Ｅｉｇｅｎｆａｃｅ）法（例えば特許文献１を参照）を取り上げ、固有顔法の基本的な枠組みを以下に示す。

固有顔法は、多数の顔画像の濃淡値パターンに対して主成分分析（ＰＣＡ：ＰｒｉｎｃｉｐａｌＣｏｍｐｏｎｅｎｔＡｎａｌｙｓｉｓ）を適用し、固有顔と呼ばれる正規直交基底を求める。そしてその正規直交基底を用い、任意顔画像の濃淡パターンに対してＫＬ（Ｋａｒｈｕｎｅｎ−Ｌｏｅｖｅ）展開を施し、パターンの次元圧縮されたベクトルを求める。最終的にこのベクトルを認識用の特徴ベクトルとし、入力パターンおよびあらかじめ登録されている登録パターンの特徴ベクトル間の統計処理により認識を行う。以上が上記固有顔法の基本的な枠組みである。このPCAをベースとした手法は、あらかじめ多数の顔画像より固有顔（平均顔）を求める必要があり、固有顔作成に用いた顔画像の照明変動および空間配置変動に対し精度が影響する問題を内在している。

また第２のアプローチとして、顔の目・口・鼻といった造作を示す特徴点を抽出することで、各造作の形状および空間配置関係を数値的に表した特徴ベクトルのマッチングにより認識する造作ベース法が存在する。造作ベース法の代表的な一例として、Dynamic link architectureをベースとした手法（例えば特許文献２を参照）を取り上げ、手法の基本的な枠組みを以下に示す。

本手法は、顔パターン上に設定された多数のサンプル点（例えば、目・口・鼻・顔の輪郭）において、濃淡特徴の周期性と方向性を抽出するガボールフィルタを適用し、局所的なテクスチャ情報を特徴ベクトルとする。さらに、サンプリング点を各ノードで対応付けたグラフを求め、そのグラフをサンプリング点の空間配置情報とサンプリング点に対応する各ノードの属性値として特徴ベクトルを適用し構築する。認識処理は、入力パターンおよびあらかじめ登録されている登録パターンのグラフ間を、ノード間の空間配置情報を弾性的に変形させ、最も類似度が高い登録パターンを選定することにより行われる（Ｄｙｎａｍｉｃｇｒａｐｈｍａｔｃｈｉｎｇ）。以上が上記Ｄｙｎａｍｉｃｌｉｎｋａｒｃｈｉｔｅｃｔｕｒｅベースとした手法の基本的な枠組みである。
ＵＳＰ５１６４９９２ＵＳＰ６３５６６５９

しかし、上記Ｄｙｎａｍｉｃｌｉｎｋａｒｃｈｉｔｅｃｔｕｒｅベースの手法は、各サンプリング点における属性値の算出とＤｙｎａｍｉｃｇｒａｐｈｍａｔｃｈｉｎｇの処理において複雑な数値計算を経るため、両処理の過程より演算コストが増大する問題を内在している。

本発明は以上の問題に鑑みてなされたものであり、簡便に対象の個別同定を行うための技術を提供することを目的とする。

本発明の目的を達成するために、例えば本発明の画像処理方法は以下の構成を備える。

すなわち、顔を含む画像から、当該顔を個人認識する処理を行う画像処理方法であって、
前記画像に含まれている顔領域を検出するために、該顔領域における各特徴として、顔の局所特徴のエッジと、該エッジを統合した顔の局所特徴の端部と、該端部を統合した顔の局所特徴と、該局所特徴を統合した顔領域とを検出する検出工程と、
前記検出工程で検出したそれぞれの特徴のうち、顔を構成する部分の形状に関わる特徴である前記局所特徴のエッジを含む第１の局所領域を前記顔領域に対して設定し、前記顔を構成する部分間の位置関係に関わる特徴である前記局所特徴の端部を含む第２の局所領域を前記顔領域に対して設定する設定工程と、
前記顔領域について前記設定工程で設定された前記第１及び第２の局所領域内の特徴群に基づいて、前記顔領域の顔が、それぞれ異なる個人の何れの顔であるかの特定を行う特定工程と
を備えることを特徴とする。

本発明の目的を達成するために、例えば本発明の画像処理装置は以下の構成を備える。

すなわち、顔を含む画像から、当該顔を個人認識する処理を行う画像処理装置であって、
前記画像に含まれている顔領域を検出するために、該顔領域における各特徴として、顔の局所特徴のエッジと、該エッジを統合した顔の局所特徴の端部と、該端部を統合した顔の局所特徴と、該局所特徴を統合した顔領域とを検出する検出手段と、
前記検出手段が検出したそれぞれの特徴のうち、顔を構成する部分の形状に関わる特徴である前記局所特徴のエッジを含む第１の局所領域を前記顔領域に対して設定し、前記顔を構成する部分間の位置関係に関わる特徴である前記局所特徴の端部を含む第２の局所領域を前記顔領域に対して設定する設定手段と、
前記顔領域について前記設定手段が設定した前記第１及び第２の局所領域内の特徴群に基づいて、前記顔領域の顔が、それぞれ異なる個人の何れの顔であるかの特定を行う特定手段と
を備えることを特徴とする。

本発明の構成により、簡便に対象の個別同定を行うことができる。

以下添付図面を参照して、本発明を好適な実施形態に従って詳細に説明する。

［第１の実施形態］
本実施形態では、画像に含まれている対象を抽出し、その対象の造作の特徴点より形状情報および空間配置情報を含む認識用高次特徴ベクトルを生成し、その高次特徴ベクトルを学習アルゴリズムで作成したモデルデータベースとマッチングすることでこの対象の同定を行う為の技術に関して説明する。
システムに関する。

図２は、本実施形態に係る画像処理装置の機能構成を示すブロック図である。本実施形態に係る画像処理装置は同図に示す如く、画像処理部２０、画像出力部２１、物体検出部２２、特徴抽出部２３、局所領域設定部２４、特徴ベクトル生成部２５、物体認識部２６により構成されている撮像装置とする。本実施形態ではこれら各部はハードウェアにより構成されているものとするが、これら各部をプログラムの形態でもって撮像装置が備えるＲＯＭ内に格納し、撮像装置におけるＣＰＵでもってこれを実行するような形態であっても良い。

レンズおよびCCDあるいはCMOSといったイメージング素子で構成される不図示の撮像系により撮像された画像信号は画像入力部２０に入力される。

画像入力部２０は、上記撮像系からの画像信号に対してホワイトバランス補正などの周知の修正処理でもって修正し、修正後の画像信号を後段の画像出力部２１、物体検出部２２に出力する。

画像出力部２１は画像入力部２０からの画像信号を、ＣＲＴや液晶画面といった不図示の表示装置に対して出力する。これによりこの表示装置の表示画面上には、上記撮像系により撮像された画像信号に基づく画像が表示される。

物体検出部２２は、人間の神経回路を模したニューロチップといった専用チップあるいはＦＰＧＡやＡＳＩＣといった汎用チップで構成され、画像入力部２０からの画像に含まれる物体の検出を行う。

特徴抽出部２３は、物体検出部２２と同様に人間の神経回路を模したニューロチップといった専用チップあるいはＦＰＧＡやＡＳＩＣといった汎用チップで構成され、物体検出部２２で検出された物体の特徴を抽出する機能を有する。

局所領域設定部２４は、画像処理専用プロセッサあるいは汎用プロセッサで構成され、特徴抽出部２３が抽出した特徴周辺に領域を設定する処理を行う。

特徴ベクトル生成部２５は、画像処理専用プロセッサあるいは汎用プロセッサで構成され、局所領域設定部２４が設定した領域内での特徴ベクトルの生成を行う。

物体認識部２６は、単純な積和演算回路および比較器といった回路で構成され、特徴ベクトル生成部２５で生成された特徴ベクトルを入力値として積和演算値を求め、自身が保持するデータベースとの比較を行う機能を有する。

以下では、上記構成を備える撮像装置が行う処理、すなわち、この撮像装置が撮像した画像に含まれている人の顔が誰の顔であるかを同定する処理について説明する。

図３は、撮像した画像に含まれている人の顔が誰の顔であるかを同定する処理のフローチャートである。

先ずステップＳ３００では、同定したい対象の顔を含む画像を画像入力部２０によって入力し、ステップＳ３０１でこの画像を画像出力部２１、物体検出部２２に出力する。その結果、画像出力部２１はこの画像を補正して不図示の表示装置に出力するので、この表示装置の表示画面には画像出力部２１から入力した画像が表示される。

次にステップＳ３０２では、画像入力部２０から入力された画像から対象者の顔を物体検出部２２によって検出する処理を行う。検出する方法としては、撮像装置に備わっている不図示のボタンやタッチパネル形式の表示画面上での操作によって、表示画面上でユーザが直接顔の領域を指定するようにしても良いし、顔検出テンプレート等のフィルタによる公知のテンプレートマッチング技術を用いても構わない。

本実施形態では、ニューラルネットワークベースの顔検出技術を用いて顔検出を行う。以下に、ステップＳ３０２で行うニューラルネットワークベースの顔検出技術について説明する。なお、この技術は周知のものであり例えば、Ｍ．Ｍａｔｓｕｇｕ，Ｋ．Ｍｏｒｉ，ｅｔ．ａｌ， “ＣｏｎｖｏｌｕｔｉｏｎａｌＳｐｉｋｉｎｇＮｅｕｒａｌＮｅｔｗｏｒｋＭｏｄｅｌｆｏｒＲｏｂｕｓｔＦａｃｅＤｅｔｅｃｔｉｏｎ”，２００２，ＩｎｔｅｒｎａｔｉｎａｌＣｏｎｆｅｒｅｎｃｅＯｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇ（ＩＣＯＮＩＰ０２）を参照されたい。

図４は、このニューラルネットワークの構成を示す図である。同図に示す如く、このニューラルネットワークは、階層型のニューラルネットワークであり、低次特徴から高次特徴を順次認識する為の構成を備える。

４０は画像入力部２０からの画像（入力画像）である。４１は第１階層（レベル）で、検出層４１ａと統合層４１ｂにより構成されている。４２は第２階層で、検出層４２ａと統合層４２ｂにより構成されている。４３は第３階層で、検出層４３ａと統合層４３ｂにより構成されている。４４は第４階層である。

第１階層レベル４１では、検出モジュール４１ａにおいて入力画像４０からプリミティブな特徴を抽出し、統合モジュール４１ｂはこれを統合する。その統合結果は第２階層レベル４２における検出層４２ａに入力され、そこでさらに高次の特徴を検出する。統合層４２ｂは第１階層における統合層４１ｂと同様に、検出層４２ａにより検出されたものを統合する処理を行う。同様に、第３階層レベル４３の検出層４３ａでは第２階層レベル４２の統合層４２ｂによる統合結果を用いてより高次の特徴を検出する。統合層４３ｂは第２階層における統合層４２ｂと同様に、検出層４３ａにより検出されたものを統合する処理を行う。最後に、第４階層レベル４４で第３階層レベル４３の統合層４３ｂによる統合結果を用いて顔を検出する。

次に検出する特徴について図５を用いて説明する。図５は、画像における人の顔から抽出する各特徴を示した図である。

本実施形態では、顔検出処理に伴い、両目の目頭および目尻・口両端・目・口の特徴近辺においてニューロンの発火分布を取得する。取得したそれらを中間出力分布あるいは検出出力分布と呼ぶ。

第１階層レベル４１は顔の造作情報を有している程度の特徴を検出する為のものであり、本実施形態では検出層４１ａ、統合層４１ｂ共に第１から第８まで８つの検出モジュールを有する。例えば、輝度変化あるいは線分方向の抽出程度の検出レベルでよい。

次に第２階層レベル４２は、図５（ｂ）において黒丸で示す右開きＶ字エッジ特徴を示す検出出力分布、図５（ｃ）において黒丸で示す左開きＶ字エッジ特徴を示す検出出力分布、図５（ｄ）において黒丸で示す線分エッジ１特徴を示す検出出力分布、図５（ｅ）において黒丸で示す線分エッジ２特徴を示す検出出力分布といった出力分布を出力する。

ここで右開きＶ字エッジ特徴を示す検出出力分布は図５（ｂ）に示す如く、左目目尻、右目目頭および口の左端を検出した結果を示している。また、左開きＶ字エッジ特徴を示す検出出力分布は図５（ｃ）に示す如く、右目目尻、左目目頭および口の右端を検出した結果を示している。このように、Ｖ字エッジ特徴は図５（ａ）に示す如く、口の左右両端特徴５０７、５０８、両目の目尻特徴５０９、５１０、両目の目頭特徴５１１、５１２を検出するのに有効である。

また、線分エッジ１特徴、線分エッジ２特徴は図５（ａ）に示す如く、目の上下まぶた５１３、５１４、上下唇５１５、５１６の検出に有効である。

次に第３階層レベル４３では、第２階層レベル４２の特徴検出を受けて、図５（ｆ）において黒丸で示す目検出出力分布５０４、図５（ｇ）において黒丸で示す口検出出力分布５０５を出力する。

最後の第４階層レベル４４では、第３階層レベル４３の目・口検出結果より、図５（ｈ）において黒丸で示す顔検出出力分布５０６を出力する。

このように、高層（図４ではより右側の方の層）になるに従ってより下層で検出した特徴を統合してより大まかな特徴を検出する処理を行う。上述したが、このように階層型ニューラルネットワークを用いた特徴検出については周知の技術であるので、これ以上の説明は省略する。

図３に戻って、次にステップＳ３０３において、物体検出部２２は、画像入力部２０からの画像に顔の領域が存在するのか否かを判断する。これは例えばニューロンの発火分布が所定値以上であるか否かを判断することにより成される。またその他にも、第４階層レベルを構成するニューロン群のうち、所定値以上の出力を有するニューロンの集合が存在すれば「顔が検出された」と判断するようにしても良い。

次に、ステップＳ３０４において、特徴抽出部２３は、ステップＳ３０２における中間ニューロン検出出力分布より重心を算出することで、顔領域内のある造作（例えば、目・口）の空間配置決定を行う。これにより、特徴探索精度の向上と抽出速度の向上が期待できる。

ここで、検出出力分布は入力画像と同サイズであり、検出モジュールを構成するそれぞれのニューロンは、入力画像を構成する各画素に対応する。従って、検出モジュール内の各ニューロンにおいて、所定の特徴を検出したニューロン群（すなわち出力値が所定値以上のニューロン群）の重心位置を求めれば、入力画像におけるこの所定の特徴の位置を求めることができる。

本実施形態では、ステップＳ３０２における目、口を検出するニューロン群の重心位置を求めることで、顔領域内における目および口の位置（空間配置）を求める。そして、求めた位置（目および口の位置）の周りに任意サイズの領域を設定し、その領域を特徴の探索範囲とする。このサイズは、抽出所望の特徴が含まれるサイズであれば十分である。

次にステップＳ３０５において、特徴抽出部２３は、入力画像に対して特徴抽出の精度向上を目的としたヒストグラム補正を行う。ヒストグラム補正法としては、公知の画像処理技術で行ってもよい。本実施形態では、入力画像のＧチャネルの輝度値が２０から１５０までの間を線形補間し、輝度値２０以下を輝度値０に輝度値１５０以上を輝度値２５５にすることでヒストグラム補正を行っている。なお、このステップＳ３０５におけるヒストグラム補正処理は必須なものではない。

次にステップＳ３０６において特徴抽出部２３は、ステップＳ３０４で設定された探索範囲内に対して顔造作の特徴抽出を行う。抽出する方法としては、撮像装置に備わっている不図示のボタンやタッチパネル形式の表示画面上での操作によって、表示画面上でユーザが顔における特徴を直接指定するようにしても良いし、特徴抽出用テンプレート等のフィルタによる公知のテンプレートマッチング技術を用いてもよい。本実施形態では、目および口領域に対し特徴を検出するように学習されたニューラルネットワークベースの技術を用い、ニューロンの出力分布の重心計算を行うことで図５に示す口の左右両端特徴・両目の目尻特徴・両目の目頭特徴の座標抽出を行っている。この座標計算については、ステップＳ３０２における説明と同様に、検出モジュール内の各ニューロンにおいて、所望の特徴を検出したニューロン群（すなわち出力値が所定値以上のニューロン群）の重心位置を求めることで、入力画像におけるこの所望の特徴の位置を求める。

次にステップＳ３０７では特徴抽出部２３は、ステップＳ３０６において抽出された特徴の配置関係をチェックする。すなわち抽出された特徴座標が、対象物体を記述する上で不適切であるか否かをチェックする。具体的な一例として、本実施形態では目頭および目尻の特徴座標がステップＳ３０４において抽出された顔領域の中心より下方の場合、特徴抽出が十分ではないと判断する。但し、上下逆の顔画像の入力を容認するのであれば、この条件の限りではない。これはシステムの使用シーンによりけりではあるが、ある条件を持つ特徴の整合性チェック部は必要である。

ステップＳ３０７におけるチェックで、不適切ではなかった場合には処理をステップＳ３０８に進め、特徴抽出部２３は、入力画像のサイズ正規化を行う。正規化を行う方法としては、公知の正規化手法を用いて行ってよい。本実施形態では、図６に示すように、ステップＳ３０６で抽出された両目の目頭の位置より目頭間距離６０を求め、この距離６０が、全ての入力画像に対して同一になるようアフィン変換を施している。図６は、ステップＳ３０８における正規化処理を説明する為の図である。

また、同時に目頭間を結ぶ直線の傾き６１を検出し、回転を考慮したアフィン変換補正を加えることで回転変動に対応している。なお、このステップＳ３０８における正規化処理は必須なものではない。

次にステップＳ３０９では、特徴抽出部２３は、対象の形状情報および空間配置情報を反映している出力分布を取得する。出力分布を取得する方法として、形状情報については公知のテンプレートマッチング等の技術より相関値分布といったものを用い、空間配置情報については特徴点間のユークリッド距離を直接算出すればよい。本実施形態では、図４で示した第１階層レベルの１特徴の検出出力分布を形状情報抽出用とする。ここで、第１階層レベルの１特徴を検出出力分布とする理由を次に示す。

第１階層レベルの各検出モジュールは、第２階層レベルにおいて所望の特徴を抽出するようＢＰ（ＢａｃｋＰｒｏｐａｇａｔｉｏｎ）法を用いて学習される（Ｍ．Ｍａｔｓｕｇｕ，Ｋ．Ｍｏｒｉ，ｅｔ．ａｌ， “ＣｏｎｖｏｌｕｔｉｏｎａｌＳｐｉｋｉｎｇＮｅｕｒａｌＮｅｔｗｏｒｋＭｏｄｅｌｆｏｒＲｏｂｕｓｔＦａｃｅＤｅｔｅｃｔｉｏｎ”，２００２，ＩｎｔｅｒｎａｔｉｎａｌＣｏｎｆｅｒｅｎｃｅＯｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇ（ＩＣＯＮＩＰ０２）を参照）。したがって、第１階層レベルの各検出モジュールがどういった特徴を抽出しているか一意的に特定することはできないが、第１階層レベルの各検出結果を概観するとそれぞれ目・鼻・口・顔の輪郭といった局所特徴のエッジ抽出処理程度の検出レベルであると想定される。その中で第８特徴検出モジュールの検出出力分布が、各局所特徴の細部までエッジ抽出を行っておりそれらの形状を忠実に反映しているため、この検出出力分布を形状情報抽出を行うための情報として以下用いるものとする。以上が第１階層レベルの１特徴を形状情報抽出用とした理由である。

一方、第２階層レベルの右開きＶ字エッジ・左開きＶ字エッジ・線分エッジ１の３特徴の検出出力分布（５００、５０１および５０２）は、目の一部である目頭、目尻、まぶたあるいは口の両端点、唇といった、局所特徴の一端（端点、端辺）を検出しているため、少なくとも目・口といった各局所特徴の相対位置関係を示している。よってこれらの検出出力分布を空間配置情報抽出を行うための情報として以下用いるものとする。このように、空間配置情報を各特徴間のユークリッド距離等のように距離空間として明示的に与えていない。

このように、第１階層レベルによる検出結果を、目・鼻・口・顔の輪郭といった局所特徴の形状情報を得るための情報として用い、第２階層レベルによる検出結果を目・口といった各局所特徴の相対位置関係を示す空間配置情報を得るための情報として用いる。

図３に戻って、ステップＳ３１０では、局所領域設定部２４は、ステップＳ３０６で抽出された入力画像における特徴の座標に対してアフィン変換を施し、特徴を包含する領域（局所領域）を設定する。例えば、ステップＳ３０６で抽出された入力画像における特徴の座標を中心とした矩形を局所領域として設定する。

この局所領域の形状は、正方形あるいは長方形など、任意形状をとる。また、局所領域のサイズは任意に設定することが可能であるが、そのサイズには重要な意味がある。認識対象物体のサイズによるが、例えば本実施形態のように実環境画像から個人認識を行う場合、サイズの大きい局所領域を設定すると環境変動といったノイズの影響を受けるため不適切である。一方、サイズの小さい局所領域を設定すると対象を同定する程度の情報を有しているかについて疑わしくなる。本実施形態では、形状情報抽出用の局所領域サイズを縦：７ｐｉｘｅｌ横：７ｐｉｘｅｌの正方形形状とし、空間配置情報抽出用の局所領域サイズは縦：３３ｐｉｘｅｌ横：６３ｐｉｘｅｌおよび縦：３０ｐｉｘｅｌ横：２３ｐｉｘｅｌとする。この領域サイズは一例であり、上述した局所領域のサイズの大小による影響を考慮して、適切に定めればよい。以下に本実施形態で設定した局所領域の詳細について図７を用いて説明する。

図７（ａ）に示す如く、第１階層レベルの第８特徴検出モジュールの検出出力分布７００を形状情報抽出用の情報とし、目頭・目尻・口両端点といった部位７０１に図７（ｂ）に示す如く局所領域７０２〜７０７を設定する。なお、局所領域を設定する顔の部位についてはこれに限定するものではなく、鼻孔・小鼻・上下唇といった個人差を示しそうな部分でも構わない。

一方、図７（ｂ）において黒丸で示す左右Ｖ字エッジ検出出力分布（左右Ｖ字エッジ検出出力分布は各Ｖ字エッジ検出出力分布の和を取り取得する）、線分エッジ１検出出力分布に対しては、目頭間距離を均一にした場合における目の両端の離れ具合あるいは目と口の配置関係を抽出する目的で、図７（ｂ）、（ｃ）に示すように、局所領域７１１、７１５を設定する。これも同様に、他の特徴を抽出する上で、別な特徴領域に局所領域を設定しても構わない。

すなわち、局所領域７１１を求めるためには先ず、目頭間中点７０９を求める。目頭間中点７０９は、ステップＳ３０６で求めた左右それぞれの目頭の位置の中点を計算することにより求められる。そしてこの目頭間中点７０９を中心として、左右それぞれの目頭の位置、目尻の位置を包含する領域を、目の離れ具合といった配置情報を取得するための局所領域７１１として求める。

一方、局所領域７１５を求めるためには、上記目頭間中点７０９と、線分エッジ１検出出力分布とを包含する領域を、目−口の配置情報を取得するための局所領域７１１として求める。つまり目頭間中点７０９は目の空間配置を示し、線分エッジ１は口の空間配置を示しているので、局所領域７１５内の検出出力分布は目―口の離れ具合、すなわち空間配置情報を表している。以上のように局所領域は設定される。また形状情報および空間配置情報は、局所領域内における検出出力分布より取得する。

図３に戻って、次にステップＳ３１１では、特徴ベクトル生成部２５は、ステップＳ３１０で設定した局所領域部分から、形状情報及び／又は空間配置情報を含んだ特徴ベクトルを生成する。前述したように、本実施形態では、形状情報には第１階層レベルの第８特徴検出モジュールの検出出力分布を利用し、空間配置情報には第２階層レベルの右開きＶ字エッジ・左開きＶ字エッジ・線分エッジ１の３特徴の検出出力分布を利用する。

検出出力分布としてテンプレートマッチングの相関値分布等を用いてもよいが、本実施形態ではニューラルネットワークの検出出力分布を用いるので、局所領域内の各画素に対応するそれぞれのニューロンの発火値ｆを用いる。ここで、発火値ｆは０≦ｆ≦１の範囲をとる。従って特徴ベクトルは、局所領域内の各画素に対応するそれぞれのニューロンの発火値を要素とするベクトルとして求める。図８Ａは、特徴ベクトルの構成例を示す図である。本実施形態では、特徴ベクトルに形状情報および空間配置情報を含む形で生成する。このようにして特徴ベクトル生成部２５は、各局所領域毎に特徴ベクトルを求める。

なお、特徴ベクトルを生成する際には、矩形領域に含まれている特徴毎にこの矩形領域を分割し、分割した領域毎に特徴ベクトルを生成するようにしても良い。

図３に戻って、ステップＳ３１２では、物体認識部２６は、あらかじめ用意してあるモデル関数にステップＳ３１１で求めた特徴ベクトルを入力し、対象の同定を行う。データの比較方法としては、ニューラルネットワークあるいは最近傍決定則等の公知のパターン認識技術により生成したモデル関数で分類してよい。本実施形態では、ＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）学習アルゴリズムを用いて、同定を行いたい登録者および登録者以外の特徴ベクトルを用いてモデル関数の生成を行う。ＳＶＭを用いる理由は、学習が高速である・汎化性能の高さ・理論的裏付けを持つ、という観点からである。ここで、本実施形態に用いるＳＶＭ学習アルゴリズムによるモデル関数の生成および入力データの分類の流れについて以下で説明する。

SVM学習アルゴリズムは、インターネット上で公開されており、本実施形態のＳＶＭ学習アルゴリズムは、本願明細書の出願時では「ｈｔｔｐ：／／ｗｗｗ．ｃｓｉｅ．ｎｔｕ．ｅｄｕ．ｔｗ／￣ｃｊｌｉｎ／ｌｉｂｓｖｍ」に公開されているｌｉｂｓｖｍ−２.５を用いている。ｌｉｂｓｖｍはさまざまなクラスタリングタイプとカーネル関数を有しており、本実施形態ではコスト変数を用いたＣ−ＳＶＣと呼ばれるクラスタリングタイプとカーネル関数を線形関数とする。詳細については、上記ＵＲＬで特定されるホームページを参照されたい。

まずモデル関数の生成の流れについて説明する。本実施形態では、登録者の画像データおよび登録者以外の画像データを必要とする。次に、それぞれの画像データ対し図３のステップＳ３００〜ステップＳ３１１と同様の処理フローにより所望の特徴周り（本実施形態においては、両目の目頭および目尻・口両端特徴）の特徴ベクトルを抽出する。そしてそれら特徴ベクトル、その属性（誰の特徴ベクトルであるかという情報のこと）を明確にした学習データファイルを作成し、上記のクラスタリングタイプとカーネル関数を指定したＳＶＭ学習アルゴリズムにより学習、すなわちモデル関数の生成を行う。

次に生成されたモデル関数を用いて入力を分類する処理の詳細について説明する。モデル関数は、２クラス分類する関数を複数有する形式を持つ。例えば、登録者を４人としそれぞれをＡクラス、Ｂクラス、Ｃクラス、Ｄクラス、登録者以外のクラスをＥクラスと仮定する。このとき２クラス分類する関数とは、Ａ、Ｂのどちらが入力に最もらしいかを閾値判別（閾値はモデル関数を生成する際に、２クラス間毎生成される）する関数である。よって入力された特徴ベクトルは、ＡｏｒＢ、ＡｏｒＣ、ＡｏｒＤ、ＡｏｒＥ、ＢｏｒＣ・・・といったように全てのクラス間で２クラス分類が行われ、それら分類結果の多数決処理により最終的なクラスが決定される。

このような処理を行うことで、任意の対象者が含まれる画像より、個人を同定することができる。

［第２の実施形態］
第１の実施形態では局所特徴の形状情報を第１階層レベルの１特徴の検出出力分布より抽出したが、本実施形態では形状情報をも第２階層レベルから抽出する。よって本実施形態の処理フローは第１の実施形態と同様であり、異なる点は特徴ベクトルを生成する局所領域が異なる部分である。

図８Ｂは、本実施形態に係る局所領域を示す図である。図９は、各特徴と局所領域との関係を示す図である。まず、図９に示すようにステップＳ３０６の特徴抽出で抽出された特徴群である左目目尻特徴９０７、左目目頭特徴９０１、右目目頭特徴９０３、右目目尻特徴９１０、口左端特徴９０４、口右端特徴９０６より、中点群である目頭中点９０２、口中点９０５、左目中点９０８、右目中点９０９を求める。次にこれら中点群を基準とした局所領域９１２〜９１６を設定する。具体的には、片目のサイズを範囲とした左目局所領域９１２、右目局所領域９１３、口を範囲とした口局所領域９１４、目頭間を対象とした目頭局所領域９１５、目−口を対象とした目−口局所領域９１６を設定する。これら局所領域の具体的な設定意図は、次に示す通りである。

まず重要となるのが特徴ベクトルを抽出する際に用いる検出出力分布が表現する特徴量である。本実施形態で用いる検出出力分布は、上記の通り図４の第２階層レベルを用いている。

第２階層レベルで抽出される特徴量は図５（ｂ）の右開きＶ字エッジ、図５（ｃ）の左開きＶ字エッジ５０１、図５（ｄ）の線分エッジ１、図５（ｅ）の線分エッジ２である。また図１０において黒の領域で示す「第２階層レベルの各検出モジュールの検出出力分布を全て重ね合わせた分布」に対して局所領域群（９１２〜９１６）を設定する。図１１は、それぞれの局所領域を示す図である。図１１を用いて局所領域の設定意図を説明すると、左目、右目および口局所領域１１００、１１０１、１１０２内の検出分布は、右および左開きＶ字エッジ特徴すなわち目および口の端点特徴の検出分布と、線分エッジ特徴すなわち上下まぶたおよび上下唇特徴の検出分布を示しているため、目および口の形状情報を抽出することができる。よって第１の実施形態の形状情報と同質の特徴が抽出することができる。さらに第１の実施形態と同様に、目−口局所領域１１０３より目と口の空間配置情報を抽出し、目局所領域１１０４より目の離れ具合といった空間配置情報を抽出する。以上、図９のように局所領域を設定する意図である。

最終的に、上記局所領域より出力分布を抽出し第１の実施形態と同様に形状情報および空間配置情報を含む高次特徴ベクトルを生成し、モデル関数に入力することで対象を同定することができる。

［第３の実施形態］
基本的な処理の流れは第１の実施形態と同様であるが、本実施形態では、特徴ベクトル生成用検出出力分布を図１２に示すニューラルネットワークによる検出出力分布とする。

図１２は、本実施形態に係るニューラルネットワークの構成を示す図である。特徴抽出用ニューラルネットワークの構成図は、図１２に示す通りである。第１、２の実施形態で用いたニューラルネットワークと異なる点は、上下まぶた検出モジュール１２１０、１２１１、上下唇検出モジュール１２１２、１２１３を追加した点である。

本実施形態で用いる特徴抽出用ニューラルネットワーク１２００は、入力画像１２０１より第１階層レベル１２０２で第１の実施形態と同様に特徴を検出した結果を受けて第２階層レベル１２０３で、左目目頭検出モジュール１２０４、左目目尻検出モジュール１２０５、右目目頭検出モジュール１２０６、右目目尻検出モジュール１２０７、左口端点検出モジュール１２０８、右口端点モジュール１２０９、上まぶた検出モジュール１２１０、下まぶた検出モジュール１２１１、上唇検出モジュール１２１２、下唇検出モジュール１２１３において各特徴を検出する。

また、各検出モジュールは、各局所特徴（左右目頭・左右目尻・左右口端点・上下まぶた・上下唇）を主として含む様々な局所領域画像を与え学習し、検出するよう予め構築されている。最終的に図１２のニューラルネットワークを、特徴抽出部とその特徴検出出力分布より特徴ベクトルを生成する為のモジュールとして用いる。したがって、上記ニューラルネットワークは特徴ごとに様々な変動を学習した検出モジュールを有しているため、第１の実施形態に係るニューラルネットワークの第２階層レベルにおける左右Ｖ字特徴検出出力分布および線分特徴検出出力分布を上記特徴（左右目頭・左右目尻・左右口端点・上下まぶた・上下唇）の抽出結果とするのと比較して精度よく特徴抽出を行え、検出出力分布自体が上記各局所特徴の特性を十分反映していることが利点である。

次に特徴ベクトル生成用の局所領域設定であるが、これは図９と同様の様式を取ればよい。上記特徴点抽出ニューラルネットワークの結果より、各特徴および中点群が第２の実施形態と同様に求めることができるので、その座標を手がかりとし第１の実施形態と同様に局所領域を設定する。次に各特徴検出モジュールの検出出力分布の和を取り、その総和出力分布に対し局所領域を設定し検出出力分布を抽出する。これを形状情報と配置情報を含んだ高次特徴ベクトルとし、第１，２の実施形態と同様に高次特徴ベクトルをモデル関数に入力し、対象を同定する。

［第４の実施形態］
第１乃至３の実施形態に係る画像処理装置は撮像装置として説明した。すなわち、撮像することで入力した画像中の顔の同定を行う装置として説明した。本実施形態では、この画像処理装置をＰＣ（パーソナルコンピュータ）やＷＳ（ワークステーション）等のコンピュータとする。すなわち、第１乃至３の実施形態では画像を撮像することにより装置内に入力していたのであるが、本実施形態では、ハードディスクドライブ装置などの外部記憶装置から本装置内のＲＡＭにロードする、又はＩ／Ｆを介して外部から本装置内に受信することで、画像を獲得する。そして、本装置が備えるＣＰＵでもってこの画像に対する上記同定処理を行う。

図１は、本実施形態に係る画像処理装置の基本構成を示すブロック図である。

１００はＣＰＵで、ＲＡＭ１０１やＲＯＭ１０２に格納されているプログラムやデータを用いて本装置全体の制御を行うと共に、後述する各処理を実行する。

１０１はＲＡＭで、ＣＰＵ１００が各種の処理を実行する際に必要とするワークエリアを備えると共に、外部記憶装置１０５からロードされたプログラムやデータを一時的に記憶するためのエリアを備える。

１０２はＲＯＭで、ブートプログラムや本装置の設定データ等を格納する。

１０３は操作部で、キーボードやマウスなどのポインティングデバイスにより構成されており、ユーザからの各種の指示をＣＰＵ１００に対して入力することができる。

１０４は表示装置で、ＣＲＴや液晶画面などにより構成されており、ＣＰＵ１００による処理結果を文字や画像などでもって表示することができる。

１０５は外部記憶装置で、ハードディスクドライブ装置などの大容量情報記憶装置であって、ここにＯＳ（オペレーティングシステム）やＣＰＵ１００に図２に示した各部の機能を実現させるためのプログラムやデータが保存されており、これらの一部もしくは全部はＣＰＵ１００による制御でもってＲＡＭ１０１にロードされる。また、外部記憶装置１０５には、同定対象を含む画像のデータや、モデル関数のデータなどが保存されており、これらについても必要に応じてＣＰＵ１００の制御に従ってＲＡＭ１０１にロードされる。

１０６はＩ／Ｆで、外部装置とのデータ通信はこのＩ／Ｆ１０６を介して行われる。例えば、同定対象を含む画像のデータをこのＩ／Ｆ１０６に接続しているディジタルカメラやコンピュータからダウンロードしたりすることもできる。なお、ダウンロードした画像のデータはＲＡＭ１０１に出力され、そこでＣＰＵ１００の処理対象となるべく一時的に記憶される。

１０７は上述の各部を繋ぐバスである。

以上の各実施形態に係る対象の個別同定処理によって、以下のような効果がある。

個人認識をその一例とすると、以上説明した各同定処理は顔造作（例えば、目・口・鼻）の全体ではなく、その一部分を対象とした局所領域をベースとしているので、画像データに存在する照明変動あるいは回転変動に対しそれほど大きな影響を受けない。また、顔検出および特徴抽出処理より顔の空間配置あるいは顔造作の空間配置を取得し、その情報を手がかりとして局所領域を設定しているため、空間配置変動に対して影響を受けない特長を有する。

したがって、上記各実施形態に係る同定処理は、上述の背景技術に示される照明変動および空間配置変動に対し精度が左右される固有顔法に対して大きなアドバンテージを有している。さらに、上記各実施形態に係る同定処理は、特徴ベクトル作成手段としてニューラルネットワークの中間出力結果である検出出力分布を用いているため、顔検出処理の一部分として実装できコンパクトなシステムの具現化を特長とする。したがって、上記各実施形態に係る同定処理は、背景技術に示されるDynamic link architectureに対し処理コストの点でアドバンテージを有している。

［その他の実施形態］
本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記録媒体（または記憶媒体）を、カメラのＣＰＵやＭＰＵが記録媒体に格納されたプログラムコードを読み出し実行することによっても、達成されることは言うまでもない。この場合、記録媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記録した記録媒体は本発明を構成することになる。

また、カメラが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、カメラ上で稼働しているオペレーティングシステム（ＯＳ）などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。

さらに、記録媒体から読み出されたプログラムコードが、カメラに挿入された機能拡張カードやカメラに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張カードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。

本発明を上記記録媒体に適用する場合、その記録媒体には、先に説明したフローチャート（機能構成）に対応するプログラムコードが格納されることになる。

本発明の第４の実施形態に係る画像処理装置の基本構成を示すブロック図である。本発明の第１の実施形態に係る画像処理装置の機能構成を示すブロック図である。撮像した画像に含まれている人の顔が誰の顔であるかを同定する処理のフローチャートである。本発明の第１の実施形態で用いるニューラルネットワークの構成を示す図である。画像における人の顔から抽出する各特徴を示した図である。ステップＳ３０８における正規化処理を説明する為の図である。局所領域の設定について説明する為の図である。特徴ベクトルの構成例を示す図である。本発明の第２の実施形態に係る局所領域を示す図である。各特徴と局所領域との関係を示す図である。第２階層レベルの各検出モジュールの検出出力分布を全て重ね合わせた分布を示す図である。図１０に示した各それぞれの分布を包含する局所領域を示す図である。本発明の第３の実施形態に係るニューラルネットワークの構成を示す図である。

Claims

顔を含む画像から、当該顔を個人認識する処理を行う画像処理方法であって、
前記画像に含まれている顔領域を検出するために、該顔領域における各特徴として、顔の局所特徴のエッジと、該エッジを統合した顔の局所特徴の端部と、該端部を統合した顔の局所特徴と、該局所特徴を統合した顔領域とを検出する検出工程と、
前記検出工程で検出したそれぞれの特徴のうち、顔を構成する部分の形状に関わる特徴である前記局所特徴のエッジを含む第１の局所領域を前記顔領域に対して設定し、前記顔を構成する部分間の位置関係に関わる特徴である前記局所特徴の端部を含む第２の局所領域を前記顔領域に対して設定する設定工程と、
前記顔領域について前記設定工程で設定された前記第１及び第２の局所領域内の特徴群に基づいて、前記顔領域の顔が、それぞれ異なる個人の何れの顔であるかの特定を行う特定工程と
を備えることを特徴とする画像処理方法。
前記特定工程では、それぞれ異なる個人毎に前記検出工程、及び前記設定工程による処理を予め行うことで得られる前記第１及び第２の局所領域内の特徴ベクトルデータに基づくモデル関数の入力値として、前記顔領域について前記設定工程で設定された前記第１及び第２の局所領域内の特徴ベクトルデータを用いることで、前記顔領域の顔が、前記それぞれ異なる個人の何れの顔であるかの特定を行うことを特徴とする請求項１に記載の画像処理方法。
前記検出工程では、前記画像に含まれている顔の特徴を検出する為の階層型ニューラルネットワークを用いて、前記画像に含まれている顔領域における各特徴を検出することを特徴とする請求項１又は２に記載の画像処理方法。
前記顔を構成する部分の形状に関わる特徴は、前記階層型ニューラルネットワークにおいて前記顔の局所特徴のエッジを検出するためのニューロン群の出力分布に基づいて得られることを特徴とする請求項３に記載の画像処理方法。
前記顔を構成する部分の位置関係に関わる特徴は、前記階層型ニューラルネットワークにおいて前記顔の局所特徴の一端を検出するためのニューロン群の出力分布に基づいて得られることを特徴とする請求項３に記載の画像処理方法。
前記特定工程では、ＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）学習アルゴリズムを用いて、同定を行いたい複数の顔の特徴ベクトルを用いて生成されたモデル関数の入力として、前記顔領域について前記設定工程で設定された前記第１及び第２の局所領域内の特徴ベクトルデータを用いることで、前記顔領域の顔が、前記顔領域の顔が、前記それぞれ異なる個人の何れの顔であるかの特定を行うことを特徴とする請求項１乃至５の何れか１項に記載の画像処理方法。
更に、前記検出工程により検出された所定の特徴間の位置関係が適切か否かをチェックするチェック工程を備えることを特徴とする請求項１乃至６の何れか１項に記載の画像処理方法。
更に、前記検出工程により検出された所定の特徴間の位置関係に基づいて前記画像のサイズ及び傾きを正規化する正規化工程を備えることを特徴とする請求項１乃至７の何れか１項に記載の画像処理方法。
顔を含む画像から、当該顔を個人認識する処理を行う画像処理装置であって、
前記画像に含まれている顔領域を検出するために、該顔領域における各特徴として、顔の局所特徴のエッジと、該エッジを統合した顔の局所特徴の端部と、該端部を統合した顔の局所特徴と、該局所特徴を統合した顔領域とを検出する検出手段と、
前記検出手段が検出したそれぞれの特徴のうち、顔を構成する部分の形状に関わる特徴である前記局所特徴のエッジを含む第１の局所領域を前記顔領域に対して設定し、前記顔を構成する部分間の位置関係に関わる特徴である前記局所特徴の端部を含む第２の局所領域を前記顔領域に対して設定する設定手段と、
前記顔領域について前記設定手段が設定した前記第１及び第２の局所領域内の特徴群に基づいて、前記顔領域の顔が、それぞれ異なる個人の何れの顔であるかの特定を行う特定手段と
を備えることを特徴とする画像処理装置。
コンピュータに請求項１乃至８の何れか１項に記載の画像処理方法を実行させる為のプログラム。
請求項１０に記載のプログラムを格納した、コンピュータ読み取り可能な記憶媒体。