JP4505616B2

JP4505616B2 - 固有空間学習装置、固有空間学習方法及び固有空間プログラム

Info

Publication number: JP4505616B2
Application number: JP2004355921A
Authority: JP
Inventors: 格北原; 秀典田中; 英雄斎藤; 洋村瀬; 潔小暮; 紀博萩田
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2004-12-08
Filing date: 2004-12-08
Publication date: 2010-07-21
Anticipated expiration: 2024-12-08
Also published as: JP2006163950A

Description

本発明は、被写体の特徴、特に、人間の頭部の特徴を表す固有空間を学習する固有空間学習装置、固有空間学習方法及び固有空間プログラムに関するものである。

我々を取り巻く環境の至る所にセンサを配置し、センサ同士が自律的に連携して動作することにより、人間の生活を強力にバックアップする情報環境であるユビキタスコンピューティングが実現されようとしている。このユビキタスコンピューティングには、人間の行動及び状況を理解する技術が求められ、この技術を支える要素技術として人間の顔画像による顔の向きの推定及び個人認証の研究が種々行われている。

例えば、実環境から自由に撮影された顔画像に対してＳＯＭ（Ｓｅｌｆ−ＯｒｇａｎｉｚｉｎｇＭａｐｓ）を用いて顔向きごとの分類を行い、顔認識に有利な正面顔のみを自動的に選択することが報告されている（非特許文献１参照）。
佐藤洋平他、「ＳＯＭによる顔画像自動識別と顔認識への利用」、信学技報ＰＲＭＵ２００３−１４４、２００３年、ｐ．２５−ｐ．３０

しかしながら、上記の研究では、顔の向きを正面方向に限定して学習を行っているため、街頭を歩いている歩行者などの動きの制御が不能な被写体の見え方を学習しようという場合には、被写体が正面を向くまで非常に多数回の撮影を行う必要がある。また、学習時に教示データには、正面とは異なる方向から撮影された画像が与えられていないため、識別処理時に正面方向と異なる見え方が入力された場合、識別精度が大幅に低下することが考えられる。一方、街角の監視カメラにより撮影された画像を見ればわかるように、識別対象となる被写体は、必ず正面（カメラの方）を向くとは限らないため、学習データが正面を向いた顔に限定して生成されていたのでは、充分な識別精度の実現が困難であると考えられる。

本発明の目的は、３次元形状復元技術を用いて少数枚の入力画像の見え方を補間することにより、学習時には獲得されていない方向から撮影された見え方においても、高い精度の識別処理が可能な固有空間学習装置、固有空間学習方法及び固有空間プログラムを提供することである。

本発明に係る固有空間学習装置は、互いに異なる撮影角度から被写体を撮影した複数の初期学習用画像を取得する取得手段と、複数の初期学習用画像から被写体領域を抽出して複数の基準被写体画像を作成する抽出手段と、複数の基準被写体画像をマッピングさせた被写体の３次元モデルを作成するモデル作成手段と、被写体の３次元モデルを用いて撮影角度間の補間角度から見た複数の補間画像を作成する補間手段と、複数の基準被写体画像及び複数の補間画像からなる学習サンプル画像群を用いて被写体の特徴を表す固有空間を作成する固有空間作成手段とを備え、前記取得手段は、新たに被写体を撮影した追加学習用画像を取得し、前記抽出手段は、前記追加学習用画像から被写体領域を抽出して置換被写体画像を作成し、前記複数の補間画像の中から前記置換被写体画像に最も近い補間画像を前記置換被写体画像に置き換えることにより前記学習サンプル画像群を更新する置き換え手段をさらに備え、前記固有空間作成手段は、前記置き換え手段により更新された学習サンプル画像群を用いて前記固有空間を更新するものである。

本発明に係る固有空間学習装置においては、互いに異なる撮影角度から被写体を撮影した複数の初期学習用画像が取得され、取得された複数の初期学習用画像から被写体領域を抽出して複数の基準被写体画像が作成され、抽出された複数の基準被写体画像をマッピングさせた被写体の３次元モデルが作成され、作成された被写体の３次元モデルを用いて撮影角度間の補間角度から見た複数の補間画像が作成され、複数の基準被写体画像及び複数の補間画像からなる学習サンプル画像群を用いて被写体の特徴を表す固有空間が作成される。このように、基準被写体画像がマッピングされた被写体の３次元モデルから複数の補間画像を作成して固有空間を学習することができるので、少ない入力画像から多くの補間画像を作成して擬似的に撮影方向を増やすことができ、少ない入力画像を用いて被写体の特徴を表す固有空間を高精度に学習することができる。この結果、３次元形状復元技術を用いて少数枚の入力画像の見え方を補間することにより、学習時には獲得されていない方向から撮影された見え方においても、高い精度の識別処理が可能となる。

この場合、新たに被写体を撮影した追加学習用画像が取得され、取得された追加学習用画像から被写体領域を抽出して置換被写体画像が作成され、複数の補間画像の中から置換被写体画像に最も近い補間画像が置換被写体画像に置き換えられることにより学習サンプル画像群が更新され、更新された学習サンプル画像群を用いて固有空間が更新され、固有空間の学習が行われる。このように、新たに取得された置換被写体画像が最も近い補間画像と置き換えられた学習サンプル画像群を用いて固有空間が学習されるので、正面から撮影された画像に限定されることなく、任意の方向から撮影された置換被写体画像を追加して固有空間を逐次学習することができ、被写体の特徴を表す固有空間を効率的且つ高精度に学習することができる。

置き換え手段は、複数の補間画像の中から固有空間における置換被写体画像との距離が最小となる補間画像を置き換えることが好ましい。

モデル作成手段は、複数の基準被写体画像を用いて被写体の近似形状モデルを作成し、作成した近似形状モデルに基準被写体画像をマッピングすることが好ましい。

この場合、基準被写体画像を用いて被写体の近似形状モデルを作成し、基準被写体画像をマッピングさせた近似形状モデルを用いて補間画像を作成しているので、実際に撮影されていない補間画像を簡便に且つ高精度に作成することができる。

被写体は、人間の頭部であり、基準被写体画像、補間画像及び置換被写体画像は、人間の頭部領域を表す基準頭部画像、補間頭部画像及び置換頭部画像であり、固有空間は、顔画像識別に用いられる固有空間であることが好ましい。この場合、顔画像識別に用いられる固有空間を効率的且つ高精度に学習することができる。

モデル作成手段は、複数の基準被写体画像を用いて被写体の断面を等間隔で推定し、各断面を円で近似した多段円筒モデルを作成し、作成した多段円筒モデルに基準被写体画像をマッピングすることが好ましい。

この場合、基準被写体画像を用いて作成された多段円筒モデルを用いて補間画像を作成しているので、実際に撮影されていない補間画像をより簡便に作成することができる。

本発明に係る固有空間学習方法は、互いに異なる撮影角度から被写体を撮影した複数の初期学習用画像を取得する第１のステップと、複数の初期学習用画像から被写体領域を抽出して複数の基準被写体画像を作成する第２のステップと、複数の基準被写体画像をマッ
ピングさせた被写体の３次元モデルを作成する第３のステップと、被写体の３次元モデルを用いて撮影角度間の補間角度から見た複数の補間画像を作成する第４のステップと、複数の基準被写体画像及び複数の補間画像からなる学習サンプル画像群を用いて被写体の特徴を表す固有空間を作成する第５のステップと、新たに被写体を撮影した追加学習用画像を取得する第６のステップと、前記追加学習用画像から被写体領域を抽出して置換被写体画像を作成する第７のステップと、前記複数の補間画像の中から前記置換被写体画像に最も近い補間画像を前記置換被写体画像に置き換えることにより前記学習サンプル画像群を更新する第８のステップと、前記第８のステップにおいて更新された学習サンプル画像群を用いて前記固有空間を更新する第９のステップとを含むものである。

本発明に係る固有空間学習プログラムは、互いに異なる撮影角度から被写体を撮影した複数の初期学習用画像を取得する取得手段と、複数の初期学習用画像から被写体領域を抽出して複数の基準被写体画像を作成する抽出手段と、複数の基準被写体画像をマッピングさせた被写体の３次元モデルを作成するモデル作成手段と、被写体の３次元モデルを用いて撮影角度間の補間角度から見た複数の補間画像を作成する補間手段と、複数の基準被写体画像及び複数の補間画像からなる学習サンプル画像群を用いて被写体の特徴を表す固有空間を作成する固有空間作成手段としてコンピュータを機能させ、前記取得手段は、新たに被写体を撮影した追加学習用画像を取得し、前記抽出手段は、前記追加学習用画像から被写体領域を抽出して置換被写体画像を作成し、前記複数の補間画像の中から前記置換被写体画像に最も近い補間画像を前記置換被写体画像に置き換えることにより前記学習サンプル画像群を更新する置き換え手段として前記コンピュータをさらに機能させ、前記固有空間作成手段は、前記置き換え手段により更新された学習サンプル画像群を用いて前記固有空間を更新するものである。

本発明によれば、基準被写体画像がマッピングされた被写体の３次元モデルから複数の補間画像を作成して固有空間を学習することができるので、少ない入力画像から多くの補間画像を作成して擬似的に撮影方向を増やすことができ、少ない入力画像を用いて被写体の特徴を表す固有空間を高精度に学習することができる。この結果、３次元形状復元技術を用いて少数枚の入力画像の見え方を補間することにより、学習時には獲得されていない方向から撮影された見え方においても、高い精度の識別処理が可能となる。

以下、本発明の一実施の形態による固有空間学習装置について図面を参照しながら説明する。図１は、本発明の一実施の形態による固有空間学習装置のハードウエア構成を示すブロック図であり、図２は、図１に示す初期学習用カメラの撮影位置及び撮影画像、並びに追加学習用カメラの撮影位置を説明するための模式図である。

図１に示す固有空間学習装置は、パーソナルコンピュータ等のコンピュータ装置等から構成され、入力装置１、ＲＯＭ（リードオンリメモリ）２、ＣＰＵ（中央演算処理装置）３、ＲＡＭ（ランダムアクセスメモリ）４、Ｉ／Ｆ（インターフェース）部５、外部記憶装置６、表示装置７及び記録媒体駆動装置８を備える。各ブロックは内部のバスに接続され、このバスを介して種々のデータ等が各ブロック間で入出力され、ＣＰＵ３の制御の下、種々の処理が実行される。

入力装置１は、キーボード、マウス等から構成され、ユーザが種々の操作指令を入力するために用いられる。ＲＯＭ２には、システムプログラム等が予め記憶される。外部記憶装置６は、ハードディスクドライブ等から構成され、後述する固有空間学習プログラム等を記憶している。ＣＰＵ３は、外部記憶装置６から固有空間学習プログラム等を読み出し、後述する固有空間学習処理等を実行して各ブロックの動作を制御する。ＲＡＭ４は、ＣＰＵ３の作業領域等として用いられる。表示装置７は、ＣＲＴ（陰極線管）又は液晶表示装置等から構成され、ＣＰＵ３の制御の下、種々の画面を表示する。Ｉ／Ｆ部５は、画像キャプチャボード等から構成される。

なお、固有空間学習プログラムは、ＣＤ−ＲＯＭ、ＤＶＤ等から構成されるコンピュータ読み取り可能な記録媒体９に記録するようにしてもよい。この場合、ＣＤ−ＲＯＭドライブ、ＤＶＤドライブ等から構成される記録媒体駆動装置８を用いて記録媒体９から読み出された固有空間学習プログラムが外部記憶装置６にインストール等される。また、固有空間学習装置が外部との通信を制御する通信装置を有し、ネットワークを介して接続されている他のコンピュータ等に固有空間学習プログラム等が記憶されている場合、当該コンピュータ等からネットワークを介して固有空間学習プログラム又は処理対象となる画像データ等をダウンロードするようにしてもよい。

４台の初期学習用カメラ１０ａ〜１０ｄは、通常のビデオカメラ等から構成され、所定位置に固定された状態で予めキャリブレーションされており、被写体である人間の頭部を互いに異なる撮影角度から撮影し、撮影した初期学習用画像をＩ／Ｆ部５を介してＣＰＵ３等へ出力する。例えば、図２の（ａ）に示すように、４台の初期学習用カメラ１０ａ〜１０ｄは、人間の頭部を中心とする円上に互いに９０度の間隔をあけて水平面上に配置され、頭部の右前方、左前方、左後方及び右後方から撮影した４枚の初期学習用画像を撮影し、図２の（ｂ）に示す４枚の初期学習用画像Ｐａ〜Ｐｄが得られる。なお、初期学習用カメラの台数は、上記の４台であることが好ましいが、２台以上あれば後述する固有空間学習処理を行うことができる。

追加学習用カメラ１１は、通常のビデオカメラ等から構成され、図２の（ｃ）に示すように、被写体である人間の頭部を撮影し、撮影した追加学習用画像をＩ／Ｆ部５を介してＣＰＵ３等へ出力する。追加学習用画像の撮影方向は、顔の正面方向に限定されず、任意の方向から頭部を撮影したものを用いることができ、また、頭部までの距離も特に限定されず、種々の距離から撮影したものを用いることできる。

次に、上記のように構成された固有空間学習装置の主要な機能について説明する。図３は、図１に示す固有空間学習装置の主要機能ブロック図である。

図２に示すように、固有空間学習装置は、ＣＰＵ３等が固有空間学習プログラム等を実行することにより、画像取得部２１、頭部領域抽出部２２、３次元モデル作成部２３、補間画像作成部２４、画像記憶部２５、固有空間作成部２６及び画像置き換え部２７として機能する。

画像取得部２１は、入力装置１及びＩ／Ｆ部５等から構成され、例えば、ユーザが初期学習用画像取得指令を入力すると、４台の初期学習用カメラ１０ａ〜１０ｄにより互いに異なる撮影角度から撮影された４枚の初期学習用画像を取得する。

頭部領域抽出部２２は、ＣＰＵ３等から構成され、取得された４枚の初期学習用画像から頭部領域を切り出して４枚の基準頭部画像を作成する。頭部領域の切り出しには、例えば、２次元射影変換を用いた３次元位置推定手法が用いられる。ここで、４台の初期学習用カメラ１０ａ〜１０ｄで予めキャリブレーションが行われ、各初期学習用カメラ１０ａ〜１０ｄの射影変換行列Ｐは既知であるものとする。

図４は、２次元射影変換を用いた３次元位置の推定処理を説明するための模式図である。まず、頭部領域抽出部２２は、背景差分及びラベリング処理により各初期学習用画像の前景と背景とを分離し、前景領域中から頭部領域の重心（ｕ，ｖ）を検出する。全ての物体がある高さＹの平面上に存在すると仮定し、頭部領域抽出部２２は、下記の式（１）に示すように、平面とカメラ画像面との間の２次元射影変換行列Ｈを用いて、画像上の２次元座標情報（ｕ，ｖ）から３次元空間における位置（Ｘ，Ｙ，Ｚ）を推定する。ここで、λはスケーリング係数である。

λ〔ＸＺ１〕^T＝Ｈ〔ｕｖ１〕^T … （１）
次に、頭部領域抽出部２２は、推定した３次元位置の周辺に適当な大きさ（例えば、４０ｃｍ立方）のバウンディング・ボックスを配置し、バウンディング・ボックスの８頂点を下記の式（２）により撮影画像上に投影し、それらの点同士を結んだ凸領域を画像上での頭部領域として基準頭部画像を作成する。

λ〔ｕ_n ｖ_n １〕^T＝Ｐ〔Ｘ_n Ｙ_n Ｚ_n １〕^T … （２）
３次元モデル作成部２３は、ＣＰＵ３等から構成され、４枚の基準頭部画像を用いて頭部の近似形状モデルを作成し、作成した近似形状モデルに４枚の基準頭部画像をマッピングする。具体的には、３次元モデル作成部２３は、円筒を積み重ねた多段円筒モデルにより人間の頭部形状を近似する。

図５は、多段円筒モデルの中心及び半径の推定処理を説明するための模式図である。図５に示すように、３次元モデル作成部２３は、４枚の基準頭部画像を用いて地面に平行な等間隔の平面ＣＳ上で頭部領域の断面を推定し、断面に円ＣＲをフィッティングすることにより円筒の中心及び半径を求める。３次元モデル作成部２３は、頭部領域全体において上記の処理を行い、推定された円筒を水平に積み重ねることにより多段円筒モデルＣＭを作成する。例えば、一つの円筒の厚みが１ｃｍ、人間の頭部領域として鉛直方向に４０ｃｍの領域を想定した場合、約４０段の多段円筒モデルが作成される。

上記の円ＣＲのフィッティング処理としては、例えば、断面の面積を用いることができる。すなわち、断面の面積Ｓは、４枚の多視点画像について領域分割を行った結果得られる前景領域（シルエット）を平面上に投影し、その平面上でシルエットの写像が重なった領域の面積として求めることができる。これに、Ｓ＝πｒ×ｒを適用すれば、円の半径ｒが求まり、また、円の中心は断面領域の重心位置を用いることができる。

図６は、多段円筒モデルに対するプロジェクティブテクスチャマッピングを説明するための模式図である。図６に示すように、３次元モデル作成部２３は、推定した多段円筒モデルに、プロジェクティブテクスチャマッピング法（例えば、Ｅｖｅｒｉｔｔ．Ｃ．，ＰｒｏｊｅｃｔｉｖｅＴｅｘｔｕｒｅＭａｐｐｉｎｇ，ＮＶＩＤＩＡＳＤＫＷｈｉｔｅＰａｐｅｒ）を用いて既知の４方向から撮影した基準頭部画像をマッピングする。

上記のような円形モデルでは、入力枚数が少ないため、正確な３次元形状の復元が困難である状況において、人間の頭部断面は円形に近い形状をしていることを利用することにより、上述したように、円の当てはめは、少ない枚数の入力画像からでも非常に簡単な処理で求めることができるという利点がある。なお、近似形状モデルは、上記の例に特に限定されず、被写体の形状に応じて種々の変更が可能であり、楕円、四角形、三角形、長円、多角形及びこれらの組み合わせ等の種々の図形を基本パーツとして近似形状モデルを作成することができる。

補間画像作成部２４は、ＣＰＵ３等から構成され、画像記憶部２５は、ＲＡＭ４等から構成される。補間画像作成部２４は、基準頭部画像がマッピングされた近似形状モデルを用いて基準頭部画像の撮影角度間の未知の補間角度から見た複数の補間頭部画像を補間画像として作成し、作成した複数の補間頭部画像及び４枚の基準頭部画像を学習サンプル画像群として画像記憶部２５に記憶させる。

図７は、補間頭部画像のレンダリング処理を説明するための模式図である。図７に示すように、補間画像作成部２４は、仮想カメラを多段円筒モデルの周りに３６０度回転させながら、レンダリング処理を行って補間頭部画像（例えば、１度刻みで基準頭部画像の撮影角度を除く補間角度から擬似的に撮影された頭部画像）を作成する。このとき、補間画像作成部２４は、初期学習用カメラ１０ａ〜１０ｄからの距離に応じてブレンディング処理を行い、滑らかに見え方の変化するマッピング用テクスチャを生成する。上記のブレンディング処理における距離は、実際に撮影したカメラと、ＣＧモデルをレンダリングするために仮想的に配置したカメラとの間の３次元空間中でのユークリッド距離であり、一番近いカメラからのテクスチャを優先的にマッピングすることができる。

固有空間作成部２６は、ＣＰＵ３等から構成され、上記の学習サンプル画像群を画像記憶部２５から読み出し、読み出した学習サンプル画像群に対して主成分分析を適用し、顔画像識別に用いられるパラメトリック固有空間を作成する。

図８は、画像の正規化処理を説明するための模式図である。図８に示すように、固有空間作成部２６は、前処理として、頭頂点ＨＴを中心とした１２８×１２８画素の大きさに画像の正規化を行う。

次に、固有空間作成部２６は、画像のラスタスキャンを行い、画素値を要素としたベクトルｂｘ_iにし、下記の式（３）に示すようにノルムが１になるようにして明度を正規化する。正規化後、固有空間作成部２６は、画像ベクトル集合の平均ベクトルｃを求め、下記の式（４）により計算されたベクトルＸから下記の式（５）により共分散行列Ｑを求め、下記の固有方程式（６）を解くことにより、固有値λ_iの大きい順に固有ベクトルｅ_iを算出する。ここで、Ｎは追加学習用画像（学習サンプル画像群）の数である。

Ｘ_i＝ｂｘ_i／‖ｂｘ_i‖ … （３）
Ｘ＝〔ｘ₁−ｃ，ｘ₂−ｃ，…，ｘ_N−ｃ〕 … （４）
Ｑ＝ＸＸ^T … （５）
λ_iｅ_i＝Ｑｅ_i … （６）
次に、固有空間作成部２６は、累積寄与率により固有空間を表現する次元ｋを求め、下記の式（７）により各画像を姿勢のパラメータ（例えば、撮影角度）と関連付けて固有空間に投影する。

ｇ_i＝〔ｅ₁，ｅ₂，…，ｅ_k〕^T（ｘ_i−ｃ） … （７）
また、画像取得部２１は、例えば、ユーザが追加学習用画像取得指令を入力すると、追加学習用カメラ１１により撮影された追加学習用画像を取得する。頭部領域抽出部２２は、取得された追加学習用画像から頭部領域を切り出して置換頭部画像を作成する。

画像置き換え部２７は、ＣＰＵ３等から構成され、画像記憶部２５から学習サンプル画像群を読み出し、複数の補間頭部画像の中から置換頭部画像に最も近い補間頭部画像を置換頭部画像に置き換えることにより学習サンプル画像群を更新し、更新後の学習サンプル画像群を画像記憶部２５に記憶させる。

具体的には、画像置き換え部２７は、置換頭部画像に対して上記の正規化処理を行った後、上記の固有ベクトルｅ_iと平均ベクトルｃとを用いて下記の式（８）により置換頭部画像を、固有空間作成部２６が既に作成している固有空間に投影する。ここで、ｙは置換頭部画像の画素値を要素としたベクトルである。

ｚ_j＝〔ｅ₁，ｅ₂，…，ｅ_k〕^T（ｙ_j−ｃ） … （８）
次に、画像置き換え部２７は、４台の初期学習用カメラ１０ａ〜１０ｄの配置角度（撮影角度）が既知であることを拘束条件として、置換頭部画像との固有空間中でのユークリッド距離の合計が最小となる角度を探索し、当該角度の補間頭部画像を置換頭部画像に置換する。ここで、初期学習用画像だけでなく、各補間画像も角度情報を持っており、角度情報としては、ある初期学習用画像を０度として、そこからの角度情報が用いられ、原点が共通なので相対的でも絶対的でもある。また、上記の探索は、補間画像の中から新たに追加撮影した画像に最も似ている画像を探索することであり、各補間画像は角度情報を持っているので、探索した結果、角度情報も得ることができる。

その後、固有空間作成部２６は、置換頭部画像を含む更新後の学習サンプル画像群を用いて、上記と同様にして固有空間を再構築し、固有空間を更新する。上記の処理は、新たな追加学習用画像が取得される毎に実行され、順次固有空間の更新が行われる。

本実施の形態では、画像取得部２１が取得手段の一例に相当し、頭部領域抽出部２２が抽出手段の一例に相当し、３次元モデル作成部２３がモデル作成手段の一例に相当し、補間画像作成部２４及び画像記憶部２５が補間手段の一例に相当し、固有空間作成部２６が固有空間作成手段の一例に相当し、画像置き換え部２７及び画像記憶部２５が置き換え手段の一例に相当する。

次に、上記のように構成された固有空間学習装置による固有空間学習処理について説明する。図９は、図３に示す固有空間学習装置による固有空間学習処理を説明するためのフローチャートである。

まず、ユーザが４台の初期学習用カメラ１０ａ〜１０ｄを用いて初期学習用画像を撮影し、初期学習用画像取得指令を入力すると、ステップＳ１において、画像取得部２１は、４台の初期学習用カメラ１０ａ〜１０ｄにより撮影された４枚の初期学習用画像を取得する。次に、ステップＳ２において、頭部領域抽出部２２は、取得された４枚の初期学習用画像から頭部領域を切り出して４枚の基準頭部画像を作成する。次に、３次元モデル作成部２３は、ステップＳ３において、４枚の基準頭部画像を用いて多段円筒モデルを作成し、ステップＳ４において、作成した多段円筒モデルに４枚の基準頭部画像をマッピングする。

次に、ステップＳ５において、補間画像作成部２４は、仮想カメラを多段円筒モデルの周りに３６０度回転させながら、補間画像のレンダリング処理を行って補間頭部画像を作成し、作成した複数の補間頭部画像及び４枚の基準頭部画像を学習サンプル画像群として画像記憶部２５に記憶させる。

次に、ステップＳ６において、固有空間作成部２６は、学習サンプル画像群を画像記憶部２５から読み出し、読み出した学習サンプル画像群に対して主成分分析を適用し、固有空間を作成し、初期学習が終了する。

次に、ユーザが追加学習用カメラ１１を用いて追加学習用画像を撮影し、追加学習用画像取得指令を入力すると、ステップＳ７において、画像取得部２１は、追加学習用カメラ１１により撮影された追加学習用画像を取得する。次に、ステップＳ８において、頭部領域抽出部２２は、取得された追加学習用画像から頭部領域を切り出して置換頭部画像を作成する。

次に、ステップＳ９において、画像置き換え部２７は、画像記憶部２５から学習サンプル画像群を読み出し、固有空間上での距離情報を用いて最近傍探索を行い、複数の補間頭部画像の中から置換頭部画像に最も近い補間頭部画像を検出し、検出した補間頭部画像を置換頭部画像に置き換え、更新後の学習サンプル画像群を画像記憶部２５に記憶させる。なお、固有空間上での距離が閾値以上の場合は、置き換えない。具体的には、固有空間中でのユークリッド距離が一定値以上である場合、他人のデータや全く見当違いの方向である可能性が高いため、たとえ最小値であっても置換しない。

次に、ステップＳ１０において、固有空間作成部２６は、置換頭部画像を含む更新後の学習サンプル画像群を用いて、上記と同様にして固有空間を再構築して固有空間を更新し、最初の逐次学習が終了する。その後、新たな追加学習用画像が取得される毎に、ステップＳ７以降の逐次学習処理が実行され、固有空間が逐次更新される。

上記の処理により、本実施の形態では、互いに異なる撮影角度から人間の頭部を撮影した４枚の初期学習用画像が取得され、取得された４枚の初期学習用画像から頭部領域を抽出して４枚の基準頭部画像が作成され、抽出された４枚の基準頭部画像をマッピングさせた多段円筒モデルが作成される。次に、作成された多段円筒モデルを用いて撮影角度間の実際に撮影されていない補間角度から見た３５６枚の補間頭部画像が作成され、４の基準頭部画像及び３５６枚の補間頭部画像からなる学習サンプル画像群を用いて固有空間が作成され、固有空間の初期学習が行われる。このように、基準頭部画像がマッピングされた多段円筒モデルから多数の補間頭部画像を作成して固有空間を作成することができるので、少ない入力画像から多くの補間頭部画像を作成して擬似的に撮影方向を増やすことができ、少ない入力画像を用いて人間の顔の特徴を表す固有空間を高精度に学習することができる。

また、新たに頭部を撮影した追加学習用画像が取得された場合、取得された追加学習用画像から頭部領域を抽出して置換頭部画像が作成され、複数の補間頭部画像の中から置換頭部画像に最も近い補間頭部画像が置換頭部画像に置き換えられることにより学習サンプル画像群が更新され、更新された学習サンプル画像群を用いて固有空間が更新され、固有空間の学習が逐次行われる。このように、新たに取得された置換被写体画像が最も近い補間画像と置き換えられた学習サンプル画像群を用いて固有空間が学習されるので、正面から撮影された画像に限定されることなく、任意の方向から撮影された置換頭部画像を追加して固有空間を逐次学習することができる。この結果、人間の顔の特徴を表す固有空間を効率的且つ高精度に学習することができ、この固有空間を用いて顔画像識別を高精度に行うことが可能となる。このように、３次元形状復元技術を用いて少数枚の入力画像の見え方を補間することにより、学習時には獲得されていない方向から撮影された見え方においても、高い精度の識別処理が可能となる。

次に、上記の固有空間学習装置を用いて固有空間を学習した実験結果について説明する。なお、以下の実験では、初期学習用カメラ１０ａ〜１０ｄ及び追加学習用カメラ１１として、ソニー株式会社製ＷｅｂカメラＳＮＣ−Ｚ２０を用い、入力画像の大きさを６４０×４８０ｐｉｘｅｌとし、固有空間の次元は累積寄与率が９５％となる２２次元とした。

図１０は、固有空間の学習の初期状態における学習サンプル画像群の一例を示す図であり、図１１は、８枚の置換頭部画像が置換された後の学習サンプル画像群の一例を示す図であり、図１２は、１６枚の置換頭部画像が置換された後の学習サンプル画像群の一例を示す図であり、図１３は、２４枚の置換頭部画像が置換された後の学習サンプル画像群の一例を示す図である。なお、図１０乃至図１３では、３６０度の学習サンプル画像群のうち９０度分の画像を図示しており、特に表記のない画像は補間頭部画像を示している。

図１０乃至図１３から、初期学習で得られた補間頭部画像が、逐次学習が進行するにつれ、置換頭部画像に順次更新されていることがわかる。このとき、見た目にほぼ変わりないところが置換されており、逐次学習を繰り返すことにより、顔画像の識別能力が向上するものと考えられる。

図１４は、多段円筒モデルを用いて作成した固有空間と、その固有空間に実写画像である４枚の基準頭部画像を投影した結果とを示す図である。なお、図１４では、結果を見やすくするために、第１主成分乃至第３主成分を主軸とするグラフで固有空間を示している。後述する図１５及び図１６も同様である。

図１４から、多段円筒モデルによる補間頭部画像と、実写画像である基準頭部画像とでは、多少の誤差はあるもののほぼ同じ位置に投影されており、固有空間を高精度に学習できていることがわかる。

図１５は、多段円筒モデルを用いて作成した固有空間と、実写画像のみを用いて作成した固有空間とを示す図であり、図１６は、実写画像のみを用いて作成した固有空間と、公知のキュービックスプライン関数を用いて実写画像を補間した場合の固有空間とを示す図である。図中の「前」は頭部の前面（正面）を示し、「後」は頭部の後面（背面）を示し、実写画像は、約２２．５度間隔で撮影した１６枚の画像を用いている。

図１５及び図１６から、キュービックスプライン関数による補間処理よりも多段円筒モデルを用いた補間処理の方がより実写画像に近い複雑な補間処理がなされていることがわかる。この結果、まばらな入力画像しか与えられていない場合には、これまで固有空間の補間処理に用いられていたキュービックスプライン関数による補間処理よりも、多段円筒モデルを用いた補間処理の方が、識別能力の高い固有空間を生成することができる。

本発明による固有空間学習装置は、種々の用途に用いることができ、例えば、病院で用いた場合、以下のように利用される。初期学習用カメラによる撮影及び初期学習処理として、Ａ病院のエントランスホールにある自動ドアの前において、初めてＡ病院を訪れる患者Ｂさんが自動ドアの前に立つが自動ドアは開かない。これは、Ｂさんの見え方情報がＡ病院の見え方データベースに登録されていないためである。自動ドアが開くのを待つ間に、エントランスホールの上方四隅に取り付けてある４台の初期学習用カメラがＢさんを撮影する。Ｂさんの画像は、病院内の見え方データベースを管理する計算機へ伝送され、そこで近似３次元形状推定、見え方の補間処理、補間画像を用いた初期固有空間の生成が行われる。これらの一連の処理が終わると、自動ドアが開き、ＢさんはやっとＡ病院に入館することができる。

次に、追加学習用カメラによる撮影及び追加学習処理として、Ａ病院の玄関から診察室に通じる廊下には監視カメラが設置され、診察室に移動するＢさんを撮影する。このとき、Ｂさんは、その歩行に一切の制限を受けることなく、自然に歩行することが許されているが、本手法により、撮影画像中から適切な顔領域が切り出され、見え方データベース管理計算機へ伝送される。見え方データベース管理計算機では、伝送された画像と初期学習で生成した補間画像との比較を行い、補間画像を実写画像に置き換えることにより、より識別精度の高い学習データを生成する。これらの一連の処理により、Ｂさんに意識させることなく、その見え方データベースが更新される。

さらに、Ｂさんの認識処理として、Ａ病院のＢさんが診察を受けるように指示された診察室のドアの前において、ドアの上部に監視カメラが設置され、ドアに近づいてきたＢさんを撮影する。Ｂさんの見え方情報は、廊下を歩いている間に、充分な更新が行われたため、見え方データベース管理計算機は、監視カメラに写ったＢさんを認識し、ドアに開錠命令を出す。

なお、上記の説明では、本発明による固有空間学習処理をソフトウエアを用いて行う例を説明したが、固有空間学習装置の一部又は全てを専用のハードウエアを用いて構成してもよく、この場合、より高速に処理を実行することができる。また、被写体として、人間の頭部を用いたが、この例に特に限定されず、頭部以外の部分、他の生物又は機械等の全部又は一部等を被写体として用いてもよい。

また、仮想カメラによる補間の他の方法として、複数の画像上で対応点を検出してその対応点の位置のズレ情報を用いて、中間の見え方を生成する、所謂モーフィングという手法を用いてもよい。また、固有空間中でのユークリッド距離を用いて最近傍点を探索しているが、単純に画像の差分値を比較する処理を用いて類似画像を探索してもよい。

本発明の一実施の形態による固有空間学習装置のハードウエア構成を示すブロック図である。図１に示す初期学習用カメラの撮影位置及び撮影画像、並びに追加学習用カメラの撮影位置を説明するための模式図である。図１に示す固有空間学習装置の主要機能ブロック図である。２次元射影変換を用いた３次元位置の推定処理を説明するための模式図である。多段円筒モデルの中心及び半径の推定処理を説明するための模式図である。多段円筒モデルに対するプロジェクティブテクスチャマッピングを説明するための模式図である。補間頭部画像のレンダリング処理を説明するための模式図である。画像の正規化処理を説明するための模式図である。図３に示す固有空間学習装置による固有空間学習処理を説明するためのフローチャートである。固有空間の学習の初期状態における学習サンプル画像群の一例を示す図である。８枚の置換頭部画像が置換された後の学習サンプル画像群の一例を示す図である。１６枚の置換頭部画像が置換された後の学習サンプル画像群の一例を示す図である。２４枚の置換頭部画像が置換された後の学習サンプル画像群の一例を示す図である。多段円筒モデルを用いて作成した固有空間と、その固有空間に実写画像である４枚の基準頭部画像を投影した結果とを示す図である。多段円筒モデルを用いて作成した固有空間と、実写画像のみを用いて作成した固有空間とを示す図である。実写画像のみを用いて作成した固有空間と、公知のキュービックスプライン関数を用いて実写画像を補間した場合の固有空間とを示す図である。

符号の説明

２１画像取得部
２２頭部領域抽出部
２３３次元モデル作成部
２４補間画像作成部
２５画像記憶部
２６固有空間作成部
２７画像置き換え部

Claims

互いに異なる撮影角度から被写体を撮影した複数の初期学習用画像を取得する取得手段と、
前記複数の初期学習用画像から被写体領域を抽出して複数の基準被写体画像を作成する抽出手段と、
前記複数の基準被写体画像をマッピングさせた被写体の３次元モデルを作成するモデル作成手段と、
前記３次元モデルを用いて前記撮影角度間の補間角度から見た複数の補間画像を作成する補間手段と、
前記複数の基準被写体画像及び前記複数の補間画像からなる学習サンプル画像群を用いて被写体の特徴を表す固有空間を作成する固有空間作成手段とを備え、
前記取得手段は、新たに被写体を撮影した追加学習用画像を取得し、
前記抽出手段は、前記追加学習用画像から被写体領域を抽出して置換被写体画像を作成し、
前記複数の補間画像の中から前記置換被写体画像に最も近い補間画像を前記置換被写体画像に置き換えることにより前記学習サンプル画像群を更新する置き換え手段をさらに備え、
前記固有空間作成手段は、前記置き換え手段により更新された学習サンプル画像群を用いて前記固有空間を更新することを特徴とする固有空間学習装置。
前記置き換え手段は、前記複数の補間画像の中から前記固有空間における置換被写体画像との距離が最小となる補間画像を置き換えることを特徴とする請求項１記載の固有空間学習装置。
前記モデル作成手段は、前記複数の基準被写体画像を用いて被写体の近似形状モデルを作成し、作成した近似形状モデルに前記基準被写体画像をマッピングすることを特徴とする請求項１〜２のいずれかに記載の固有空間学習装置。
前記被写体は、人間の頭部であり、
前記基準被写体画像、前記補間画像及び前記置換被写体画像は、人間の頭部領域を表す基準頭部画像、補間頭部画像及び置換頭部画像であり、
前記固有空間は、顔画像識別に用いられる固有空間であることを特徴とする請求項１〜３のいずれかに記載の固有空間学習装置。
前記モデル作成手段は、前記複数の基準被写体画像を用いて被写体の断面を等間隔で推定し、各断面を円で近似した多段円筒モデルを作成し、作成した多段円筒モデルに前記基準被写体画像をマッピングすることを特徴とする請求項４記載の固有空間学習装置。
互いに異なる撮影角度から被写体を撮影した複数の初期学習用画像を取得する第１のステップと、
前記複数の初期学習用画像から被写体領域を抽出して複数の基準被写体画像を作成する第２のステップと、
前記複数の基準被写体画像をマッピングさせた被写体の３次元モデルを作成する第３のステップと、
前記３次元モデルを用いて前記撮影角度間の補間角度から見た複数の補間画像を作成する第４のステップと、
前記複数の基準被写体画像及び前記複数の補間画像からなる学習サンプル画像群を用いて被写体の特徴を表す固有空間を作成する第５のステップと、
新たに被写体を撮影した追加学習用画像を取得する第６のステップと、
前記追加学習用画像から被写体領域を抽出して置換被写体画像を作成する第７のステップと、
前記複数の補間画像の中から前記置換被写体画像に最も近い補間画像を前記置換被写体画像に置き換えることにより前記学習サンプル画像群を更新する第８のステップと、
前記第８のステップにおいて更新された学習サンプル画像群を用いて前記固有空間を更新する第９のステップとを含むことを特徴とする固有空間学習方法。
互いに異なる撮影角度から被写体を撮影した複数の初期学習用画像を取得する取得手段と、
前記複数の初期学習用画像から被写体領域を抽出して複数の基準被写体画像を作成する抽出手段と、
前記複数の基準被写体画像をマッピングさせた被写体の３次元モデルを作成するモデル作成手段と、
前記３次元モデルを用いて前記撮影角度間の補間角度から見た複数の補間画像を作成する補間手段と、
前記複数の基準被写体画像及び前記複数の補間画像からなる学習サンプル画像群を用いて被写体の特徴を表す固有空間を作成する固有空間作成手段としてコンピュータを機能させ、
前記取得手段は、新たに被写体を撮影した追加学習用画像を取得し、
前記抽出手段は、前記追加学習用画像から被写体領域を抽出して置換被写体画像を作成し、
前記複数の補間画像の中から前記置換被写体画像に最も近い補間画像を前記置換被写体画像に置き換えることにより前記学習サンプル画像群を更新する置き換え手段として前記コンピュータをさらに機能させ、
前記固有空間作成手段は、前記置き換え手段により更新された学習サンプル画像群を用いて前記固有空間を更新することを特徴とする固有空間学習プログラム。