JP4505616B2 - 固有空間学習装置、固有空間学習方法及び固有空間プログラム - Google Patents

固有空間学習装置、固有空間学習方法及び固有空間プログラム Download PDF

Info

Publication number
JP4505616B2
JP4505616B2 JP2004355921A JP2004355921A JP4505616B2 JP 4505616 B2 JP4505616 B2 JP 4505616B2 JP 2004355921 A JP2004355921 A JP 2004355921A JP 2004355921 A JP2004355921 A JP 2004355921A JP 4505616 B2 JP4505616 B2 JP 4505616B2
Authority
JP
Japan
Prior art keywords
image
subject
learning
images
eigenspace
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004355921A
Other languages
English (en)
Other versions
JP2006163950A (ja
Inventor
格 北原
秀典 田中
英雄 斎藤
洋 村瀬
潔 小暮
紀博 萩田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2004355921A priority Critical patent/JP4505616B2/ja
Publication of JP2006163950A publication Critical patent/JP2006163950A/ja
Application granted granted Critical
Publication of JP4505616B2 publication Critical patent/JP4505616B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/169Holistic features and representations, i.e. based on the facial image taken as a whole
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/76Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries based on eigen-space representations, e.g. from pose or different illumination conditions; Shape manifolds

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Description

本発明は、被写体の特徴、特に、人間の頭部の特徴を表す固有空間を学習する固有空間学習装置、固有空間学習方法及び固有空間プログラムに関するものである。
我々を取り巻く環境の至る所にセンサを配置し、センサ同士が自律的に連携して動作することにより、人間の生活を強力にバックアップする情報環境であるユビキタスコンピューティングが実現されようとしている。このユビキタスコンピューティングには、人間の行動及び状況を理解する技術が求められ、この技術を支える要素技術として人間の顔画像による顔の向きの推定及び個人認証の研究が種々行われている。
例えば、実環境から自由に撮影された顔画像に対してSOM(Self−Organizing Maps)を用いて顔向きごとの分類を行い、顔認識に有利な正面顔のみを自動的に選択することが報告されている(非特許文献1参照)。
佐藤洋平他、「SOMによる顔画像自動識別と顔認識への利用」、信学技報 PRMU2003−144、2003年、p.25−p.30
しかしながら、上記の研究では、顔の向きを正面方向に限定して学習を行っているため、街頭を歩いている歩行者などの動きの制御が不能な被写体の見え方を学習しようという場合には、被写体が正面を向くまで非常に多数回の撮影を行う必要がある。また、学習時に教示データには、正面とは異なる方向から撮影された画像が与えられていないため、識別処理時に正面方向と異なる見え方が入力された場合、識別精度が大幅に低下することが考えられる。一方、街角の監視カメラにより撮影された画像を見ればわかるように、識別対象となる被写体は、必ず正面(カメラの方)を向くとは限らないため、学習データが正面を向いた顔に限定して生成されていたのでは、充分な識別精度の実現が困難であると考えられる。
本発明の目的は、3次元形状復元技術を用いて少数枚の入力画像の見え方を補間することにより、学習時には獲得されていない方向から撮影された見え方においても、高い精度の識別処理が可能な固有空間学習装置、固有空間学習方法及び固有空間プログラムを提供することである。
本発明に係る固有空間学習装置は、互いに異なる撮影角度から被写体を撮影した複数の初期学習用画像を取得する取得手段と、複数の初期学習用画像から被写体領域を抽出して複数の基準被写体画像を作成する抽出手段と、複数の基準被写体画像をマッピングさせた被写体の3次元モデルを作成するモデル作成手段と、被写体の3次元モデルを用いて撮影角度間の補間角度から見た複数の補間画像を作成する補間手段と、複数の基準被写体画像及び複数の補間画像からなる学習サンプル画像群を用いて被写体の特徴を表す固有空間を作成する固有空間作成手段とを備え、前記取得手段は、新たに被写体を撮影した追加学習用画像を取得し、前記抽出手段は、前記追加学習用画像から被写体領域を抽出して置換被写体画像を作成し、前記複数の補間画像の中から前記置換被写体画像に最も近い補間画像を前記置換被写体画像に置き換えることにより前記学習サンプル画像群を更新する置き換え手段をさらに備え、前記固有空間作成手段は、前記置き換え手段により更新された学習サンプル画像群を用いて前記固有空間を更新するものである。
本発明に係る固有空間学習装置においては、互いに異なる撮影角度から被写体を撮影した複数の初期学習用画像が取得され、取得された複数の初期学習用画像から被写体領域を抽出して複数の基準被写体画像が作成され、抽出された複数の基準被写体画像をマッピングさせた被写体の3次元モデルが作成され、作成された被写体の3次元モデルを用いて撮影角度間の補間角度から見た複数の補間画像が作成され、複数の基準被写体画像及び複数の補間画像からなる学習サンプル画像群を用いて被写体の特徴を表す固有空間が作成される。このように、基準被写体画像がマッピングされた被写体の3次元モデルから複数の補間画像を作成して固有空間を学習することができるので、少ない入力画像から多くの補間画像を作成して擬似的に撮影方向を増やすことができ、少ない入力画像を用いて被写体の特徴を表す固有空間を高精度に学習することができる。この結果、3次元形状復元技術を用いて少数枚の入力画像の見え方を補間することにより、学習時には獲得されていない方向から撮影された見え方においても、高い精度の識別処理が可能となる。
この場合、新たに被写体を撮影した追加学習用画像が取得され、取得された追加学習用画像から被写体領域を抽出して置換被写体画像が作成され、複数の補間画像の中から置換被写体画像に最も近い補間画像が置換被写体画像に置き換えられることにより学習サンプル画像群が更新され、更新された学習サンプル画像群を用いて固有空間が更新され、固有空間の学習が行われる。このように、新たに取得された置換被写体画像が最も近い補間画像と置き換えられた学習サンプル画像群を用いて固有空間が学習されるので、正面から撮影された画像に限定されることなく、任意の方向から撮影された置換被写体画像を追加して固有空間を逐次学習することができ、被写体の特徴を表す固有空間を効率的且つ高精度に学習することができる。
置き換え手段は、複数の補間画像の中から固有空間における置換被写体画像との距離が最小となる補間画像を置き換えることが好ましい。
モデル作成手段は、複数の基準被写体画像を用いて被写体の近似形状モデルを作成し、作成した近似形状モデルに基準被写体画像をマッピングすることが好ましい。
この場合、基準被写体画像を用いて被写体の近似形状モデルを作成し、基準被写体画像をマッピングさせた近似形状モデルを用いて補間画像を作成しているので、実際に撮影されていない補間画像を簡便に且つ高精度に作成することができる。
被写体は、人間の頭部であり、基準被写体画像、補間画像及び置換被写体画像は、人間の頭部領域を表す基準頭部画像、補間頭部画像及び置換頭部画像であり、固有空間は、顔画像識別に用いられる固有空間であることが好ましい。この場合、顔画像識別に用いられる固有空間を効率的且つ高精度に学習することができる。
モデル作成手段は、複数の基準被写体画像を用いて被写体の断面を等間隔で推定し、各断面を円で近似した多段円筒モデルを作成し、作成した多段円筒モデルに基準被写体画像をマッピングすることが好ましい。
この場合、基準被写体画像を用いて作成された多段円筒モデルを用いて補間画像を作成しているので、実際に撮影されていない補間画像をより簡便に作成することができる。
本発明に係る固有空間学習方法は、互いに異なる撮影角度から被写体を撮影した複数の初期学習用画像を取得する第1のステップと、複数の初期学習用画像から被写体領域を抽出して複数の基準被写体画像を作成する第2のステップと、複数の基準被写体画像をマッ
ピングさせた被写体の3次元モデルを作成する第3のステップと、被写体の3次元モデルを用いて撮影角度間の補間角度から見た複数の補間画像を作成する第4のステップと、複数の基準被写体画像及び複数の補間画像からなる学習サンプル画像群を用いて被写体の特徴を表す固有空間を作成する第5のステップと、新たに被写体を撮影した追加学習用画像を取得する第6のステップと、前記追加学習用画像から被写体領域を抽出して置換被写体画像を作成する第7のステップと、前記複数の補間画像の中から前記置換被写体画像に最も近い補間画像を前記置換被写体画像に置き換えることにより前記学習サンプル画像群を更新する第8のステップと、前記第8のステップにおいて更新された学習サンプル画像群を用いて前記固有空間を更新する第9のステップとを含むものである。
本発明に係る固有空間学習プログラムは、互いに異なる撮影角度から被写体を撮影した複数の初期学習用画像を取得する取得手段と、複数の初期学習用画像から被写体領域を抽出して複数の基準被写体画像を作成する抽出手段と、複数の基準被写体画像をマッピングさせた被写体の3次元モデルを作成するモデル作成手段と、被写体の3次元モデルを用いて撮影角度間の補間角度から見た複数の補間画像を作成する補間手段と、複数の基準被写体画像及び複数の補間画像からなる学習サンプル画像群を用いて被写体の特徴を表す固有空間を作成する固有空間作成手段としてコンピュータを機能させ、前記取得手段は、新たに被写体を撮影した追加学習用画像を取得し、前記抽出手段は、前記追加学習用画像から被写体領域を抽出して置換被写体画像を作成し、前記複数の補間画像の中から前記置換被写体画像に最も近い補間画像を前記置換被写体画像に置き換えることにより前記学習サンプル画像群を更新する置き換え手段として前記コンピュータをさらに機能させ、前記固有空間作成手段は、前記置き換え手段により更新された学習サンプル画像群を用いて前記固有空間を更新するものである。
本発明によれば、基準被写体画像がマッピングされた被写体の3次元モデルから複数の補間画像を作成して固有空間を学習することができるので、少ない入力画像から多くの補間画像を作成して擬似的に撮影方向を増やすことができ、少ない入力画像を用いて被写体の特徴を表す固有空間を高精度に学習することができる。この結果、3次元形状復元技術を用いて少数枚の入力画像の見え方を補間することにより、学習時には獲得されていない方向から撮影された見え方においても、高い精度の識別処理が可能となる。
以下、本発明の一実施の形態による固有空間学習装置について図面を参照しながら説明する。図1は、本発明の一実施の形態による固有空間学習装置のハードウエア構成を示すブロック図であり、図2は、図1に示す初期学習用カメラの撮影位置及び撮影画像、並びに追加学習用カメラの撮影位置を説明するための模式図である。
図1に示す固有空間学習装置は、パーソナルコンピュータ等のコンピュータ装置等から構成され、入力装置1、ROM(リードオンリメモリ)2、CPU(中央演算処理装置)3、RAM(ランダムアクセスメモリ)4、I/F(インターフェース)部5、外部記憶装置6、表示装置7及び記録媒体駆動装置8を備える。各ブロックは内部のバスに接続され、このバスを介して種々のデータ等が各ブロック間で入出力され、CPU3の制御の下、種々の処理が実行される。
入力装置1は、キーボード、マウス等から構成され、ユーザが種々の操作指令を入力するために用いられる。ROM2には、システムプログラム等が予め記憶される。外部記憶装置6は、ハードディスクドライブ等から構成され、後述する固有空間学習プログラム等を記憶している。CPU3は、外部記憶装置6から固有空間学習プログラム等を読み出し、後述する固有空間学習処理等を実行して各ブロックの動作を制御する。RAM4は、CPU3の作業領域等として用いられる。表示装置7は、CRT(陰極線管)又は液晶表示装置等から構成され、CPU3の制御の下、種々の画面を表示する。I/F部5は、画像キャプチャボード等から構成される。
なお、固有空間学習プログラムは、CD−ROM、DVD等から構成されるコンピュータ読み取り可能な記録媒体9に記録するようにしてもよい。この場合、CD−ROMドライブ、DVDドライブ等から構成される記録媒体駆動装置8を用いて記録媒体9から読み出された固有空間学習プログラムが外部記憶装置6にインストール等される。また、固有空間学習装置が外部との通信を制御する通信装置を有し、ネットワークを介して接続されている他のコンピュータ等に固有空間学習プログラム等が記憶されている場合、当該コンピュータ等からネットワークを介して固有空間学習プログラム又は処理対象となる画像データ等をダウンロードするようにしてもよい。
4台の初期学習用カメラ10a〜10dは、通常のビデオカメラ等から構成され、所定位置に固定された状態で予めキャリブレーションされており、被写体である人間の頭部を互いに異なる撮影角度から撮影し、撮影した初期学習用画像をI/F部5を介してCPU3等へ出力する。例えば、図2の(a)に示すように、4台の初期学習用カメラ10a〜10dは、人間の頭部を中心とする円上に互いに90度の間隔をあけて水平面上に配置され、頭部の右前方、左前方、左後方及び右後方から撮影した4枚の初期学習用画像を撮影し、図2の(b)に示す4枚の初期学習用画像Pa〜Pdが得られる。なお、初期学習用カメラの台数は、上記の4台であることが好ましいが、2台以上あれば後述する固有空間学習処理を行うことができる。
追加学習用カメラ11は、通常のビデオカメラ等から構成され、図2の(c)に示すように、被写体である人間の頭部を撮影し、撮影した追加学習用画像をI/F部5を介してCPU3等へ出力する。追加学習用画像の撮影方向は、顔の正面方向に限定されず、任意の方向から頭部を撮影したものを用いることができ、また、頭部までの距離も特に限定されず、種々の距離から撮影したものを用いることできる。
次に、上記のように構成された固有空間学習装置の主要な機能について説明する。図3は、図1に示す固有空間学習装置の主要機能ブロック図である。
図2に示すように、固有空間学習装置は、CPU3等が固有空間学習プログラム等を実行することにより、画像取得部21、頭部領域抽出部22、3次元モデル作成部23、補間画像作成部24、画像記憶部25、固有空間作成部26及び画像置き換え部27として機能する。
画像取得部21は、入力装置1及びI/F部5等から構成され、例えば、ユーザが初期学習用画像取得指令を入力すると、4台の初期学習用カメラ10a〜10dにより互いに異なる撮影角度から撮影された4枚の初期学習用画像を取得する。
頭部領域抽出部22は、CPU3等から構成され、取得された4枚の初期学習用画像から頭部領域を切り出して4枚の基準頭部画像を作成する。頭部領域の切り出しには、例えば、2次元射影変換を用いた3次元位置推定手法が用いられる。ここで、4台の初期学習用カメラ10a〜10dで予めキャリブレーションが行われ、各初期学習用カメラ10a〜10dの射影変換行列Pは既知であるものとする。
図4は、2次元射影変換を用いた3次元位置の推定処理を説明するための模式図である。まず、頭部領域抽出部22は、背景差分及びラベリング処理により各初期学習用画像の前景と背景とを分離し、前景領域中から頭部領域の重心(u,v)を検出する。全ての物体がある高さYの平面上に存在すると仮定し、頭部領域抽出部22は、下記の式(1)に示すように、平面とカメラ画像面との間の2次元射影変換行列Hを用いて、画像上の2次元座標情報(u,v)から3次元空間における位置(X,Y,Z)を推定する。ここで、λはスケーリング係数である。
λ〔X Z 1〕T=H〔u v 1〕T … (1)
次に、頭部領域抽出部22は、推定した3次元位置の周辺に適当な大きさ(例えば、40cm立方)のバウンディング・ボックスを配置し、バウンディング・ボックスの8頂点を下記の式(2)により撮影画像上に投影し、それらの点同士を結んだ凸領域を画像上での頭部領域として基準頭部画像を作成する。
λ〔unn 1〕T=P〔Xnnn 1〕T … (2)
3次元モデル作成部23は、CPU3等から構成され、4枚の基準頭部画像を用いて頭部の近似形状モデルを作成し、作成した近似形状モデルに4枚の基準頭部画像をマッピングする。具体的には、3次元モデル作成部23は、円筒を積み重ねた多段円筒モデルにより人間の頭部形状を近似する。
図5は、多段円筒モデルの中心及び半径の推定処理を説明するための模式図である。図5に示すように、3次元モデル作成部23は、4枚の基準頭部画像を用いて地面に平行な等間隔の平面CS上で頭部領域の断面を推定し、断面に円CRをフィッティングすることにより円筒の中心及び半径を求める。3次元モデル作成部23は、頭部領域全体において上記の処理を行い、推定された円筒を水平に積み重ねることにより多段円筒モデルCMを作成する。例えば、一つの円筒の厚みが1cm、人間の頭部領域として鉛直方向に40cmの領域を想定した場合、約40段の多段円筒モデルが作成される。
上記の円CRのフィッティング処理としては、例えば、断面の面積を用いることができる。すなわち、断面の面積Sは、4枚の多視点画像について領域分割を行った結果得られる前景領域(シルエット)を平面上に投影し、その平面上でシルエットの写像が重なった領域の面積として求めることができる。これに、S=πr×rを適用すれば、円の半径rが求まり、また、円の中心は断面領域の重心位置を用いることができる。
図6は、多段円筒モデルに対するプロジェクティブテクスチャマッピングを説明するための模式図である。図6に示すように、3次元モデル作成部23は、推定した多段円筒モデルに、プロジェクティブテクスチャマッピング法(例えば、Everitt.C.,Projective Texture Mapping,NVIDIA SDK White Paper)を用いて既知の4方向から撮影した基準頭部画像をマッピングする。
上記のような円形モデルでは、入力枚数が少ないため、正確な3次元形状の復元が困難である状況において、人間の頭部断面は円形に近い形状をしていることを利用することにより、上述したように、円の当てはめは、少ない枚数の入力画像からでも非常に簡単な処理で求めることができるという利点がある。なお、近似形状モデルは、上記の例に特に限定されず、被写体の形状に応じて種々の変更が可能であり、楕円、四角形、三角形、長円、多角形及びこれらの組み合わせ等の種々の図形を基本パーツとして近似形状モデルを作成することができる。
補間画像作成部24は、CPU3等から構成され、画像記憶部25は、RAM4等から構成される。補間画像作成部24は、基準頭部画像がマッピングされた近似形状モデルを用いて基準頭部画像の撮影角度間の未知の補間角度から見た複数の補間頭部画像を補間画像として作成し、作成した複数の補間頭部画像及び4枚の基準頭部画像を学習サンプル画像群として画像記憶部25に記憶させる。
図7は、補間頭部画像のレンダリング処理を説明するための模式図である。図7に示すように、補間画像作成部24は、仮想カメラを多段円筒モデルの周りに360度回転させながら、レンダリング処理を行って補間頭部画像(例えば、1度刻みで基準頭部画像の撮影角度を除く補間角度から擬似的に撮影された頭部画像)を作成する。このとき、補間画像作成部24は、初期学習用カメラ10a〜10dからの距離に応じてブレンディング処理を行い、滑らかに見え方の変化するマッピング用テクスチャを生成する。上記のブレンディング処理における距離は、実際に撮影したカメラと、CGモデルをレンダリングするために仮想的に配置したカメラとの間の3次元空間中でのユークリッド距離であり、一番近いカメラからのテクスチャを優先的にマッピングすることができる。
固有空間作成部26は、CPU3等から構成され、上記の学習サンプル画像群を画像記憶部25から読み出し、読み出した学習サンプル画像群に対して主成分分析を適用し、顔画像識別に用いられるパラメトリック固有空間を作成する。
図8は、画像の正規化処理を説明するための模式図である。図8に示すように、固有空間作成部26は、前処理として、頭頂点HTを中心とした128×128画素の大きさに画像の正規化を行う。
次に、固有空間作成部26は、画像のラスタスキャンを行い、画素値を要素としたベクトルbxiにし、下記の式(3)に示すようにノルムが1になるようにして明度を正規化する。正規化後、固有空間作成部26は、画像ベクトル集合の平均ベクトルcを求め、下記の式(4)により計算されたベクトルXから下記の式(5)により共分散行列Qを求め、下記の固有方程式(6)を解くことにより、固有値λiの大きい順に固有ベクトルeiを算出する。ここで、Nは追加学習用画像(学習サンプル画像群)の数である。
i=bxi/‖bxi‖ … (3)
X=〔x1−c,x2−c,…,xN−c〕 … (4)
Q=XXT … (5)
λii=Qei … (6)
次に、固有空間作成部26は、累積寄与率により固有空間を表現する次元kを求め、下記の式(7)により各画像を姿勢のパラメータ(例えば、撮影角度)と関連付けて固有空間に投影する。
i=〔e1,e2,…,ekT(xi−c) … (7)
また、画像取得部21は、例えば、ユーザが追加学習用画像取得指令を入力すると、追加学習用カメラ11により撮影された追加学習用画像を取得する。頭部領域抽出部22は、取得された追加学習用画像から頭部領域を切り出して置換頭部画像を作成する。
画像置き換え部27は、CPU3等から構成され、画像記憶部25から学習サンプル画像群を読み出し、複数の補間頭部画像の中から置換頭部画像に最も近い補間頭部画像を置換頭部画像に置き換えることにより学習サンプル画像群を更新し、更新後の学習サンプル画像群を画像記憶部25に記憶させる。
具体的には、画像置き換え部27は、置換頭部画像に対して上記の正規化処理を行った後、上記の固有ベクトルeiと平均ベクトルcとを用いて下記の式(8)により置換頭部画像を、固有空間作成部26が既に作成している固有空間に投影する。ここで、yは置換頭部画像の画素値を要素としたベクトルである。
j=〔e1,e2,…,ekT(yj−c) … (8)
次に、画像置き換え部27は、4台の初期学習用カメラ10a〜10dの配置角度(撮影角度)が既知であることを拘束条件として、置換頭部画像との固有空間中でのユークリッド距離の合計が最小となる角度を探索し、当該角度の補間頭部画像を置換頭部画像に置換する。ここで、初期学習用画像だけでなく、各補間画像も角度情報を持っており、角度情報としては、ある初期学習用画像を0度として、そこからの角度情報が用いられ、原点が共通なので相対的でも絶対的でもある。また、上記の探索は、補間画像の中から新たに追加撮影した画像に最も似ている画像を探索することであり、各補間画像は角度情報を持っているので、探索した結果、角度情報も得ることができる。
その後、固有空間作成部26は、置換頭部画像を含む更新後の学習サンプル画像群を用いて、上記と同様にして固有空間を再構築し、固有空間を更新する。上記の処理は、新たな追加学習用画像が取得される毎に実行され、順次固有空間の更新が行われる。
本実施の形態では、画像取得部21が取得手段の一例に相当し、頭部領域抽出部22が抽出手段の一例に相当し、3次元モデル作成部23がモデル作成手段の一例に相当し、補間画像作成部24及び画像記憶部25が補間手段の一例に相当し、固有空間作成部26が固有空間作成手段の一例に相当し、画像置き換え部27及び画像記憶部25が置き換え手段の一例に相当する。
次に、上記のように構成された固有空間学習装置による固有空間学習処理について説明する。図9は、図3に示す固有空間学習装置による固有空間学習処理を説明するためのフローチャートである。
まず、ユーザが4台の初期学習用カメラ10a〜10dを用いて初期学習用画像を撮影し、初期学習用画像取得指令を入力すると、ステップS1において、画像取得部21は、4台の初期学習用カメラ10a〜10dにより撮影された4枚の初期学習用画像を取得する。次に、ステップS2において、頭部領域抽出部22は、取得された4枚の初期学習用画像から頭部領域を切り出して4枚の基準頭部画像を作成する。次に、3次元モデル作成部23は、ステップS3において、4枚の基準頭部画像を用いて多段円筒モデルを作成し、ステップS4において、作成した多段円筒モデルに4枚の基準頭部画像をマッピングする。
次に、ステップS5において、補間画像作成部24は、仮想カメラを多段円筒モデルの周りに360度回転させながら、補間画像のレンダリング処理を行って補間頭部画像を作成し、作成した複数の補間頭部画像及び4枚の基準頭部画像を学習サンプル画像群として画像記憶部25に記憶させる。
次に、ステップS6において、固有空間作成部26は、学習サンプル画像群を画像記憶部25から読み出し、読み出した学習サンプル画像群に対して主成分分析を適用し、固有空間を作成し、初期学習が終了する。
次に、ユーザが追加学習用カメラ11を用いて追加学習用画像を撮影し、追加学習用画像取得指令を入力すると、ステップS7において、画像取得部21は、追加学習用カメラ11により撮影された追加学習用画像を取得する。次に、ステップS8において、頭部領域抽出部22は、取得された追加学習用画像から頭部領域を切り出して置換頭部画像を作成する。
次に、ステップS9において、画像置き換え部27は、画像記憶部25から学習サンプル画像群を読み出し、固有空間上での距離情報を用いて最近傍探索を行い、複数の補間頭部画像の中から置換頭部画像に最も近い補間頭部画像を検出し、検出した補間頭部画像を置換頭部画像に置き換え、更新後の学習サンプル画像群を画像記憶部25に記憶させる。なお、固有空間上での距離が閾値以上の場合は、置き換えない。具体的には、固有空間中でのユークリッド距離が一定値以上である場合、他人のデータや全く見当違いの方向である可能性が高いため、たとえ最小値であっても置換しない。
次に、ステップS10において、固有空間作成部26は、置換頭部画像を含む更新後の学習サンプル画像群を用いて、上記と同様にして固有空間を再構築して固有空間を更新し、最初の逐次学習が終了する。その後、新たな追加学習用画像が取得される毎に、ステップS7以降の逐次学習処理が実行され、固有空間が逐次更新される。
上記の処理により、本実施の形態では、互いに異なる撮影角度から人間の頭部を撮影した4枚の初期学習用画像が取得され、取得された4枚の初期学習用画像から頭部領域を抽出して4枚の基準頭部画像が作成され、抽出された4枚の基準頭部画像をマッピングさせた多段円筒モデルが作成される。次に、作成された多段円筒モデルを用いて撮影角度間の実際に撮影されていない補間角度から見た356枚の補間頭部画像が作成され、4の基準頭部画像及び356枚の補間頭部画像からなる学習サンプル画像群を用いて固有空間が作成され、固有空間の初期学習が行われる。このように、基準頭部画像がマッピングされた多段円筒モデルから多数の補間頭部画像を作成して固有空間を作成することができるので、少ない入力画像から多くの補間頭部画像を作成して擬似的に撮影方向を増やすことができ、少ない入力画像を用いて人間の顔の特徴を表す固有空間を高精度に学習することができる。
また、新たに頭部を撮影した追加学習用画像が取得された場合、取得された追加学習用画像から頭部領域を抽出して置換頭部画像が作成され、複数の補間頭部画像の中から置換頭部画像に最も近い補間頭部画像が置換頭部画像に置き換えられることにより学習サンプル画像群が更新され、更新された学習サンプル画像群を用いて固有空間が更新され、固有空間の学習が逐次行われる。このように、新たに取得された置換被写体画像が最も近い補間画像と置き換えられた学習サンプル画像群を用いて固有空間が学習されるので、正面から撮影された画像に限定されることなく、任意の方向から撮影された置換頭部画像を追加して固有空間を逐次学習することができる。この結果、人間の顔の特徴を表す固有空間を効率的且つ高精度に学習することができ、この固有空間を用いて顔画像識別を高精度に行うことが可能となる。このように、3次元形状復元技術を用いて少数枚の入力画像の見え方を補間することにより、学習時には獲得されていない方向から撮影された見え方においても、高い精度の識別処理が可能となる。
次に、上記の固有空間学習装置を用いて固有空間を学習した実験結果について説明する。なお、以下の実験では、初期学習用カメラ10a〜10d及び追加学習用カメラ11として、ソニー株式会社製WebカメラSNC−Z20を用い、入力画像の大きさを640×480pixelとし、固有空間の次元は累積寄与率が95%となる22次元とした。
図10は、固有空間の学習の初期状態における学習サンプル画像群の一例を示す図であり、図11は、8枚の置換頭部画像が置換された後の学習サンプル画像群の一例を示す図であり、図12は、16枚の置換頭部画像が置換された後の学習サンプル画像群の一例を示す図であり、図13は、24枚の置換頭部画像が置換された後の学習サンプル画像群の一例を示す図である。なお、図10乃至図13では、360度の学習サンプル画像群のうち90度分の画像を図示しており、特に表記のない画像は補間頭部画像を示している。
図10乃至図13から、初期学習で得られた補間頭部画像が、逐次学習が進行するにつれ、置換頭部画像に順次更新されていることがわかる。このとき、見た目にほぼ変わりないところが置換されており、逐次学習を繰り返すことにより、顔画像の識別能力が向上するものと考えられる。
図14は、多段円筒モデルを用いて作成した固有空間と、その固有空間に実写画像である4枚の基準頭部画像を投影した結果とを示す図である。なお、図14では、結果を見やすくするために、第1主成分乃至第3主成分を主軸とするグラフで固有空間を示している。後述する図15及び図16も同様である。
図14から、多段円筒モデルによる補間頭部画像と、実写画像である基準頭部画像とでは、多少の誤差はあるもののほぼ同じ位置に投影されており、固有空間を高精度に学習できていることがわかる。
図15は、多段円筒モデルを用いて作成した固有空間と、実写画像のみを用いて作成した固有空間とを示す図であり、図16は、実写画像のみを用いて作成した固有空間と、公知のキュービックスプライン関数を用いて実写画像を補間した場合の固有空間とを示す図である。図中の「前」は頭部の前面(正面)を示し、「後」は頭部の後面(背面)を示し、実写画像は、約22.5度間隔で撮影した16枚の画像を用いている。
図15及び図16から、キュービックスプライン関数による補間処理よりも多段円筒モデルを用いた補間処理の方がより実写画像に近い複雑な補間処理がなされていることがわかる。この結果、まばらな入力画像しか与えられていない場合には、これまで固有空間の補間処理に用いられていたキュービックスプライン関数による補間処理よりも、多段円筒モデルを用いた補間処理の方が、識別能力の高い固有空間を生成することができる。
本発明による固有空間学習装置は、種々の用途に用いることができ、例えば、病院で用いた場合、以下のように利用される。初期学習用カメラによる撮影及び初期学習処理として、A病院のエントランスホールにある自動ドアの前において、初めてA病院を訪れる患者Bさんが自動ドアの前に立つが自動ドアは開かない。これは、Bさんの見え方情報がA病院の見え方データベースに登録されていないためである。自動ドアが開くのを待つ間に、エントランスホールの上方四隅に取り付けてある4台の初期学習用カメラがBさんを撮影する。Bさんの画像は、病院内の見え方データベースを管理する計算機へ伝送され、そこで近似3次元形状推定、見え方の補間処理、補間画像を用いた初期固有空間の生成が行われる。これらの一連の処理が終わると、自動ドアが開き、BさんはやっとA病院に入館することができる。
次に、追加学習用カメラによる撮影及び追加学習処理として、A病院の玄関から診察室に通じる廊下には監視カメラが設置され、診察室に移動するBさんを撮影する。このとき、Bさんは、その歩行に一切の制限を受けることなく、自然に歩行することが許されているが、本手法により、撮影画像中から適切な顔領域が切り出され、見え方データベース管理計算機へ伝送される。見え方データベース管理計算機では、伝送された画像と初期学習で生成した補間画像との比較を行い、補間画像を実写画像に置き換えることにより、より識別精度の高い学習データを生成する。これらの一連の処理により、Bさんに意識させることなく、その見え方データベースが更新される。
さらに、Bさんの認識処理として、A病院のBさんが診察を受けるように指示された診察室のドアの前において、ドアの上部に監視カメラが設置され、ドアに近づいてきたBさんを撮影する。Bさんの見え方情報は、廊下を歩いている間に、充分な更新が行われたため、見え方データベース管理計算機は、監視カメラに写ったBさんを認識し、ドアに開錠命令を出す。
なお、上記の説明では、本発明による固有空間学習処理をソフトウエアを用いて行う例を説明したが、固有空間学習装置の一部又は全てを専用のハードウエアを用いて構成してもよく、この場合、より高速に処理を実行することができる。また、被写体として、人間の頭部を用いたが、この例に特に限定されず、頭部以外の部分、他の生物又は機械等の全部又は一部等を被写体として用いてもよい。
また、仮想カメラによる補間の他の方法として、複数の画像上で対応点を検出してその対応点の位置のズレ情報を用いて、中間の見え方を生成する、所謂モーフィングという手法を用いてもよい。また、固有空間中でのユークリッド距離を用いて最近傍点を探索しているが、単純に画像の差分値を比較する処理を用いて類似画像を探索してもよい。
本発明の一実施の形態による固有空間学習装置のハードウエア構成を示すブロック図である。 図1に示す初期学習用カメラの撮影位置及び撮影画像、並びに追加学習用カメラの撮影位置を説明するための模式図である。 図1に示す固有空間学習装置の主要機能ブロック図である。 2次元射影変換を用いた3次元位置の推定処理を説明するための模式図である。 多段円筒モデルの中心及び半径の推定処理を説明するための模式図である。 多段円筒モデルに対するプロジェクティブテクスチャマッピングを説明するための模式図である。 補間頭部画像のレンダリング処理を説明するための模式図である。 画像の正規化処理を説明するための模式図である。 図3に示す固有空間学習装置による固有空間学習処理を説明するためのフローチャートである。 固有空間の学習の初期状態における学習サンプル画像群の一例を示す図である。 8枚の置換頭部画像が置換された後の学習サンプル画像群の一例を示す図である。 16枚の置換頭部画像が置換された後の学習サンプル画像群の一例を示す図である。 24枚の置換頭部画像が置換された後の学習サンプル画像群の一例を示す図である。 多段円筒モデルを用いて作成した固有空間と、その固有空間に実写画像である4枚の基準頭部画像を投影した結果とを示す図である。 多段円筒モデルを用いて作成した固有空間と、実写画像のみを用いて作成した固有空間とを示す図である。 実写画像のみを用いて作成した固有空間と、公知のキュービックスプライン関数を用いて実写画像を補間した場合の固有空間とを示す図である。
符号の説明
21 画像取得部
22 頭部領域抽出部
23 3次元モデル作成部
24 補間画像作成部
25 画像記憶部
26 固有空間作成部
27 画像置き換え部

Claims (7)

  1. 互いに異なる撮影角度から被写体を撮影した複数の初期学習用画像を取得する取得手段と、
    前記複数の初期学習用画像から被写体領域を抽出して複数の基準被写体画像を作成する抽出手段と、
    前記複数の基準被写体画像をマッピングさせた被写体の3次元モデルを作成するモデル作成手段と、
    前記3次元モデルを用いて前記撮影角度間の補間角度から見た複数の補間画像を作成する補間手段と、
    前記複数の基準被写体画像及び前記複数の補間画像からなる学習サンプル画像群を用いて被写体の特徴を表す固有空間を作成する固有空間作成手段とを備え
    前記取得手段は、新たに被写体を撮影した追加学習用画像を取得し、
    前記抽出手段は、前記追加学習用画像から被写体領域を抽出して置換被写体画像を作成し、
    前記複数の補間画像の中から前記置換被写体画像に最も近い補間画像を前記置換被写体画像に置き換えることにより前記学習サンプル画像群を更新する置き換え手段をさらに備え、
    前記固有空間作成手段は、前記置き換え手段により更新された学習サンプル画像群を用いて前記固有空間を更新することを特徴とする固有空間学習装置。
  2. 前記置き換え手段は、前記複数の補間画像の中から前記固有空間における置換被写体画像との距離が最小となる補間画像を置き換えることを特徴とする請求項記載の固有空間学習装置。
  3. 前記モデル作成手段は、前記複数の基準被写体画像を用いて被写体の近似形状モデルを作成し、作成した近似形状モデルに前記基準被写体画像をマッピングすることを特徴とする請求項1〜のいずれかに記載の固有空間学習装置。
  4. 前記被写体は、人間の頭部であり、
    前記基準被写体画像、前記補間画像及び前記置換被写体画像は、人間の頭部領域を表す基準頭部画像、補間頭部画像及び置換頭部画像であり、
    前記固有空間は、顔画像識別に用いられる固有空間であることを特徴とする請求項1〜のいずれかに記載の固有空間学習装置。
  5. 前記モデル作成手段は、前記複数の基準被写体画像を用いて被写体の断面を等間隔で推定し、各断面を円で近似した多段円筒モデルを作成し、作成した多段円筒モデルに前記基準被写体画像をマッピングすることを特徴とする請求項記載の固有空間学習装置。
  6. 互いに異なる撮影角度から被写体を撮影した複数の初期学習用画像を取得する第1のステップと、
    前記複数の初期学習用画像から被写体領域を抽出して複数の基準被写体画像を作成する第2のステップと、
    前記複数の基準被写体画像をマッピングさせた被写体の3次元モデルを作成する第3のステップと、
    前記3次元モデルを用いて前記撮影角度間の補間角度から見た複数の補間画像を作成する第4のステップと、
    前記複数の基準被写体画像及び前記複数の補間画像からなる学習サンプル画像群を用いて被写体の特徴を表す固有空間を作成する第5のステップと
    新たに被写体を撮影した追加学習用画像を取得する第6のステップと、
    前記追加学習用画像から被写体領域を抽出して置換被写体画像を作成する第7のステップと、
    前記複数の補間画像の中から前記置換被写体画像に最も近い補間画像を前記置換被写体画像に置き換えることにより前記学習サンプル画像群を更新する第8のステップと、
    前記第8のステップにおいて更新された学習サンプル画像群を用いて前記固有空間を更新する第9のステップとを含むことを特徴とする固有空間学習方法。
  7. 互いに異なる撮影角度から被写体を撮影した複数の初期学習用画像を取得する取得手段と、
    前記複数の初期学習用画像から被写体領域を抽出して複数の基準被写体画像を作成する抽出手段と、
    前記複数の基準被写体画像をマッピングさせた被写体の3次元モデルを作成するモデル作成手段と、
    前記3次元モデルを用いて前記撮影角度間の補間角度から見た複数の補間画像を作成する補間手段と、
    前記複数の基準被写体画像及び前記複数の補間画像からなる学習サンプル画像群を用いて被写体の特徴を表す固有空間を作成する固有空間作成手段としてコンピュータを機能させ
    前記取得手段は、新たに被写体を撮影した追加学習用画像を取得し、
    前記抽出手段は、前記追加学習用画像から被写体領域を抽出して置換被写体画像を作成し、
    前記複数の補間画像の中から前記置換被写体画像に最も近い補間画像を前記置換被写体画像に置き換えることにより前記学習サンプル画像群を更新する置き換え手段として前記コンピュータをさらに機能させ、
    前記固有空間作成手段は、前記置き換え手段により更新された学習サンプル画像群を用いて前記固有空間を更新することを特徴とする固有空間学習プログラム。
JP2004355921A 2004-12-08 2004-12-08 固有空間学習装置、固有空間学習方法及び固有空間プログラム Expired - Fee Related JP4505616B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004355921A JP4505616B2 (ja) 2004-12-08 2004-12-08 固有空間学習装置、固有空間学習方法及び固有空間プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004355921A JP4505616B2 (ja) 2004-12-08 2004-12-08 固有空間学習装置、固有空間学習方法及び固有空間プログラム

Publications (2)

Publication Number Publication Date
JP2006163950A JP2006163950A (ja) 2006-06-22
JP4505616B2 true JP4505616B2 (ja) 2010-07-21

Family

ID=36665890

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004355921A Expired - Fee Related JP4505616B2 (ja) 2004-12-08 2004-12-08 固有空間学習装置、固有空間学習方法及び固有空間プログラム

Country Status (1)

Country Link
JP (1) JP4505616B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI801936B (zh) * 2020-07-27 2023-05-11 日商威亞視股份有限公司 資訊處理裝置、3d模型生成方法、及程式

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5403779B2 (ja) * 2008-04-24 2014-01-29 パナソニック株式会社 照明システム
JP5248992B2 (ja) * 2008-11-17 2013-07-31 Kddi株式会社 3次元物体モデル情報生成装置及びプログラム
KR101467307B1 (ko) 2013-08-19 2014-12-01 성균관대학교산학협력단 인공 신경망 모델을 이용한 보행자 계수 방법 및 장치
JP6446971B2 (ja) * 2014-10-06 2019-01-09 日本電気株式会社 データ処理装置、データ処理方法、及び、コンピュータ・プログラム
JP7482758B2 (ja) 2020-11-19 2024-05-14 株式会社日立製作所 画像学習装置及び画像学習方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000306095A (ja) * 1999-04-16 2000-11-02 Fujitsu Ltd 画像照合・検索システム
JP2003346158A (ja) * 2002-05-28 2003-12-05 Toshiba Corp 顔画像による顔領域追跡方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000306095A (ja) * 1999-04-16 2000-11-02 Fujitsu Ltd 画像照合・検索システム
JP2003346158A (ja) * 2002-05-28 2003-12-05 Toshiba Corp 顔画像による顔領域追跡方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI801936B (zh) * 2020-07-27 2023-05-11 日商威亞視股份有限公司 資訊處理裝置、3d模型生成方法、及程式

Also Published As

Publication number Publication date
JP2006163950A (ja) 2006-06-22

Similar Documents

Publication Publication Date Title
JP6560480B2 (ja) 画像処理システム、画像処理方法、及びプログラム
CN109727303B (zh) 视频展示方法、系统、计算机设备、存储介质和终端
US8861800B2 (en) Rapid 3D face reconstruction from a 2D image and methods using such rapid 3D face reconstruction
JP4950787B2 (ja) 画像処理装置及びその方法
US10580205B2 (en) 3D model generating system, 3D model generating method, and program
JP4284664B2 (ja) 三次元形状推定システム及び画像生成システム
US7925048B2 (en) Feature point detecting device, feature point detecting method, and feature point detecting program
JP6207210B2 (ja) 情報処理装置およびその方法
JP4321350B2 (ja) パラメタ推定方法、パラメタ推定装置および照合方法
US20150243035A1 (en) Method and device for determining a transformation between an image coordinate system and an object coordinate system associated with an object of interest
JP6196416B1 (ja) 3次元モデル生成システム、3次元モデル生成方法、及びプログラム
JP2006520055A (ja) 2次元画像からの3次元オブジェクトの不変視点検出および識別
CN104123749A (zh) 一种图像处理方法及系统
WO2018075053A1 (en) Object pose based on matching 2.5d depth information to 3d information
US20200057778A1 (en) Depth image pose search with a bootstrapped-created database
CN113628327A (zh) 一种头部三维重建方法及设备
KR101478709B1 (ko) Rgb-d 영상 특징점 추출 및 특징 기술자 생성 방법 및 장치
US11816854B2 (en) Image processing apparatus and image processing method
JP4505616B2 (ja) 固有空間学習装置、固有空間学習方法及び固有空間プログラム
US11417063B2 (en) Determining a three-dimensional representation of a scene
JP2017122993A (ja) 画像処理装置、画像処理方法及びプログラム
JP6717049B2 (ja) 画像解析装置、画像解析方法およびプログラム
KR20200071008A (ko) 2차원 이미지 처리 방법 및 이 방법을 실행하는 디바이스
KR102218095B1 (ko) 인물 및 평면 인식을 이용한 증강 현실 구현 방법 및 위 방법을 위한 명령어들이 저장된 컴퓨터 판독 가능한 저장 매체
WO2022102015A1 (ja) 画像情報取得装置、画像情報取得方法及びコンピュータープログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070131

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091210

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091215

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100125

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100330

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100405

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130514

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140514

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees