JP3940690B2

JP3940690B2 - 画像処理装置及びその方法

Info

Publication number: JP3940690B2
Application number: JP2003082120A
Authority: JP
Inventors: 朗子中島; 淳人牧; 和広福井
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2002-03-25
Filing date: 2003-03-25
Publication date: 2007-07-04
Anticipated expiration: 2023-03-25
Also published as: JP2004005509A

Description

【０００１】
【発明の属する技術分野】
本発明は、一定の照明条件下で撮影された画像から任意の照明条件下で撮影される画像を表すことのできる照明変動画像基底を計算し、照明条件や対象物体の姿勢の変化に対して安定に物体を認識する画像処理装置及びその方法に関するものである。
【０００２】
【従来の技術】
画像による物体認識技術は、セキュリティ向け個人認識やロボットの視覚等の実現には欠くことのできない要素技術の一つである。しかしながら、三次元物体の画像は、その物体の姿勢や照明位置により大きく変動してしまう。照明条件の変化や物体向きの変化に対して安定した認識を行うことは、画像による物体認識において解決すべき重要な問題である。
【０００３】
画像における見え方の違いを利用したビューベースの画像認識の手法には、主にテンプレートマッチング法と部分空間法がある。テンプレートマッチング法とは、テンプレートとよばれる登録物体を表す代表的な画像を予め用意しておき、認識対象が写っている入力画像とテンプレートとの類似度を計算し、類似度が最も高いテンプレートに写っている物体として認識する方法である。
【０００４】
一方、部分空間法では、テンプレートの代わりに部分空間を利用する。登録物体の画像集合から登録物体を表す部分空間を予め求めておき、認識対象が写っている入力画像に対応するベクトル部分空間との類似度から、認識結果を得る。この部分空間法は、登録物体の画像集合の統計的広がりを部分空間で表現することができるため、テンプレートマッチングに比べて比較的画像の変動に強いといえる。以下では、入力と比較するために予め登録しておくテンプレートや部分空間などを辞書と呼ぶことにする。
【０００５】
このような部分空間法の特徴を利用して、照明条件の変化と物体向きの変化を考慮に入れた手法が既に提案されている。
【０００６】
非特許文献１では、照明位置と登録物体の姿勢を変化させた画像集合が多様体で表されることから、多様体を辞書として用いるパラメトリック固有空間法を提案している。
【０００７】
また非特許文献２では、制約相互部分空間法を提案している。この手法では、動画像を用いることにより物体の姿勢変化を考慮し、物体毎の個体差をより良く表すための空間（制約部分空間）に辞書画像や入力画像を射影することにより、照明変化に依存する成分を取り除くことができる。
【０００８】
これらの認識手法を有効に活用するためには、様々な照明・姿勢変化を表すことができる辞書空間が求まっていることが前提となり、予め辞書空間作成用画像を大量に用意する必要がある。しかし照明変化に関しては、次に述べる事実が知られている。
【０００９】
第ｊフレーム目の画像の輝度値を成分にもつベクトルをＩ（ｊ）で表す。
【００１０】
姿勢を固定した物体が任意の方向から照明に照らされた場合の画像Ｉ（ｊ）は、三枚の互いに異なる方向から照らされた画像キャップＩ（ｊ）（ｊ＝１，２，３）の線形和で表される。
【００１１】
線形結合係数を三次元ベクトルａ（ｊ）の要素で表し、輝度値は必ず正の値であることを考慮すると、
【００１２】
【数１】

【００１３】
これを明細書中では、文字入力ができないために前記したように「キャップI」と呼ぶ。以下では、線形和の基底となる画像を「基底画像」と呼び、基底画像をまとめて「照明変動画像基底」と呼ぶことにする。
【００１４】
基底画像の最適な枚数は対象物体の表面反射特性によって若干異なるが、基底画像の考え方を用いれば、三枚〜九枚等という少ない枚数、すなわち、少ない照明位置の変化で任意の照明条件を表すことができる。但し、基底画像を求めるためには、照明条件のみ変化させ対象物体は静止している必要があり、この原理を顔認識等に適用するためには、辞書登録の際にユーザーに完全に静止してもらわなければならず、ユーザーに負担を強いることになる。
【００１５】
もし、ある一定の照明条件の下で固定されたカメラの前で姿勢変化する三次元物体を撮影し、基底画像を様々な姿勢に対して合成することができれば、辞書登録の際に登録対象に静止を強いるという負担を軽減できるだけでなく、照明を変化させさるための特別な設備を使うことも無く、照明と姿勢の変動を含む辞書用画像を用意することができ、前述の認識手法の特徴を生かした、照明や姿勢変動に対して安定な認識を行うことが可能となる。
【００１６】
ここで固定カメラにより一定の照明条件下で運動物体を撮影した場合、物体の姿勢が画像毎に異なるため、各画像中で座標の共通する画素は三次元物体表面の同じ点を表すとは限らない。また、三次元物体表面の同じ点を照らす照明の方向も相対的に変化するため、画像中の三次元物体表面の同じ点を表す画素における輝度も画像毎に異なる。そのため、三次元物体表面の同じ点に対応する画素（これを以下では、「対応点」と呼ぶ）を探索することは困難とされていたが、異なる姿勢をした物体の画像から基底画像を合成するためには対応点探索を避けることはできない。
【００１７】
この点、特許文献１では、画像からの三次元形状復元を目的とした研究において、複数画像間の輝度値に対して幾何輝度拘束が成り立つことを示した。すなわち、幾何輝度拘束を利用すれば対応点問題を解決することが可能になる。
【００１８】
【特許文献１】
特願平１１−６５４０７号公報
【非特許文献１】
村瀬、Ｓ．Ｋ．Ｎａｙａｒ：電子情報通信学会論文誌、Ｊ７７−Ｄ−II：１１，２１７９−２１８７（１９９４）
【非特許文献２】
福井他：電子情報通信学会論文誌、Ｊ８２−Ｄ−II：４，６１３−６２０（１９９９）
【００１９】
【発明が解決しようとする課題】
そこで、本発明は特許文献１記載の発明の如く、複数画像間の輝度値に対して幾何輝度拘束が成り立つことを利用しつつ、一定の照明条件下で様々な姿勢をした物体を固定カメラで撮影して得られた画像から、任意の照明条件下における画像を合成することのできる照明変動画像基底を様々な姿勢に対して計算し、照明変動と姿勢変動に対して安定な認識を行う画像処理装置とその方法を提供する。
【００２０】
【課題を解決するための手段】
請求項１の発明は、固定された撮像装置を用いて一定の基準照明条件下で姿勢変化する対象物体を写した複数の画像を入力する画像入力手段と、前記複数の入力画像の中の一枚の入力画像を基準画像として、前記基準画像と前記他の入力画像とに基づいて、任意の照明条件下で、かつ、前記基準画像に写った対象物体の姿勢に従った画像を生成することができる基底画像を合成する基底画像合成手段と、を有することを特徴とする画像処理装置である。
【００２１】
請求項２の発明は、前記基底画像合成手段は、前記複数の入力画像の中から選択した一枚の入力画像を基準画像に設定する基準画像設定手段と、前記設定した基準画像における前記対象物体の姿勢を基準にして、前記他の入力画像における前記対象物体の姿勢を表す運動パラメータを計算する運動パラメータ計算手段と、前記入力画像間での照明の影響を表す線形結合係数を計算する線形結合係数計算手段と、前記運動パラメータと前記線形結合係数に基づいて、画像間の画素の対応付けを計算する対応付け計算手段と、前記対応付けに基づいて画素を並び替えることにより、前記基準照明条件とは異なる照明条件下で、かつ、前記基準画像における前記対象物体の姿勢に従った画像を生成する画素並び替え手段と、前記画素並び替え画像から、任意照明条件下で、かつ、前記基準画像における前記対象物体の姿勢に従った画像を生成することのできる基底画像を求める基底画像算出手段と、を有することを特徴とする請求項１記載の画像処理装置である。
【００２２】
請求項３の発明は、前記運動パラメータ計算手段は、前記基底画像算出手段において得られた画像間の画素の対応付けを基に運動パラメータを再度計算し、前記対応付け計算手段は、当該再計算された運動パラメータに基づいて、画像間の画素の対応付けを計算することを特徴とする請求項２記載の画像処理装置である。
【００２３】
請求項４の発明は、前記線形結合係数計算手段は、前記基底画像算出手段において得られた画像間の画素の対応付けを基に線形結合係数を再度計算し、前記対応付け計算手段は、当該再計算された線形結合係数に基づいて、画像間の画素の対応付けを計算することを特徴とする請求項２記載の画像処理装置である。
【００２４】
請求項５の発明は、前記基準画像設定手段は、前記設定された基準画像とは異なる入力画像を基準画像に再設定し、前記運動パラメータ計算手段は、前記計算された運動パラメータから前記再設定した基準画像を基準とした運動パラメータに補正し、前記基底画像算出手段は、前記補正した運動パラメータと前記線形結合係数に基づいて、前記基準照明条件とは異なる照明条件下で、かつ、前記再設定した基準画像における対象物体の姿勢に従った基底画像を求めることを特徴とする請求項２記載の画像処理装置である。
【００２５】
請求項６の発明は、前記設定した基準画像、または、前記再設定した基底画像に含まれない対象物体の姿勢における基底画像である補間用基底画像を合成する画像処理装置であって、前記設定した基準画像、または、前記再設定した基準画像に基づいて求めた基底画像に含まれない前記対象物体の姿勢を表す補間用運動パラメータを設定する補間用運動パラメータ設定手段と、前記設定された補間用運動パラメータと前記対象物体の表面の三次元座標から、前記補間用運動パラメータが表す姿勢で前記対象物体を撮影したと推定される画素位置を計算する画素座標計算手段と、を有し、前記基底画像算出手段は、前記推定した画素位置に従って、前記補間用基底画像を求めることを特徴とする請求項２記載の画像処理装置である。
【００２６】
請求項７の発明は、固定された撮像装置を用いて一定の基準照明条件下で複数の姿勢をした対象物体を撮影した画像を入力し、前記複数の入力画像の中の一枚の入力画像を基準画像として、前記基準画像と前記他の入力画像とに基づいて、前記基準照明条件とは異なる照明条件下で、かつ、前記基準画像に写った対象物体の姿勢に従った画像を生成することができる基底画像を合成して、前記合成した基底画像を登録したい対象物体の基底画像として登録する登録手段と、認識したい対象物体の画像と前記登録した対象物体の基底画像とを用いて対象物体同士の類似度を計算する類似度計算手段と、前記計算した類似度から認識したい対象物体を識別する識別手段と、を有することを特徴とする画像処理装置である。
【００２７】
請求項８の発明は、固定された撮像装置を用いて一定の基準照明条件下で複数の姿勢をした対象物体を写した画像を入力する画像入力ステップと、前記複数の入力画像の中の一枚の入力画像を基準画像として、前記基準画像と前記他の入力画像とに基づいて、前記基準照明条件とは異なる照明条件下で、かつ、前記基準画像に写った対象物体の姿勢に従った画像を生成することができる基底画像を合成する基底画像合成ステップと、を有する
ことを特徴とする画像処理方法である。
【００２８】
請求項９の発明は、固定された撮像装置を用いて一定の基準照明条件下で複数の姿勢をした対象物体を写した画像を入力する画像入力機能と、前記複数の入力画像の中の一枚の入力画像を基準画像として、前記基準画像と前記他の入力画像とに基づいて、前記基準照明条件とは異なる照明条件下で、かつ、前記基準画像に写った対象物体の姿勢に従った画像を生成することができる基底画像を合成する基底画像合成機能と、をコンピュータによって実現することを特徴とする画像処理方法のプログラムである。
【００２９】
以上により、本発明は、一定の照明条件下で様々な姿勢をした物体を固定カメラで撮影して得られた画像から、任意の照明条件下における画像を合成することのできる照明変動画像基底を様々な姿勢に対して計算し、照明変動と姿勢変動に対して安定な認識を行うものである。
【００３０】
【発明の実施の形態】
以下、本発明の実施形態について、画面に基づいて説明する。
（１）照明変動画像基底を利用した画像処理装置
図１は、照明変動画像基底を利用した画像処理装置の構成と物体認識処理全体の流れの一例を示す。
【００３１】
図１に示すように、画像処理装置は、画像入力部１、照明変動画像基底合成部１９、辞書空間登録部２０、認識部２３とよりなる。これらの各部の機能は、コンピュータに記憶されたプログラムによって実現できる。
【００３２】
物体認識は大きく分けて辞書登録処理と認識処理の二種類の処理から成る。図１では、前者を点線の矢印で、後者を実線の矢印で示している。そして、予め登録したい物体に対して登録処理を行っておき、認識したい物体を登録物体と比べることによって認識処理が行われる。
（１−１）辞書登録処理
辞書登録処理について、図２に基づいて説明する。
【００３３】
辞書登録処理では、まず画像入力部１において、一定の照明条件下で様々な姿勢をした登録物体を固定カメラで撮影された画像（４フレーム以上）が入力される。図２では、照明０タイプを基準照明条件として、人の顔の４つの姿勢が撮影されている。照明０タイプとは、正面から顔に向かって照明装置の光を当てた状態をいい、以下、この照明装置の位置を変化させて顔に向かって光を当てる状態を、その位置変化に応じて照明１タイプ等の表現を用いる。
【００３４】
また、基準照明条件とは、固定されたカメラと固定された照明装置によって光を当てて、固定されたカメラから撮影された照明タイプをいう。なお、カメラは、静止画像を撮影するものでもよく、また、動画像を撮影して、その動画像の中から一フレームの画像を用いてもよい。
【００３５】
そして、下記の入力画像が撮影される。入力画像１では、照明０タイプにおいて正面向きの顔が撮影されている。入力画像２では、照明０タイプにおいて上向きの顔が撮影されている。入力画像３では、照明０タイプにおいて左向きの顔が撮影されている。入力画像４では、照明０タイプにおいて右向きの顔が撮影されている。以下、これら入力画像１〜４が基準画像となる。
【００３６】
これらの基準画像から、照明変動画像基底合成部１９において、顔の複数の姿勢に対してそれぞれ照明変動画像基底を合成する。
【００３７】
すなわち、下記の基底画像を合成する。照明１〜３タイプにおける正面向きの顔の基底画像から構成された照明変動画像基底（図２における一段目の照明変動画像基底）と、照明１〜３タイプにおける上向きの顔の基底画像から構成された照明変動画像基底（図２における二段目の照明変動画像基底）と、照明１〜３タイプにおける左向きの顔の基底画像から構成された照明変動画像基底（図２における三段目の照明変動画像基底）と、照明１〜３タイプにおける右向きの顔の基底画像から構成された照明変動画像基底（図２における四段目の照明変動画像基底）とを合成する。
【００３８】
辞書空間登録部２０において、認識段階で認識対象物体と比較するために使われる登録物体の辞書部分空間を照明変動画像基底から計算し、辞書部分空間を物体名と共に登録しておく。
【００３９】
なお、登録処理に使われる入力画像は、個々の登録物体毎には一定の照明条件下で撮影されていることが必要であるが、異なる登録物体に対して同一の照明条件である必要はない。
（１−２）認識処理
認識処理では、認識したい対象物体が写っている画像を画像入力部１において入力する。認識部２３において、入力画像と、既に登録してある全ての物体の辞書部分空間との類似度を計算し、類似度が最大となる辞書に対応する物体を認識結果として出力する。このとき、類似度がどの辞書と比べてもそれほど高くない場合は、登録物体とは一致しないという結果を出力する。認識対象を撮影した入力画像は一フレームでも良いが、複数フレーム用いることもできる。その場合、類似度を計算する前に、複数フレームの入力画像集合から入力部分空間を求めればよい。
【００４０】
以下では、照明変動画像基底合成方法、辞書作成方法、認識方法についてそれぞれ詳しく述べる。
（２）照明変動画像基底合成方法
ある照明条件の下で固定されたカメラによって物体が様々な姿勢で撮影された画像がｎ_jフレーム入力された場合を考える。但しｎ_jは４以上の整数である。これらの画像から、複数の姿勢に対してそれぞれ照明変動画像基底を合成する方法を説明する。
【００４１】
図２は、上記したように、対象物体として顔を用い、ｎ_j＝４の入力画像から四種類の顔向き毎に三枚の基底画像が求まった様子を概念的に示す。
【００４２】
図３に照明変動画像基底合成部１９の処理の流れの一例を示す。
（２−１）画像入力ステップ１
画像入力ステップ１において、画像入力部１へ所定の照明条件の下で固定されたカメラによって物体が様々な姿勢で撮影された画像がｎ_jフレーム入力される。
【００４３】
前記したように、図２に示すように基準照明条件として照明０タイプを用いて、顔の４つの向きの入力画像１〜４を入力する。
（２−２）基準画像設定ステップ２
基準画像設定ステップ２において、ｎ_jフレームの中から１フレームを選び、基準画像Ｉ（１）に設定する。例えば、図２に示す入力画像１を基準画像に設定する。
（２−３）特徴点検出ステップ３
特徴点検出ステップ３において、全フレームに共通な特徴点（但し、四点以上）を抽出する。顔画像の場合なら例えば、目尻、口端等にあたる点を用いることができる。
（２−４）運動パラメータ計算ステップ６
運動パラメータ計算ステップ６において、これらの特徴点座標から運動パラメータＭ（ｊ）（ｊ＝１，…ｎ_j）、ｔ（ｊ）（ｊ＝１，…ｎ_j）を求める。ここで、Ｍ（ｊ）は、物体の回転を表す２×３行列、ｔ（ｊ）は画像中における物体の平行移動を表す二次元ベクトルである。これらの運動パラメータは、基準画像の設定を変更した場合にも利用するため、運動パラメータ格納部７に保存しておく。
（２−５）線形結合係数計算ステップ４
一方、線形結合係数計算ステップ４において、特徴点の輝度値から（１）式における線形結合係数ベクトルａ（ｊ）（ｊ＝１，…ｎ_j）を計算する。例えば、検出された特徴点の輝度に対して最小二乗法を適用して計算することができる(特許文献１)。
【００４４】
すなわち、特徴点検出ステップ３において抽出された特徴点の数をｎ_j個とする。第ｊフレームのｉ番目の特徴点における輝度値を第ｉｊ成分にもつｎ_i×ｎ_j行列をＩとする。Ｉに対して特異点分解を行い、Ｉのランクが３であることを利用して、ｎ_j×３行列キャップＩと３×ｎ_j行列ａに分解する。
【００４５】
すなわち、
【００４６】
【数２】

【００４７】
となる。このときに得られる行列ａの各列ベクトルが線形結合係数ベクトルａ（ｊ）（ｊ＝１，２，…ｎ_j）となっている。
【００４８】
この値は、基準画像の設定を変更した場合にも、そのまま利用するため、線形結合係数格納部５に保存しておく。
（２−６）対応点探索ステップ１０
次に、対応点探索ステップ１０において対応点探索を行う。基準画像のｉ番目の画素をｘ_i（１）とする。ここで括弧の中の１は基準画像を意味する。この画素ｘ_i（１）に対応した三次元物体表面上の点をＸ_iとする。Ｘ_iに対応するｊフレーム目の画素座標をｘ_i（ｊ）で表す。ここで、ｘ_i（ｊ）（ｊ＝１，…ｎ_j）は画像中の座標を表す二次元ベクトル、Ｘ_iは点の三次元位置を表す三次元ベクトルである。
【００４９】
Ｘ_iのＸ，Ｙ座標がｘ_i（１）のｘ，ｙ座標と一致するように座標系を選択するものとし、奥行きを表すＺ座標をＺ_iとする。正しいＺ_iの値は未知なので、まずＺ_iを適当な値に設定する。この時、線形結合係数計算ステップ４で得られた運動パラメータＭ（ｊ），ｔ（ｊ）からＸ_iに対応するｊフレーム目の画素座標ｘ_i（ｊ）は、
【００５０】
【数３】

【００５１】
で計算できる。従って、ｊフレーム目の対応点における輝度Ｉ_i（ｊ）は、Ｚ_iの設定値に応じてｘ_i（ｊ）における輝度値として仮定することができる。すなわち、
【００５２】
【数４】

【００５３】
となる。このようにして得られる輝度の観測値Ｉ_i（ｊ）（ｊ＝１，…ｎ_j）と運動パラメータ計算ステップ６で得られたパラメータａ（ｊ）を
【００５４】
【数５】

【００５５】
により計算する。なお、推定値を表すときに文字の頭に「＾（ハット）」を付する。
【００５６】
奥行きＺ_iの値が正しい場合、誤差Ｅ_iはゼロになるはずである。この拘束条件、すなわち、Ｅ_i＝０が前述の特許文献１記載の説明によって導出された幾何輝度拘束と呼ばれるものである。ここで実画像には雑音が含まれるため、正しい奥行きＺ_iの値に対しても誤差Ｅ_iは完全にゼロにはならない。
【００５７】
そこで、奥行きＺ_iの値を変化させながら、その都度上記と同様に式（２）〜（６）より誤差Ｅ_iを計算し、Ｅ_iを最小にするＺ_iを探索する。その最小にしたＺ_iから式（２）により求まる画素座標ｘ_i（ｊ）（ｊ＝２，…ｎ_j）が、ｊフレーム目の画像における正しい対応点となる。この対応点探索を基準画像の全画素ｘ_i（１）に対して行う。
【００５８】
図４に対応付けの様子を概念的に示す。図４において、基準フレームＩ_i（１）のある点に対して、他フレームの対応点は式（２）で表されるエピポーラ線上に存在する。ここで適切な奥行きＺを仮定することにより、輝度拘束を満たすような対応付けを探索する。
（２−７）輝度並べ替えステップ１１
輝度並べ替えステップ１１において、対応付けされた画素座標における輝度Ｉ_i（ｊ）（ｊ＝１，…ｎ_j）を基準画像の画素位置ｘ_i（１）に従って並び替えることにより、基準画像におけるのと同じ姿勢をした物体の画像を得ることができる。
（２−８）主成分分析ステップ１２
こうして得られた画像と基準画像に対して、主成分分析ステップ１２において主成分分析を行えば、その固有ベクトルとして基底画像が得られる。この得られた基底画像が、図２の一段目の照明変動画像基底である。より厳密に物体の影などを考慮して基底画像を求めたい場合は、主成分分析のかわりに Georghiades らが提案した手法などを用いることもできる(文献４：A. S.Georghiades, P. N. Belhumeur, and D. J. Kriegman:IEEE Transactions Pattern Analysis and Machine Intelligence, Vol.23, No.6, 643-659 (2001) )。具体的には主成分分析の手法によれば、影を雑音として扱うが、文献４記載の手法では、影となる画素を取り除いて繰り返し計算を行うことにより基底画像を求める。
こうして得られた基底画像は基底画像格納部１３に保存しておく。
【００５９】
ここで、初期条件が不十分な場合でも精度良く基底画像を合成する改善手法（繰り返し計算方法）について述べる。前述のとおり、運動パラメータと線形結合係数は、特徴点検出ステップ３で得られる特徴点から運動パラメータ計算ステップ６と線形結合係数計算ステップ４で計算し、それを基に対応点探索が行われる。従って、得られる対応付けの精度は運動パラメータと線形結合係数の精度の影響を受け、運動パラメータや線形結合係数を精度良く求めることができなければ、対応点を精度良く探索することができない。
【００６０】
しかし、必ずしもこれらのパラメータを計算するために十分な情報を含む特徴点が特徴点検出ステップ３で検出されるとは限らない。特に、特徴点の数が多い場合はある程度精度良くパラメータが求まるが、特徴点の数が少ない場合は精度の低下が顕著である。このように、対応付けのための初期条件が不十分な場合でも、図３の破線によって示されるような対応付け結果のフィードバックを行い、運動パラメータと線形結合係数の計算と対応付けを繰り返し行うことにより、最終的に精度良く対応付けを行うことができる。以下では、その方法について述べる。
【００６１】
まず、前述の手法(図３の実線)に従って、図３の画像入力から対応点探索までを一通り行う。この一回目の対応点探索で得られた対応点座標を、運動パラメータ計算ステップ６にあらためて入力し（図３の中央左側の破線）、これらの対応点の座標から運動パラメータを計算し直す。この時、対応点探索を行った全ての対応点座標を利用してもよいが、閾値を設定したり、RANSAC(文献５：M. A. Fischler and R.C. Bolles: Graphics and Image Processing, Vol.24, No. 6, 381-395 (1981) )などの手法により誤差の大きな座標を除いて利用することもできる。ここでRANSACとは、まず、全データの中からランダムに選ばれたデータ集合を用いてパラメータを求め、そのパラメータを基に残りのデータの誤差を計算し、誤差が大きいものは取り除く。以上を繰り返し、取り除かれたデータの数が最も少なかった場合のデータを最終的に整合性の高いデータとみなすデータ選択の一手法である。この結果得られた運動パラメータ格納部７に保存されている運動パラメータは更新される。そして更新された運動パラメータを用いて再度対応点を探索する。
【００６２】
一方、一回目の対応点探索で得られた対応点における輝度を、線形結合係数計算ステップ４にあらためて入力し（図３の右側の破線）、これらの対応点における輝度の情報から線形結合係数を計算し直す。この場合も運動パラメータの繰り返し計算と同様に、対応点探索を行った全ての対応点座標を利用してもよいが、閾値を設定したり、RANSACなどの手法により誤差の大きな座標を除いて利用することもできる。こうして得られた線形結合係数格納部５に保存されている線形結合係数は更新される。そして更新された線形結合係数を用いて再度対応点探索を行なう。
【００６３】
これらの運動パラメータと線形結合係数の計算のやり直し（再計算）は、それぞれ独立に行うことができる。運動パラメータと線形結合係数を共に更新してもよいし、運動パラメータは更新しないで、線形結合係数のみ更新することもできる。また、その逆でもよい。こうしてフィードバック演算を行なうことにより、更新したパラメータと係数に基づいて、対応点探索を再度行うことができる。
【００６４】
これらの処理を繰り返し行うことによって、対応点探索の精度を上げることができる。繰り返しを行う回数は、経験的に決めることもできるし、式(６)で示す輝度の誤差Ｅ_iをiについて足し合わせたものが、閾値より小さくなるまで繰り返しを行うこともできる。
（３）複数の姿勢に対する照明変動画像基底合成方法
複数の姿勢に対してそれぞれ照明変動画像基底を求めるためには、基準画像の設定を変更し、対応点探索を行えばよい。すなわち、図２において、上記の（２）欄では、入力画像１を基準画像として一段目の照明変動画像基底を求めたが、この（３）欄では入力画像２〜４を基準画像として、二段目から四段目の照明変動画像基底を求める。照明変動画像基底合成部１９における基準画像変更後の処理の流れの一例を図３の点線の矢印で示す。
（３−１）基準画像変更ステップ８
まず、基準画像変更ステップ８において、今まで用いていた基準画像とは物体の向きの異なる画像を入力画像の中から選び基準画像に設定し直す。例えば、図２における入力画像２を基準画像を設定する。
（３−２）運動パラメータ補正ステップ９
運動パラメータ格納部７に格納してある動きパラメータを呼び出す。このパラメータを求める際に基準画像として設定された画像における姿勢からの相対的な運動を表すため、運動パラメータ補正ステップ９において現在設定されている基準画像を基準とした動きパラメータに補正する。
（３−３）対応点探索ステップ１０、輝度並べ替えステップ１１
また、線形結合係数格納部５に格納してある線形結合係数を呼び出す。これらのパラメータを用いて、前の基準画像（入力画像１）の場合と同様に、対応点探索ステップ１０において対応点探索を行い、輝度並べ替えステップ１１において輝度並べ替えを行うことによって現在の基準画像（入力画像２）と同じ姿勢の物体画像を得ることができる。
（３−４）主成分分析ステップ１２、基底画像格納部１３
得られた画像と基準画像に対して主成分分析ステップ１２において主成分分析を行えば、その固有ベクトルとして基底画像が得られる。得られた基底画像は基底画像格納部１３に保存しておく。
【００６５】
以上の処理（図３の点線矢印で示される処理）を繰り返すことにより、入力画像２〜４に含まれる複数の姿勢に対してそれぞれ照明変動画像基底を合成することができる。
（４）姿勢補間による照明変動画像基底合成方法
上記の方法では、入力画像に含まれる姿勢に対しては基底画像を得ることができたが、入力画像に含まれない姿勢に対しては基底画像を得ることができない。すなわち、図２では、顔の向きが正面、上向き、左向き、右向きであるが、これ以外の向きの基底画像を得ることができない。
【００６６】
そこで以下では、上記の方法で合成される照明変動画像基底が表す物体の姿勢とは異なる姿勢に対する基底画像（以下、補間用基底画像という）を合成する方法について述べる。
【００６７】
図５に、姿勢補間による照明変動画像基底合成処理の流れの一例を示す。
（４−１）三次元座標格納部２７
予め、前述の幾何輝度拘束を用いて照明変動画像基底を計算する際に対応付けされ、正しいＺ_iの求まっている画像中の各点の三次元座標Ｘ_iを保存しておく必要がある。但し、選択された基準画像によって、座標系が異なるため、例えば、はじめに選択した基準画像（以下、第１基準画像という）での三次元座標系に全て統一することにする。
【００６８】
まず、第１基準画像で対応付けを行った画像中各点の三次元座標Ｘ_iを全て保存しておく。基準画像の設定を変更した後は、対応点探索を行って得られる三次元座標を、統一した三次元座標に変換する。変換した座標が既に保存してあるＸ_iと一致しなければ、その点の三次元座標も保存しておく。この処理を対応点が求まる度に行うことによって、対象物体表面上の点の三次元座標Ｘ_iを密に三次元座標格納部２７に保存する。
【００６９】
一般に、複数の方向から見た物体の表面形状を表す三次元座標はそれぞれ雑音を含んでいるため、それぞれの形状データを統一した三次元座標に変換してもぴったりと重ならない。そのような場合に、複数の形状データを合わせ込み、滑らかに表面形状を計算する手法が既に多数提案されている(例えば、文献６：M. D. Wheeler, Y. Sato, and K. Ikeuchi: Proc. 6th International Conference on Computer Vision, 917-924 (1998) )。このような手法を利用して、異なる基準画像から得られるそれぞれの三次元座標を合わせ込み、得られる三次元座標を三次元座標格納部２７に保存してもよい。
（４−２）補間用運動パラメータ設定ステップ２８
補間用運動パラメータ設定ステップ２８において、補間用運動パラメータＭ（ｊ_new），ｔ（ｊ_new）を設定する。
【００７０】
但し、補間用運動パラメータは、前述の幾何輝度拘束を用いた方法で合成される照明変動画像基底が表す物体の姿勢とは、異なる姿勢を表すように設定する。（４−３）画素座標計算ステップ２９
画素座標計算ステップ２９において、この補間用運動パラメータと三次元座標格納部２７において保存してある三次元座標Ｘ_iを用いて、式（２）より、求めたい姿勢における画素座標ｘ_i（ｊ_new）を求める。
【００７１】
また、画素座標計算ステップ２９において、運動パラメータ格納部７に保存された運動パラメータＭ（ｊ），ｔ（ｊ）と三次元座標格納部２７に保存された三次元座標Ｘ_iを用いて、ｊフレーム目の入力画像における対応点の画素座標ｘ_i（ｊ）を式（２）より求める。
（４−４）輝度並べ替えステップ１１
輝度並べ替えステップ１１において、その画素座標ｘ_i（ｊ）における輝度I_i（ｊ）を、画素座標ｘ_i（ｊ_new）に従って並べ替えれば、求めたい姿勢における画像をｎ_iフレーム合成することができる。
（４−５）主成分分析ステップ１２
主成分分析ステップ１２において、得られたｎ_iフレームに主成分分析を施せば、固有ベクトルから求めたい姿勢に対する補間用基底画像を得ることができる。最後に、得られた補間用基底画像を基底画像格納部１３に保存する。このように姿勢補間を行えば、入力画像に含まれない任意の姿勢に対して補間用基底画像を得ることができ、姿勢変化のバリエーションをより充実させることができる。
【００７２】
また、入力画像に含まれる姿勢でも、前述の幾何輝度拘束を利用する方法で全ての姿勢に対して照明変動画像基底を求める必要はなく、まばらに求めておいて、上述の姿勢補間によって照明変動画像基底を求めることもできる。
【００７３】
なお、入力画像として対象物体の重心の位置が常に同じ画素座標にあるような画像を用いる場合、照明変動基底画像を合成する際に必要となる運動パラメータのうち並進運動を表すｔ（ｊ）は全てのｊに対してゼロとなるため省略することができ、回転運動を表すＭ（ｊ）のみ考えればよい。
（５）照明変動画像基底の利用例
照明変動画像基底が求まれば、式（１）に示されるように、結合係数を変えるだけで様々な照明条件下での画像を合成することができる。
【００７４】
従って、本発明における照明変動画像基底の合成法は、物体認識の辞書作成に利用が限定されるものではない。例えば、ウェブ美術館、ネットショッピング、電子カタログ、アミューズメント応用などに利用すれば、ユーザーの要求に応じて、限られた画像から物体の様々な姿勢や照明条件下での見え方を表示することができる。また、ShashuaとRiklin-Raviv(文献7:"The quotient image:Class-based re-rendering and recognition with varying illuminations",IEEE Transactions Pattern Analysis and Machine Intelligence,2001,vol.23,No.2,pp.129-139.)に示されているような画像のレンダリングの前処理等にも利用することができる。
【００７５】
照明変動画像基底を物体認識に利用する場合、従来技術で述べたようなテンプレートマッチングや部分空間法といった様々な認識手法を適用することができる。以下では、認識方法として前述の非特許文献２によって提案された制約相互空間法を取り上げ、辞書空間を作成し類似度を求める方法について詳しく述べる。（６）辞書空間作成の方法
辞書空間登録部２０において、図６に辞書空間作成処理の流れの一例を示す。（６−１）基底画像格納部１３
基底画像格納部１３に保存してある、登録したい物体ｋの様々な姿勢での照明変動画像基底は、各姿勢ｊにおける任意の照明変動を含む部分空間の基底になっている。各姿勢における任意の照明変動を含む部分空間をＳ（ｋ）_j（ｊ＝１，…ｎ_j）で表す。
（６−２）共通部分空間計算ステップ１４
照明変動空間の共通部分空間計算ステップ１４において、Ｓ（ｋ）_j（ｊ＝１，…ｎ_j）の共通部分空間Ｓ（ｋ）を、文献８（福井他：電子情報通信学会論文誌、Ｊ８２−Ｄ−II：４、６１３−６２０（１９９９））に従って作成する。このような共通部分空間を登録したい物体（１，…ｎ_k）それぞれに対して作成する。
（６−３）制約部分空間計算ステップ１５
制約部分空間計算ステップ１５において、これらＳ（ｋ）（ｋ＝１，…ｎ_k）から制約部分空間を作成する。制約部分空間の作成法は、前述の非特許文献２や文献９（特願平１０−１９９１２３号公報）に詳しい。作成した制約部分空間は類似度を計算する際にも用いるため、制約部分空間格納部１８に保存しておく。（６−４）辞書空間計算ステップ１６
辞書空間計算ステップ１６において、制約部分空間にＳ（ｋ）を射影し、これを辞書空間として制約部分空間格納部１７に登録する。またＳ_j（ｊ＝１，…ｎ_j）の共通部分空間の代わりに、Ｓ（ｋ）（ｊ＝１，…ｎ_j）の和空間を作成してもよい。
（７）類似度の計算方法
以上のように得られる辞書空間と制約部分空間を利用して、認識部２３において類似度を計算する処理の流れの一例を図７に示す。
（７−１）画像入力ステップ１
画像入力部１において、認識したい物体の動画像が入力される。
（７−２）入力空間計算ステップ２２
入力空間計算ステップ２２において、入力動画像に対して主成分分析を行い、得られる固有ベクトルで張られる部分空間を入力画像部分空間とする。
（７−３）制約部分空間への射影ステップ２４
制約部分空間への射影ステップ２４において、この入力画像空間を、照明変動画像基底を利用して作成された制約部分空間に射影することにより、照明による変動を取り除き、認識対象物体の特徴が強調されるような空間を作成することができる。
（７−４）類似度計算ステップ２５
類似度計算ステップ２５において、この空間と、既に登録されている物体の辞書空間との類似度を計算する。類似度としては、空間同士の近さの尺度の一つである正準角ｃｏｓ（θ）を用いることができる。正準角の計算方法は前述の文献２や文献１０（シャトラン著「行列の固有値」シュプリンガー・フェエアラーク東京（１９９３））に詳しい。類似度は登録されている全ての物体の辞書空間に対して計算する。
（７−５）認識結果出力ステップ２６
認識結果出力ステップ２６において、最も大きな類似度をもつ登録物体が認識結果として出力される。また、類似度の閾値を設定し、どの登録物体との類似度も閾値より低い場合は、認識対象物体は登録されていないという結果を出力することもできる。
（８）物体認識の利用例
本発明は任意の三次元物体に対して有効である。認識対象物体として顔を扱った場合は、セキュリティ用の個人認証だけでなく、ロボットの視覚として用いれば、発話者が持ち主だと認識された場合のみ命令に従ったり、近寄っていく等、ロボットの行動制御に利用することもできる。また、物体認識の手法は、画像中に目的の物体が写っているかいないかを判断し、物体領域の切り出し等にも利用することができる。
【００７６】
なお、本発明における物体認識の手法は、向き認識にも適用可能である。照明変動基底画像格納部１３において、照明変動画像基底を計算する際に用いた運動パラメータも保存しておき、辞書空間を運動パラメータ毎に作成すれば、その辞書空間と入力画像との類似度が最大となる運動パラメータが対象物体の向きの推定値として得ることができる。
【００７７】
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
【００７８】
【発明の効果】
以上述べてきたように、本発明によれば、ある限られた照明条件下で撮影された様々な姿勢をした物体の画像から、複数の姿勢に対して、任意の照明を照らして撮影されたような物体の画像を合成することのできる、照明変動画像基底を計算することができる。
【００７９】
従って、画像を撮影する際に、照明を変化させたり、物体を固定したりする特別な設備等を必要とせず、固定されたカメラの前で物体が動くだけで、照明と姿勢の様々なバリエーションを表すことのできる画像を合成することができる。また、照明変動画像基底を用いて物体認識用辞書を作成すれば、照明変動と姿勢変動に対して安定な物体認識を行うことができるようになる。
【図面の簡単な説明】
【図１】本発明の実施形態の画像処理装置の構成図である。
【図２】入力画像と照明変動画像基底の関係を示す図である。
【図３】照明変動画像基底合成処理の流れを示す図である。
【図４】画像間の対応付けの概念図である。
【図５】姿勢補間による照明変動画像基底合成処理の流れを示す図である。
【図６】照明変動画像基底を用いた辞書登録処理の流れを示す図である。
【図７】制約相互部分空間法による認識処理の流れを示す図である。
【符号の説明】
１画像入力部
５線形結合係数格納部
７運動パラメータ格納部
３基準画像格納部
１７辞書空間格納部
１８制約部分空間格納部
１９照明変動画像基底合成部
２０辞書空間登録部
２３認識部

Claims

固定された撮像装置を用いて一定の基準照明条件下で姿勢変化する対象物体を写した複数の画像を入力する画像入力手段と、
前記複数の入力画像の中から複数の基準画像を選択する基準画像選択手段と、
前記複数の基準画像の各々について、前記各基準画像における前記対象物体の姿勢を基準にして、前記複数の入力画像の中の他の入力画像における前記対象物体の姿勢を表す運動パラメータを計算する運動パラメータ計算手段と、
前記複数の入力画像間での照明の影響を表す線形結合係数を計算する線形結合係数計算手段と、
前記複数の基準画像の各々について、前記運動パラメータと前記線形結合係数に基づいて、前記基準照明条件とは異なる照明条件下で、かつ、前記各基準画像における前記対象物体の姿勢に従った基底画像を求める基底画像算出手段と、
前記運動パラメータと前記線形結合係数に基づいて、画像間の画素の対応付けを計算する対応付け計算手段と、
前記複数の基準画像の各々について、前記対応付けに基づいて画素を並び替えることにより、前記基準照明条件とは異なる照明条件下で、かつ、前記各基準画像における前記対象物体の姿勢に従った画像を生成する画素並び替え手段と、
前記複数の基準画像の各々について、前記画素並び替え画像から、任意照明条件下で、かつ、前記各基準画像における前記対象物体の姿勢に従った画像を生成することのできる基底画像を求める基底画像算出手段と、
前記複数の基準画像のいずれとも異なる姿勢をした前記対象物体の姿勢を表す補間用運動パラメータを設定する補間用運動パラメータ設定手段と、
前記設定された補間用運動パラメータと前記対象物体の表面の三次元座標から、前記補間用運動パラメータが表す姿勢で前記対象物体を撮影したと推定される画素位置を計算する画素座標計算手段と、
を有し、
前記基底画像算出手段は、前記推定した画素位置に従って、前記複数の基準画像のいずれとも異なる姿勢の前記対象物体の基底画像をも求める
ことを特徴とする画像処理装置。
前記運動パラメータ計算手段は、前記基底画像算出手段において得られた画像間の画素の対応付けを基に運動パラメータを再度計算し、
前記対応付け計算手段は、当該再計算された運動パラメータに基づいて、画像間の画素の対応付けを計算する
ことを特徴とする請求項１記載の画像処理装置。
前記線形結合係数計算手段は、前記基底画像算出手段において得られた画像間の画素の対応付けを基に線形結合係数を再度計算し、
前記対応付け計算手段は、当該再計算された線形結合係数に基づいて、画像間の画素の対応付けを計算する
ことを特徴とする請求項１記載の画像処理装置。
登録したい対象物体の基底画像を合成するために、請求項１から請求項３までのいずれかに記載された画像処理装置を備える基底画像合成手段と登録したい対象物体の、
前記基底画像合成手段で合成された基底画像を登録したい対象物体の基底画像として登録する登録手段と、
認識したい対象物体の画像と前記登録した対象物体の基底画像とを用いて対象物体同士の類似度を計算する類似度計算手段と、
前記計算した類似度から認識したい対象物体を識別する識別手段と、
を有することを特徴とする画像処理装置。
固定された撮像装置を用いて一定の基準照明条件下で姿勢変化する対象物体を写した複数の画像を入力する画像入力ステップと、
前記複数の入力画像の中から複数の基準画像を選択する基準画像選択ステップと、
前記複数の基準画像の各々について、前記各基準画像における前記対象物体の姿勢を基準にして、前記複数の入力画像の中の他の入力画像における前記対象物体の姿勢を表す運動パラメータを計算する運動パラメータ計算ステップと、
前記複数の入力画像間での照明の影響を表す線形結合係数を計算する線形結合係数計算ステップと、
前記複数の基準画像の各々について、前記運動パラメータと前記線形結合係数に基づいて、前記基準照明条件とは異なる照明条件下で、かつ、前記各基準画像における前記対象物体の姿勢に従った基底画像を求める基底画像算出ステップと、
前記運動パラメータと前記線形結合係数に基づいて、画像間の画素の対応付けを計算する対応付け計算ステップと、
前記複数の基準画像の各々について、前記対応付けに基づいて画素を並び替えることにより、前記基準照明条件とは異なる照明条件下で、かつ、前記各基準画像における前記対象物体の姿勢に従った画像を生成する画素並び替えステップと、
前記複数の基準画像の各々について、前記画素並び替え画像から、任意照明条件下で、かつ、前記各基準画像における前記対象物体の姿勢に従った画像を生成することのできる基底画像を求める基底画像算出ステップと、
前記複数の基準画像のいずれとも異なる姿勢をした前記対象物体の姿勢を表す補間用運動パラメータを設定する補間用運動パラメータ設定ステップと、
前記設定された補間用運動パラメータと前記対象物体の表面の三次元座標から、前記補間用運動パラメータが表す姿勢で前記対象物体を撮影したと推定される画素位置を計算する画素座標計算ステップと、
を有し、
前記基底画像算出ステップでは、前記推定した画素位置に従って、前記複数の基準画像のいずれとも異なる姿勢における前記対象物体の基底画像をも求める、
ことを特徴とする画像処理方法。
前記運動パラメータ計算ステップでは、前記基底画像算出手段において得られた画像間の画素の対応付けを基に運動パラメータを再度計算し、
前記対応付け計算ステップでは、当該再計算された運動パラメータに基づいて、画像間の画素の対応付けを計算する
ことを特徴とする請求項５記載の画像処理方法。
前記線形結合係数計算ステップでは、前記基底画像算出手段において得られた画像間の画素の対応付けを基に線形結合係数を再度計算し、
前記対応付け計算ステップでは、当該再計算された線形結合係数に基づいて、画像間の画素の対応付けを計算する
ことを特徴とする請求項５記載の画像処理方法。
請求項５から請求項７までのいずれか一項に記載された画像処理方法を用いて、登録したい対象物体の基底画像を合成する基底画像合成ステップと、
前記基底画像合成ステップで合成された基底画像を前記登録したい対象物体の基底画像として登録する登録ステップと、
認識したい対象物体の画像と前記登録した対象物体の基底画像とを用いて対象物体同士の類似度を計算する類似度計算ステップと、
前記計算した類似度から認識したい対象物体を識別する識別ステップと、
を有することを特徴とする画像処理方法。
コンピュータに、
固定された撮像装置を用いて一定の基準照明条件下で姿勢変化する対象物体を写した複数の画像を入力する画像入力ステップと、
前記複数の入力画像の中から複数の基準画像を選択する基準画像選択ステップと、
前記複数の基準画像の各々について、前記各基準画像における前記対象物体の姿勢を基準にして、前記複数の入力画像の中の他の入力画像における前記対象物体の姿勢を表す運動パラメータを計算する運動パラメータ計算ステップと、
前記複数の入力画像間での照明の影響を表す線形結合係数を計算する線形結合係数計算ステップと、
前記複数の基準画像の各々について、前記運動パラメータと前記線形結合係数に基づいて、前記基準照明条件とは異なる照明条件下で、かつ、前記各基準画像における前記対象物体の姿勢に従った基底画像を求める基底画像算出ステップと、
前記運動パラメータと前記線形結合係数に基づいて、画像間の画素の対応付けを計算する対応付け計算ステップと、
前記複数の基準画像の各々について、前記対応付けに基づいて画素を並び替えることにより、前記基準照明条件とは異なる照明条件下で、かつ、前記各基準画像における前記対象物体の姿勢に従った画像を生成する画素並び替えステップと、
前記複数の基準画像の各々について、前記画素並び替え画像から、任意照明条件下で、かつ、前記各基準画像における前記対象物体の姿勢に従った画像を生成することのできる基底画像を求める基底画像算出ステップと、
前記複数の基準画像のいずれとも異なる姿勢をした前記対象物体の姿勢を表す補間用運動パラメータを設定する補間用運動パラメータ設定ステップと、
前記設定された補間用運動パラメータと前記対象物体の表面の三次元座標から、前記補間用運動パラメータが表す姿勢で前記対象物体を撮影したと推定される画素位置を計算する画素座標計算ステップと、
を実行させ、
前記基底画像算出ステップでは、前記推定した画素位置に従って、前記複数の基準画像のいずれとも異なる姿勢における前記対象物体の基底画像をも求める、
ことを特徴とするプログラム。
前記運動パラメータ計算ステップでは、前記基底画像算出手段において得られた画像間の画素の対応付けを基に運動パラメータを再度計算し、
前記対応付け計算ステップでは、当該再計算された運動パラメータに基づいて、画像間の画素の対応付けを計算する
ことを特徴とする請求項９記載のプログラム。
前記線形結合係数計算ステップでは、前記基底画像算出手段において得られた画像間の画素の対応付けを基に線形結合係数を再度計算し、
前記対応付け計算ステップでは、当該再計算された線形結合係数に基づいて、画像間の画素の対応付けを計算する
ことを特徴とする請求項９記載のプログラム。
コンピュータに、
請求項９から請求項１１までのいずれか一項に記載されたプログラムを実行して、登録したい対象物体の基底画像を合成する基底画像合成ステップと、
前記基底画像合成ステップで合成された基底画像を登録したい対象物体の基底画像として登録する登録ステップと、
認識したい対象物体の画像と前記登録した対象物体の基底画像とを用いて対象物体同士の類似度を計算する類似度計算ステップと、
前記計算した類似度から認識したい対象物体を識別する識別ステップと、
を実行させるためのプログラム。