JP2005530278A - ポーズ角度を推定するためのシステムおよび方法 - Google Patents

ポーズ角度を推定するためのシステムおよび方法 Download PDF

Info

Publication number
JP2005530278A
JP2005530278A JP2004516128A JP2004516128A JP2005530278A JP 2005530278 A JP2005530278 A JP 2005530278A JP 2004516128 A JP2004516128 A JP 2004516128A JP 2004516128 A JP2004516128 A JP 2004516128A JP 2005530278 A JP2005530278 A JP 2005530278A
Authority
JP
Japan
Prior art keywords
input image
pose
image
subject
training images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004516128A
Other languages
English (en)
Other versions
JP4469275B2 (ja
Inventor
マウスタファ・モハメド・ナブル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Idemia Identity and Security USA LLC
Original Assignee
Identix Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Identix Inc filed Critical Identix Inc
Publication of JP2005530278A publication Critical patent/JP2005530278A/ja
Application granted granted Critical
Publication of JP4469275B2 publication Critical patent/JP4469275B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2137Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on criteria of topology preservation, e.g. multidimensional scaling or self-organising maps
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/242Aligning, centring, orientation detection or correction of the image by image rotation, e.g. by 90 degrees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/164Detection; Localisation; Normalisation using holistic features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

【解決手段】 入力画像(400,500)の中の被写体のポーズ角度を決定するためのシステムおよび方法が開示される。好ましい一実施形態において、本システムは、プロトタイプ投影部(401,501)と、回帰推定部(450,550)と、角度計算部(470,570)と、を有するポーズ推定器(107,507)を備える。プロトタイプ投影部は、画像の入力画素を自己組織化マップ(SOM)ニューラルネットワーク上に投影させ、入力画像の次元数を低減させることによって、より高速な処理を可能にするように構成されることが好ましい。回帰推定部は、ニューラルネットワークとして実装されると共に、各ポーズに固有なパターンに投影をマッピングするように構成されることが好ましい。角度計算部は、曲線適合部(471,571)と、誤差分析部(472,572)と、を含むことが好ましい。曲線適合部は、マッピングパターンからポーズ角度を推定するように構成されることが好ましい。誤差分析部は、計算されたポーズのときに入力画像が顔である可能性を表す信頼度信号を生成するように構成されることが好ましい。システムは、また、ニューラルネットワークを合成する責任を負う2つのネットワーク訓練器を含むことが好ましい。

Description

本発明は、画像解析の分野に関するものである。
頭部のポーズは、視覚システムによる顔画像処理の能力を高めるための、重要な視覚的手掛かりである。頭部のポーズは、ヨー、ピッチ、およびロールの3つの角度成分を有する。
ヨーは、頭が縦軸を基準に左右に回転する角度を指す。ピッチは、頭が横軸を基準に上下する角度を指す。ロールは、正面平面に垂直な軸を中心に頭が左右に傾く角度を指す。
ヨーおよびピッチは、前平面に対して顔の向きが変化するので、面外回転と称される。これに対し、ロールは、前平面に対して顔の向きが変化しないので、面内回転と称される。
写真、ビデオシーケンス、およびその他の画像から頭部のポーズを推定する作業は、顔を任意のポーズ角度で検出する必要があるので、非常に複雑である。頭部のポーズを推定するための試みが、いくつか実現されている。これらの試みは、モデルベースの技術および外観ベースの技術の2つに主に分類される。
モデルベースの技術は、画像から個人の三次元の頭部形状を復元し、その頭部の方向を三次元モデルによって推定する。代表的なモデルベースのシステムが、Shimizu et al.による1998年の顔およびジェスチャの自動認識に関するIEEE国際会議の会報「ジェネリックモデルを使用した、一画像からの頭部ポーズの推定(Head Pose Estimation from One image Using a Generic Model)」に開示されている。本文献は、引用によって本明細書に組み込まれるものとする。開示されたシステムでは、先ず、三次元モデルのエッジ曲線(例えば、目、唇、および眉毛の輪郭など)が規定される。次に、入力画像の中から、このモデルに規定された曲線に対応する曲線が検索される。モデルと入力画像との間に曲線の対応関係が確立された後は、様々なポーズ角度を通じて三次元モデルを繰り返し調整し、入力画像に最も適合する曲線を示す調整を見いだすことによって、頭部のポーズが推測される。この最も適合する曲線を示すポーズ角度が、入力画像のポーズ角度として決定される。
しかしながら、このようなモデルベースのアプローチは、様々な欠点を有する。第1に、モデルベースのアプローチは、計算の複雑性が非常に高く、多くのパソコンが有する処理能力を上回る。
第2に、1つの三次元汎用顔モデルだけでは、頭部の形状または顔の表情のばらつきに対応することができない。したがって、このようなモデルは、幅広い種類の様々な顔に適用されると、優れた性能を示すことができない。
第3に、モデルベースのシステムの性能は、入力画像の解像度に比例するのが通常であるので、満足のいく性能を得るためには、約128×128画素の画像解像度を必要とする。入力画像の解像度が低いほど、得られる性能も低下する。
モデルベースの技術とは対照的に、外観ベースの技術は、二次元の被写体を1セットの二次元モデル画像と比較するのが通常である。被写体画像と各モデル画像との間の距離が、距離関数を使用して決定される。そして、最も近いモデル画像が、被写体画像のポーズ角度の決定に使用される。
しかしながら、外観ベースの技術もまた、深刻な欠点を有する。具体的には、外観ベースの方法は、使用されるモデル画像の数に応じて計算の複雑性が変化する。使用されるモデル画像の数が大きいと、システムによるリアルタイムの比較が不可能になる。
この問題に対処しようとした外観ベースのシステムの1つが、Niyogi et al.による米国特許第6,144,755号に開示されている。本文献は、引用によって本明細書に組み込まれるものとする。Niyogiは、ツリー構造のベクトル量子化技術を利用して、顔画像の訓練セットを編成している。訓練セットの各画像は、ツリーの各リーフとして格納される。入力画像が受信されると、ツリーは横移動し、訓練セットの中から最も近い画像が決定される。そして、この最も近い画像のポーズ角度が、入力画像のポーズ角度として出力される。
しかしながら、このシステムの不都合の1つは、システムの動作を通じて多数の訓練画像をメモリに格納しなければならない点にある。これらの訓練画像のために必要とされるメモリは、最新のパソコンの多くに見られる高速ランダムアクセスメモリの容量を上回る。
さらに、このシステムで出力されるポーズ角度は、訓練セットの画像が有する有効なポーズ角度に限られる。したがって、このシステムは、非常に大きなセットの訓練画像を格納しないと、多くの用途において5〜10度以内という適切な精度を示すことができない。
もう1つの外観ベースのポーズ角度推定方法が、Li et al.による2000年の顔およびジェスチャの自動認識に関するIEEE国際会議の会報「サポートベクトルの回帰および分類に基づいた、マルチビューの顔の検出および認識(Support Vector Regression and Classification Based Multi-view Face Detection and Recognition)」に開示されている。本文献は、引用によって本明細書に組み込まれるものとする。この技術では、先ず、主成分分析(PCA)によって入力画像の次元数が低減される。次に、先験的に訓練済みのサポートベクトル回帰(SVR)モジュールによって、頭部のポーズ角度が推定される。
しかしながら、この技術による推定の精度は、利用されるサポートベクトル(SV)の数に依存する。サポートベクトルは、画像訓練セットの大きな部分を占めると考えられる。例えば、10,000の画像からなる訓練セットは、この方法において、少なくとも1,500のSVを必要とする。したがって、許容誤差の範囲内でポーズを推定するためには、SVRモジュールは、大きなメモリ容量を必要とする。さらに、多数のSVの存在は、必要な計算時間を増大させ、リアルタイムの実行を困難にする。
もう1つの外観ベースのポーズ角度推定方法が、Yan et al.による2001年1月18のマイクロソフトテクニカルレポートMSR−TR−2001−09「アンサンブルSVM回帰に基づいた、マルチビューの顔の検出システム(Ensemble SVM Regression Based Multi-View Face Detection System)」に開示されている。本文献は、引用によって本明細書に組み込まれるものとする。このシステムは、ウェーブレット変換を使用して入力画像の正面、半断面、および断面の特徴を抽出し、各特徴の画像を生成する。これらの特徴画像は、次いで、3つのサポートベクトル分類器に供給される。これらの分類器の出力は、ポーズ角度を産するアンサンブルSVRモジュールに供給される。しかしながら、このシステムは、サポートベクトル技術を使用するので、上述されたLiによるシステムと同じ問題を有し、リアルタイムのシステムとして容易に実行することができない。
したがって、頭部のポーズを決定するための、迅速で、強固で、且つ費用効率の良い方法が、今もなお必要とされている。このようなシステムは、リアルタイムで動作する際も、必要処理能力およびメモリ所要量が小さいことが好ましい。
入力画像の中の被写体のポーズ角度を決定するためのシステムおよび方法が開示される。好ましい一実施形態において、本システムは、プロトタイプ投影部と、回帰推定部と、角度計算部と、を含むポーズ推定器を備える。
プロトタイプ投影部は、入力画像を自己組織化マップ(SOM)ニューラルネットワーク上に投影させることによって、入力画像の次元数を低減させる。得られた投影は、回帰推定部に供給されることが好ましく、回帰推定部は、それらの投影をマッピングし、被写体のポーズ角度に一意的に対応したパターンを得る。
角度計算部は、曲線適合部と、誤差分析部と、を含むことが好ましい。曲線適合部は、マッピングパターンからポーズ角度を推定する。誤差分析部は、入力画像が計算ポーズ角度のときに顔である可能性を示す信頼度信号を生成する。
好ましい一実施形態において、SOMニューラルネットワークは、非監視モードのもとで、第1のネットワーク訓練器によって、訓練画像セットを使用して合成される。この訓練は、様々なポーズの訓練画像に対応した複数の被写体プロトタイプを生成することが好ましい。
好ましい一実施形態において、回帰推定部は、監視モードのもとで、第2のネットワーク訓練器によって、既知のポーズ角度を有する訓練画像のセットを使用して合成されるニューラルネットワークとして実装される。回帰推定部は、誤差逆伝搬技術を使用して訓練されることが好ましい。誤差逆伝搬技術では、SOMニューラルネットワークによって訓練画像から生成された投影ベクトルと、既知のポーズ角度を使用して計算された回帰推定部の所望の出力との両方が、回帰推定部に提供される。
好ましい一実施形態において、本システムおよび本方法は、独立に存在しても良いし、1つまたはそれ以上の被写体検出および/または認識システムと一体化されても良い。
本発明の一態様は、被写体のポーズ角度を決定するためのシステムであって、入力画像を受信して投影ベクトルを生成するように構成されたプロトタイプ投影部と、投影ベクトルを受信してマッピングベクトルを出力するように構成された回帰推定部と、マッピングベクトルを受信して推定ポーズ角度を出力するように構成されたポーズ角度計算部と、を備えるシステムに関する。
本発明のもう1つの態様において、被写体は頭部である。
本発明のもう1つの態様において、システムは、さらに、マッピングベクトルおよび推定ポーズ角度を受信して顔信頼値を計算するように構成された顔信頼値計算部を備える。
本発明のもう1つの態様において、プロトタイプ投影部は、第1のニューラルネットワークと、投影部と、を含む。
本発明のもう1つの態様において、第1のニューラルネットワークは、被写体の外観をあらゆる可能なポーズ角度で表すことのできる複数の被写体プロトタイプを含むSOMニューラルネットワークである。
本発明のもう1つの態様において、被写体プロトタイプのセットは、一括ネットワーク合成の最中に訓練画像のセットを使用して生成される。
本発明のもう1つの態様において、投影は、入力画像と被写体プロトタイプのセットとの間でユークリッド距離関数を計算することによって実施される。
本発明のもう1つの態様において、回帰推定部は、第2のニューラルネットワークを含む。
本発明のもう1つの態様において、第2のニューラルネットワークは、複数の入力ノードおよび出力ノードを含む回帰ネットワークである。
本発明のもう1つの態様において、回帰推定部の訓練は、訓練画像を第1のニューラルネットワーク上に投影させること、そして、回帰推定部を訓練し、得られた画像投影を入力ポーズ角度に固有な計算出力パターンに関連付けることによって達成される。
本発明のもう1つの態様において、角度計算部は曲線適合部を含む。
本発明のもう1つの態様において、角度計算部は誤差分析部を含む。
本発明のもう1つの態様は、被写体のポーズ角度を決定するための方法であって、被写体の入力画像をプロトタイプのセット上に投影させ、入力画像の投影を得ること、入力投影を訓練済みの回帰ネットワークに適用し、マッピングパターンを得ること、そして、マッピングパターンから被写体のポーズ角度を推定し、推定の信頼度を示す出力信号を生成することを含むランタイム動作を備える方法に関する。
本発明のもう1つの態様において、被写体は頭部である。
もう1つの態様において、本発明は、さらに、被写体の外観をあらゆる可能なポーズ角度で表すことのできるプロトタイプのセットを訓練画像のセットから生成すること、訓練入力画像をプロトタイプのセット上に投影させ、複数の投影距離を得ること、回帰ネットワークを訓練し、入力投影を入力ポーズ角度に固有な出力パターンに関連付けることを含む一括合成を備える。
もう1つの態様において、本発明は、入力画像の中の被写体のポーズ角度を少なくとも1つの次元で決定するためのシステムであって、非監視モードで第1の複数の訓練画像を使用して訓練され、複数のウェイトベクトルを作成する第1のニューラルネットワークであって、複数のウェイトベクトルは、複数の訓練画像をそれぞれに表す、第1のニューラルネットワークと、入力画像を受信すると共に、該入力画像とウェイトベクトルとの間の距離を表す複数の計算距離を含む投影ベクトルを生成するように構成される投影部と、監視モードで第2の複数の訓練画像を使用して訓練され、複数のニューロンを含む第2のニューラルネットワークであって、第2の複数の訓練画像は、既知のポーズ角度を採る被写体を含み、各ニューロンは、特定のポーズ角度に調整され、投影ベクトルを受信すると共に、各ニューロンの調整後のポーズ角度からの被写体のポーズ角度の変化に応じて単調に減少する偶関数にしたがって値を出力するように構成される、第2のニューラルネットワークと、ニューロンによって出力された値を受信すると共に、被写体のポーズ角度を少なくとも1つの次元で推定するように構成された曲線適合部と、ニューロンによって出力された値と、関数のための計算値と、の間の誤差を表すことのできる値を、推定ポーズ角度を使用して生成する誤差計算部と、を備えるシステムに関する。
本発明のもう1つの態様において、誤差値は、被写体の存在を検出するために使用される。
本発明のもう1つの態様において、被写体は顔である。
もう1つの態様において、本発明は、入力画像の中の被写体のポーズ角度を少なくとも1つの次元で決定するための方法であって、非監視モードで第1の複数の訓練画像を使用して、第1のニューラルネットワークを訓練し、複数の訓練画像をそれぞれに表す複数のウェイトベクトルを作成する動作と、入力画像を第1のニューラルネットワーク上に投影させ、入力画像とウェイトベクトルとの間の距離を表す複数の計算距離を含む投影ベクトルを生成する動作と、監視モードで第2の複数の訓練画像を使用して、第2のニューラルネットワークを訓練する動作であって、第2の複数の訓練画像は、既知のポーズ角度を採る被写体を含み、第2のニューラルネットワークは、特定のポーズ角度にそれぞれに調整された複数のニューロンを含む、動作と、第2のニューラルネットワークにおいて、各ニューロンの調整後のポーズ角度からの被写体のポーズ角度の変化に応じて単調に減少する偶関数にしたがって投影ベクトルを処理し、複数の出力値を生成する動作と、出力値を曲線に適合させ、被写体のポーズ角度を少なくとも1つの次元で推定する動作と、出力値と、関数のための計算値と、の間の誤差を表すことのできる値を、推定ポーズ角度を使用して計算する動作と、を備える方法に関する。
本発明のもう1つの態様において、誤差値は、被写体の存在を検出するために使用される。
本発明のもう1つの態様において、被写体は顔である。
上述された本発明の概要は、以下の詳細な説明および添付の図面との関連のもとで、より良く理解することが可能である。
I.システム構成
図1は、入力画像の中の被写体のポーズ角度を推定するのに適したシステム100の好ましい一実施形態を示している。例示のため、システム100の動作は、主に、特定の被写体グループの、すなわち人間の頭部のポーズ角度を推定することに関連して説明される。しかしながら、本システムおよび本方法は、後述されるように、他の被写体に対しても幅広く適用可能である。
やはり例示のため、システム100の動作は、主に、人間の頭部のポーズを1つの次元で、すなわちヨーに基づいて推定することに関連して説明される。しかしながら、本システムおよび本方法は、例えば図6〜8に関連して後述されるように、1つまたはそれ以上の次元でポーズ角度を計算する場合にも幅広く適用可能である。
以下の説明では、人間の頭部のポーズ角度をヨー、ピッチ、ロールの3つの次元で記述するために、特定の変換が採用される。しかしながら、当業者ならば明らかなように、本システムおよび本方法は、ポーズ角度を記述するのに適した任意の変換を使用して実現可能である。本明細書で採用される変換は、以下の通りである。
ヨー:顔が正面を向いている場合は0°
被写体がその頭部を左に回転させる場合は正(1°〜90°)
被写体がその頭部を右に回転させる場合は負(−1°〜−90°)
ピッチ:顔が正面を向いている場合は0度
被写体がその頭部を上に回転させる場合は正(1°〜90°)
被写体がその頭部を下に回転させる場合は負(−1°〜−90°)
ロール角:顔が正面を傾いていない場合は0°
被写体がその頭部を左に傾かせる場合は正(1°〜90°)
被写体がその頭部を右に傾かせる場合は負(−1°〜−90°)
図1を参照せよ。システム100は、イメージセンサ102と、処理装置103と、制御メモリ104と、システム出力105と、を備えることが好ましい。好ましい一実施形態では、処理装置103は、パソコンに見られるような汎用マイクロプロセッサであって良い。あるいは、処理装置103は、デジタル信号プロセッサ(DSP)または特定用途向け集積回路(ASIC)であって良い。メモリ104は、磁気ディスク、光学ディスク、もしくは他の適切な格納手段を含むが、それらに限定されない、任意の適切な格納媒体またはそれらの組み合わせであって良い。
イメージセンサ102は、ビデオカメラまたはデジタルカメラなど、対象物を表すデジタル信号を獲得するのに適した任意の手段であって良い。さらに、イメージセンサ102は、生の被写体、写真、印刷イメージ、または芸術家による創作物など、任意の適切なソースから画像を捕らえられるように構成されて良い。
制御メモリ104は、後述されるように、処理装置103によって使用されるコンピュータデータおよびコンピュータ命令を格納することによって、2つのニューラルネットワーク訓練器106およびポーズ推定器107を実現することが好ましい。あるいは、ポーズ推定器107およびネットワーク訓練器106は、専用の電子回路またはハードウェアと、ソフトウェアと、の任意の適切な組み合わせを使用するなど、他の方法で実現されても良い。
ポーズ推定器107をより詳しく説明する前に、先ず、システムの動作に関して簡単な説明を行う。動作の際に、イメージセンサ102は、例えば人間の顔などの被写体101の画像を獲得する。イメージセンサ102は、その画像をポーズ推定器107に転送し、ポーズ推定器107は、その顔のポーズ角度を、例えばイメージセンサ102の視野内の垂直軸など、何らかの軸を基準に決定する。ポーズ推定器107は、また、信頼レベルを計算することが好ましい。信頼レベルは、この好ましい実施形態では、決定ポーズ角度のときに入力画像が人間の顔を現す可能性を反映している。顔信頼度は、計算ポーズ角度のときに入力画像が顔である可能性をパーセントで表す数値(0〜100)であることが好ましい。
システム出力105は、情報通知の目的で表示される。しかしながら、システム出力105は、ほとんどの場合において、例えば入力画像をもとに顔の正面画像を回復させるように構成されたポーズ補正システムなどの別の動作モジュールに、追加であるいは代わりに供給される。
図2は、半断面の顔200を含む入力画像に対応したポーズ推定器107の出力の、好ましい一実施形態を示している。図2に示されるように、ポーズ推定器107の出力は、顔のヨーの測定値および顔の信頼度の測定値の2つの成分を含むことが好ましい。低い顔信頼値は、入力画像300が顔を含まないという結論を支持するので、出力されるポーズ角度に対する信頼性が下がる。
ポーズ推定器107を実現するための好ましい一実施形態が、図4に示されている。図4に示されるように、ポーズ推定器107は、プロトタイプ投影部401と、回帰推定部450と、ポーズ角度&顔信頼度計算部470とを含むことが好ましい。
プロトタイプ投影部401は、SOMニューラルネットワーク402(「SOMネット402」)と、投影部404と、を含むことが好ましい。SOMネット402は、複数のプロトタイプベクトル403からなる長方形のニューロン配列であることが好ましい。
投影部404は、入力画像400を受信し、それをSOMネット402上に投影することによって、入力画像とプロトタイプベクトル403との間の距離を表す複数の計算距離を含む投影ベクトルを生成するように構成されることが好ましい。この投影は、後述されるように、入力画像の大きさの次元数を、SOMネット402の中のニューロンの数まで減少させることを目的としている。
ポーズ推定器107は、さらに、入力された投影ベクトルを、入力画像400のポーズ角度を表す固有な出力パターンに関連付ける、回帰推定部450を含むことが好ましい。好ましい一実施形態において、回帰推定部450は、多層認知のニューラルネットワークとして実装される。このニューラルネットワークは、14の入力ノード451と、9の隠しノード452と、7の出力ノード453と、を含むことが好ましい。
SOMネット402の中のプロトタイプベクトル403の数は、回帰推定部450の中の出力ニューロンの数よりも大きいことが好ましい。好ましい一実施形態において、SOMネット402は、14のプロトタイプベクトル403を含む。
各出力ニューロン453は、特定のポーズ角度に調整されることが好ましい。好ましい一実施形態において、ニューロン1はα1=−90°に対応し、ニューロン2はα2=−45°に対応し、ニューロン3はα3=−25°に対応し、ニューロン4はα4=0°(正面撮影像)に対応し、ニューロン5はα5=+25°に対応し、ニューロン6はα6=+45°に対応し、ニューロン7はα7=+90°に対応する。
各ニューロンkは、その調整後の角度αkに等しいポーズ角度を有する入力顔画像に応じて最大の出力を生成するように訓練されることが好ましい。ニューロン出力値[マップ1,マップ2,……,マップ7]は、相互に相関しあうと共に、マッピング関数F(α(x)−αk)によって規定された波形を構成することが好ましい。ここで、α(x)は、入力画像のポーズ角度であるとする。
F(α(x)−αk)は、α(x)がαkに近い場合には高い値を、α(x)がαkから程遠い場合には低い値を有するように選択されることが好ましい。したがって、この関数は、差の絶対値|α(x)−αk|に応じて単調に減少する偶関数となるように選択されることが好ましい。
好ましい一実施形態において、マッピング関数は、
F(α(x)−αk)=cos(α(x)−αk
となるように選択されて良い。
この関数に関し、例えば、α(x)=−30°の顔を含む入力画像400がプロトタイプ投影部401によって投影され、回帰推定部450に転送された場合には、出力ニューロン453は、以下の値を得る。
●マップ1=cos(−30°−(−90°))=+0.500
●マップ2=cos(−30°−(−45°))=+0.966
●マップ3=cos(−30°−(−25°))=+0.996
●マップ4=cos(−30°−(0°))=+0.866
●マップ5=cos(−30°−(+25°))=+0.574
●マップ6=cos(−30°−(+45°))=+0.259
●マップ7=cos(−30°−(+90°))=−0.500
前述のように、ポーズ推定器107は、ポーズ角度計算部470をも含むことが好ましい。好ましい一実施形態において、計算部470は、曲線適合部471と、誤差分析部472と、を含むことが好ましい。
曲線適合部471は、入力画像400のポーズ角度α(x)を、そのマッピングベクトル[マップ1,マップ2,……,マップM]から推定するように構成されることが好ましい。好ましい一実施形態において、曲線適合部471は、最小平方誤差曲線適合アルゴリズムを実行することによって、下記の距離を最小化する。
Figure 2005530278
ここで、α'は、入力画像400のポーズ角度α(x)の推定値である。曲線適合部471は、回帰推定部ネットワーク450からの実際の出力と、F(α(x)−αk)によって与えられる事前指定波形と、の間の平方誤差を最小化する推定ポーズ角度α'を計算することが好ましい。
好ましい一実施形態において、F(α(x)−αk)=cos(α(x)−αk)のとき、平方誤差(SquareError)を最小化する最適なα'値は、次のように計算可能である。
Figure 2005530278
誤差分析部472は、曲線適合の精度、すなわち実際の出力ベクトル[マップ1,マップ2,……,マップM]がどれだけ推定F(α'−αk)に近いか、を反映する顔信頼度を計算するように構成されることが好ましい。好ましい一実施形態において、顔信頼度(FaceConfidence)の出力は、次のように計算可能である。
Figure 2005530278
図5は、入力画像の中の被写体のポーズ角度を推定するのに適したポーズ推定器507の代替の好ましい一実施形態を示している。図からわかるように、ポーズ推定器507の構成要素の多くは、上述されたポーズ推定器107の構成要素に対応しており、これらの両システムに共通する類似の構成要素は、少なくとも最後の二桁を共有する参照番号によってそれぞれに識別される。
ポーズ推定器507は、それが複数の回帰推定部550と、処理部575と、を含むという点で、ポーズ推定器107と異なる。処理部575は、後述されるように、回帰推定部550の出力を組み合わせることによって、計算部570に入力するための単一のマッピングベクトルを生成するように構成されることが好ましい。
好ましい一実施形態において、処理部575は、単に回帰推定部550の出力の平均を採ることによって、マッピングベクトルを生成して良い。この単純なアルゴリズムは、必要な処理が最小限で済むので、多くの場合において、ポーズ推定器507のリアルタイムな動作能力に影響を及ぼすことなく実行可能である。
あるいは、もし十分な処理能力が使用可能である場合あるいはリアルタイムな動作が重要でない場合は、処理部575は、マッピングベクトルを決定するために、より高度なアルゴリズムを実行して良い。例えば、処理部575は、先ず、回帰推定部550の全出力の平均およびその平均からの標準偏差を計算して良い。処理部575は、次に、第2の平均を計算することによって、出力と第1の平均との差が一標準偏差を超えるあらゆる回帰推定部からの影響を排除したマッピングベクトルを生成して良い。
混乱を避けるため、本システムおよび本方法の動作に関する以下の説明は、主に、図4の好ましい実施形態および単一の回帰推定部450の観点から論じるものとする。しかしながら、回帰推定部450の訓練および実行は、図5の実施形態の複数の回帰推定部550にも適用可能である。
II.システム動作
好ましい一実施形態において、本システムの動作は、訓練期間および実行期間(ランタイム)の2段階に分けられる。訓練期間において、ニューラルネットワーク402,450は、後ほど詳述されるように、対応するネットワーク訓練器106によって、比較的大きな少なくとも1セットの訓練画像を使用して、それぞれに訓練される。ランタイムにおいて、訓練済みのニューラルネットワークは、入力画像を処理し、計算部470に出力を供給する。計算部470は、画像の中の被写体のポーズ角度を決定する。以下の説明では、先ず、各ニューラルネットワーク402,450の訓練の好ましい一実施形態が説明され、次に、システム100のランタイム動作の好ましい一実施形態が説明される。
A.SOMネットおよび回帰推定部の訓練
好ましい一実施形態において、訓練は、人間の顔を含む数千の中間調の訓練画像を使用して行われる。この訓練画像セットは、様々な人種および性別の1,500の被写体を、様々なポーズで且つ様々な光条件のもとで、様々な顔用装飾品(眼鏡など)と共に撮影した、30,000の訓練画像からなるセットを構成することが好ましい。
上述のように、説明のため、ポーズ推定器107は、ヨーポーズ角度のみを計算するように構成されるものとする。したがって、この好ましい一実施形態において、訓練画像セットの中の顔は、ヨー角のみが変動し、ピッチ角およびロール角は0°であることが好ましい。
ネットワーク訓練器106によるSOMネット402および回帰推定部450の訓練が完了すると、訓練画像は廃棄されて良い。格納が必要とされるのは、ニューラルネットワークのウェイトのみである。この好ましい一実施形態において、ニューラルネットワークのウェイトの格納に必要とされるのは、SOMネット402のために5,600バイト、回帰推定部450のために820バイトのみである。したがって、ランタイムにおけるポーズ推定器107のメモリ総所要量は、7Kb未満である。
好ましい一実施形態において、訓練画像は、訓練が始まる前にトリミングされ、顔領域より外の画素を排除される。トリミングされた顔は、次いで、20×20画素などの標準サイズにスケール変更されることが好ましい。
好ましい一実施形態において、ニューラルネットワーク402,450は、同じ訓練画像セットを使用して訓練されて良い。後述のように、回帰推定部450は、監視モードで訓練されることが好ましいので、この好ましい一実施形態において、訓練画像セットの各訓練画像は、そのポーズ角度が既知でなければならない。
あるいは、ニューラルネットワーク402,450は、互いに異なる訓練画像セットを使用して訓練されて良い。後述のように、SOMネット402は、非監視モードで訓練されることが好ましいので、この場合において、第1の訓練画像セットの中の被写体は、ポーズ角度が既知でなくて良い。
1.SOMネットの訓練
好ましい一実施形態において、SOMネット402は、従来の縮小ガウス近傍関数を使用して訓練される。SOMネット402を訓練するために、非監視モードのもとで、標準の訓練画像がネットワークに提示される、すなわち、SOMニューロンは、特定の入力に対応する関連の出力を学習するように強制されない。それどころか、SOMネット402は、配列のうち位置的に近いものから特定の幾何学的距離だけ離れたものまでを含むニューロンが互いに活性化しあって同じ入力画像から何かを学習するように、ニューロンのウェイトベクトル403を組織する。この結果、この付近においてニューロンのウェイトベクトルが局所的に緩和される。これは、継続学習において大域的な秩序化をもたらす。
したがって、SOMの訓練手続きは、入力データの相似グラフを生じる。それは、高次元(この好ましい一実施形態では20×20=400次元)の入力データの有する非線形の統計学的関係を、SOMネットワークの二次元ニューロン格子403の有する単純な幾何学的関係に変換する。したがって、SOMネット402は、もとのデータ要素の有する最も重要な位相的な距離関係を保ちつつ情報を圧縮する。SOMニューラルネットワークの設計および動作に関するさらなる情報が、T. Kohonenによる「自己組織化マップ(Self-Organizing Maps)」(1997年、シュプリンガー・フェアラーク出版、第2版、ISBN 3−540−62017−6)で開示されている。本文献は、引用によって本明細書に組み込まれるものとする。
訓練の結果、SOM配列の中の各ニューロンは、複数の訓練画像を表すウェイトベクトル403を有するようになる。好ましい一実施形態において、各ウェイトベクトル403は、標準の訓練画像と同じ次元数を有し、訓練の過程でウェイトベクトルの形成に最も寄与した訓練画像のプロトタイプであると見なすことができる。
2.回帰推定部の訓練
回帰推定部450は、入力および所望出力の両方がネットワークに提示される誤差逆伝搬技術を使用して、監視モードのもとで訓練されることが好ましい。好ましい一実施形態において、回帰推定部450の訓練は、以下の手順で実施可能である。
1.SOMネット402が上述のような訓練を完全に終えた後、標準の一訓練画像をプロトタイプ投影部401に適用する。
2.その訓練画像用に対応した投影ベクトル[投影1,投影2,投影3,……,投影V]を、プロトタイプ投影部401に計算させる。このとき、Vは、SOMネットワークのプロトタイプベクトル403の数である。
3.出力ノード453の所望出力[マップ1,マップ2,……,マップM]を計算する。このとき、Mは、出力ノード453の数である。所望出力の計算は、マッピング関数F(α(x)−αk)を使用して実施されることが好ましい。このとき、α(x)は、入力された訓練画像の既知のポーズ角度で、αkは、出力ニューロンkに関連付けられた調整後の角度である。
4.投影ベクトル[投影1,投影2,投影3,……,投影V]を回帰推定部の入力モード451に、対応するマッピングベクトル[マップ1,マップ2,……,マップM]を回帰推定部の出力モード453に、それぞれ提示する。
5.回帰推定部ネットワーク450のウェイトを、誤差逆伝搬技術を使用して更新する。
6.回帰推定部450の実際の出力と所望の出力との間の平均平方誤差が許容範囲になるまで、他の訓練画像に対してもステップ1〜5の手順を繰り返す。人間の頭部のポーズ角度を推定する必要がある代表的な用途において、許容可能な誤差は約2〜3%だと考えられる。
B.ランタイム動作
システムは、ニューラルネットワーク402,450が訓練された時点で、ランタイム動作の用意が整う。以下では、図6を参照にしながら、ランタイム動作の好ましい一実施形態が説明される。
図6に示されるように、ステップ601において、未知のポーズ角度を有する画像400が、プロトタイプ投影部401に供給される。好ましい一実施形態において、画像400は、顔または顔だと予想される部分のみを含むトリミング済みの画像である。ステップ601において、入力画像400は、投影部404によって、SOMプロトタイプベクトル403に一致する寸法にスケール変更される。好ましい一実施形態において、これらの寸法は、20×20画素であって良い。
ステップ602において、プロトタイプ投影部401は、入力画像400をプロトタイプベクトル403のSOMネットワーク格子上に投影させる。好ましい一実施形態において、投影部404は、画像とプロトタイプベクトル403との間のユークリッド距離を計算することによって、このステップを実施する。投影部404は、次いで、計算された距離のセットを投影ベクトル[投影1,投影2,投影3,……,投影V]として出力する。このとき、Vは、SOMネットワークのプロトタイプベクトル403の数である。この投影の動作は、もとの次元数(例えば20×20=400)をVまで減少させる。前述のように、好ましい一実施形態において、Vは14である。
ステップ603において、回帰推定部450は、投影ベクトルを処理し、出力マッピングベクトル[マップ1,マップ2,……,マップM]を計算する。ステップ604において、曲線適合部471は、最小平方誤差を最小化することによって、出力マッピングベクトルを曲線F(α(x)−αk)に適合させる。ステップ605において、曲線適合部471は、推定ポーズ角度α(x)を算出する。ステップ606において、誤差分析部472は、顔信頼値を算出する。
ステップ607において、ポーズ推定器107は、出力信頼値をチェックする。高い出力信頼値は、スケール変更された入力画像が、出力ポーズ角度によって示された方向を向く標準的な顔を表していることを意味する。反対に、低い出力信頼値は、出力ポーズ角度が信頼できないことを意味する。高い信頼値が得られた場合は、ステップ608において、算出された信頼度およびポーズ角度に対応する出力信号が提供される。低い信頼値が得られた場合は、ステップ609において、低い信頼値に対応する出力信号が提供され、ポーズ角度は無視されることが好ましい。
低い信頼値は、マッピングベクトルが対象波形F(α'−αk)に一様に適合しない場合に生じる。これは、主として、以下の2つの状況のいずれかによって引き起こされる。
1.入力画像400は顔を含まない。
2.入力画像400は顔を含むが、SOMネット402および回帰推定部450の訓練に使用された画像とは大幅に異なる。例えば、もし訓練画像に、眼鏡をかけ且つ室内照明に照らされた被写体のみが含まれる場合は、本システムは、眼鏡をかけず且つ直射日光に照らされた女性の被写体を含む画像を提示された際に、不正確な結果を生じる恐れがある。
第2の状況は、顔および画像条件の範囲を広げつつ訓練画像セットの数を増大させることによって、最小限に抑えるまたは解消することができる。もし訓練画像セットが適切ならば、低い信頼値を生じた要因は、必然的に、入力画像に顔が含まれないからである。したがって、顔信頼度の出力を使用すれば、顔の存在を検出すると共に、推定ポーズ角度の信頼性を示すことができる。
ランタイム動作において、この好ましい一実施形態のポーズ推定器107は、Pentium(登録商標) III 800MHzのワークステーションを使用して、訓練画像セットに含まれない顔画像のヨーポーズ角度を75フレーム毎秒で決定することができる。
なお、以上の説明では、プロトタイプ投影部が、顔領域のみを含むトリミング済みの画像を提供される場合を想定したが、本システムおよび本方法は、適切な処理技術による処理を通じて、トリミング済みでない通常の画像にも適用可能である。
例えば、SOMプロトタイプベクトル403と同寸法の固定サイズのスライディングウィンドウを使用し、トリミング済みでない入力画像を複数のスケールおよびシフトで走査することによって、そのウィンドウのコンテンツを、標準の入力画像400のかたちでポーズ推定器107に適用することが可能である。そして、出力(ポーズ角度および顔信頼度)を記録し、最も優れた顔信頼度を示すウィンドウ位置を、顔画像を含むものと見なして良い。
III.他の次元でのポーズ角度の推定
上述の議論は、ヨーの推定に焦点を当ててきたが、本システムおよび本方法は、例えばピッチおよびロールなど、別の次元でポーズ角度を決定するようにも構成可能である。これは、所望の次元で様々にポーズ角度が変動する被写体を含む訓練画像を使用して、ニューラルネットワーク402,450を訓練することによって行われる。例えば、システム100をピッチの推定に適用するためには、ニューラルネットワーク402,450は、ピッチ角のみが変動し、ヨー角およびロール角は0°である顔を含む訓練画像を用いて訓練されることが好ましい。
また、もし必要ならば、三次元の全てで被写体のヘッドポーズを計算するための統合システムを実現しても良い。このような三次元ポーズ角度推定器の好ましい一実施形態が、図7に示されている。
図7に示されるように、三次元でポーズ角度を推定するためのシステム700は、ヨー、ピッチ、およびロールの各自由度にそれぞれ対応した3つのポーズ推定器707を備えることが好ましい。上述のように、各ポーズ推定器707は、プロトタイプ投影部701に含まれるSOMネットワークと、回帰推定部ネットワーク750と、の2つのニューラルネットワークを含むことが好ましい。各回帰推定部750の出力は、上述の説明にしたがって、それぞれの計算部770に提供されることが好ましい。
好ましい一実施形態において、システム700のニューラルネットワークは、1つの自由度のみで変動する個別の画像セットを使用して、それぞれに訓練される。推定部707が訓練されると、任意のヨー、ピッチ、およびロールのポーズの頭部を有する被写体を含む入力画像400が、各推定部に提示される。各推定部707からの出力は、対応するポーズ角度およびその次元に関する信頼値を含むことが好ましい。
三次元推定器の代替の一実施形態が、図8に示されている。図8に示されるように、三次元でポーズ角度を推定するためのシステム800は、共有プロトタイプ投影器801と、ヨー、ピッチ、およびロールに対応した3つの回帰推定部850と、3つの計算部870と、を備えることが好ましい。プロトタイプ投影器801の出力は、各回帰推定部850に提示されることが好ましい。
この好ましい一実施形態では、3つの自由度の全てでポーズが変動する被写体を含む単一の訓練セットが使用可能である。回帰推定部450の訓練に当たっては、三次元の各次元に対応したそれぞれの既知のポーズ角度を使用して、訓練画像ごとに各推定部の所望の出力が計算される。例えば、訓練画像が−50°のヨー角、−10°のピッチ角、および0°のロール角を有する場合は、ヨー回帰推定部850yの誤差逆伝搬訓練に使用されるポーズ角度は、−50°に設定されることが好ましい。同様に、ピッチ回帰推定部850pおよびロール回帰推定部850rのためのポーズ角度は、それぞれ−10°および0°に設定されることが好ましい。
上述の議論は、人間の顔に関するポーズ角度の推定に焦点を当てているが、本発明によるシステムおよび方法は、他の被写体のポーズ角度の決定にも適用可能である。例えば、適切な訓練画像をもってすれば、上述のシステムおよび方法は、車、飛行機、ならびに生物および非生物を問わない他の被写体の角度方向の推定にも使用可能である。
なお、本システムおよび本方法は、ポーズ角度を決定する際に色や動きの手掛かりに依存しないという点で有利である。
以上、特定の実施形態に基づいて本発明が説明されてきたが、当業者ならば、以上の説明に照らし、様々な代替、変更、および変形を容易に考えつくことが可能である。
ポーズ角度の推定のための好ましい一実施形態を示した図である。 判断面の顔を含む入力画像を供給されたポーズ推定器の出力の、好ましい一実施形態を示した図である。 顔を含まない入力画像を供給されたポーズ推定器の出力の、好ましい一実施形態を示した図である。 ポーズ推定器の好ましい一実施形態を示した図である。 ポーズ推定器の代替の好ましい一実施形態を示した図である。 人間の顔のポーズ角度を推定するための好ましい一実施形態を示したフローチャートである。 ポーズ角度を三次元で推定するためのシステムの、好ましい一実施形態を示した図である。 ポーズ角度を三次元で推定するためのシステムの、代替の好ましい一実施形態を示した図である。

Claims (45)

  1. 入力画像の中の被写体のポーズ角度を少なくとも1つの次元で決定するためのシステムであって、
    非監視モードで第1の複数の訓練画像を使用して訓練され、複数のウェイトベクトルを作成する第1のニューラルネットワークであって、前記複数のウェイトベクトルは、前記複数の訓練画像をそれぞれに表す、第1のニューラルネットワークと、
    入力画像を受信すると共に、前記入力画像と前記ウェイトベクトルとの間の距離を表す複数の計算距離を含む投影ベクトルを生成するように構成される投影部と、
    監視モードで第2の複数の訓練画像を使用して訓練される複数のニューロンを含む第2のニューラルネットワークであって、前記第2の複数の訓練画像は既知のポーズ角度の被写体を含み、各ニューロンは特定のポーズ角度に調整されると共に、前記投影ベクトルを受信し、各ニューロンの調整後の前記ポーズ角度からの前記被写体のポーズ角度の変化に応じて単調に減少する偶関数に従って値を出力するように構成される、第2のニューラルネットワークと、
    前記ニューロンによって出力された前記値を受信すると共に、前記被写体のポーズ角度を少なくとも1つの次元で推定するように構成される曲線適合部と、
    前記ニューロンによって出力された前記値と、前記関数のための計算値と、の間の誤差を表す値を、前記推定ポーズ角度を使用して生成する誤差計算部と
    を備えるシステム。
  2. 請求項1に記載のシステムであって、
    前記被写体は頭部である、システム。
  3. 請求項1に記載のシステムであって、
    前記関数はcos(α(x)−αk)で表され、このとき、αkはニューロンの調整後の角度で、α(x)は前記推定ポーズ角度である、システム。
  4. 請求項1に記載のシステムであって、
    前記曲線適合部は、最小平方誤差曲線適合アルゴリズムを実行する、システム。
  5. 請求項1に記載のシステムはさらに、
    その視野で画像を捕らえるように構成されるイメージセンサを備える、システム。
  6. 請求項5に記載のシステムであって、
    前記イメージセンサはビデオカメラである、システム。
  7. 請求項5に記載のシステムであって、
    前記イメージセンサはデジタルカメラである、システム。
  8. 請求項1に記載のシステムであって、
    前記入力画像は、生の被写体から得られる、システム。
  9. 請求項1に記載のシステムであって、
    前記入力画像は写真から得られる、システム。
  10. 請求項1に記載のシステムであって、
    前記入力画像は印刷イメージから得られる、システム。
  11. 請求項1に記載のシステムであって、
    前記入力画像は、芸術家による創作物から得られる、システム。
  12. 請求項1に記載のシステムであって、
    前記第1の複数の訓練画像の少なくとも一部は、前記第2の複数の訓練画像の少なくとも一部と同一である、システム。
  13. 請求項12に記載のシステムであって、
    前記第1の複数の訓練画像および前記第2の複数の訓練画像は、前記同一の訓練画像である、システム。
  14. 請求項1に記載のシステムであって、
    前記ウェイトベクトルの数は、前記第2のニューラルネットワークの出力ノードの数よりも大きい、システム。
  15. 請求項14に記載のシステムであって、
    前記ウェイトベクトルの数は、前記第2のニューラルネットワークの出力ノードの数の約2倍である、システム。
  16. 請求項1に記載のシステムであって、
    前記入力画像は、前記被写体を含む画像の一部をトリミングすることによって生成される、システム。
  17. 請求項1に記載のシステムであって、
    前記投影部は、前記入力画像を標準の寸法にスケール変更するように構成される、システム。
  18. 請求項17に記載のシステムであって、
    前記標準の寸法は、20画素×20画素である、システム。
  19. 請求項1に記載のシステムであって、
    前記少なくとも1つの次元はヨーである、システム。
  20. 請求項1に記載のシステムであって、
    前記少なくとも1つの次元はピッチである、システム。
  21. 請求項1に記載のシステムであって、
    前記少なくとも1つの次元はロールである、システム。
  22. 請求項1に記載のシステムであって、
    前記システムは、ヨー、ピッチ、およびロールのポーズ角度を推定するように構成される、システム。
  23. 入力画像の中の被写体のポーズ角度を少なくとも1つの次元で決定するための方法であって、
    非監視モードで第1の複数の訓練画像を使用して、第1のニューラルネットワークを訓練し、複数の訓練画像をそれぞれに表す複数のウェイトベクトルを作成する動作と、
    前記入力画像を前記第1のニューラルネットワーク上に投影させ、前記入力画像と前記ウェイトベクトルとの間の距離を表す複数の計算距離を含む投影ベクトルを生成する動作と、
    監視モードで第2の複数の訓練画像を使用して、第2のニューラルネットワークを訓練する動作であって、前記第2の複数の訓練画像は、既知のポーズ角度を採る被写体を含み、前記第2のニューラルネットワークは、特定のポーズ角度にそれぞれに調整された複数のニューロンを含む、動作と、
    前記第2のニューラルネットワークにおいて、各ニューロンの調整後の前記ポーズ角度からの前記被写体のポーズ角度の変化に応じて単調に減少する偶関数にしたがって、前記投影ベクトルを処理し、複数の出力値を生成する動作と、
    前記出力値を曲線に適合させ、前記被写体のポーズ角度を少なくとも1つの次元で推定する動作と、
    前記出力値と、前記関数のための計算値と、の間の誤差を表すことのできる値を、前記推定ポーズ角度を使用して計算する動作と
    を備える方法。
  24. 請求項23に記載の方法であって、
    前記被写体は頭部である、方法。
  25. 請求項24に記載の方法であって、
    前記頭部は、識別可能な顔を前記画像の中に含む、方法。
  26. 請求項23に記載の方法であって、
    前記関数はcos(α(x)−αk)で表され、このとき、αkはニューロンの調整後の角度で、α(x)は前記推定ポーズ角度である、方法。
  27. 請求項23に記載の方法であって、
    前記曲線適合部は、最小平方誤差曲線適合アルゴリズムを実行する、方法。
  28. 請求項23に記載のシステムであって、さらに、
    イメージセンサであって、該センサの視野で画像を捕らえるように構成されるイメージセンサを備える、システム。
  29. 請求項28に記載のシステムであって、
    前記イメージセンサはビデオカメラである、システム。
  30. 請求項28に記載のシステムであって、
    前記イメージセンサはデジタルカメラである、システム。
  31. 請求項23に記載のシステムであって、
    前記入力画像は、生の被写体から得られる、システム。
  32. 請求項23に記載のシステムであって、
    前記入力画像は写真から得られる、システム。
  33. 請求項23に記載のシステムであって、
    前記入力画像は印刷イメージから得られる、システム。
  34. 請求項23に記載のシステムであって、
    前記入力画像は、芸術家による創作物から得られる、システム。
  35. 請求項23に記載のシステムであって、
    前記第1の複数の訓練画像の少なくとも一部は、前記第2の複数の訓練画像の少なくとも一部と同一である、システム。
  36. 請求項35に記載のシステムであって、
    前記第1の複数の訓練画像および前記第2の複数の訓練画像は、前記同一の訓練画像である、システム。
  37. 請求項23に記載のシステムであって、
    前記ウェイトベクトルの数は、前記第2のニューラルネットワークの出力ノードの数よりも大きい、システム。
  38. 請求項37に記載のシステムであって、
    前記ウェイトベクトルの数は、前記第2のニューラルネットワークの出力ノードの数の約2倍である、システム。
  39. 請求項23に記載のシステムであって、
    前記入力画像は、前記被写体を含む画像の一部をトリミングすることによって生成される、システム。
  40. 請求項23に記載のシステムであって、
    前記投影部は、前記入力画像を標準の寸法にスケール変更するように構成される、システム。
  41. 請求項40に記載のシステムであって、
    前記標準の寸法は、20画素×20画素である、システム。
  42. 請求項23に記載のシステムであって、
    前記少なくとも1つの次元はヨーである、システム。
  43. 請求項23に記載のシステムであって、
    前記少なくとも1つの次元はピッチである、システム。
  44. 請求項23に記載のシステムであって、
    前記少なくとも1つの次元はロールである、システム。
  45. 請求項23に記載のシステムであって、
    前記システムは、ヨー、ピッチ、およびロールのポーズ角度を推定するように構成される、システム。
JP2004516128A 2002-06-20 2003-06-20 ポーズ角度を推定するためのシステムおよび方法 Expired - Fee Related JP4469275B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/175,929 US6959109B2 (en) 2002-06-20 2002-06-20 System and method for pose-angle estimation
PCT/US2003/019715 WO2004001660A1 (en) 2002-06-20 2003-06-20 System and method for pose-angle estimation

Publications (2)

Publication Number Publication Date
JP2005530278A true JP2005530278A (ja) 2005-10-06
JP4469275B2 JP4469275B2 (ja) 2010-05-26

Family

ID=29734008

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004516128A Expired - Fee Related JP4469275B2 (ja) 2002-06-20 2003-06-20 ポーズ角度を推定するためのシステムおよび方法

Country Status (5)

Country Link
US (1) US6959109B2 (ja)
EP (1) EP1537522A4 (ja)
JP (1) JP4469275B2 (ja)
AU (1) AU2003245639A1 (ja)
WO (1) WO2004001660A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009246566A (ja) * 2008-03-28 2009-10-22 Sony Ericsson Mobilecommunications Japan Inc 撮像装置、撮像方法、撮像制御プログラム、及び携帯端末装置
JP2020107244A (ja) * 2018-12-28 2020-07-09 日本放送協会 姿勢推定装置、学習装置及びプログラム
JP2020537790A (ja) * 2017-10-20 2020-12-24 トヨタ モーター ヨーロッパ 画像処理およびオブジェクトの視点決定の方法ならびにシステム

Families Citing this family (79)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7292723B2 (en) * 2003-02-26 2007-11-06 Walker Digital, Llc System for image analysis in a network that is structured with multiple layers and differentially weighted neurons
US20040186813A1 (en) * 2003-02-26 2004-09-23 Tedesco Daniel E. Image analysis method and apparatus in a network that is structured with multiple layers and differentially weighted neurons
US7177461B2 (en) * 2003-03-10 2007-02-13 Cranial Technologies, Inc. Cranial remodeling device database
EP3196805A3 (en) * 2003-06-12 2017-11-01 Honda Motor Co., Ltd. Target orientation estimation using depth sensing
US7409372B2 (en) * 2003-06-20 2008-08-05 Hewlett-Packard Development Company, L.P. Neural network trained with spatial errors
US8593542B2 (en) 2005-12-27 2013-11-26 DigitalOptics Corporation Europe Limited Foreground/background separation using reference images
US7565030B2 (en) 2003-06-26 2009-07-21 Fotonation Vision Limited Detecting orientation of digital images using face detection information
US9692964B2 (en) 2003-06-26 2017-06-27 Fotonation Limited Modification of post-viewing parameters for digital images using image region or feature information
US8498452B2 (en) 2003-06-26 2013-07-30 DigitalOptics Corporation Europe Limited Digital image processing using face detection information
US7620218B2 (en) 2006-08-11 2009-11-17 Fotonation Ireland Limited Real-time face tracking with reference images
US8494286B2 (en) 2008-02-05 2013-07-23 DigitalOptics Corporation Europe Limited Face detection in mid-shot digital images
US8948468B2 (en) 2003-06-26 2015-02-03 Fotonation Limited Modification of viewing parameters for digital images using face detection information
US7792970B2 (en) 2005-06-17 2010-09-07 Fotonation Vision Limited Method for establishing a paired connection between media devices
US9129381B2 (en) 2003-06-26 2015-09-08 Fotonation Limited Modification of post-viewing parameters for digital images using image region or feature information
US7574016B2 (en) 2003-06-26 2009-08-11 Fotonation Vision Limited Digital image processing using face detection information
US8330831B2 (en) 2003-08-05 2012-12-11 DigitalOptics Corporation Europe Limited Method of gathering visual meta data using a reference image
US7269292B2 (en) 2003-06-26 2007-09-11 Fotonation Vision Limited Digital image adjustable compression and resolution using face detection information
US8989453B2 (en) 2003-06-26 2015-03-24 Fotonation Limited Digital image processing using face detection information
US7440593B1 (en) 2003-06-26 2008-10-21 Fotonation Vision Limited Method of improving orientation and color balance of digital images using face detection information
US8682097B2 (en) 2006-02-14 2014-03-25 DigitalOptics Corporation Europe Limited Digital image enhancement with reference images
US8896725B2 (en) 2007-06-21 2014-11-25 Fotonation Limited Image capture device with contemporaneous reference image capture mechanism
US7844076B2 (en) 2003-06-26 2010-11-30 Fotonation Vision Limited Digital image processing using face detection and skin tone information
US8155397B2 (en) 2007-09-26 2012-04-10 DigitalOptics Corporation Europe Limited Face tracking in a camera processor
US7471846B2 (en) 2003-06-26 2008-12-30 Fotonation Vision Limited Perfecting the effect of flash within an image acquisition devices using face detection
US7508979B2 (en) * 2003-11-21 2009-03-24 Siemens Corporate Research, Inc. System and method for detecting an occupant and head pose using stereo detectors
US7526123B2 (en) * 2004-02-12 2009-04-28 Nec Laboratories America, Inc. Estimating facial pose from a sparse representation
US7609893B2 (en) * 2004-03-03 2009-10-27 Trw Automotive U.S. Llc Method and apparatus for producing classifier training images via construction and manipulation of a three-dimensional image model
US7236615B2 (en) * 2004-04-21 2007-06-26 Nec Laboratories America, Inc. Synergistic face detection and pose estimation with energy-based models
CA2565870A1 (en) 2004-05-06 2005-12-15 The Regents Of The University Of California Method and system for aligning and classifying images
JP4532171B2 (ja) * 2004-06-01 2010-08-25 富士重工業株式会社 立体物認識装置
JP2005346806A (ja) * 2004-06-02 2005-12-15 Funai Electric Co Ltd Dvdレコーダおよび記録再生装置
US8320641B2 (en) 2004-10-28 2012-11-27 DigitalOptics Corporation Europe Limited Method and apparatus for red-eye detection using preview or other reference images
KR100643303B1 (ko) * 2004-12-07 2006-11-10 삼성전자주식회사 다면 얼굴을 검출하는 방법 및 장치
US7315631B1 (en) 2006-08-11 2008-01-01 Fotonation Vision Limited Real-time face tracking in a digital image acquisition device
US8503800B2 (en) 2007-03-05 2013-08-06 DigitalOptics Corporation Europe Limited Illumination detection using classifier chains
JP4646681B2 (ja) * 2005-04-13 2011-03-09 キヤノン株式会社 色処理装置及びその方法
WO2008023280A2 (en) 2006-06-12 2008-02-28 Fotonation Vision Limited Advances in extending the aam techniques from grayscale to color images
US7916897B2 (en) 2006-08-11 2011-03-29 Tessera Technologies Ireland Limited Face tracking for controlling imaging parameters
US7403643B2 (en) * 2006-08-11 2008-07-22 Fotonation Vision Limited Real-time face tracking in a digital image acquisition device
KR20080026003A (ko) * 2006-09-19 2008-03-24 삼성전자주식회사 물리적인 상대 위치에 기반한 사진상의 ⅰd 태깅 장치 및방법
JP4709723B2 (ja) * 2006-10-27 2011-06-22 株式会社東芝 姿勢推定装置及びその方法
US8055067B2 (en) 2007-01-18 2011-11-08 DigitalOptics Corporation Europe Limited Color segmentation
EP2115662B1 (en) 2007-02-28 2010-06-23 Fotonation Vision Limited Separating directional lighting variability in statistical face modelling based on texture space decomposition
US8649604B2 (en) 2007-03-05 2014-02-11 DigitalOptics Corporation Europe Limited Face searching and detection in a digital image acquisition device
US7916971B2 (en) 2007-05-24 2011-03-29 Tessera Technologies Ireland Limited Image processing method and apparatus
US7855737B2 (en) 2008-03-26 2010-12-21 Fotonation Ireland Limited Method of making a digital camera image of a scene including the camera user
WO2010012448A2 (en) 2008-07-30 2010-02-04 Fotonation Ireland Limited Automatic face and skin beautification using face detection
US8150102B2 (en) * 2008-08-27 2012-04-03 Samsung Electronics Co., Ltd. System and method for interacting with a media device using faces and palms of video display viewers
JP6093501B2 (ja) * 2009-01-22 2017-03-08 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. 画像処理の間のユーザとの対話を予測する方法及び装置
US8379917B2 (en) 2009-10-02 2013-02-19 DigitalOptics Corporation Europe Limited Face recognition performance using additional image features
CN103177269B (zh) 2011-12-23 2017-12-15 北京三星通信技术研究有限公司 用于估计对象姿态的设备和方法
KR20140095601A (ko) * 2013-01-18 2014-08-04 삼성전자주식회사 자세 분류 장치 및 자세 분류 방법
CN103217438B (zh) * 2013-04-02 2015-02-18 天津大学 一种基于图像特征的电路板元件精确定位与检测的方法
CN105069413B (zh) * 2015-07-27 2018-04-06 电子科技大学 一种基于深度卷积神经网络的人体姿势识别方法
CN105718878B (zh) * 2016-01-19 2019-08-09 华南理工大学 基于级联卷积神经网络的第一视角空中手写和空中交互方法
CN105718879A (zh) * 2016-01-19 2016-06-29 华南理工大学 基于深度卷积神经网络的自由场景第一视角手指关键点检测方法
CN106308809B (zh) * 2016-08-15 2019-04-23 河北工业大学 大腿残肢者的步态识别方法
US10839226B2 (en) * 2016-11-10 2020-11-17 International Business Machines Corporation Neural network training
US10467458B2 (en) * 2017-07-21 2019-11-05 Altumview Systems Inc. Joint face-detection and head-pose-angle-estimation using small-scale convolutional neural network (CNN) modules for embedded systems
CN106599815A (zh) * 2016-12-06 2017-04-26 东南大学 基于标记分布的解决类别缺失问题的头部姿态估计方法
CN107180413B (zh) * 2017-05-05 2019-03-15 平安科技(深圳)有限公司 车损图片角度纠正方法、电子装置及可读存储介质
CN107358157B (zh) * 2017-06-07 2020-10-02 创新先进技术有限公司 一种人脸活体检测方法、装置以及电子设备
US11712162B1 (en) * 2017-06-28 2023-08-01 Bertec Corporation System for testing and/or training the vision of a user
US10304258B2 (en) 2017-07-24 2019-05-28 Microsoft Technology Licensing, Llc Human feedback in 3D model fitting
US10691925B2 (en) * 2017-10-28 2020-06-23 Altumview Systems Inc. Enhanced face-detection and face-tracking for resource-limited embedded vision systems
CN111447877A (zh) * 2017-10-23 2020-07-24 皇家飞利浦有限公司 使用深度成像的正电子发射断层摄影(pet)系统设计优化
US10922585B2 (en) * 2018-03-13 2021-02-16 Recogni Inc. Deterministic labeled data generation and artificial intelligence training pipeline
US10643063B2 (en) * 2018-04-09 2020-05-05 Qualcomm Incorporated Feature matching with a subspace spanned by multiple representative feature vectors
CN108920999A (zh) * 2018-04-16 2018-11-30 深圳市深网视界科技有限公司 一种头部角度预测模型训练方法、预测方法、设备和介质
CN110866864A (zh) * 2018-08-27 2020-03-06 阿里巴巴集团控股有限公司 人脸姿态估计/三维人脸重构方法、装置及电子设备
CN109189276A (zh) * 2018-08-29 2019-01-11 深圳众赢时代科技有限公司 桌面投影全息技术
CN111046707A (zh) * 2018-10-15 2020-04-21 天津大学青岛海洋技术研究院 一种基于面部特征的任意姿态正脸还原网络
CN110213605B (zh) * 2019-05-28 2022-09-13 广州方硅信息技术有限公司 图像纠正方法、装置及设备
CN111062478A (zh) * 2019-12-18 2020-04-24 天地伟业技术有限公司 基于神经网络的特征压缩算法
CN111028912A (zh) * 2019-12-23 2020-04-17 北京深测科技有限公司 环境辅助生活的监控方法及系统
CN111680552B (zh) * 2020-04-28 2023-10-03 北京控制工程研究所 一种特征部位智能识别方法
CN112857348B (zh) * 2020-12-31 2021-08-13 北京航空航天大学 一种利用磁悬浮轴承的角速度测量方法
CN113869186B (zh) * 2021-09-24 2022-12-16 合肥的卢深视科技有限公司 模型训练方法、装置、电子设备和计算机可读存储介质
US11989343B2 (en) * 2022-01-05 2024-05-21 Nokia Technologies Oy Pose validity for XR based services

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5239594A (en) * 1991-02-12 1993-08-24 Mitsubishi Denki Kabushiki Kaisha Self-organizing pattern classification neural network system
US5642431A (en) 1995-06-07 1997-06-24 Massachusetts Institute Of Technology Network-based system and method for detection of faces and the like
US5850470A (en) * 1995-08-30 1998-12-15 Siemens Corporate Research, Inc. Neural network for locating and recognizing a deformable object
US6144755A (en) 1996-10-11 2000-11-07 Mitsubishi Electric Information Technology Center America, Inc. (Ita) Method and apparatus for determining poses
US6128397A (en) 1997-11-21 2000-10-03 Justsystem Pittsburgh Research Center Method for finding all frontal faces in arbitrarily complex visual scenes
US6429699B1 (en) * 2000-12-19 2002-08-06 Winbond Electronics Corp. Generator of neuron transfer function and its derivative

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009246566A (ja) * 2008-03-28 2009-10-22 Sony Ericsson Mobilecommunications Japan Inc 撮像装置、撮像方法、撮像制御プログラム、及び携帯端末装置
JP2020537790A (ja) * 2017-10-20 2020-12-24 トヨタ モーター ヨーロッパ 画像処理およびオブジェクトの視点決定の方法ならびにシステム
JP7060686B2 (ja) 2017-10-20 2022-04-26 トヨタ モーター ヨーロッパ 画像処理およびオブジェクトの視点決定の方法ならびにシステム
JP2020107244A (ja) * 2018-12-28 2020-07-09 日本放送協会 姿勢推定装置、学習装置及びプログラム

Also Published As

Publication number Publication date
US20030235332A1 (en) 2003-12-25
EP1537522A4 (en) 2011-02-16
WO2004001660A1 (en) 2003-12-31
JP4469275B2 (ja) 2010-05-26
EP1537522A1 (en) 2005-06-08
AU2003245639A1 (en) 2004-01-06
US6959109B2 (en) 2005-10-25

Similar Documents

Publication Publication Date Title
JP4469275B2 (ja) ポーズ角度を推定するためのシステムおよび方法
US9881204B2 (en) Method for determining authenticity of a three-dimensional object
Wechsler Reliable Face Recognition Methods: System Design, Impementation and Evaluation
JP4692773B2 (ja) 物体の姿勢推定及び照合システム、物体の姿勢推定及び照合方法、並びにそのためのプログラム
JP6424822B2 (ja) 画像処理装置、画像処理方法、及びプログラム
KR100858087B1 (ko) 객체 포즈 정규화 방법과 장치 및 객체 인식 방법
JP4951498B2 (ja) 顔画像認識装置、顔画像認識方法、顔画像認識プログラムおよびそのプログラムを記録した記録媒体
US7853085B2 (en) Viewpoint-invariant detection and identification of a three-dimensional object from two-dimensional imagery
JP5406705B2 (ja) データ補正装置及び方法
KR100930994B1 (ko) 3차원 영상 모델 생성 방법 및 장치, 이를 이용한 영상인식 방법 및 장치 그리고 상기 방법들을 수행하는프로그램이 기록된 기록 매체
JP5227629B2 (ja) オブジェクト検出方法、オブジェクト検出装置、およびオブジェクト検出プログラム
JP2019079487A (ja) パラメータ最適化装置、パラメータ最適化方法、プログラム
JP2009020761A (ja) 画像処理装置及びその方法
Tsalakanidou et al. Integration of 2D and 3D images for enhanced face authentication
JP2006343859A (ja) 画像処理装置及び画像処理方法
KR100855631B1 (ko) 특징벡터 검출장치 및 방법, 그리고, 이를 이용한얼굴인식장치 및 방법
JP7230345B2 (ja) 情報処理装置及び情報処理プログラム
JP2009230704A (ja) オブジェクト検出方法、オブジェクト検出装置、およびオブジェクト検出プログラム
CN110990604A (zh) 图像底库生成方法、人脸识别方法和智能门禁系统
JP7326965B2 (ja) 画像処理装置、画像処理プログラム、及び画像処理方法
Zamuner et al. A pose-adaptive constrained local model for accurate head pose tracking
TW413793B (en) Tracing 3D display system and method made with image processing method
Rashad et al. 3D face recognition using 2DPCA 3D face recognition using 2DPCA
González-Jiménez et al. Automatic pose correction for local feature-based face authentication
CN106997477B (zh) 一种图像处理方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060619

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090929

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091225

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100202

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100226

R150 Certificate of patent or registration of utility model

Ref document number: 4469275

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130305

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130305

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140305

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees