JP2005530278A

JP2005530278A - ポーズ角度を推定するためのシステムおよび方法

Info

Publication number: JP2005530278A
Application number: JP2004516128A
Authority: JP
Inventors: マウスタファ・モハメド・ナブル
Original assignee: Identix Inc
Current assignee: Idemia Identity and Security USA LLC
Priority date: 2002-06-20
Filing date: 2003-06-20
Publication date: 2005-10-06
Anticipated expiration: 2023-06-20
Also published as: US20030235332A1; EP1537522A4; WO2004001660A1; JP4469275B2; EP1537522A1; AU2003245639A1; US6959109B2

Abstract

【解決手段】入力画像（４００，５００）の中の被写体のポーズ角度を決定するためのシステムおよび方法が開示される。好ましい一実施形態において、本システムは、プロトタイプ投影部（４０１，５０１）と、回帰推定部（４５０，５５０）と、角度計算部（４７０，５７０）と、を有するポーズ推定器（１０７，５０７）を備える。プロトタイプ投影部は、画像の入力画素を自己組織化マップ（ＳＯＭ）ニューラルネットワーク上に投影させ、入力画像の次元数を低減させることによって、より高速な処理を可能にするように構成されることが好ましい。回帰推定部は、ニューラルネットワークとして実装されると共に、各ポーズに固有なパターンに投影をマッピングするように構成されることが好ましい。角度計算部は、曲線適合部（４７１，５７１）と、誤差分析部（４７２，５７２）と、を含むことが好ましい。曲線適合部は、マッピングパターンからポーズ角度を推定するように構成されることが好ましい。誤差分析部は、計算されたポーズのときに入力画像が顔である可能性を表す信頼度信号を生成するように構成されることが好ましい。システムは、また、ニューラルネットワークを合成する責任を負う２つのネットワーク訓練器を含むことが好ましい。

Description

本発明は、画像解析の分野に関するものである。

頭部のポーズは、視覚システムによる顔画像処理の能力を高めるための、重要な視覚的手掛かりである。頭部のポーズは、ヨー、ピッチ、およびロールの３つの角度成分を有する。

ヨーは、頭が縦軸を基準に左右に回転する角度を指す。ピッチは、頭が横軸を基準に上下する角度を指す。ロールは、正面平面に垂直な軸を中心に頭が左右に傾く角度を指す。

ヨーおよびピッチは、前平面に対して顔の向きが変化するので、面外回転と称される。これに対し、ロールは、前平面に対して顔の向きが変化しないので、面内回転と称される。

写真、ビデオシーケンス、およびその他の画像から頭部のポーズを推定する作業は、顔を任意のポーズ角度で検出する必要があるので、非常に複雑である。頭部のポーズを推定するための試みが、いくつか実現されている。これらの試みは、モデルベースの技術および外観ベースの技術の２つに主に分類される。

モデルベースの技術は、画像から個人の三次元の頭部形状を復元し、その頭部の方向を三次元モデルによって推定する。代表的なモデルベースのシステムが、Shimizu et al.による１９９８年の顔およびジェスチャの自動認識に関するＩＥＥＥ国際会議の会報「ジェネリックモデルを使用した、一画像からの頭部ポーズの推定（Head Pose Estimation from One image Using a Generic Model）」に開示されている。本文献は、引用によって本明細書に組み込まれるものとする。開示されたシステムでは、先ず、三次元モデルのエッジ曲線（例えば、目、唇、および眉毛の輪郭など）が規定される。次に、入力画像の中から、このモデルに規定された曲線に対応する曲線が検索される。モデルと入力画像との間に曲線の対応関係が確立された後は、様々なポーズ角度を通じて三次元モデルを繰り返し調整し、入力画像に最も適合する曲線を示す調整を見いだすことによって、頭部のポーズが推測される。この最も適合する曲線を示すポーズ角度が、入力画像のポーズ角度として決定される。

しかしながら、このようなモデルベースのアプローチは、様々な欠点を有する。第１に、モデルベースのアプローチは、計算の複雑性が非常に高く、多くのパソコンが有する処理能力を上回る。

第２に、１つの三次元汎用顔モデルだけでは、頭部の形状または顔の表情のばらつきに対応することができない。したがって、このようなモデルは、幅広い種類の様々な顔に適用されると、優れた性能を示すことができない。

第３に、モデルベースのシステムの性能は、入力画像の解像度に比例するのが通常であるので、満足のいく性能を得るためには、約１２８×１２８画素の画像解像度を必要とする。入力画像の解像度が低いほど、得られる性能も低下する。

モデルベースの技術とは対照的に、外観ベースの技術は、二次元の被写体を１セットの二次元モデル画像と比較するのが通常である。被写体画像と各モデル画像との間の距離が、距離関数を使用して決定される。そして、最も近いモデル画像が、被写体画像のポーズ角度の決定に使用される。

しかしながら、外観ベースの技術もまた、深刻な欠点を有する。具体的には、外観ベースの方法は、使用されるモデル画像の数に応じて計算の複雑性が変化する。使用されるモデル画像の数が大きいと、システムによるリアルタイムの比較が不可能になる。

この問題に対処しようとした外観ベースのシステムの１つが、Niyogi et al.による米国特許第６，１４４，７５５号に開示されている。本文献は、引用によって本明細書に組み込まれるものとする。Niyogiは、ツリー構造のベクトル量子化技術を利用して、顔画像の訓練セットを編成している。訓練セットの各画像は、ツリーの各リーフとして格納される。入力画像が受信されると、ツリーは横移動し、訓練セットの中から最も近い画像が決定される。そして、この最も近い画像のポーズ角度が、入力画像のポーズ角度として出力される。

しかしながら、このシステムの不都合の１つは、システムの動作を通じて多数の訓練画像をメモリに格納しなければならない点にある。これらの訓練画像のために必要とされるメモリは、最新のパソコンの多くに見られる高速ランダムアクセスメモリの容量を上回る。

さらに、このシステムで出力されるポーズ角度は、訓練セットの画像が有する有効なポーズ角度に限られる。したがって、このシステムは、非常に大きなセットの訓練画像を格納しないと、多くの用途において５〜１０度以内という適切な精度を示すことができない。

もう１つの外観ベースのポーズ角度推定方法が、Li et al.による２０００年の顔およびジェスチャの自動認識に関するＩＥＥＥ国際会議の会報「サポートベクトルの回帰および分類に基づいた、マルチビューの顔の検出および認識（Support Vector Regression and Classification Based Multi-view Face Detection and Recognition）」に開示されている。本文献は、引用によって本明細書に組み込まれるものとする。この技術では、先ず、主成分分析（ＰＣＡ）によって入力画像の次元数が低減される。次に、先験的に訓練済みのサポートベクトル回帰（ＳＶＲ）モジュールによって、頭部のポーズ角度が推定される。

しかしながら、この技術による推定の精度は、利用されるサポートベクトル（ＳＶ）の数に依存する。サポートベクトルは、画像訓練セットの大きな部分を占めると考えられる。例えば、１０，０００の画像からなる訓練セットは、この方法において、少なくとも１，５００のＳＶを必要とする。したがって、許容誤差の範囲内でポーズを推定するためには、ＳＶＲモジュールは、大きなメモリ容量を必要とする。さらに、多数のＳＶの存在は、必要な計算時間を増大させ、リアルタイムの実行を困難にする。

もう１つの外観ベースのポーズ角度推定方法が、Yan et al.による２００１年１月１８のマイクロソフトテクニカルレポートＭＳＲ−ＴＲ−２００１−０９「アンサンブルＳＶＭ回帰に基づいた、マルチビューの顔の検出システム（Ensemble SVM Regression Based Multi-View Face Detection System）」に開示されている。本文献は、引用によって本明細書に組み込まれるものとする。このシステムは、ウェーブレット変換を使用して入力画像の正面、半断面、および断面の特徴を抽出し、各特徴の画像を生成する。これらの特徴画像は、次いで、３つのサポートベクトル分類器に供給される。これらの分類器の出力は、ポーズ角度を産するアンサンブルＳＶＲモジュールに供給される。しかしながら、このシステムは、サポートベクトル技術を使用するので、上述されたLiによるシステムと同じ問題を有し、リアルタイムのシステムとして容易に実行することができない。

したがって、頭部のポーズを決定するための、迅速で、強固で、且つ費用効率の良い方法が、今もなお必要とされている。このようなシステムは、リアルタイムで動作する際も、必要処理能力およびメモリ所要量が小さいことが好ましい。

入力画像の中の被写体のポーズ角度を決定するためのシステムおよび方法が開示される。好ましい一実施形態において、本システムは、プロトタイプ投影部と、回帰推定部と、角度計算部と、を含むポーズ推定器を備える。

プロトタイプ投影部は、入力画像を自己組織化マップ（ＳＯＭ）ニューラルネットワーク上に投影させることによって、入力画像の次元数を低減させる。得られた投影は、回帰推定部に供給されることが好ましく、回帰推定部は、それらの投影をマッピングし、被写体のポーズ角度に一意的に対応したパターンを得る。

角度計算部は、曲線適合部と、誤差分析部と、を含むことが好ましい。曲線適合部は、マッピングパターンからポーズ角度を推定する。誤差分析部は、入力画像が計算ポーズ角度のときに顔である可能性を示す信頼度信号を生成する。

好ましい一実施形態において、ＳＯＭニューラルネットワークは、非監視モードのもとで、第１のネットワーク訓練器によって、訓練画像セットを使用して合成される。この訓練は、様々なポーズの訓練画像に対応した複数の被写体プロトタイプを生成することが好ましい。

好ましい一実施形態において、回帰推定部は、監視モードのもとで、第２のネットワーク訓練器によって、既知のポーズ角度を有する訓練画像のセットを使用して合成されるニューラルネットワークとして実装される。回帰推定部は、誤差逆伝搬技術を使用して訓練されることが好ましい。誤差逆伝搬技術では、ＳＯＭニューラルネットワークによって訓練画像から生成された投影ベクトルと、既知のポーズ角度を使用して計算された回帰推定部の所望の出力との両方が、回帰推定部に提供される。

好ましい一実施形態において、本システムおよび本方法は、独立に存在しても良いし、１つまたはそれ以上の被写体検出および／または認識システムと一体化されても良い。

本発明の一態様は、被写体のポーズ角度を決定するためのシステムであって、入力画像を受信して投影ベクトルを生成するように構成されたプロトタイプ投影部と、投影ベクトルを受信してマッピングベクトルを出力するように構成された回帰推定部と、マッピングベクトルを受信して推定ポーズ角度を出力するように構成されたポーズ角度計算部と、を備えるシステムに関する。

本発明のもう１つの態様において、被写体は頭部である。

本発明のもう１つの態様において、システムは、さらに、マッピングベクトルおよび推定ポーズ角度を受信して顔信頼値を計算するように構成された顔信頼値計算部を備える。

本発明のもう１つの態様において、プロトタイプ投影部は、第１のニューラルネットワークと、投影部と、を含む。

本発明のもう１つの態様において、第１のニューラルネットワークは、被写体の外観をあらゆる可能なポーズ角度で表すことのできる複数の被写体プロトタイプを含むＳＯＭニューラルネットワークである。

本発明のもう１つの態様において、被写体プロトタイプのセットは、一括ネットワーク合成の最中に訓練画像のセットを使用して生成される。

本発明のもう１つの態様において、投影は、入力画像と被写体プロトタイプのセットとの間でユークリッド距離関数を計算することによって実施される。

本発明のもう１つの態様において、回帰推定部は、第２のニューラルネットワークを含む。

本発明のもう１つの態様において、第２のニューラルネットワークは、複数の入力ノードおよび出力ノードを含む回帰ネットワークである。

本発明のもう１つの態様において、回帰推定部の訓練は、訓練画像を第１のニューラルネットワーク上に投影させること、そして、回帰推定部を訓練し、得られた画像投影を入力ポーズ角度に固有な計算出力パターンに関連付けることによって達成される。

本発明のもう１つの態様において、角度計算部は曲線適合部を含む。

本発明のもう１つの態様において、角度計算部は誤差分析部を含む。

本発明のもう１つの態様は、被写体のポーズ角度を決定するための方法であって、被写体の入力画像をプロトタイプのセット上に投影させ、入力画像の投影を得ること、入力投影を訓練済みの回帰ネットワークに適用し、マッピングパターンを得ること、そして、マッピングパターンから被写体のポーズ角度を推定し、推定の信頼度を示す出力信号を生成することを含むランタイム動作を備える方法に関する。

本発明のもう１つの態様において、被写体は頭部である。

もう１つの態様において、本発明は、さらに、被写体の外観をあらゆる可能なポーズ角度で表すことのできるプロトタイプのセットを訓練画像のセットから生成すること、訓練入力画像をプロトタイプのセット上に投影させ、複数の投影距離を得ること、回帰ネットワークを訓練し、入力投影を入力ポーズ角度に固有な出力パターンに関連付けることを含む一括合成を備える。

もう１つの態様において、本発明は、入力画像の中の被写体のポーズ角度を少なくとも１つの次元で決定するためのシステムであって、非監視モードで第１の複数の訓練画像を使用して訓練され、複数のウェイトベクトルを作成する第１のニューラルネットワークであって、複数のウェイトベクトルは、複数の訓練画像をそれぞれに表す、第１のニューラルネットワークと、入力画像を受信すると共に、該入力画像とウェイトベクトルとの間の距離を表す複数の計算距離を含む投影ベクトルを生成するように構成される投影部と、監視モードで第２の複数の訓練画像を使用して訓練され、複数のニューロンを含む第２のニューラルネットワークであって、第２の複数の訓練画像は、既知のポーズ角度を採る被写体を含み、各ニューロンは、特定のポーズ角度に調整され、投影ベクトルを受信すると共に、各ニューロンの調整後のポーズ角度からの被写体のポーズ角度の変化に応じて単調に減少する偶関数にしたがって値を出力するように構成される、第２のニューラルネットワークと、ニューロンによって出力された値を受信すると共に、被写体のポーズ角度を少なくとも１つの次元で推定するように構成された曲線適合部と、ニューロンによって出力された値と、関数のための計算値と、の間の誤差を表すことのできる値を、推定ポーズ角度を使用して生成する誤差計算部と、を備えるシステムに関する。

本発明のもう１つの態様において、誤差値は、被写体の存在を検出するために使用される。

本発明のもう１つの態様において、被写体は顔である。

もう１つの態様において、本発明は、入力画像の中の被写体のポーズ角度を少なくとも１つの次元で決定するための方法であって、非監視モードで第１の複数の訓練画像を使用して、第１のニューラルネットワークを訓練し、複数の訓練画像をそれぞれに表す複数のウェイトベクトルを作成する動作と、入力画像を第１のニューラルネットワーク上に投影させ、入力画像とウェイトベクトルとの間の距離を表す複数の計算距離を含む投影ベクトルを生成する動作と、監視モードで第２の複数の訓練画像を使用して、第２のニューラルネットワークを訓練する動作であって、第２の複数の訓練画像は、既知のポーズ角度を採る被写体を含み、第２のニューラルネットワークは、特定のポーズ角度にそれぞれに調整された複数のニューロンを含む、動作と、第２のニューラルネットワークにおいて、各ニューロンの調整後のポーズ角度からの被写体のポーズ角度の変化に応じて単調に減少する偶関数にしたがって投影ベクトルを処理し、複数の出力値を生成する動作と、出力値を曲線に適合させ、被写体のポーズ角度を少なくとも１つの次元で推定する動作と、出力値と、関数のための計算値と、の間の誤差を表すことのできる値を、推定ポーズ角度を使用して計算する動作と、を備える方法に関する。

本発明のもう１つの態様において、被写体は顔である。

上述された本発明の概要は、以下の詳細な説明および添付の図面との関連のもとで、より良く理解することが可能である。

Ｉ．システム構成
図１は、入力画像の中の被写体のポーズ角度を推定するのに適したシステム１００の好ましい一実施形態を示している。例示のため、システム１００の動作は、主に、特定の被写体グループの、すなわち人間の頭部のポーズ角度を推定することに関連して説明される。しかしながら、本システムおよび本方法は、後述されるように、他の被写体に対しても幅広く適用可能である。

やはり例示のため、システム１００の動作は、主に、人間の頭部のポーズを１つの次元で、すなわちヨーに基づいて推定することに関連して説明される。しかしながら、本システムおよび本方法は、例えば図６〜８に関連して後述されるように、１つまたはそれ以上の次元でポーズ角度を計算する場合にも幅広く適用可能である。

以下の説明では、人間の頭部のポーズ角度をヨー、ピッチ、ロールの３つの次元で記述するために、特定の変換が採用される。しかしながら、当業者ならば明らかなように、本システムおよび本方法は、ポーズ角度を記述するのに適した任意の変換を使用して実現可能である。本明細書で採用される変換は、以下の通りである。
ヨー：顔が正面を向いている場合は０°
被写体がその頭部を左に回転させる場合は正（１°〜９０°）
被写体がその頭部を右に回転させる場合は負（−１°〜−９０°）
ピッチ：顔が正面を向いている場合は０度
被写体がその頭部を上に回転させる場合は正（１°〜９０°）
被写体がその頭部を下に回転させる場合は負（−１°〜−９０°）
ロール角：顔が正面を傾いていない場合は０°
被写体がその頭部を左に傾かせる場合は正（１°〜９０°）
被写体がその頭部を右に傾かせる場合は負（−１°〜−９０°）

図１を参照せよ。システム１００は、イメージセンサ１０２と、処理装置１０３と、制御メモリ１０４と、システム出力１０５と、を備えることが好ましい。好ましい一実施形態では、処理装置１０３は、パソコンに見られるような汎用マイクロプロセッサであって良い。あるいは、処理装置１０３は、デジタル信号プロセッサ（ＤＳＰ）または特定用途向け集積回路（ＡＳＩＣ）であって良い。メモリ１０４は、磁気ディスク、光学ディスク、もしくは他の適切な格納手段を含むが、それらに限定されない、任意の適切な格納媒体またはそれらの組み合わせであって良い。

イメージセンサ１０２は、ビデオカメラまたはデジタルカメラなど、対象物を表すデジタル信号を獲得するのに適した任意の手段であって良い。さらに、イメージセンサ１０２は、生の被写体、写真、印刷イメージ、または芸術家による創作物など、任意の適切なソースから画像を捕らえられるように構成されて良い。

制御メモリ１０４は、後述されるように、処理装置１０３によって使用されるコンピュータデータおよびコンピュータ命令を格納することによって、２つのニューラルネットワーク訓練器１０６およびポーズ推定器１０７を実現することが好ましい。あるいは、ポーズ推定器１０７およびネットワーク訓練器１０６は、専用の電子回路またはハードウェアと、ソフトウェアと、の任意の適切な組み合わせを使用するなど、他の方法で実現されても良い。

ポーズ推定器１０７をより詳しく説明する前に、先ず、システムの動作に関して簡単な説明を行う。動作の際に、イメージセンサ１０２は、例えば人間の顔などの被写体１０１の画像を獲得する。イメージセンサ１０２は、その画像をポーズ推定器１０７に転送し、ポーズ推定器１０７は、その顔のポーズ角度を、例えばイメージセンサ１０２の視野内の垂直軸など、何らかの軸を基準に決定する。ポーズ推定器１０７は、また、信頼レベルを計算することが好ましい。信頼レベルは、この好ましい実施形態では、決定ポーズ角度のときに入力画像が人間の顔を現す可能性を反映している。顔信頼度は、計算ポーズ角度のときに入力画像が顔である可能性をパーセントで表す数値（０〜１００）であることが好ましい。

システム出力１０５は、情報通知の目的で表示される。しかしながら、システム出力１０５は、ほとんどの場合において、例えば入力画像をもとに顔の正面画像を回復させるように構成されたポーズ補正システムなどの別の動作モジュールに、追加であるいは代わりに供給される。

図２は、半断面の顔２００を含む入力画像に対応したポーズ推定器１０７の出力の、好ましい一実施形態を示している。図２に示されるように、ポーズ推定器１０７の出力は、顔のヨーの測定値および顔の信頼度の測定値の２つの成分を含むことが好ましい。低い顔信頼値は、入力画像３００が顔を含まないという結論を支持するので、出力されるポーズ角度に対する信頼性が下がる。

ポーズ推定器１０７を実現するための好ましい一実施形態が、図４に示されている。図４に示されるように、ポーズ推定器１０７は、プロトタイプ投影部４０１と、回帰推定部４５０と、ポーズ角度＆顔信頼度計算部４７０とを含むことが好ましい。

プロトタイプ投影部４０１は、ＳＯＭニューラルネットワーク４０２（「ＳＯＭネット４０２」）と、投影部４０４と、を含むことが好ましい。ＳＯＭネット４０２は、複数のプロトタイプベクトル４０３からなる長方形のニューロン配列であることが好ましい。

投影部４０４は、入力画像４００を受信し、それをＳＯＭネット４０２上に投影することによって、入力画像とプロトタイプベクトル４０３との間の距離を表す複数の計算距離を含む投影ベクトルを生成するように構成されることが好ましい。この投影は、後述されるように、入力画像の大きさの次元数を、ＳＯＭネット４０２の中のニューロンの数まで減少させることを目的としている。

ポーズ推定器１０７は、さらに、入力された投影ベクトルを、入力画像４００のポーズ角度を表す固有な出力パターンに関連付ける、回帰推定部４５０を含むことが好ましい。好ましい一実施形態において、回帰推定部４５０は、多層認知のニューラルネットワークとして実装される。このニューラルネットワークは、１４の入力ノード４５１と、９の隠しノード４５２と、７の出力ノード４５３と、を含むことが好ましい。

ＳＯＭネット４０２の中のプロトタイプベクトル４０３の数は、回帰推定部４５０の中の出力ニューロンの数よりも大きいことが好ましい。好ましい一実施形態において、ＳＯＭネット４０２は、１４のプロトタイプベクトル４０３を含む。

各出力ニューロン４５３は、特定のポーズ角度に調整されることが好ましい。好ましい一実施形態において、ニューロン１はα₁＝−９０°に対応し、ニューロン２はα₂＝−４５°に対応し、ニューロン３はα₃＝−２５°に対応し、ニューロン４はα₄＝０°（正面撮影像）に対応し、ニューロン５はα₅＝＋２５°に対応し、ニューロン６はα₆＝＋４５°に対応し、ニューロン７はα₇＝＋９０°に対応する。

各ニューロンｋは、その調整後の角度α_kに等しいポーズ角度を有する入力顔画像に応じて最大の出力を生成するように訓練されることが好ましい。ニューロン出力値［マップ₁，マップ₂，……，マップ₇］は、相互に相関しあうと共に、マッピング関数Ｆ（α（ｘ）−α_k）によって規定された波形を構成することが好ましい。ここで、α（ｘ）は、入力画像のポーズ角度であるとする。

Ｆ（α（ｘ）−α_k）は、α（ｘ）がα_kに近い場合には高い値を、α（ｘ）がα_kから程遠い場合には低い値を有するように選択されることが好ましい。したがって、この関数は、差の絶対値｜α（ｘ）−α_k｜に応じて単調に減少する偶関数となるように選択されることが好ましい。

好ましい一実施形態において、マッピング関数は、
Ｆ（α（ｘ）−α_k）＝ｃｏｓ（α（ｘ）−α_k）
となるように選択されて良い。

この関数に関し、例えば、α（ｘ）＝−３０°の顔を含む入力画像４００がプロトタイプ投影部４０１によって投影され、回帰推定部４５０に転送された場合には、出力ニューロン４５３は、以下の値を得る。
●マップ₁＝ｃｏｓ（−３０°−（−９０°））＝＋０．５００
●マップ₂＝ｃｏｓ（−３０°−（−４５°））＝＋０．９６６
●マップ₃＝ｃｏｓ（−３０°−（−２５°））＝＋０．９９６
●マップ₄＝ｃｏｓ（−３０°−（０°））＝＋０．８６６
●マップ₅＝ｃｏｓ（−３０°−（＋２５°））＝＋０．５７４
●マップ₆＝ｃｏｓ（−３０°−（＋４５°））＝＋０．２５９
●マップ₇＝ｃｏｓ（−３０°−（＋９０°））＝−０．５００

前述のように、ポーズ推定器１０７は、ポーズ角度計算部４７０をも含むことが好ましい。好ましい一実施形態において、計算部４７０は、曲線適合部４７１と、誤差分析部４７２と、を含むことが好ましい。

曲線適合部４７１は、入力画像４００のポーズ角度α（ｘ）を、そのマッピングベクトル［マップ₁，マップ₂，……，マップ_M］から推定するように構成されることが好ましい。好ましい一実施形態において、曲線適合部４７１は、最小平方誤差曲線適合アルゴリズムを実行することによって、下記の距離を最小化する。

ここで、α'は、入力画像４００のポーズ角度α（ｘ）の推定値である。曲線適合部４７１は、回帰推定部ネットワーク４５０からの実際の出力と、Ｆ（α（ｘ）−α_k）によって与えられる事前指定波形と、の間の平方誤差を最小化する推定ポーズ角度α'を計算することが好ましい。

好ましい一実施形態において、Ｆ（α（ｘ）−α_k）＝ｃｏｓ（α（ｘ）−α_k）のとき、平方誤差(SquareError)を最小化する最適なα'値は、次のように計算可能である。

誤差分析部４７２は、曲線適合の精度、すなわち実際の出力ベクトル［マップ₁，マップ₂，……，マップ_M］がどれだけ推定Ｆ（α'−α_k）に近いか、を反映する顔信頼度を計算するように構成されることが好ましい。好ましい一実施形態において、顔信頼度(FaceConfidence)の出力は、次のように計算可能である。

図５は、入力画像の中の被写体のポーズ角度を推定するのに適したポーズ推定器５０７の代替の好ましい一実施形態を示している。図からわかるように、ポーズ推定器５０７の構成要素の多くは、上述されたポーズ推定器１０７の構成要素に対応しており、これらの両システムに共通する類似の構成要素は、少なくとも最後の二桁を共有する参照番号によってそれぞれに識別される。

ポーズ推定器５０７は、それが複数の回帰推定部５５０と、処理部５７５と、を含むという点で、ポーズ推定器１０７と異なる。処理部５７５は、後述されるように、回帰推定部５５０の出力を組み合わせることによって、計算部５７０に入力するための単一のマッピングベクトルを生成するように構成されることが好ましい。

好ましい一実施形態において、処理部５７５は、単に回帰推定部５５０の出力の平均を採ることによって、マッピングベクトルを生成して良い。この単純なアルゴリズムは、必要な処理が最小限で済むので、多くの場合において、ポーズ推定器５０７のリアルタイムな動作能力に影響を及ぼすことなく実行可能である。

あるいは、もし十分な処理能力が使用可能である場合あるいはリアルタイムな動作が重要でない場合は、処理部５７５は、マッピングベクトルを決定するために、より高度なアルゴリズムを実行して良い。例えば、処理部５７５は、先ず、回帰推定部５５０の全出力の平均およびその平均からの標準偏差を計算して良い。処理部５７５は、次に、第２の平均を計算することによって、出力と第１の平均との差が一標準偏差を超えるあらゆる回帰推定部からの影響を排除したマッピングベクトルを生成して良い。

混乱を避けるため、本システムおよび本方法の動作に関する以下の説明は、主に、図４の好ましい実施形態および単一の回帰推定部４５０の観点から論じるものとする。しかしながら、回帰推定部４５０の訓練および実行は、図５の実施形態の複数の回帰推定部５５０にも適用可能である。

ＩＩ．システム動作
好ましい一実施形態において、本システムの動作は、訓練期間および実行期間（ランタイム）の２段階に分けられる。訓練期間において、ニューラルネットワーク４０２，４５０は、後ほど詳述されるように、対応するネットワーク訓練器１０６によって、比較的大きな少なくとも１セットの訓練画像を使用して、それぞれに訓練される。ランタイムにおいて、訓練済みのニューラルネットワークは、入力画像を処理し、計算部４７０に出力を供給する。計算部４７０は、画像の中の被写体のポーズ角度を決定する。以下の説明では、先ず、各ニューラルネットワーク４０２，４５０の訓練の好ましい一実施形態が説明され、次に、システム１００のランタイム動作の好ましい一実施形態が説明される。

Ａ．ＳＯＭネットおよび回帰推定部の訓練
好ましい一実施形態において、訓練は、人間の顔を含む数千の中間調の訓練画像を使用して行われる。この訓練画像セットは、様々な人種および性別の１，５００の被写体を、様々なポーズで且つ様々な光条件のもとで、様々な顔用装飾品（眼鏡など）と共に撮影した、３０，０００の訓練画像からなるセットを構成することが好ましい。

上述のように、説明のため、ポーズ推定器１０７は、ヨーポーズ角度のみを計算するように構成されるものとする。したがって、この好ましい一実施形態において、訓練画像セットの中の顔は、ヨー角のみが変動し、ピッチ角およびロール角は０°であることが好ましい。

ネットワーク訓練器１０６によるＳＯＭネット４０２および回帰推定部４５０の訓練が完了すると、訓練画像は廃棄されて良い。格納が必要とされるのは、ニューラルネットワークのウェイトのみである。この好ましい一実施形態において、ニューラルネットワークのウェイトの格納に必要とされるのは、ＳＯＭネット４０２のために５，６００バイト、回帰推定部４５０のために８２０バイトのみである。したがって、ランタイムにおけるポーズ推定器１０７のメモリ総所要量は、７Ｋｂ未満である。

好ましい一実施形態において、訓練画像は、訓練が始まる前にトリミングされ、顔領域より外の画素を排除される。トリミングされた顔は、次いで、２０×２０画素などの標準サイズにスケール変更されることが好ましい。

好ましい一実施形態において、ニューラルネットワーク４０２，４５０は、同じ訓練画像セットを使用して訓練されて良い。後述のように、回帰推定部４５０は、監視モードで訓練されることが好ましいので、この好ましい一実施形態において、訓練画像セットの各訓練画像は、そのポーズ角度が既知でなければならない。

あるいは、ニューラルネットワーク４０２，４５０は、互いに異なる訓練画像セットを使用して訓練されて良い。後述のように、ＳＯＭネット４０２は、非監視モードで訓練されることが好ましいので、この場合において、第１の訓練画像セットの中の被写体は、ポーズ角度が既知でなくて良い。

１．ＳＯＭネットの訓練
好ましい一実施形態において、ＳＯＭネット４０２は、従来の縮小ガウス近傍関数を使用して訓練される。ＳＯＭネット４０２を訓練するために、非監視モードのもとで、標準の訓練画像がネットワークに提示される、すなわち、ＳＯＭニューロンは、特定の入力に対応する関連の出力を学習するように強制されない。それどころか、ＳＯＭネット４０２は、配列のうち位置的に近いものから特定の幾何学的距離だけ離れたものまでを含むニューロンが互いに活性化しあって同じ入力画像から何かを学習するように、ニューロンのウェイトベクトル４０３を組織する。この結果、この付近においてニューロンのウェイトベクトルが局所的に緩和される。これは、継続学習において大域的な秩序化をもたらす。

したがって、ＳＯＭの訓練手続きは、入力データの相似グラフを生じる。それは、高次元（この好ましい一実施形態では２０×２０＝４００次元）の入力データの有する非線形の統計学的関係を、ＳＯＭネットワークの二次元ニューロン格子４０３の有する単純な幾何学的関係に変換する。したがって、ＳＯＭネット４０２は、もとのデータ要素の有する最も重要な位相的な距離関係を保ちつつ情報を圧縮する。ＳＯＭニューラルネットワークの設計および動作に関するさらなる情報が、T. Kohonenによる「自己組織化マップ（Self-Organizing Maps）」（１９９７年、シュプリンガー・フェアラーク出版、第２版、ＩＳＢＮ３−５４０−６２０１７−６）で開示されている。本文献は、引用によって本明細書に組み込まれるものとする。

訓練の結果、ＳＯＭ配列の中の各ニューロンは、複数の訓練画像を表すウェイトベクトル４０３を有するようになる。好ましい一実施形態において、各ウェイトベクトル４０３は、標準の訓練画像と同じ次元数を有し、訓練の過程でウェイトベクトルの形成に最も寄与した訓練画像のプロトタイプであると見なすことができる。

２．回帰推定部の訓練
回帰推定部４５０は、入力および所望出力の両方がネットワークに提示される誤差逆伝搬技術を使用して、監視モードのもとで訓練されることが好ましい。好ましい一実施形態において、回帰推定部４５０の訓練は、以下の手順で実施可能である。
１．ＳＯＭネット４０２が上述のような訓練を完全に終えた後、標準の一訓練画像をプロトタイプ投影部４０１に適用する。
２．その訓練画像用に対応した投影ベクトル［投影₁，投影₂，投影₃，……，投影_V］を、プロトタイプ投影部４０１に計算させる。このとき、Ｖは、ＳＯＭネットワークのプロトタイプベクトル４０３の数である。
３．出力ノード４５３の所望出力［マップ₁，マップ₂，……，マップ_M］を計算する。このとき、Ｍは、出力ノード４５３の数である。所望出力の計算は、マッピング関数Ｆ（α（ｘ）−α_k）を使用して実施されることが好ましい。このとき、α（ｘ）は、入力された訓練画像の既知のポーズ角度で、α_kは、出力ニューロンｋに関連付けられた調整後の角度である。
４．投影ベクトル［投影₁，投影₂，投影₃，……，投影_V］を回帰推定部の入力モード４５１に、対応するマッピングベクトル［マップ₁，マップ₂，……，マップ_M］を回帰推定部の出力モード４５３に、それぞれ提示する。
５．回帰推定部ネットワーク４５０のウェイトを、誤差逆伝搬技術を使用して更新する。
６．回帰推定部４５０の実際の出力と所望の出力との間の平均平方誤差が許容範囲になるまで、他の訓練画像に対してもステップ１〜５の手順を繰り返す。人間の頭部のポーズ角度を推定する必要がある代表的な用途において、許容可能な誤差は約２〜３％だと考えられる。

Ｂ．ランタイム動作
システムは、ニューラルネットワーク４０２，４５０が訓練された時点で、ランタイム動作の用意が整う。以下では、図６を参照にしながら、ランタイム動作の好ましい一実施形態が説明される。

図６に示されるように、ステップ６０１において、未知のポーズ角度を有する画像４００が、プロトタイプ投影部４０１に供給される。好ましい一実施形態において、画像４００は、顔または顔だと予想される部分のみを含むトリミング済みの画像である。ステップ６０１において、入力画像４００は、投影部４０４によって、ＳＯＭプロトタイプベクトル４０３に一致する寸法にスケール変更される。好ましい一実施形態において、これらの寸法は、２０×２０画素であって良い。

ステップ６０２において、プロトタイプ投影部４０１は、入力画像４００をプロトタイプベクトル４０３のＳＯＭネットワーク格子上に投影させる。好ましい一実施形態において、投影部４０４は、画像とプロトタイプベクトル４０３との間のユークリッド距離を計算することによって、このステップを実施する。投影部４０４は、次いで、計算された距離のセットを投影ベクトル［投影₁，投影₂，投影₃，……，投影_V］として出力する。このとき、Ｖは、ＳＯＭネットワークのプロトタイプベクトル４０３の数である。この投影の動作は、もとの次元数（例えば２０×２０＝４００）をＶまで減少させる。前述のように、好ましい一実施形態において、Ｖは１４である。

ステップ６０３において、回帰推定部４５０は、投影ベクトルを処理し、出力マッピングベクトル［マップ₁，マップ₂，……，マップ_M］を計算する。ステップ６０４において、曲線適合部４７１は、最小平方誤差を最小化することによって、出力マッピングベクトルを曲線Ｆ（α（ｘ）−α_k）に適合させる。ステップ６０５において、曲線適合部４７１は、推定ポーズ角度α（ｘ）を算出する。ステップ６０６において、誤差分析部４７２は、顔信頼値を算出する。

ステップ６０７において、ポーズ推定器１０７は、出力信頼値をチェックする。高い出力信頼値は、スケール変更された入力画像が、出力ポーズ角度によって示された方向を向く標準的な顔を表していることを意味する。反対に、低い出力信頼値は、出力ポーズ角度が信頼できないことを意味する。高い信頼値が得られた場合は、ステップ６０８において、算出された信頼度およびポーズ角度に対応する出力信号が提供される。低い信頼値が得られた場合は、ステップ６０９において、低い信頼値に対応する出力信号が提供され、ポーズ角度は無視されることが好ましい。

低い信頼値は、マッピングベクトルが対象波形Ｆ（α'−α_k）に一様に適合しない場合に生じる。これは、主として、以下の２つの状況のいずれかによって引き起こされる。
１．入力画像４００は顔を含まない。
２．入力画像４００は顔を含むが、ＳＯＭネット４０２および回帰推定部４５０の訓練に使用された画像とは大幅に異なる。例えば、もし訓練画像に、眼鏡をかけ且つ室内照明に照らされた被写体のみが含まれる場合は、本システムは、眼鏡をかけず且つ直射日光に照らされた女性の被写体を含む画像を提示された際に、不正確な結果を生じる恐れがある。

第２の状況は、顔および画像条件の範囲を広げつつ訓練画像セットの数を増大させることによって、最小限に抑えるまたは解消することができる。もし訓練画像セットが適切ならば、低い信頼値を生じた要因は、必然的に、入力画像に顔が含まれないからである。したがって、顔信頼度の出力を使用すれば、顔の存在を検出すると共に、推定ポーズ角度の信頼性を示すことができる。

ランタイム動作において、この好ましい一実施形態のポーズ推定器１０７は、Ｐｅｎｔｉｕｍ（登録商標） III ８００ＭＨｚのワークステーションを使用して、訓練画像セットに含まれない顔画像のヨーポーズ角度を７５フレーム毎秒で決定することができる。

なお、以上の説明では、プロトタイプ投影部が、顔領域のみを含むトリミング済みの画像を提供される場合を想定したが、本システムおよび本方法は、適切な処理技術による処理を通じて、トリミング済みでない通常の画像にも適用可能である。

例えば、ＳＯＭプロトタイプベクトル４０３と同寸法の固定サイズのスライディングウィンドウを使用し、トリミング済みでない入力画像を複数のスケールおよびシフトで走査することによって、そのウィンドウのコンテンツを、標準の入力画像４００のかたちでポーズ推定器１０７に適用することが可能である。そして、出力（ポーズ角度および顔信頼度）を記録し、最も優れた顔信頼度を示すウィンドウ位置を、顔画像を含むものと見なして良い。

ＩＩＩ．他の次元でのポーズ角度の推定
上述の議論は、ヨーの推定に焦点を当ててきたが、本システムおよび本方法は、例えばピッチおよびロールなど、別の次元でポーズ角度を決定するようにも構成可能である。これは、所望の次元で様々にポーズ角度が変動する被写体を含む訓練画像を使用して、ニューラルネットワーク４０２，４５０を訓練することによって行われる。例えば、システム１００をピッチの推定に適用するためには、ニューラルネットワーク４０２，４５０は、ピッチ角のみが変動し、ヨー角およびロール角は０°である顔を含む訓練画像を用いて訓練されることが好ましい。

また、もし必要ならば、三次元の全てで被写体のヘッドポーズを計算するための統合システムを実現しても良い。このような三次元ポーズ角度推定器の好ましい一実施形態が、図７に示されている。

図７に示されるように、三次元でポーズ角度を推定するためのシステム７００は、ヨー、ピッチ、およびロールの各自由度にそれぞれ対応した３つのポーズ推定器７０７を備えることが好ましい。上述のように、各ポーズ推定器７０７は、プロトタイプ投影部７０１に含まれるＳＯＭネットワークと、回帰推定部ネットワーク７５０と、の２つのニューラルネットワークを含むことが好ましい。各回帰推定部７５０の出力は、上述の説明にしたがって、それぞれの計算部７７０に提供されることが好ましい。

好ましい一実施形態において、システム７００のニューラルネットワークは、１つの自由度のみで変動する個別の画像セットを使用して、それぞれに訓練される。推定部７０７が訓練されると、任意のヨー、ピッチ、およびロールのポーズの頭部を有する被写体を含む入力画像４００が、各推定部に提示される。各推定部７０７からの出力は、対応するポーズ角度およびその次元に関する信頼値を含むことが好ましい。

三次元推定器の代替の一実施形態が、図８に示されている。図８に示されるように、三次元でポーズ角度を推定するためのシステム８００は、共有プロトタイプ投影器８０１と、ヨー、ピッチ、およびロールに対応した３つの回帰推定部８５０と、３つの計算部８７０と、を備えることが好ましい。プロトタイプ投影器８０１の出力は、各回帰推定部８５０に提示されることが好ましい。

この好ましい一実施形態では、３つの自由度の全てでポーズが変動する被写体を含む単一の訓練セットが使用可能である。回帰推定部４５０の訓練に当たっては、三次元の各次元に対応したそれぞれの既知のポーズ角度を使用して、訓練画像ごとに各推定部の所望の出力が計算される。例えば、訓練画像が−５０°のヨー角、−１０°のピッチ角、および０°のロール角を有する場合は、ヨー回帰推定部８５０ｙの誤差逆伝搬訓練に使用されるポーズ角度は、−５０°に設定されることが好ましい。同様に、ピッチ回帰推定部８５０ｐおよびロール回帰推定部８５０ｒのためのポーズ角度は、それぞれ−１０°および０°に設定されることが好ましい。

上述の議論は、人間の顔に関するポーズ角度の推定に焦点を当てているが、本発明によるシステムおよび方法は、他の被写体のポーズ角度の決定にも適用可能である。例えば、適切な訓練画像をもってすれば、上述のシステムおよび方法は、車、飛行機、ならびに生物および非生物を問わない他の被写体の角度方向の推定にも使用可能である。

なお、本システムおよび本方法は、ポーズ角度を決定する際に色や動きの手掛かりに依存しないという点で有利である。

以上、特定の実施形態に基づいて本発明が説明されてきたが、当業者ならば、以上の説明に照らし、様々な代替、変更、および変形を容易に考えつくことが可能である。

ポーズ角度の推定のための好ましい一実施形態を示した図である。判断面の顔を含む入力画像を供給されたポーズ推定器の出力の、好ましい一実施形態を示した図である。顔を含まない入力画像を供給されたポーズ推定器の出力の、好ましい一実施形態を示した図である。ポーズ推定器の好ましい一実施形態を示した図である。ポーズ推定器の代替の好ましい一実施形態を示した図である。人間の顔のポーズ角度を推定するための好ましい一実施形態を示したフローチャートである。ポーズ角度を三次元で推定するためのシステムの、好ましい一実施形態を示した図である。ポーズ角度を三次元で推定するためのシステムの、代替の好ましい一実施形態を示した図である。

Claims

入力画像の中の被写体のポーズ角度を少なくとも１つの次元で決定するためのシステムであって、
非監視モードで第１の複数の訓練画像を使用して訓練され、複数のウェイトベクトルを作成する第１のニューラルネットワークであって、前記複数のウェイトベクトルは、前記複数の訓練画像をそれぞれに表す、第１のニューラルネットワークと、
入力画像を受信すると共に、前記入力画像と前記ウェイトベクトルとの間の距離を表す複数の計算距離を含む投影ベクトルを生成するように構成される投影部と、
監視モードで第２の複数の訓練画像を使用して訓練される複数のニューロンを含む第２のニューラルネットワークであって、前記第２の複数の訓練画像は既知のポーズ角度の被写体を含み、各ニューロンは特定のポーズ角度に調整されると共に、前記投影ベクトルを受信し、各ニューロンの調整後の前記ポーズ角度からの前記被写体のポーズ角度の変化に応じて単調に減少する偶関数に従って値を出力するように構成される、第２のニューラルネットワークと、
前記ニューロンによって出力された前記値を受信すると共に、前記被写体のポーズ角度を少なくとも１つの次元で推定するように構成される曲線適合部と、
前記ニューロンによって出力された前記値と、前記関数のための計算値と、の間の誤差を表す値を、前記推定ポーズ角度を使用して生成する誤差計算部と
を備えるシステム。
請求項１に記載のシステムであって、
前記被写体は頭部である、システム。
請求項１に記載のシステムであって、
前記関数はｃｏｓ（α（ｘ）−α_k）で表され、このとき、α_kはニューロンの調整後の角度で、α（ｘ）は前記推定ポーズ角度である、システム。
請求項１に記載のシステムであって、
前記曲線適合部は、最小平方誤差曲線適合アルゴリズムを実行する、システム。
請求項１に記載のシステムはさらに、
その視野で画像を捕らえるように構成されるイメージセンサを備える、システム。
請求項５に記載のシステムであって、
前記イメージセンサはビデオカメラである、システム。
請求項５に記載のシステムであって、
前記イメージセンサはデジタルカメラである、システム。
請求項１に記載のシステムであって、
前記入力画像は、生の被写体から得られる、システム。
請求項１に記載のシステムであって、
前記入力画像は写真から得られる、システム。
請求項１に記載のシステムであって、
前記入力画像は印刷イメージから得られる、システム。
請求項１に記載のシステムであって、
前記入力画像は、芸術家による創作物から得られる、システム。
請求項１に記載のシステムであって、
前記第１の複数の訓練画像の少なくとも一部は、前記第２の複数の訓練画像の少なくとも一部と同一である、システム。
請求項１２に記載のシステムであって、
前記第１の複数の訓練画像および前記第２の複数の訓練画像は、前記同一の訓練画像である、システム。
請求項１に記載のシステムであって、
前記ウェイトベクトルの数は、前記第２のニューラルネットワークの出力ノードの数よりも大きい、システム。
請求項１４に記載のシステムであって、
前記ウェイトベクトルの数は、前記第２のニューラルネットワークの出力ノードの数の約２倍である、システム。
請求項１に記載のシステムであって、
前記入力画像は、前記被写体を含む画像の一部をトリミングすることによって生成される、システム。
請求項１に記載のシステムであって、
前記投影部は、前記入力画像を標準の寸法にスケール変更するように構成される、システム。
請求項１７に記載のシステムであって、
前記標準の寸法は、２０画素×２０画素である、システム。
請求項１に記載のシステムであって、
前記少なくとも１つの次元はヨーである、システム。
請求項１に記載のシステムであって、
前記少なくとも１つの次元はピッチである、システム。
請求項１に記載のシステムであって、
前記少なくとも１つの次元はロールである、システム。
請求項１に記載のシステムであって、
前記システムは、ヨー、ピッチ、およびロールのポーズ角度を推定するように構成される、システム。
入力画像の中の被写体のポーズ角度を少なくとも１つの次元で決定するための方法であって、
非監視モードで第１の複数の訓練画像を使用して、第１のニューラルネットワークを訓練し、複数の訓練画像をそれぞれに表す複数のウェイトベクトルを作成する動作と、
前記入力画像を前記第１のニューラルネットワーク上に投影させ、前記入力画像と前記ウェイトベクトルとの間の距離を表す複数の計算距離を含む投影ベクトルを生成する動作と、
監視モードで第２の複数の訓練画像を使用して、第２のニューラルネットワークを訓練する動作であって、前記第２の複数の訓練画像は、既知のポーズ角度を採る被写体を含み、前記第２のニューラルネットワークは、特定のポーズ角度にそれぞれに調整された複数のニューロンを含む、動作と、
前記第２のニューラルネットワークにおいて、各ニューロンの調整後の前記ポーズ角度からの前記被写体のポーズ角度の変化に応じて単調に減少する偶関数にしたがって、前記投影ベクトルを処理し、複数の出力値を生成する動作と、
前記出力値を曲線に適合させ、前記被写体のポーズ角度を少なくとも１つの次元で推定する動作と、
前記出力値と、前記関数のための計算値と、の間の誤差を表すことのできる値を、前記推定ポーズ角度を使用して計算する動作と
を備える方法。
請求項２３に記載の方法であって、
前記被写体は頭部である、方法。
請求項２４に記載の方法であって、
前記頭部は、識別可能な顔を前記画像の中に含む、方法。
請求項２３に記載の方法であって、
前記関数はｃｏｓ（α（ｘ）−α_k）で表され、このとき、α_kはニューロンの調整後の角度で、α（ｘ）は前記推定ポーズ角度である、方法。
請求項２３に記載の方法であって、
前記曲線適合部は、最小平方誤差曲線適合アルゴリズムを実行する、方法。
請求項２３に記載のシステムであって、さらに、
イメージセンサであって、該センサの視野で画像を捕らえるように構成されるイメージセンサを備える、システム。
請求項２８に記載のシステムであって、
前記イメージセンサはビデオカメラである、システム。
請求項２８に記載のシステムであって、
前記イメージセンサはデジタルカメラである、システム。
請求項２３に記載のシステムであって、
前記入力画像は、生の被写体から得られる、システム。
請求項２３に記載のシステムであって、
前記入力画像は写真から得られる、システム。
請求項２３に記載のシステムであって、
前記入力画像は印刷イメージから得られる、システム。
請求項２３に記載のシステムであって、
前記入力画像は、芸術家による創作物から得られる、システム。
請求項２３に記載のシステムであって、
前記第１の複数の訓練画像の少なくとも一部は、前記第２の複数の訓練画像の少なくとも一部と同一である、システム。
請求項３５に記載のシステムであって、
前記第１の複数の訓練画像および前記第２の複数の訓練画像は、前記同一の訓練画像である、システム。
請求項２３に記載のシステムであって、
前記ウェイトベクトルの数は、前記第２のニューラルネットワークの出力ノードの数よりも大きい、システム。
請求項３７に記載のシステムであって、
前記ウェイトベクトルの数は、前記第２のニューラルネットワークの出力ノードの数の約２倍である、システム。
請求項２３に記載のシステムであって、
前記入力画像は、前記被写体を含む画像の一部をトリミングすることによって生成される、システム。
請求項２３に記載のシステムであって、
前記投影部は、前記入力画像を標準の寸法にスケール変更するように構成される、システム。
請求項４０に記載のシステムであって、
前記標準の寸法は、２０画素×２０画素である、システム。
請求項２３に記載のシステムであって、
前記少なくとも１つの次元はヨーである、システム。
請求項２３に記載のシステムであって、
前記少なくとも１つの次元はピッチである、システム。
請求項２３に記載のシステムであって、
前記少なくとも１つの次元はロールである、システム。
請求項２３に記載のシステムであって、
前記システムは、ヨー、ピッチ、およびロールのポーズ角度を推定するように構成される、システム。