JP7404282B2

JP7404282B2 - 顔モデルパラメータ推定装置、顔モデルパラメータ推定方法及び顔モデルパラメータ推定プログラム

Info

Publication number: JP7404282B2
Application number: JP2021019659A
Authority: JP
Inventors: 真一小島; 晋大須賀
Original assignee: Aisin Seiki Co Ltd; Toyota Central R&D Labs Inc; Aisin Corp
Current assignee: Toyota Central R&D Labs Inc; Aisin Corp
Priority date: 2021-02-10
Filing date: 2021-02-10
Publication date: 2023-12-25
Anticipated expiration: 2041-02-10
Also published as: US20220254101A1; CN114913570A; JP2022122433A; DE102022102853A1

Description

本発明は、顔モデルパラメータ推定装置、顔モデルパラメータ推定方法及び顔モデルパラメータ推定プログラムに関する。

従来、人物の顔を撮影して得られた顔画像を用いて３次元顔形状モデルのカメラ座標系におけるモデルパラメータを導出する技術として以下の技術があった。

非特許文献１には、顔画像から検出した特徴点と３次元顔形状モデルの頂点の画像投影点の投影誤差を用いてパラメータの推定を行う技術が開示されている。

また、非特許文献２には、顔画像から検出した特徴点と３次元センサから得られた特徴点の凹凸情報と、３次元顔形状モデルの頂点の画像投影点の投影誤差を用いてパラメータの推定を行う技術が開示されている。

J. M. Saragih, S. Lucey and J. F. Cohn, "Face Alignment through Subspace Constrained Mean-Shifts," International Conference on Computer Vision (ICCV) 2009. T. Baltrusaitis, P. Robinson and L.-P. Morency, "3D Constrained Local Model for Rigid and Non-Rigid Facial Tracking," Conference on Computer Vision and Pattern Recognition (CVPR) 2012.

３次元顔形状モデルのパラメータを推定する際に対象の形状は不明であるので、平均的な形状でパラメータを推定すると、３次元顔形状モデルの位置及び姿勢に関する位置姿勢パラメータには誤差が生じる。さらに、位置姿勢に関するパラメータに誤差が生じている状態では、平均的な形状からの変形に関するパラメータである形状変形パラメータの推定にも誤差が生じる。

本発明は、上記の点に鑑みてなされたものであり、３次元顔形状モデルのパラメータを精度よく推定することができる顔モデルパラメータ推定装置、顔モデルパラメータ推定方法及び顔モデルパラメータ推定プログラムを提供することを目的とする。

請求項１の顔モデルパラメータ推定装置は、人物の顔を撮影して得られた画像の当該顔の器官の特徴点における、各々画像座標系の水平方向の座標値であるｘ座標値及び垂直方向の座標値であるｙ座標値を検出し、かつ、前記画像座標系の奥行き方向の座標値であるｚ座標値を推定することで当該画像座標系の３次元座標値を導出する画像座標系座標値導出部と、前記画像座標系座標値導出部によって導出された前記画像座標系の３次元座標値から、カメラ座標系の３次元座標値を導出するカメラ座標系座標値導出部と、前記カメラ座標系座標値導出部によって導出された前記カメラ座標系の３次元座標値を予め定められた３次元顔形状モデルに適用して、当該３次元顔形状モデルの前記カメラ座標系における位置姿勢パラメータを導出するパラメータ導出部と、前記パラメータ導出部によって導出された前記位置姿勢パラメータと、真のパラメータとの位置姿勢誤差及び形状変形パラメータを共に推定する誤差推定部と、を備える。

請求項２の顔モデルパラメータ推定装置は、請求項１の顔モデルパラメータ推定装置であって、前記位置姿勢パラメータは、３次元顔形状モデルの前記カメラ座標系における並進パラメータ、回転パラメータ、及び拡大縮小パラメータで構成される。

請求項３の顔モデルパラメータ推定装置は、請求項２の顔モデルパラメータ推定装置であって、前記位置姿勢誤差は、導出された前記並進パラメータ、前記回転パラメータ、及び前記拡大縮小パラメータと、それぞれの真のパラメータとの誤差である並進パラメータ誤差、回転パラメータ誤差及び拡大縮小パラメータ誤差で構成される。

請求項４の顔モデルパラメータ推定装置は、請求項１～３のいずれか１項の顔モデルパラメータ推定装置であって、前記３次元顔形状モデルは、平均形状と基底との線形和で構成されている。

請求項５の顔モデルパラメータ推定装置は、請求項４の顔モデルパラメータ推定装置であって、前記基底は、時間変化しない成分である個人差基底と、時間変化する成分である表情基底とが分離されている。

請求項６の顔モデルパラメータ推定装置は、請求項５の顔モデルパラメータ推定装置であって、前記形状変形パラメータは、前記個人差基底のパラメータ、及び前記表情基底のパラメータを含む。

請求項７の顔モデルパラメータ推定方法は、人物の顔を撮影して得られた画像の当該顔の器官の特徴点における、各々画像座標系の水平方向の座標値であるｘ座標値及び垂直方向の座標値であるｙ座標値を検出し、かつ、前記画像座標系の奥行き方向の座標値であるｚ座標値を推定することで当該画像座標系の３次元座標値を導出し、導出された前記画像座標系の３次元座標値から、カメラ座標系の３次元座標値を導出し、導出された前記カメラ座標系の３次元座標値を予め定められた３次元顔形状モデルに適用して、当該３次元顔形状モデルの前記カメラ座標系における位置姿勢パラメータを導出し、導出された前記位置姿勢パラメータと、真のパラメータとの位置姿勢誤差及び形状変形パラメータを共に推定する処理をコンピュータが実行する、顔モデルパラメータ推定方法である。

請求項８の顔モデルパラメータ推定プログラムは、人物の顔を撮影して得られた画像の当該顔の器官の特徴点における、各々画像座標系の水平方向の座標値であるｘ座標値及び垂直方向の座標値であるｙ座標値を検出し、かつ、前記画像座標系の奥行き方向の座標値であるｚ座標値を推定することで当該画像座標系の３次元座標値を導出し、導出された前記画像座標系の３次元座標値から、カメラ座標系の３次元座標値を導出し、導出された前記カメラ座標系の３次元座標値を予め定められた３次元顔形状モデルに適用して、当該３次元顔形状モデルの前記カメラ座標系における位置姿勢パラメータを導出し、導出された前記位置姿勢パラメータと、真のパラメータとの位置姿勢誤差及び形状変形パラメータを共に推定する処理をコンピュータに実行させる、顔モデルパラメータ推定プログラムである。

本開示によれば、位置及び姿勢に関する位置姿勢パラメータと、形状変形パラメータとを一度に推定することで、３次元顔形状モデルのパラメータを精度よく推定することができる顔モデルパラメータ推定装置及び顔モデルパラメータ推定プログラムを提供することができる。

実施形態に係る顔画像処理装置をコンピュータにより実現する構成の一例を示すブロック図である。実施形態に係る顔画像処理装置の電子機器の配置の一例を示すイメージ図である。実施形態に係る顔画像処理装置における座標系の一例を示すイメージ図である。実施形態に係る顔画像処理装置の装置本体を機能的に分類した構成の一例を示すブロック図である。実施形態に係る顔モデルパラメータ推定プログラムによる処理の流れの一例を示すフローチャートである。

以下、本発明の実施形態の一例を、図面を参照しつつ説明する。なお、各図面において同一または等価な構成要素および部分には同一の参照符号を付与している。また、図面の寸法比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。

本実施形態は、人物の頭部を撮影した撮影画像を用いて人物の３次元顔形状モデルのパラメータを推定する場合の一例を説明する。また、本実施形態では、人物の３次元顔形状モデルのパラメータの一例として、移動体としての自動車等の車両の乗員の３次元顔形状モデルのパラメータを、顔モデルパラメータ推定装置により推定する。

図１に、開示の技術の顔モデルパラメータ推定装置として動作する顔モデルパラメータ推定装置１０を、コンピュータにより実現する構成の一例を示す。

図１に示すように、顔モデルパラメータ推定装置１０として動作するコンピュータは、プロセッサとしてのＣＰＵ（Central Processing Unit）１２Ａ、ＲＡＭ（Random Access Memory）１２Ｂ、およびＲＯＭ（Read Only Memory）１２Ｃを備えた装置本体１２を含んで構成されている。ＲＯＭ１２Ｃは、３次元顔形状モデルのパラメータを推定する各種機能を実現するための顔モデルパラメータ推定プログラム１２Ｐを含んでいる。装置本体１２は、入出力インタフェース（以下、Ｉ／Ｏという。）１２Ｄを備えており、ＣＰＵ１２Ａ、ＲＡＭ１２Ｂ、ＲＯＭ１２Ｃ、及びＩ／Ｏ１２Ｄは各々コマンド及びデータを授受可能なようにバス１２Ｅを介して接続されている。また、Ｉ／Ｏ１２Ｄには、キーボード及びマウス等の入力部１２Ｆ、ディスプレイ等の表示部１２Ｇ、及び外部装置と通信するための通信部１２Ｈが接続されている。更に、Ｉ／Ｏ１２Ｄには、乗員の頭部を照明する近赤外ＬＥＤ（Light Emitting Diode）等の照明部１４、乗員の頭部を撮影するカメラ１６、及び乗員の頭部までの距離を計測する距離センサ１８が接続されている。なお、図示は省略したが、各種データを格納可能な不揮発性メモリをＩ／Ｏ１２Ｄに接続することができる。

装置本体１２は、顔モデルパラメータ推定プログラム１２ＰがＲＯＭ１２Ｃから読み出されてＲＡＭ１２Ｂに展開され、ＲＡＭ１２Ｂに展開された顔モデルパラメータ推定プログラム１２ＰがＣＰＵ１２Ａによって実行されることで、顔モデルパラメータ推定装置１０として動作する。なお、顔モデルパラメータ推定プログラム１２Ｐは、３次元顔形状モデルのパラメータを推定する各種機能を実現するためのプロセスを含む。

図２に、顔モデルパラメータ推定装置１０として、車両に搭載された電子機器の配置の一例を示す。

図２に示すように、車両には、顔モデルパラメータ推定装置１０の装置本体１２、乗員ＯＰを照明する照明部１４、乗員ＯＰの頭部を撮影するカメラ１６、及び距離センサ１８が搭載されている。本実施形態の配置例では、ステアリング４を保持するコラム５の上部に照明部１４及びカメラ１６を設置し、下部に距離センサ１８を設置した場合を示している。

図３に、顔モデルパラメータ推定装置１０における座標系の一例を示す。

位置を特定する場合の座標系は、中心とする物品をどのように扱うかによって相違する。例えば、人物の顔を撮影するカメラを中心とした座標系、撮影画像を中心とした座標系、及び人物の顔を中心とした座標系が挙げられる。以下の説明では、カメラを中心とした座標系をカメラ座標系といい、撮影画像を中心とした座標系を画像座標系といい、顔を中心とした座標系を顔モデル座標系という。図３に示す例は、本実施形態に係る顔モデルパラメータ推定装置１０に用いるカメラ座標系、顔モデル座標系、及び画像座標系の関係の一例を示している。

カメラ座標系はカメラ１６から見て右方がＸ方向、下方がＹ方向、前方がＺ方向であり、原点はキャリブレーションにより導出される点である。カメラ座標系は、画像の左上を原点とする画像座標系とｘ軸とｙ軸とｚ軸の方向が一致するように定めてある。

顔モデル座標系は、顔の中で目及び口などの部位の位置を表現したりするための座標系である。例えば、顔画像処理では、目及び口などの顔の特徴的な部位の３次元位置が記述された３次元顔形状モデルと呼ばれるデータを用い、このデータを画像に投影し、目及び口の位置を合わせることで顔の位置及び姿勢を推定する手法が一般的に用いられる。この３次元顔形状モデルに設定されている座標系の一例が顔モデル座標系であり、顔から見て左方がＸｍ方向、下方がＹｍ方向、後方がＺｍ方向である。

なお、カメラ座標系と画像座標系の相互関係は、予め定められており、カメラ座標系と画像座標系の間で、座標変換が可能になっている。また、上述した顔の位置及び姿勢の推定値を用いてカメラ座標系と顔モデル座標系の相互関係を特定可能である。

一方、図１に示すように、ＲＯＭ１２Ｃは、３次元顔形状モデル１２Ｑを含んでいる。本実施形態に係る３次元顔形状モデル１２Ｑは、平均形状と基底の線形和で構成されており、上記基底は個人差基底（時間変化しない成分）と、表情基底（時間変化する成分）とが分離されている。即ち、本実施形態に係る３次元顔形状モデル１２Ｑは、次の（１）式によって表される。

上記数式（１）の各変数の意味は以下の通りである。
ｉ：頂点番号（０～Ｌ－１）
Ｌ：頂点数
ｘ_ｉ：ｉ番目の頂点座標（３次元）
ｘ^ｍ _ｉ：平均形状のｉ番目の頂点座標（３次元）
Ｅ^ｉｄ _ｉ：平均形状のｉ番目の頂点座標に対応する個人差基底ベクトルをＭ^ｉｄ個並べた行列（３×Ｍ^ｉｄ次元）
ｐ^ｉｄ：個人差基底のパラメータベクトル（Ｍ^ｉｄ次元）
Ｅ^ｅｘｐ _ｉ：平均形状のｉ番目の頂点座標に対応する表情基底ベクトルをＭ^ｉｄ個並べた行列（３×Ｍ^ｅｘｐ次元）
ｐ^ｅｘｐ：表情基底のパラメータベクトル（Ｍ^ｅｘｐ次元）

数式（１）の３次元顔形状モデル１２Ｑに、回転、並進及び拡大縮小を施したものが以下の数式（２）である。

上記数式（２）において、ｓは拡大縮小係数（１次元）、Ｒは回転行列（３×３次元）、ｔは並進ベクトル（３次元）である。回転行列Ｒは、例えば、以下の数式（３）で示されるような回転パラメータで表現される。

数式（３）において、ψ、θ、φは、それぞれカメラ中心座標系における、Ｘ軸、Ｙ軸、Ｚ軸回りの回転角度である。

図４に、本実施形態に係る顔モデルパラメータ推定装置１０の装置本体１２を機能的構成に分類したブロック構成の一例を示す。

図４に示すように、顔モデルパラメータ推定装置１０は、カメラ等の撮影部１０１、画像座標系座標値導出部１０２、カメラ座標系座標値導出部１０３、パラメータ導出部１０４、誤差推定部１０５、及び出力部１０６の各機能部を含む。

撮影部１０１は、人物の顔を撮影して撮影画像を取得し、取得した撮影画像を画像座標系座標値導出部１０２へ出力する機能部である。本実施形態では、撮影部１０１の一例として撮影装置の一例であるカメラ１６を用いている。カメラ１６は、車両の乗員ＯＰの頭部を撮影し、撮影画像を出力する。本実施形態では、カメラ１６が撮影した画像と、距離センサ１８により出力される距離情報とを組み合わせた、テクスチャ付き３Ｄデータが撮影部１０１から出力される。なお、本実施形態では、カメラ１６としてモノクロ画像を撮影するカメラを適用しているが、これに限るものではなく、カメラ１６としてカラー画像を撮影するカメラを適用する形態としてもよい。

画像座標系座標値導出部１０２は、上記撮影画像の上記人物の顔の器官の特徴点における、各々画像座標系の水平方向の座標値であるｘ座標値及び垂直方向の座標値であるｙ座標値を検出する。画像座標系座標値導出部１０２は、撮影画像から特徴点を抽出する技術として任意の技術を用いることができる。例えば、画像座標系座標値導出部１０２は、「Vahid Kazemi and Josephine Sullivan, “One Millisecond Face Alignment with an Ensemble of Regression Trees”」に記載の技術によって、撮影画像から特徴点を抽出する。

また、画像座標系座標値導出部１０２は、画像座標系の奥行き方向の座標値であるｚ座標値を推定する。画像座標系座標値導出部１０２は、以上のｘ座標値及びｙ座標値の検出と、ｚ座標値の推定とにより画像座標系の３次元座標値を導出する。なお、本実施形態に係る画像座標系座標値導出部１０２では、ｘ座標値及びｙ座標値の検出と並行して、深層学習を用いてｚ座標値を推定することにより導出する。

カメラ座標系座標値導出部１０３は、画像座標系座標値導出部１０２によって導出された画像座標系の３次元座標値から、カメラ座標系の３次元座標値を導出する。

パラメータ導出部１０４は、カメラ座標系座標値導出部１０３によって導出されたカメラ座標系の３次元座標値を３次元顔形状モデル１２Ｑに適用して、３次元顔形状モデル１２Ｑのカメラ座標系における位置姿勢パラメータを導出する。例えば、パラメータ導出部１０４は、位置姿勢パラメータとして、並進パラメータ、回転パラメータ、及び拡大縮小パラメータを導出する。

誤差推定部１０５は、パラメータ導出部１０４が導出した位置姿勢パラメータと、真のパラメータとの誤差である位置姿勢誤差、及び形状変形パラメータを一度に推定する。具体的には、誤差推定部１０５は、パラメータ導出部１０４が導出した並進パラメータ、回転パラメータ、及び拡大縮小パラメータと、真のパラメータとの並進パラメータ誤差、回転パラメータ誤差及び拡大縮小パラメータ誤差、並びに形状変形パラメータを共に推定する。形状変形パラメータは、個人差基底のパラメータベクトルｐ^ｉｄ及び表情基底のパラメータベクトルｐ^ｅｘｐを含む。

出力部１０６は、パラメータ導出部１０４で導出された人物の３次元顔形状モデル１２Ｑのカメラ座標系における位置姿勢パラメータ及び形状変形パラメータを示す情報を出力する。また、出力部１０６は、誤差推定部１０５が推定した位置姿勢誤差を示す情報を出力する。

次に、３次元顔形状モデル１２Ｑのパラメータを推定する顔モデルパラメータ推定装置１０の動作を説明する。本実施形態では、顔モデルパラメータ推定装置１０は、コンピュータの装置本体１２によって動作される。

図５には、コンピュータにより実現した顔モデルパラメータ推定装置１０における顔モデルパラメータ推定プログラム１２Ｐによる処理の流れの一例が示されている。装置本体１２では、顔モデルパラメータ推定プログラム１２ＰがＲＯＭ１２Ｃから読み出されてＲＡＭ１２Ｂに展開され、ＲＡＭ１２Ｂに展開された顔モデルパラメータ推定プログラム１２ＰをＣＰＵ１２Ａが実行する。

まず、ＣＰＵ１２Ａは、カメラ１６により撮影された撮影画像の取得処理を実行する（ステップＳ１０１）。ステップＳ１０１の処理は、図４に示す撮影部１０１から出力される撮影画像を取得する動作の一例である。

ステップＳ１０１に続いて、ＣＰＵ１２Ａは、取得した撮影画像から顔の複数の器官の特徴点を検出する（ステップＳ１０２）。なお、本実施形態では、複数の器官として、目及び口の２つの器官を適用しているが、これに限るものではない。これらの器官に加えて、鼻、耳等の他の器官を含めて、以上の器官の複数の組み合わせを適用する形態としてもよい。本実施形態では、「Vahid Kazemi and Josephine Sullivan, “One Millisecond Face Alignment with an Ensemble of Regression Trees”」に記載の技術によって、撮影画像から特徴点を抽出する。

ステップＳ１０２に続いて、ＣＰＵ１２Ａは、検出した各器官の特徴点の画像座標系におけるｘ座標値及びｙ座標値を検出し、かつ当該画像座標系におけるｚ座標値を推定することで、各器官の特徴点の画像座標系における３次元座標値を導出する（ステップＳ１０３）。本実施形態では、上記画像座標系における３次元座標値の導出を、「Y. Sun, X. Wang and X. Tang, “Deep Convolutional Network Cascade for Facial Point Detection,” Conference on Computer Vision and Pattern Recognition(CVPR) 2013.」に記載の技術を利用して行っている。この技術では、深層学習により各特徴点のｘ座標値及びｙ座標値を検出しているが、ｚ座標値を学習データに加えることで、ｚ座標値の推定も可能となる。なお、この画像座標系の３次元座標値を導出する技術も広く一般に実施されている技術であるため、これ以上の、ここでの説明は省略する。

ステップＳ１０３に続いて、ＣＰＵ１２Ａは、ステップＳ１０３の処理で求めた画像座標系における３次元座標値からカメラ座標系の３次元座標値を導出する（ステップＳ１０４）。本実施形態では、上記カメラ座標系の３次元座標値を次の数式（４）～（６）を用いた演算により導出している。

上記数式（４）～（６）の各変数の意味は以下の通りである。
ｋ：観測点番号（０～Ｎ－１）
Ｎ：観測点の総数
Ｘ^ｏ _ｋ，Ｙ^ｏ _ｋ，Ｚ^ｏ _ｋ：カメラ座標系における観測点のｘｙｚ座標
ｘ_ｋ，ｙ_ｋ，ｚ_ｋ：画像座標系における観測点のｘｙｚ座標
ｘ_ｃ，ｙ_ｃ：画像中心
ｆ：ピクセル単位の焦点距離
ｄ：顔までの仮の距離

ステップＳ１０４に続いて、ＣＰＵ１２Ａは、ステップＳ１０４の処理で求めたカメラ座標系の３次元座標値を３次元顔形状モデル１２Ｑに適用する。そして、ＣＰＵ１２Ａは、３次元顔形状モデル１２Ｑの並進パラメータ、回転パラメータ、及び拡大縮小パラメータを導出する（ステップＳ１０５）。

本実施形態では、並進パラメータである並進ベクトルｔ、回転パラメータである回転行列Ｒ、及び拡大縮小パラメータである拡大縮小係数ｓの導出には、以下の数式（７）で示される評価関数ｇが用いられる。

上記数式（７）において、

は、ｋ番目の観測点に対応する、顔形状モデルの頂点番号である。また、

は、ｋ番目の観測点に対応する、顔形状モデルの頂点座標である。

数式（７）のｓ、Ｒ、ｔは、ｐ^ｉｄ＝ｐ^ｅｘｐ＝０として、「S. Umeyama, “Least-squares estimation of transformation parameters between two point patterns”, IEEE Trans. PAMI, vol.13, no.4, April 1991.」で開示されているアルゴリズム（以下「Umeyamaのアルゴリズム」と称する）で求めることができる。

拡大縮小係数ｓ、回転行列Ｒ、及び並進ベクトルｔが求まると、個人差基底のパラメータベクトルｐ^ｉｄ及び表情基底のパラメータベクトルｐ^ｅｘｐは、以下の数式（８）の連立方程式の最小二乗解として求まる。

数式（８）の最小二乗解は、以下の数式（９）となる。数式（９）において、Ｔは転置を表す。

拡大縮小係数ｓ、回転行列Ｒ、及び並進ベクトルｔを求める時点では、対象の形状は不明であるため、ｐ^ｉｄ＝ｐ^ｅｘｐ＝０として、平均形状でｓ、Ｒ、ｔを求めると、推定されるｓ、Ｒ、ｔはいずれも誤差を含んでいる。上記数式（８）でｐ^ｉｄ及びｐ^ｅｘｐを求める際には、誤差を含んだｓ、Ｒ、ｔを用いて連立方程式を解いているので、ｐ^ｉｄ及びｐ^ｅｘｐも誤差を含んでいる。ｓ、Ｒ、ｔの推定とｐ^ｉｄ及びｐ^ｅｘｐの推定とを交互に行うと、各パラメータの値が正しい値に収束するとは限らず、場合によっては発散してしまう。

そこで、本実施形態に係る顔モデルパラメータ推定装置１０は、拡大縮小係数ｓ、回転行列Ｒ、及び並進ベクトルｔを推定した後で、拡大縮小パラメータ誤差ｐ^ｓ、回転パラメータ誤差ｐ^ｒ、並進パラメータ誤差ｐ^ｔ、個人差基底のパラメータベクトルｐ^ｉｄ及び表情基底のパラメータベクトルｐ^ｅｘｐの推定を一度に行う。

ステップＳ１０５に続いて、ＣＰＵ１２Ａは、形状変形パラメータ、並進パラメータ誤差、回転パラメータ誤差、及び拡大縮小パラメータ誤差を一度に推定する（ステップＳ１０６）。上述したように、形状変形パラメータは、個人差基底のパラメータベクトルｐ^ｉｄ及び表情基底のパラメータベクトルｐ^ｅｘｐを含む。具体的には、ＣＰＵ１２Ａは、ステップＳ１０６において以下の数式（１０）の計算を行う。

上記数式（１０）において、

は、それぞれ、平均形状のｉ番目の頂点座標に対応する回転パラメータ誤差、並進パラメータ誤差、拡大縮小パラメータ誤差を計算するための基底ベクトルを３個並べた行列（３×３次元）である。また、ｐ^ｒ，ｐ^ｔ，ｐ^ｓは、それぞれ、回転パラメータ誤差、並進パラメータ誤差、拡大縮小パラメータ誤差のパラメータベクトルである。回転パラメータ誤差及び並進パラメータ誤差のパラメータベクトルは３次元であり、拡大縮小パラメータ誤差のパラメータベクトルは１次元である。

回転パラメータ誤差の基底ベクトルを３個並べた行列の構成を説明する。各頂点で以下の数式（１１）を計算することで行列が構成される。

数式（１１）において、Δψ，Δθ，Δφは、α＝１／１０００～１／１００［ｒａｄ］程度の微小角度とする。数式（１０）を解いた後、ｐ^ｒをα^－１倍したものが回転パラメータ誤差となる。

次に並進パラメータ誤差の基底ベクトルを３個並べた行列の構成を説明する。当該行列は、全ての頂点で以下の数式（１２）を用いる。

次に拡大縮小パラメータ誤差の基底ベクトルを３個並べた行列の構成を説明する。当該行列は、全ての頂点で以下の数式（１３）を用いる。

数式（１０）の最小二乗解は、以下の数式（１４）となる。Ｅ^ＴのＴは転置を表す。

数式（１４）のｐ^ｉｄ及びｐ^ｅｘｐが、求める対象となる、正確な個人差パラメータ及び表情パラメータとなる。また、正確な並進パラメータ、回転パラメータ、及び拡大縮小パラメータは以下の数式（１５）の通りとなる。

まず回転パラメータについて説明する。回転パラメータは、まずUmeyamaのアルゴリズムを用いて回転行列Ｒを求めた後、数式（３）と照らし合わせることで、ψ、θ及びφを求めることができる。このように求めたψ、θ及びφの暫定値を、それぞれψ_ｔｍｐ、θ_ｔｍｐ及びφ_ｔｍｐとする。数式（１４）で求めたｐ_ｒを

とした場合、正確な回転パラメータψ、θ及びφは以下の数式（１５）の通りとなる。

次に並進パラメータについて説明する。Umeyamaのアルゴリズムで求めた並進パラメータの暫定値をｔ_{ｘ＿ｔｍｐ}、ｔ_{ｙ＿ｔｍｐ}及びｔ_{ｚ＿ｔｍｐ}とする。数式（１４）で求めたｐ_ｔを

とした場合、正確な並進パラメータｔ_ｘ、ｔ_ｙ及びｔ_ｚは以下の数式（１６）の通りとなる。

次に拡大縮小パラメータについて説明する。Umeyamaのアルゴリズムで求めた並進パラメータの暫定値をｓ_ｔｍｐとする。数式（１４）で求めたｐ_ｓを

とすると、正確な拡大縮小パラメータｓは以下の数式（１７）の通りとなる。

ステップＳ１０６に続いて、ＣＰＵ１２Ａは、推定結果を出力する（ステップＳ１０７）。ステップＳ１０７の処理によって出力された各種パラメータの推定値は、車両の乗員の位置姿勢の推定、顔画像トラッキング等に用いられる。

以上説明したように、本実施形態の顔パラメータ推定装置によれば、人物の顔を撮影して得られた画像の当該顔の器官の特徴点における、各々画像座標系の水平方向の座標値であるｘ座標値及び垂直方向の座標値であるｙ座標値を検出し、かつ、前記画像座標系の奥行き方向の座標値であるｚ座標値を推定することで当該画像座標系の３次元座標値を導出し、導出した前記画像座標系の３次元座標値から、カメラ座標系の３次元座標値を導出する。そして、本実施形態の顔パラメータ推定装置によれば、導出した前記カメラ座標系の３次元座標値を予め定められた３次元顔形状モデルに適用して、当該３次元顔形状モデルの前記カメラ座標系における位置姿勢パラメータを導出し、形状変形パラメータ及び位置姿勢誤差を一度に推定する。本実施形態の顔パラメータ推定装置は、形状変形パラメータ及び位置姿勢誤差を一度に推定することで、３次元顔形状モデルの個人差パラメータ及び表情パラメータが精度よく推定できるとともに、位置姿勢パラメータをより正確に推定できる。

なお、上記各実施形態でＣＰＵがソフトウェア（プログラム）を読み込んで実行した顔パラメータ推定処理を、ＣＰＵ以外の各種のプロセッサが実行してもよい。この場合のプロセッサとしては、ＦＰＧＡ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）等の製造後に回路構成を変更可能なＰＬＤ（ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）、及びＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が例示される。また、顔パラメータ推定処理を、これらの各種のプロセッサのうちの１つで実行してもよいし、同種又は異種の２つ以上のプロセッサの組み合わせ（例えば、複数のＦＰＧＡ、及びＣＰＵとＦＰＧＡとの組み合わせ等）で実行してもよい。また、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子等の回路素子を組み合わせた電気回路である。

また、上記各実施形態では、顔パラメータ推定処理のプログラムがＲＯＭに予め記憶（インストール）されている態様を説明したが、これに限定されない。プログラムは、ＣＤ－ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｋＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＤＶＤ－ＲＯＭ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、及びＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）メモリ等の非一時的（ｎｏｎ－ｔｒａｎｓｉｔｏｒｙ）記録媒体に記録された形態で提供されてもよい。また、プログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。

１０顔画像処理装置
１２装置本体
１２ＡＣＰＵ
１２ＢＲＡＭ
１２ＣＲＯＭ
１２ＤＩ／Ｏ
１２Ｆ入力部
１２Ｇ表示部
１２Ｈ通信部
１２Ｐ顔モデルパラメータ推定プログラム
１２Ｑ３次元顔形状モデル
１４照明部
１６カメラ
１８距離センサ
１０１撮影部
１０２画像座標系座標値導出部
１０３カメラ座標系座標値導出部
１０４パラメータ導出部
１０５誤差推定部
１０６出力部

Claims

人物の顔を撮影して得られた画像の当該顔の器官の特徴点における、各々画像座標系の水平方向の座標値であるｘ座標値及び垂直方向の座標値であるｙ座標値を検出し、かつ、前記画像座標系の奥行き方向の座標値であるｚ座標値を推定することで当該画像座標系の３次元座標値を導出する画像座標系座標値導出部と、
前記画像座標系座標値導出部によって導出された前記画像座標系の３次元座標値から、カメラ座標系の３次元座標値を導出するカメラ座標系座標値導出部と、
前記カメラ座標系座標値導出部によって導出された前記カメラ座標系の３次元座標値を予め定められた３次元顔形状モデルに適用して、当該３次元顔形状モデルの前記カメラ座標系における位置姿勢パラメータを導出するパラメータ導出部と、
前記パラメータ導出部によって導出された前記位置姿勢パラメータと、真のパラメータとの位置姿勢誤差及び形状変形パラメータを共に推定する誤差推定部と、
を備える、顔モデルパラメータ推定装置。
前記位置姿勢パラメータは、３次元顔形状モデルの前記カメラ座標系における並進パラメータ、回転パラメータ、及び拡大縮小パラメータで構成される、請求項１に記載の顔モデルパラメータ推定装置。
前記位置姿勢誤差は、導出された前記並進パラメータ、前記回転パラメータ、及び前記拡大縮小パラメータと、それぞれの真のパラメータとの誤差である並進パラメータ誤差、回転パラメータ誤差及び拡大縮小パラメータ誤差で構成される、請求項２に記載の顔モデルパラメータ推定装置。
前記３次元顔形状モデルは、平均形状と基底との線形和で構成されている、請求項１～３のいずれか１項に記載の顔モデルパラメータ推定装置。
前記基底は、時間変化しない成分である個人差基底と、時間変化する成分である表情基底とが分離されている、請求項４に記載の顔モデルパラメータ推定装置。
前記形状変形パラメータは、前記個人差基底のパラメータ、及び前記表情基底のパラメータを含む、請求項５に記載の顔モデルパラメータ推定装置。
人物の顔を撮影して得られた画像の当該顔の器官の特徴点における、各々画像座標系の水平方向の座標値であるｘ座標値及び垂直方向の座標値であるｙ座標値を検出し、かつ、前記画像座標系の奥行き方向の座標値であるｚ座標値を推定することで当該画像座標系の３次元座標値を導出し、
導出された前記画像座標系の３次元座標値から、カメラ座標系の３次元座標値を導出し、
導出された前記カメラ座標系の３次元座標値を予め定められた３次元顔形状モデルに適用して、当該３次元顔形状モデルの前記カメラ座標系における位置姿勢パラメータを導出し、
導出された前記位置姿勢パラメータと、真のパラメータとの位置姿勢誤差及び形状変形パラメータを共に推定する
処理をコンピュータが実行する、顔モデルパラメータ推定方法。
人物の顔を撮影して得られた画像の当該顔の器官の特徴点における、各々画像座標系の水平方向の座標値であるｘ座標値及び垂直方向の座標値であるｙ座標値を検出し、かつ、前記画像座標系の奥行き方向の座標値であるｚ座標値を推定することで当該画像座標系の３次元座標値を導出し、
導出された前記画像座標系の３次元座標値から、カメラ座標系の３次元座標値を導出し、
導出された前記カメラ座標系の３次元座標値を予め定められた３次元顔形状モデルに適用して、当該３次元顔形状モデルの前記カメラ座標系における位置姿勢パラメータを導出し、
導出された前記位置姿勢パラメータと、真のパラメータとの位置姿勢誤差及び形状変形パラメータを共に推定する
処理をコンピュータに実行させる、顔モデルパラメータ推定プログラム。